星环合作中国银行:信用风险监控领域的大数据应用
随着宏观经济下行,商业银行信用风险不断累积并加快暴露, 传统的信用风险监控措施及管理流程较为单一、滞后与被动,难以适应日益复杂的外部经济形势和内部管理要求。为改变信用风险管理的现状,中国银行上海分行自2014年起着手建设信用风险预警监控管理系统,汇总整合内外部数据,通过编制专业化预警规则,利用科技手段全面、高效、主动地识别风险。系统投产后随着历史数据的累积、外部数据的拓展、预警规则的丰富,传统数据分析技术手段的局限性逐渐显现,采用分布式大数据技术势在必行,是解决上述问题瓶颈的有效策略。
传统信息处理技术应用于信用风险监控领域的局限性
1、数据管理成本高、可扩展性差
系统最初采用关系型数据库解决数据管理问题,硬件配置为小型机及SAN存储,由于应用场景需要长期历史数据的累积,导致硬件开销增加、数据处理效率下降,高成本的硬件追加投入和简单的数据库调优无法彻底解决日益增长的数据规模和传统信息处理模式带来的性能瓶颈。
2、半结构化、非结构化数据支持度低
为获取外部负面信息,系统在隔离区的PC服务器上部署外部信息采集服务,运用网络爬虫技术,将互联网的非结构化信息进行结构化转换后,写入关系型数据库进一步分析加工。这种信息处理模式在实际运行中产生了大量基于数据库的I/O请求,快速消耗系统资源,使服务器长期处于满负荷运作状态,仍无法适配互联网的更新频率和时效。
3、数据检索效率受限
系统需实现基于大数据量、组合条件的在线检索,在关系型数据库中只能通过分表、分区等解决方案,以牺牲一定的使用便利性、增加维护成本为代价,但查询响应效率仍无法满足日益增长的需求。
引入大数据技术的信用风险预警系统技术框架
鉴于上述局限性,中国银行上海分行对原有预警系统的技术平台进行了重新规划,从单一依靠关系型数据库的模式,转型为分布式大数据技术与集中式关系型数据库技术相结合的模式。引入大数据平台后的预警系统架构如图1所示。
1、银行外网区
在外网中可以访问的外部数据来源,根据数据获取方式的不同,分为:(1)网络舆情:采用定向爬虫,通过互联网连接各大网站进行页面抓取;(2)其他数据:通过其他非自动渠道获取的外部结构化数据。
2、DMZ区
指架设在银行非安全系统和安全系统之间的缓冲区,外部数据采集模块部署在该区域,运用网络爬虫技术,定时向外网的指定网页实施定向爬取,解析后暂存至DMZ区服务器。采集服务器之间可做集群或负载均衡。