阳光保险集团数据查询分析系统——海量数据高效查询分析
项目背景
在保险行业中,随着数据的日积月累,业务数据量已经超过了亿条的规模,这些宝贵的数据如果应用于分析决策,将会带来显著的附加值。在大数据形势下,作为国有七大保险集团之一的阳光保险集团,正积极利用新理念和新技术挖掘数据的价值,实现正确及时的分析决策,不断提升其竞争力。
阳光保险集团原有的分析系统中使用传统数据库,其性能已无法满足海量数据查询分析和挖掘的需求,亟需引入新的技术架构支撑集团对海量保险业务数据的复杂分析和深度挖掘。
需求分析
阳光保险集团的大数据分析主要面临如下两个方面的问题:
数据增长快速:集团目前拥有客户4000万,业务涉及产险、财险、寿险、车险、集团电销、公司险等多项业务,数据总量大,数据增长迅速,大量历史数据需要保存;
查询复杂度高,现有系统响应慢:现有系统采用自定义函数、自定义存储过程等方式实现数据查询,查询复杂度高,系统响应不及时,无法满足大数据量下的数据挖掘需求。
当前系统需要采用新型分析类架构,实现对各业务海量数据的统一存储和管理,并能够进行高效的查询统计和深度挖掘,有效地提高集团的分析和决策能力,实现经营管理优化,提升核心竞争力。
解决方案
为了满足阳光保险集团对海量数据的查询分析和数据挖掘需求,采用GBase 8a MPP Cluster大规模分布式并行数据库集群系统构建数据平台。GBase 8a MPP Cluster数据库负责海量数据的加载,基础数据整合和共性加工,构建各主题的数据挖掘集市,完美支撑集团的分析应用和决策需求。
方案采用2x2节点和1台加载机,目前的数量为15TB,每天的增量数据是15GB,共4931张表,最大表3亿多行。GBase 8a MPP Cluster数据库以列存储、高压缩为核心,管理及对接客户多种业务系统平台。
项目采用批量生成ETL脚本工具,融合客户多种业务应用系统平台信息数据,大大提高了开发效率,保证数据的处理效率,为客户深层次业务分析提供了强有力的支撑,满足了用户保险业务系统信息整合及高速统计。
平台上线后,满足了集团多个高层次的应用:
通过历史保单信息、客户信息、交易信息、财务信息等数据分析,提升新业务的拓展效率;
通过险种、交费年期、被保人职业、被保人年收入、被保人年龄段等信息,优选投保种类;
通过大数据组合及挖掘,深层次地分析险种受众群体。
价值体现
高速加载、海量存储:实现加载亿行大表数据,同时提供高压缩比入库从而提升性能,海量存储能力,整合多业务部门数据,并可根据需求在线动态扩展;
即席查询、秒级响应:在海量数据下,实现高速即席查询、区间范围查询,为分析系统提供稳定支撑;
高效分析、精细运营:大幅提升保险行业中涉及到的大表关联、多表关联查询的运算分析性能,复杂统计分析秒级响应,帮助客户实现精准营销、精细化运营。