关系型数据库,自上世纪70年代,由IBM的研究员埃德加·科德博士(Edgar F.Codd)提出后,经历几十年发展,成为当下企业业务数据的主要存储方式,市场份额已经被Oracle、Microsoft等传统大厂所霸占。而近些年随着互联网的发展,数据爆发式增长,非关系型数据库逐步兴起,用于存储和处理不同数据结构以获得更低延时和高并发,这些非关系型数据库包括了Key-Value数据库、列存储数据库、文档型数据库和图数据库。
36Kr近日接触到一家主攻图数据库技术的公司创邻科技,成立于2016年8月,其核心技术包括底层的图数据库,具有海量信息叠加和实时数据读写能力,提供银行级别的事务一致性支持。创邻科技在图数据库基础上还构建了一套认知计算平台“创邻天机”,实现图存储、查询运算、数据挖掘的能力,提供基于关系的算法和分析工具。
那为什么要做图数据库呢?在传统的关系型数据库是基于表结构和结构化查询的方式处理数据,用表格记录二维数据信息,但在数据维度增加或关联复杂的场景下,传统的关系型数据库所需的计算资源难以优化,且耗时过高,甚至无法得到结果。因此,侧重于数据复杂关联性的图数据库应运而生。
图数据库是由大量节点和边构成,能够对点和边添加属性信息,实现对数据的结构化表达。例如在社交网络中,用户作为节点,而好友关系和访问记录均可以作为边,在节点的属性中记录用户自身的数据信息,而边可以包含时间、关系等,在图数据库中可以快速完成多度关系的查找,相比关系型数据库获得上千倍甚至更高的效率提升。
创邻科技创始人及CEO张晨博士告诉36Kr,在15年底回国的时候,发现国内搜索引擎还无法检索到图数据库,而近年来兴起的知识图谱(Knowledge Graph),其本身更强调的是知识内容,可以用于搜索的优化,而知识图谱也是图数据库的一种应用场景。到今天,国内的图数据库应用还在起步和验证阶段,应用场景包括反欺诈、问答系统、基于地理的资源调度等。
其中,在金融场景,图数据库对团伙作案和黑产的识别能够起到重要作用,目前创邻科技正在和多家银行进行POC测试,来验证图数据库在这方面带来的提升。在一个已部署的线上实时信审系统中,创邻天机计算平台能够在数百高并发读写条件下,亚秒级完成基于20多亿节点和边的大型用户图谱的数十项深度图特征变量及数百机器学习变量的运算,轻松实现实时审批。
简单来讲,创邻科技能够为企业客户实现,从海量数据中抽取人、事、物、地点、机构、账户等多重信息,构建出关联关系图谱,利用多台机器分布式高效的完成庞大数据的图挖掘运算。分析人员无需学习编程,通过可视化界面,可以简易部署算法、构架模型,并实时计算展示处理结果,挖掘潜藏的数据关联、监控数据异常。这套认知计算平台实现让图分析变简单,使得专业人员更集中精力在其专业的业务逻辑上。
张晨博士介绍,创邻科技的图数据库,具备无限横向扩展能力,可以承载千亿节点的超级大图,同时实现了分布式集群条件下的事务处理,实现了强数据一致性的保证,其数据关联查询性能较目前国际同类技术服务商快数十倍,较传统关系型数据库技术则快数千倍。为了实现让数据科学变简单,创邻科技在图数据库可视化展示方面也申请了自己的专利。
目前创邻科技提供的服务模式,包括私有云部署和后台调用次数计费,在推广方面整合了百度云的渠道资源,但一个企业客户的交付周期可能会长达数月,未来落地则需要在不同场景做更多验证和标准化。
张晨博士告诉36Kr,信息技术的发展会推动未来复杂的信息网络紧密关联,其中就包括人、地址、电话、智能音音箱、汽车都是信息网络的参与者,长远来看图数据库能够聚合信息,形成规模效应,帮助所有参与者实现有效信息的价值挖掘,而这种信息网络天生就是复杂的图结构。
创邻科技CEO张晨,加拿大滑铁卢大学计算机科学博士、麦吉尔大学博士后, 本科毕业于浙大竺可桢学院,从2004年开始分布式并行系统的研究,曾在美国运通作为数据科学家研究金融风控领域,其创始团队也来自浙大及海外名校。创邻科技非常重视自主知识产权的底层核心技术,而这需要集中稀缺人才,形成技术积累,包括分布式系统、数据库、复杂网络算法及其应用场景的理解等。
创邻科技,是“中国留学人员回国创业启动支持计划”2017年全国五个重点项目之一,于2018年7月拿到BV百度风投的千万级天使轮投资,计划今年启动新一轮的融资。
(感谢36Kr作者郑铟对此文的贡献)
————
我是持衡,36氪超人学院学员,关注科技、机器人,相信软件定义世界的价值,项目交流请加微信xc__bb(PS:两个下划线),注明姓名/公司/来意。