中科大脑知识图谱平台建设及业务实践
“为了支持城市复杂场景下各类需求,中科大脑知识图谱团队设计开发了一套包含本体可视化设计、数据映射、数据抽取、数据写入、图数据探索的一体化平台,而本文则详细介绍了他们的业务背景、技术选型、平台建设等内容。”
01 背景介绍
中科大脑作为一家城市级的数字资产运营商,一方面要对各种类型的数据进行高效存储,另一方面面临如何将各类数据充分利用的问题,传统 NoSQL、SQL 不能完全满足数据的存储和利用,以图数据库为基础的知识图谱一定程度上可以解决这些问题,知识图谱组件(KBU)是脑库城市大脑产品的核心部件。
中科大脑内部对知识图谱的需求,总体来说有以下 3 方面:
- 政务知识图谱,将政策法规、证件材料、事项流程、组织架构等信息纳入知识图谱。目前建设了面向公安户政、电子政务领域事项办理知识图谱,针对不同的职能部门建设有不同的知识图谱,提升了服务效率和质量。
- 资产设备管理图谱,对城市中大量公共设施、不动产、物联网设备等建立知识图谱,形成联动管理与运维。
- 事理知识图谱,对城市重大事件、突发事件、集中投诉事件等建立事理图谱,包括事件的时间、地点、主体及热度等,发现事件间的关联关系和演化规律,提供决策支持。 实践中,不同板块的知识图谱间并非完全孤立,而是根据应用需求进行融合,充分发挥图谱的关系链接特性,将城市本体要素打通,实现联动,解决数据的关联存储和挖掘。
02 图数据库选型
在数据高度结构化、一致性强场景下,一般选择使用传统的关系型数据库;在数据具有庞大潜在关联场景下,图数据存储及基于此的知识图谱技术将会是合理的选择。 调研中发现,与关系数据库或其他 NoSQL 数据库相比,图数据库的数据模型也更加简单,更具表现力。图数据库在社交网络、金融风控、个性化推荐、网络安全等领域应用广泛。 我们在图数据库选型方面主要考虑点: 1)功能齐全、性能强大;2)项目开源,支持灵活的二次开发;3)安全可靠,国产优先;
中科大脑早起进行了一些性能和功能对比,也参考美团、腾讯相关测评,从测试结果看 Nebula Graph 在数据导入、实时写入及多跳查询方面性能均优于竞品。此外,Nebula Graph 社区活跃,对相关 issue 的响应速度快,所以团队最终选择了基于 Nebula Graph 作为图数据库平台基础。
03 知识图谱构建平台
知识图谱构建包括业务规则制定、本体构建、知识抽取、知识融合、数据存储等流程,往往需要业务专家、工程、算法、项目管理等人员参与配合。有机整合以上环节和分工,将大大减少知识图谱落地速度,目前尚未有开源产品满足此需求。为了支持城市复杂场景下各类需求,我们设计开发了一套包含本体可视化设计、数据映射、数据抽取(结构化、非结构化)、数据写入、图数据探索的一体化平台,平台结构如图。
- 项目管理
- 本体设计
- 数据抽取
- 图探索
结构化数据导入和非结构数据化抽取结果将被写入到 Nebula Graph 数据库,图探索可以方便地实现对写入知识的查询显示,同时可以通过知识搜索框直接对点和边信息进行搜索。构建者更加简单地实现了知识检索、探索和聚合。产品功能要点:
- 知识展现,为了能对图谱有直观查阅,在图谱探索阶段,加入了自动展示子图功能,类似 Neo4j中
MATCH (n) RETURN n LIMIT 25)
,主要是通过简单算法发现图谱中心点,再由度数来控制从中心点出发的子图大小,同时防止了展示爆炸。 - 知识搜索,支持点和边进行模糊匹配,更好地实现知识发现和推荐;
- 知识计算,内置轻量级图算法,可以对节点出入度、中心度、族群、相似节点类等进行计算。
为了满足自身产品应用,我们基于 Nebula Graph、Elasticsearch、NetworkX 等底层接口,开发了一系列 API 应用接口,未来我们 API 接口实现也将积极参与到开源中。
04 业务落地
- 智能问答
- 知识指导与决策
- 知识流程推荐
05 合作 & 未来
目前公司脑库与图数据库 Nebula Graph 完成了互操作性测试认证,技术人员积极参与开源社区项目,通过了知识图谱专家级认证(NGCP)。未来我们持续支持国产数据库,为社区积极贡献代码。
平台方面在构建阶段,将内置图嵌入、图学习、GNN 等图算法、优化大规模图算法性能,实现构建与应用一体化平台,为数字资产的深层次挖掘和智能化应用赋能。
以上为中科大脑知识图谱开发小组带来的知识图谱平台建设和业务实践方面的分享。