知识图谱让知识比数据更重要,得知识者得天下
作者:赵满满
编辑:益韩
编审:杨小天
头图来源:freepic
近年来,人工智能相关技术持续演进,与云计算、大数据、物联网、5G等技术不断融合,成为引领未来的新兴战略性技术,是驱动新一轮科技革命和产业变革的重要力量。
在新科技革命和产业变革的大背景下,人工智能产业化和商业化进程不断提速,正在加快与千行百业深度融合,正在促进新兴产业之间、新兴产业与传统产业之间以及技术与社会的跨界融合发展。
中国软件网、海比研究院认为,人工智能与产业深度融合,将成为企业释放数字化叠加倍增效应、加快战略新兴产业发展、构筑综合竞争优势的必然选择,全面梳理人工智能技术、应用的发展态势,对推动人工智能持续健康发展至关重要。
为此,中国软件网、海比研究院特别推出了“人工智能行业洞察”系列报道,通过对人工智能技术、应用、企业等深度报道,助力企业数字化、智能化。
目前,中国软件网、海比研究院已经推出的AI报道包括:
·数据不出门就能被利用,联邦学习让机器学习工程化
·HR拥抱人工智能,8大场景重塑无限可能
·一文透视“北京智源大会”十大AI热点
·让机器人解惑传道,对话式AI能否为企业带来巨量的业务
·MLOps:让AI应用周期从9个月缩短到几天
·超大规模与轻量化模型,谁会成为AI主流?
·大型机没有灭亡,反而正成为AI、混合云的宠儿
·向死而生,浴火重生,创新能让AI芯片新生?
·从蜂拥而上到纷纷退场,AI芯片谁在“裸泳”?
·谷歌微软阿里华为都爱上大模型,AI开发边界被打破
一家企业成功IPO,可以通过知识图谱平台从招股书、年报、公司公告、券商研究报告、新闻等半结构化表格和非结构化文本数据中,批量自动抽取公司的股东、子公司、供应商、客户、合作伙伴、竞争对手等信息,构建出公司的知识图谱。
当某个宏观经济事件或者企业相关事件发生时,券商分析师、交易员、基金公司基金经理等投资研究人员可以通过此图谱做更深层次的分析,做出更好的投资决策。
类似的例子还有,利用企业和个人银行资金交易、工商、税务、通信、出行、住宿等信息的关联知识图谱,辅助公安机关快速破案。利用知识图谱,帮助银行,法制欺诈,等等。
海比研究院认为,期初知识图谱(KnowledgeGraph)旨在实现更智能的搜索引擎,目前知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐、情报分析、反欺诈等领域。在人工智能的下半场,知识图谱在具备能理解、会思考、可解释等特征的认知智能突破自身天花板的前沿才得以蓬勃发展,并迅速得到应用。
打开知识图谱的大门
在过去的十年的时间里,知识图谱已经潜入到我们的日常生活,无论是通过语音助手如Alexa、Siri或GoogleAssistant直观的搜索结果,还是通过电商智能推荐,提供个性化的购物体验,我们每天都在不断与知识图谱进行交互。
然而,知识图谱和底层的图数据库对大多数人来说仍然是一个谜,大多数人甚至没有意识到我们对技术的依赖度。
2012年,Google正式提出了知识图谱(KnowledgeGraph)的概念,初衷是为了优化搜索引擎返回的结果,增强用户搜索质量和体验。
知识图谱是一种基于图的数据结构,由节点和边组成,每个节点表示一个“实体”,每条边为实体与实体间的“关系”,其中实体指的可以是现实世界中的事物,比如人、地名、公司、电话、动物等;关系则用来表达不同实体之间的某种联系。
通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的关系网络,本质上是一种揭示实体之间关系的语义网络,因此知识图谱提供了从“关系”的角度来分析问题的能力。
更进一步,艾瑞资讯在其报告中认为,知识图谱是一种用图模型来描述知识和建模世界万物之间关联关系的大规模语义网络,是大数据时代知识表示的重要方式之一。
相对于传统的知识表示,知识图谱具有规模巨大、语义丰富、质量精良与结构友好等特点,宣告知识工程进入了一个新的时代。
InfoQ的报告认为,知识图谱是实现人工智能从“感知”跃升到“认知”的基础。在内容维度,知识图谱是一种表达规范、关联性强的高质量数据表示;在技术维度,知识图谱可解释为一种使用图结构描述知识和建模万物关联关系的技术方法。
许多组织已经在使用知识图谱技术来帮助自己保持领先地位。
知识图谱和图数据库已被用于几乎所有的行业,尽管这些公司将知识图谱用于不同的用例,但最终的规则是相同的:从各种数据孤岛中获取大量数据并为其增加价值,以便可以以有意义和更智能的方式使用和重用它。
知识图谱的价值维度首先是有助于实现业务战略高度的行业数据治理;其次,基于语义连接实现知识融合和可解释性,成为人类思维与机器路径思维的转换器;最后,实现对推理和决策的有力支撑,使其在更多领域得以广泛应用。
知识图谱得到快速发展源于四个原因:
合并不同的数据孤岛。两个不同部门的工作会重叠,而两个部门都懒得相互沟通,这种情况经常发生,根本危害是两个部门将精力都浪费在已经拥有的知识上,或者让员工不断地重新学习东西。知识图谱有助于打破不同的数据孤岛,为用户提供在全球组织中的所有知识。
整合结构化和非结构化数据。积累数据并不意味着只是组装文档和Excel工作表。知识图谱技术能够以有意义的方式连接不同类型的数据,并支持比大多数知识管理系统更丰富的数据服务。在人工智能和机器学习技术的帮助下,组织将提取和发现更深入、更微妙的模式。
通过更快地发现事物来做出更好的决策。在计算机出现之前,寻找信息就意味着要翻阅成堆的文件,找到一个特定的句子或者数字等。使用知识图谱技术可以缓解这种情况,它提供了更丰富、更深入的搜索结果,有助于为特定问题提供相关事实和上下文答案,而不是提供包含许多相关文档和消息却没有实际价值。一个成熟的知识图谱可以为企业提供坚实的基础设施和任何智能应用的基础。
通过标准让用户的数据库经得起未来考验。没有高质量的数据,就不可能获得高质量的知识。有了企业知识图谱,组织在管理数据模型时将受益于其数据的更高可重用性,因为其知识图谱符合W3C标准,而且还允许重用公开可用的行业知识,以及多语言同义词库的ISO标准,也能确保完全控制自己的知识图谱。
知识图谱,成为AI的投资风口
不管是从国内,还是从国外来看,知识图谱都是一个风口,并成为AI发展中最重要的一个风口。
投资的一大方向是知识图谱平台。如知识图谱平台“Stardog”获得了300万美元新资金,将其B轮融资扩展至1140万美元。Stardog的企业知识图谱平台可以创建灵活、可重用的数据层,用于跨数据孤岛回答复杂查询。Stardog根据数据的含义统一数据,创建一个连接的知识网络,为企业的业务提供动力。
在国内,柯基数据完成数千万元A轮融资,这是最近几年柯基数据完成的第三轮融资。柯基数据成立于2015年,专注于知识图谱认知智能平台产品及行业解决方案,成立6年来自主研发了可视化智能爬虫、NLP模型平台、知识图谱构建及动态运维平台、智能问答、智能检索、智能推荐等全栈认知智能技术平台产品,拥有核心自主知识产权40多项。
另一方个方向是行业知识图谱方面。今年3月,达观数据宣布完成C轮5.8亿元融资,刷新了中国自然语言处理与知识图谱领域的融资记录。本轮融资将强化达观数据在文本智能处理领域的领先优势,带动NLP、RPA、OCR等核心产品的科技创新和产业应用。达观在文本语义分析与知识图谱方面进行了深度研发,申请了100余项国家技术发明专利。
将AI知识图谱结合多组学分析技术运用于解决衰老问题的MetanovasBiotech公司,在今年也宣布完成近千万美元天使轮融资。据了解,MetanovasBiotech于2021年初成立于波士顿和上海,旨在将人工智能与生命科学相结合,利用深度学习、知识图谱、多组学分析来理解复杂的生物网络,破译复杂的疾病机制,通过调节疾病网络的机制进行产品开发,如延缓衰老和预防神经退行性疾病、代谢类疾病的产品。
Metanovas现有的平台包括Meta-KG知识图谱平台、Meta-Omics多组学分析与计算平台,Meta-NLP临床与文献数据挖掘平台等。其中,公司与清华大学药学院共同展开的NAD+有关的抗衰老研究的项目在体外实验获得初步验证,AI预测验证成功率远超传统实验系统性筛选水平。
安全自动化防御平台中科微澜也完成千万元天使轮融资,用于加速打造基于认知智能技术的新一代安全动态防御产品体系。中科微澜创新性的将知识图谱等人工智能技术应用于网络安全领域,自研了VulGraph漏洞图谱,通过智能化的漏洞管理建立动态防御平台Vtopia,提升企业对安全威胁的防护能力,对于攻击自动化具有先发优势,并实现攻防认知差逆转。
金融大数据及知识图谱服务提供商知因智慧宣布完成亿元级B轮融资。知因智慧依托与中科院大学合作的AI实验室,以AI赋能传统金融机构,利用大数据、知识图谱和机器学习算法,旨在建立连接金融机构和产业机构的产融云图,提供企业洞察、智能风险、精准营销、供应链金融等场景服务。
知识图谱成为风口的“三大奥秘”。
知识图谱成为风口的一个主要原因是知识图谱的核心技术发展需要投入。知识图谱的构建技术主要包含知识图谱表示、知识存储、知识抽取、知识融合、知识推理等重要组成部分,同与深度学习的融合发展。
艾瑞咨询的报告就认为,推力和拉力的共同作用促进了知识图谱发展,其构建中的核心产业主要包括Schema三元组模型构建、实体标注等技术,知识图谱管理平台与建模服务、垂直行业的知识图谱应用产品及解决方案等。
另一个原因是知识图谱产业快速发展。专家认为,知识图谱产业涉及数据采集标注、云服务、硬件资源、数据库等数据和技术支撑;同时涉及从事知识图谱的设计与构建,包括提供用于知识图谱分析、应用的各类套件工具及解决方案;在应用端,知识图谱主要与AI相关技术结合,深度应用于垂直领域。
第三个主要原因就是认知智能创造的市场足够诱人。据艾瑞咨询统计推算,2019年知识图谱核心产品的市场规模约为65.0亿元,仍有较大发展空间,预计2024年将突破200亿元,年复合增长率达到20.4%。
此外,知识图谱技术的应用也进一步带动传统企业智能运维效率升级。2019年中国知识图谱技术带动经济增长规模达391.8亿元,预计到2024年将突破1000亿元。
应用不断扩大,知识图谱“五大”典型应用场景
知识图谱技术是人工智能技术的重要组成部分,以结构化的方式描述客观世界中的概念、实体及其键的关系。它提供了一种更好地组织、管理和理解互联网海量信息的能力,将互联网的信息表达成更接近于人类认知世界的形式。
因此,建立一个具有语义处理能力与开放互联能力的知识库,主要用于搜索结果优化,随着电商、互联网金融等兴起,逐渐在智能推荐、智能客服、金融风控、安全与安防、能源等探索和应用。
第一,搜索优化。2010年前后,搜索引擎用户体验的主要挑战在于搜索需求和搜索结果难以匹配,依赖“关键字搜索”技术返回包含关键字的网页列表需要进一步浏览网页,并过滤掉大量无用信息。
2012年5月,Google公司为了支撑其语义搜索推出KnowledgeGraph,知识图谱由此诞生,目前已成为全球最大的知识图谱。
GoogleKnowledgeGraph通过Google搜索引擎结果页面表示,根据人们搜索的内容提供信息。该知识图谱由超过5亿个对象组成,从Freebase、维基百科,CIA世界概况等获取数据。
随后年,微软开始构建MicrosoftSatori知识图谱来增强Bing搜索能力。Facebook发布OpenGraph应用于社交网络智能搜索。在国内搜狗知立方上线,成为国内首个搜索引擎“中文知识图谱”。
利用知识图谱技术可以直接给出用户想要的搜索结果,而不再是各类链接。知识图谱用文本和知识融合的阅读理解模型,使搜索结果更理解客户需求。
第二,电商与零售。对于电商平台来说,交易量和客户活跃度是其核心竞争力,而客户一般都是通过搜索获得想要的商品,越精准的搜索结果,客户使用越多。
因此,百度、搜狗、阿里巴巴、美团、腾讯等不断摸索,纷纷尝试构建自己的知识图谱平台。
百度知识图谱覆盖覆盖人物、影视、音乐、文学、商品、餐饮、旅游、出行、金融、教育、房产、医疗等细分领域。
搜狗知立方是国内首个搜索引擎“中文知识图谱”,通过整合海量的互联网碎片化信息,对搜索结果进行重新优化计算,把最核心的信息展现给用户。搜狗语音助手实现搜狗知立方数据的接入,标志着搜狗知立方正式进入无线领域。
美团知识图谱团队从2018年开始构建美团大脑,现阶段,美团大脑已覆盖了数十亿实体,数百亿三元组,覆盖餐饮、外卖、酒店等场景。
腾讯知识图谱(TencentKnowledge Graph,TKG),是一个集成图数据库、图计算引擎和图可视化分析的一站式平台。在金融、安全、泛互联网、政府、企业等领域中,海量数据之间彼此关联产生了数以万亿计的数据,这种复杂的关联关系数据隐藏着大量的业务信息和商业价值。
伴随新零售等新趋势的崛起,电商企业对数据互联的应用需求扩展到线上线下相结合、实物与虚拟相结合的复杂交易场景。在数据组织方式上,对知识融合和知识推理能力提出了新挑战。
除了优化搜索结果,知识图谱还可以帮助电商以及社交平台解决一些智能推荐问题,而不是“买了啥,推荐啥”或者“推荐的商品与客户无关联”,促进用户购买。
知识图谱用于追加销售和交叉销售策略,根据个人购买行为和人口群体的热门购买趋势推荐产品。
阿里电商认知图谱AliCoCo支持了阿里巴巴集团核心电商的多个业务应用。通过对用户需求的统计,相较于之前的商品管理体系,AliCoCo对于搜索中用户需求的覆盖率从35%提升至75%。
第三,金融风控。金融证券领域知识图谱的应用具有广覆盖、深加工、浅表达等特征,为信贷、理财、保险、支付等领域实现舆情监控、知识发现、推理决策等提供了坚实支撑。
另一方面,银行以及其他持牌金融公司、助贷机构、人工智能公司等开始将知识图谱应用于风险控制,特别是识别团伙欺诈,也应用于小微企业信贷、消费信贷、信用卡申请等反欺诈业务,还可以用来识别会计造假。知识图谱的推理能力和可解释性,在金融场景中具有天然的优势。
艾瑞咨询报告认为,传统风控系统逐渐力有不逮,而应用机器学习算法和知识图谱的智能风控系统在风险识别能力和大规模运算方面具有突出优势,逐渐成为金融领域风控反欺诈的主要手段。
第四,安保与医疗。知识图谱从大数据中深度挖掘关联关系,可准实时分析多至千亿级海量关系数据,转化为关系图谱数据,支撑公安机关展开情报研判分析、犯罪团伙跟踪以及重大事情预警等。
医疗机构及互联网平台产生了大量的医疗数据,形成了丰富的医疗知识体系。利用识图谱,有助于实现医学文献、临床试检方案、基因组数据、患者病历等各类知识的关联与整合,进而为医生的临床诊断提供辅助决策,通过各类应用平台为公众提供高质量的医疗信息服务。
平安智慧医疗推出的中文医疗知识图谱,集成了60万医学概念、530万医学关系、千万医学证据,覆盖核心医学概念,并基于此开发多个智能服务应用场景。
第五,能源。华为云知识计算解决方案帮助企业通过构建知识平台打造企业统一的知识体系。中国石油与华为云基于此平台,打造了“中国石油认知计算平台”,在对地震资料进行自动拾取的实际应用中,基于不足5%的样本基础,实现了超过94%的预测精度,并将原2人月的工作量缩短至7 小时自动完成。
虽然知识图谱应用行业和场景不断扩大,但是这只是知识图谱万里长征跨出的第一步,需要不断发展专业的知识图谱平台和图数据库,需要专业知识的积累,更需要专业AI技术与专业领域人才。
所幸的是,中国在知识图谱等认知智能技术发展上,与发达国家同步,在应用上更是走到前面。
科技媒体·企业演化科学·战略托管综合体
本文作者系赵满满
寻求报道,以及对相关话题感兴趣,请评论区留言
本文来自微信公众号“中智观察”(ID:Hapiweb-soft6),作者:海比研究院,36氪经授权发布。