热门文章> 知识图谱构建技术包括哪些? >

知识图谱构建技术包括哪些?

36氪企服点评小编
2021-08-09 17:20
1556次阅读

        知识图谱(Knowlegraph)首先是谷歌提出的,大家都知道谷歌是一款搜索引擎。知识图谱出现前,使用谷歌、百度搜索时,搜索结果是很多页面,根据搜索结果的页面主题点击链接,可以看到具体的内容。知识图谱出现之后,搜索结果会以一定的组织结构呈现。那么知识图谱构建技术包括哪些?接下来小编为你详细介绍。

知识图谱构建技术包括哪些?知识图谱构建技术

知识图谱构建技术一:数据获取(DataAcquisition)

        资料获取是建立知识图谱的第一步。当前,根据来源渠道的不同,知识图谱数据源可以分为两类:一类是业务本身的数据,这些数据通常包含在行业内的数据库表中,并以结构化的方式存储,即非公开或半公开的数据;另一类是网络上公开、抓取的数据,这些数据通常以网页的形式存在,是非结构化的。
根据数据结构的不同,可以分为三种类型:结构化数据、半结构化数据和非结构化数据。根据不同的数据类型,我们采用不同的方法进行处理。

知识图谱构建技术二:信息抽取(InformationExtraction)

       提取信息的关键问题是如何从异构数据源中自动提取信息以获取候选知识单元。正如前面所说,获取知识有两种渠道,前者只需简单的预处理就可以作为后续AI系统的输入,但是后者通常需要借助自然语言处理等技术来提取结构化信息,这就是提取信息的难点问题,所涉及的关键技术包括实体提取、关系提取和属性提取。

(1)实体提取(EntityExtraction)/命名实体识别(NameEntityRecognition)
实体提取又称命名实体识别(NER),是指从文本数据集中自动识别命名实体,其目的是在知识图中建立节点。实体提取的质量(精度和召回率)对后续知识的获取效率和质量有很大影响,因此是信息提取中最基本、最关键的部分。实体类型主要包括三类和七类:实体(包括姓名、地名、机构名称)、时间类别(日期、时间)、数字类别(货币,百分比)。
        起初,实体识别通常采用人工预定义实体分类系统的方法,但随着技术的不断进步,这种旧的方法已难以适应时代的需要,因此面向开放领域的实体识别和分类具有很大的研究价值。
在开放域的实体识别和分类研究中,不需要也不可能为每个领域或实体类别建立单独的语料库作为培训集。因此,研究者面临的主要挑战是如何从给定的少量实体实例中自动找到具有区别力的模型。
       一个想法是根据已知的实体实例进行特征建模,利用该模型处理大量数据集,得到新的命名实体列表,对新的实体进行建模,反复生成实体标记语料库。
另外一个想法是使用搜索引擎的服务器日志,事先不给出实体分类等信息,而是根据实体的语义特征,从搜索日志中识别出命名实体,然后用聚类算法对所识别的实体对象进行聚类。

(2)关系抽取(RelationExtraction)
文实体中提取文本语料后,得到的是一系列离散的命名实体(节点),为了获取语义信息,还需要从相关语料中提取实体之间的关联(边),以便将多个实体或概念联系起来,形成网络知识结构。研究性关系抽取技术,就是研究如何解决从文本语料中提取实体之间的关系。

(3)属性提取(AttributeExtraction)
提取属性的目的是从不同的信息源中收集具体实体的属性信息,从而完成对实体属性的完整描述。比如针对某个手机,可以从互联网上获取多源(异构)数据,获取其品牌、配置等信息。
若将实体的属性值视为一个特殊的实体,则属性抽取实际上也是一个关系抽取。百科全书网站提供的半结构化数据是通用领域属性抽取研究的主要数据来源,但是具体到特定的应用领域,涉及到大量的非结构化数据,属性抽取仍是一个巨大的挑战。

知识图谱构建技术三:知识融合(KnowledgeFusion)

       信息抽取后,信息单元之间的关系是扁平化的,缺乏层次性和逻辑性,同时存在大量冗余甚至错误的信息碎片。知识整合,简单理解,就是整合多个知识库中的知识,形成一个知识库的过程。在这个过程中,主要的关键技术包括指代消解、实体消歧和实体链接。不同的知识库收集知识有不同的侧重点。对于同一个实体,有知识库的可能侧重于自一方面的描述,有些知识库可能侧重于描述实体与其他实体的关系。知识整合的目的是整合不同的知识库,从而获得实体的完整描述。
知识融合旨在解决如何整合同一实体或概念的多源描述信息。

(1)指代消解(CoreferenceResolution)
CoreferenceeResolution中,字面上的翻译应该是共指消解,但是在大多数博客或论坛中,通常被称为指代消解。一般而言,指代分为三类(NLP领域通常只关注前两类):
首先,回指(也称为指示性指示),相应的单词是anaphora,指当前的指示性单词与上述单词、短语或句子(句群)有密切的语义关联,它指向另一个单词(称为先行单词),它依赖于先行单词的解释,具有不对称性和非传递性;
第二,共指(又称同指),相应的词为coreference,指的是两个名词(包括代名词、名词短语)指向现实世界中的同一参考体,这种指的是脱离上下文依然成立。共指消解技术主要用于解决多个指的对应相同物体的问题。
第三,下指,相应的单词是cataphora,与回指正好相反,是指代词的解释取决于代词后面的某些单词、短语或句子(句群)的解释。下面图中的he和his都指的是后面的Lord:
因此,根据以上描述,个人认为将CoreferenceResolution翻译成指代消解更为合适。

(2)实体消歧(EntityDisambiguation)
有的实体写法不同,但指向同一实体,如NewYork代表纽约,而NYC代表纽约。这样,实体消歧就能减少实体的种类,减少图谱的稀疏。
物理消歧是专门用来解决同名物理产生歧义的技术,通过物理消歧,可以根据当前的语境,准确地建立物理链接,物理消歧主要采用聚类法。实际上还可以看作是基于上下文的分类问题,类似于词性消歧和词义消歧。

(3)实体链接(EntityLinking)
物理链接(entitylinking)是指从非结构化数据(如文本)或半结构化数据(如表格)中提取物理对象,并将其链接到知识库中对应的物理对象的操作。它的基本思想是先根据给定的物理指标项目,从知识库中选择一组候选物理对象,然后通过相似度计算将指标项目链接到正确的物理对象。

知识图谱构建技术四:知识合并。

       实体链接是从半结构化数据和非结构化数据中提取的数据。除了半结构化数据和非结构化数据,还有一个更方便的数据源——结构化数据,比如外部知识库和关系数据库。这部分结构化数据的处理是知识合并的内容。一般来说,知识合并主要分为两类:整合外部知识库,主要处理数据层与模式层的冲突。有RDB2RDF等DB2RDF等方法。

       以上就是知识图谱构建技术包括哪些的全部内容,希望对你有所帮助。知识图谱是一种特殊的语义网络,它利用实体、关系、属性等基本单位,用符号的形式来描述物理世界中不同概念之间的关系。在信息搜索、推荐系统和问答系统中,知识图谱有着重要的意义。

[免责声明]

文章标题: 知识图谱构建技术包括哪些?

文章内容为网站编辑整理发布,仅供学习与参考,不代表本网站赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请及时沟通。发送邮件至36dianping@36kr.com,我们会在3个工作日内处理。

相关文章
最新文章
查看更多
关注 36氪企服点评 公众号
打开微信扫一扫
为您推送企服点评最新内容
消息通知
咨询入驻
商务合作