【Method】知识图谱(四)知识融合
从融合的知识图谱类型看,知识融合包括:竖直方向的融合和水平方向的融合。竖直方向的融合是指融合(较)高层通用本体和(较)底层领域本体或实例数据,例如,YAGO是融合专家构建的高层语言知识图谱和网民协同构建的实体知识图谱。水平方向的融合是指融合相同层次的知识图谱,实现实例数据互补,例如,BableNet融合不同语言的异构知识图谱,实现跨语言的知识关联和共享。
按照融合元素的对象的不同可以分为框架匹配和实体对齐:框架匹配指对概念、属性、关系等知识描述体系进行匹配和融合,实体对齐指通过对齐合并相同的实体完成知识融合。
框架匹配
知识体系能够在认知和语义层次上对领域知识进行建模和表达,确定领域内共同认可的词汇,通过概念之间的关系来描述概念的语义,提供对领域知识的共同理解。由于知识体系自身的分散特性,不同的用户可以构造不同的知识体系,所以导致了在同一个或者重叠的领域产生了许多不同的知识体系。知识体系的不同导致不同的知识图谱难以联合使用。框架匹配可以解决知识体系之间的异构性,是知识融合的重要组成部分。框架匹配也称为本体对齐。
知识框架主要包括概念(类型)、属性、关系和它们之间的约束。目前常用的框架匹配方法还停留在匹配不同知识库中的元素,比如,概念“宇航员”是否匹配概念“航天员”,属性“出生地”是否匹配属性“出生地点”,关系“妻子”是否匹配关系“配偶”。
按照使用技术的不同,框架匹配可以分为元素级匹配和结构级匹配。元素级匹配独立判断两个知识图谱中的元素是否应该匹配,不考虑其他元素的匹配情况。结构级匹配不把各个元素作为孤立的资源,而利用知识图谱的结构,在元素匹配过程中考虑其他相关元素匹配情况的影响。
1. 元素级匹配
知识图谱的框架元素由符号表示,一般来讲,符号是元素的描述,有非常强的语义指示作用。所以,最基本的方法可以基于字符串匹配的技术实现本体元素的匹配。在实际匹配系统中,广泛采用的匹配方法有:前缀距离、后缀距离、编辑距离和n元语法距离等。基于字符串匹配的技术忽略了语言符号的多义性(一词多义和一义多词),基于语言学的技术将名称看作自然语言中的词汇可以更好计算元素之间的关联性。元素相似度的判断可以充分利用元素描述文字之间的语言关系,如:同义词、反义词、词态变体、语法变体、同一词根上词汇形式和功能的变化、语法结构的变化等。为了计算框架元素的匹配程度还可以利用元素的约束信息,例如属性的取值范围、关系的对称性等,这类元素匹配方法称为基于约束的匹配技术。例如,当两个类的属性集相似时,那么这两个类也很可能相似。这种技术通常与其他元素级技术同时使用,目的是减少候选映射对的数量,同时也可以作为其他方法的预处理步骤,以消除冲突的属性。
WordNet是元素级匹配经常使用的语言学资源,为了突破WordNet的覆盖度限制,获取更有实用性的语义相似度,还可以引入词的表示学习技术,获得词向量。词向量的优点是,它可以将词表示为低维语义向量空间的一个点,这样,词与词之间的语义相似度就可以用点之间的距离来衡量。由于获取词向量的语料来源广泛,且可自主选取,因此其覆盖度比WordNet要大很多。 和简单的字符串表面相似度相比,词向量有更强的捕获词背后的真正语义的能力。另外,与WordNet相比,通过训练产生的词向量的覆盖度要大得多。因此,可以把词向量相似度和基于实体间编辑距离相似度结合在一起,用以对齐异构知识库。在公开的知识库对齐数据集上,通过比较编辑距离相似度、WordNet相似度、隐式语义分析(LSA)相似度以及所提出的词向量相似度和混合方法的性能,发现混合方法取得了最好的效果。
2. 结构级匹配
上述方法在匹配不同框架的元素时仅仅使用了元素的直接信息,实际上,不同元素的匹配之前会相互影响,例如,如果属性的定义域和值域(属性“出生地”的定义域和值域分别为“人”和“地点”)匹配程度高,那么属性的匹配程度也高。因此,可以利用概念元素之间的关系进行匹配,这类方法的基本思想是:相似的概念具有相似的概念结构。基于结构的匹配技术主要有三种:基于图的技术,基于分类体系的技术以及基于统计分析的技术。
基于图的技术把将要匹配的本体看作一个已经标记的图结构。基本思想是:对于两个本体中的节点,如果它们的邻居节点是相似的,那么它们也是相似的,反之亦然。基于图的技术是把本体看成多元关系图,其中,图中的节点是实体、边是关系。图中相似元素的发现与解决图的同态问题是类似的,这样就把本体匹配的问题转化为发现最大公共子图的问题。完整的图匹配是一个复杂度很高的问题,计算量很大,在真实操作中,一般会用EM算法,Label Propagation等迭代算法近似求解。
基于分类体系的技术是通过图的技术的一种扩展,一般情况下,这种技术只关注与匹配一些特殊关系。基于分类体系的主要思想是:如果两个术语连接的是“实例-类型”(is-a)或“子类-父类”(SubClassOf)关系,那么它们是相似的,其邻居结点也存在一定程度的相似关系。本体的结构信息在框架匹配中非常重要,框架匹配应用最普遍的领域就是对不同知识图谱的分类体系进行对齐和匹配。
基于统计分析的技术基于已有部分样本挖掘其中蕴含的规律,并根据这些规律对概念、属性、实例、关系等对象进行分组,进而计算它们之间的距离。典型的技术有:形式概念分析、基于距离的分类、相关性分析以及频度分布。
实体对齐
实体对齐也称为实体匹配,是判断相同或不同知识库中的两个实体是否表示同一物理对象的过程。例如,通过判断互动百科中的实体“刘洋(航天员)”和百度百科中的实体“刘洋(中国首位女航天员)”描述同一对象,对齐这两个实体。
实体对齐可分为成对实体对齐和协同实体对齐两类不同的算法。成对实体对齐表示独立地判断两实体是否对应同一物理对象,通过匹配实体属性等特征判断它们的对齐程度。协同实体对齐认为不同实体间的对齐是相互影响的,通过协调不同对象间的匹配情况得以达到一个全局最优的对齐结果。
最近,基于表示学习的方法被用于知识对齐,通过知识库联合表示学习将多个知识库表示在同一个语义向量空间中,把知识库实体对齐的过程转化为两个知识库中的实体相似度计算问题。借鉴知识库向量化的思想,通过基于知识资源的语义向量间的数值运算,获取两个知识库中资源的对应关系。但是,知识库向量化的模型通常都是针对单一知识库的,如果简单地把这种方法用在两个知识库上,这两个知识库的资源就会被表示在两个独立的向量空间上,无法直接用来计算。为了将这两个知识库表示在同一个向量空间中,需要利用种子对齐,训练时在目标函数中加入约束,让这些种子对齐中的资源尽可能有相同的向量表示。这样,这些种子对齐就成为了连接两个知识库的桥梁,对于这些种子实体来说,两个知识库的结构信息都能对其表示产生影响,然后和这些种子实体有关的知识库资源的表示也会受到影响。所以,利用这种方式学习得到的知识库向量就不再是独立的两个空间上的表示,而是在一个向量空间中的统一表示。
在知识库向量化之后,将两个知识库中在统一向量空间中相近的实体视为相同实体,成为一个对齐,这种对齐方法被称为基于知识库向量联合学习的对齐方法。这种方法的优点是,不需要依赖任何人工设定的规则和特征,也不需要了解知识库的命名习惯。这使得这种方法适应性更强,可以容易地迁移到不同语言、不同领域的知识库对齐任务中。
冲突检测与消解
在框架匹配和实体对齐的基础上,知识融合还需要解决不同实例之间的冲突,例如,不同知识库对实体“姚明”的属性“身高”描述不同,对于这种冲突的检测和消解是知识融合的重要步骤,是多个知识图谱形成一个一致结果的最后步骤。
如何检测冲突并进行消解是知识融合任务的主要研究问题。冲突识别最简单的方法就是发现对于同样的属性和关系有不同的实例,但是,对于某些属性,这种策略不一定有效。例如,不同知识图谱存储了某人的两段不同婚姻,其实这两部分信息都是正确的,不存在冲突,对于这种情况需要针对性地设计不同检测策略。
对于冲突的处理,目前常见的策略分为以下三类:冲突忽略、冲突避免和冲突消解。冲突忽略不进行处理,而是把检测出来的冲突交给用户解决,舍弃某些实例或是进行修改。冲突避免不解决冲突,而是使用规则或约束对数据进行过滤,例如,约束人的年龄范围,设计不同知识来源的可信优先级。冲突消解关注于如何利用知识图谱本身(框架和实例)的特征来消解冲突,这是目前的主要研究方向。
冲突消解按照使用技术可以分为如下两类:基于投票的方法和基于质量估计的方法。基于投票的方法比较直接,例如,根据不同事实出现频率进行多数投票。基于质量的方法考虑不同知识来源的可信度,最终选择较高质量的结果。例如,可以根据HITS或PageRank算法计算不同数据来源的可信度。
典型知识融合系统
- PROMPT
- AgreementMaker
- Falcon
- RiMOM
- ASMOV
- Anchor-Flood
- PARIS
- SiGMa