传统的命名实体识别三大类、七小类远远不能满足应用需求。在知识图谱构建和很多自然语言处理任务中,细粒度的实体类别包含了更多的知识,有助于相应任务性能的提升。例如,产品名(如:华为Mate10)、会议名、疾病名、赛事名等在商务、新闻、医疗和体育领域的各种应用任务中非常重要。

典型的细粒度实体类别分类

一些比较有代表性的细粒度实体类别体系如下:在自动内容抽取会议(Automatic Content Extraction,ACE)上,实体分为7大类和45小类。Sekine和Nobata提出了4个级别共计200个小类别。Lee等提出了一个大约150个小类别的实体分类体系。

细粒度实体类别的特点

相较于传统的实体类型,细粒度实体类型的特点如下:

(1) 类别更多:相较于传统的三大类或者七小类,细粒度实体类型更多,比如可能的类别包括:动物、植物、会议等。而且随着时间的推移和社会的发展,经常会出现一些新的类别。

(2) 类别具有层次结构:例如传统的机构名可以进一步细分为:学校、公司、金融机构等,而医院由可以划分为三甲医院、专科医院、社区医院等。这些类别之间具有层次结构。

细粒度实体识别的难点

相较于传统的实体识别,细粒度实体识别的难点如下:

(1) 类别的制定:传统的实体识别类别比较少,细粒度实体识别的第一个难点就是类别的制定,如何能构建一个覆盖类别多而且具有层次结构的类别体系是类别制定时应当考虑的首要问题。

(2) 语料的标注:传统的实体识别大多数是基于有监督学习的方法,有监督学习需要大量高质量的人工标注语料,然而随着实体类别的增多,标注语料的难度和成本呈指数级增长。

(3) 实体识别的方法:相较于传统实体识别,细粒度的实体识别中,更多的类别对实体识别方法也带来了极大的挑战。除此之外,因为标注语料很难获得,所以如何在无标注语料或者标注语料较少的情况下完成细粒度实体识别也是一个严峻的挑战。

对于语料的标注、主要有两种方法,一种是人工标注,这种方法标注质量高,但是成本也高。另一种比较便捷的方法就是利用回标的方法自动标注,这种方法标注速度快,可以自动获得标注数据,但是标注的数据中会有噪音。

细粒度实体类别的制定

目前对于细粒度实体类别的制定,最直接的办法是人工制定,除此之外最具代表性的工作是利用人工构建的词典知识资源作为类别的来源。例如现有的具有实体类别分类的知识资源有:WordNet,Freebase等。

Suchanek等人结合了维基百科(Wikipedia)和WordNet两个资源,制定了YAGO的实体类别体系。他们将Wikipedia中的实体词条标签映射到WordNet中,从而过滤掉Wikipedia中分类不恰当的标签,进而得到实体的完整类别。他们提出的方法准确率很高,在95%以上。Toral等人提出了类似的方法,通过计算文本的相似度将Wikipedia的类别映射到WordNet中,他们的映射过程中处理了多义词的消歧问题。Ling等将Freebase中的类别进行过滤和合并,最终构建了一个包含112个类别的体系。

细粒度实体识别方法

当人工制定了实体类别并人工标注语料后,前面章节介绍的实体识别方法都可以直接应用。在没有语料标注的情况下,可以利用聚类的方法自动获得实体的集合,但是无法自动获得实体的类别标签;当提供了相应类别的实体的种子时,可以采用后面介绍的实体扩展方法获得对应类别的更多实体;当采用回标的方法获得语料时,可以直接应用前面章节介绍的实体识别方法,但是对于噪音数据要进行特别的处理。这里主要介绍无监督的方法。华盛顿大学的KnowItAll系统是一个比较有代表性的无监督的细粒度实体抽取系统,主要由三部分组成:规则抽取、实体名的抽取和实体名的验证。首先人工制定一些通用的规则模板,然后根据通用模板和制定的类别去细化模板,得到初始种子后,使用搜索引擎对模板进行扩展,进而从互联网上抽取大规模的实体名,最后使用验证规则并结合搜索引擎对实体名进行验证,将高置信度的实体名加入到知识库中。他们关注的实体出了传统的命名实体类别外还有科学家名和电影名等。Nadeau等结合了KnowItAll和Collins等的方法,他们从网上抽取命名实体,然后结合规则标注了大量文本作为命名实体识别的训练语料,他们将该方法应用于100种命名实体的识别和抽取上,并取得了不错的性能。