【Method】Text Similarity

文本之间的语义相似性在自然语言处理中起到重要作用，广泛应用于检索、文本聚类、文本摘要等场景中，并对最终应用效果起到决定性影响。

文本相似度主要可以分为以下两类：词汇级相似度(Lexical similarity)，语义级相似度(Semantic similarity)

Lexical Similarity

顾名思义，此类方法将文本看作最简单的字符串。而文本之间的相似度通过字符串之间的编辑距离进行衡量。多种衡量方法被提出：

此类方法将文本看作一系列单词的组合，即为词袋模型。基于该文本表示形式，有如下几种相似度衡量方法：

缺点：在很多情况下，相近的语义往往用不同的词汇表示，例如，”开心“与”高兴“。此时基于字符串的比较方法是失效的。在采用此类方法之前，我们应该粗略统计词语出现的频率。如果大多数词语出现频率很低，则大部分情况下基于字符串的比较无法起到作用。

此类方法将文本看作单词的组合，但是单词与单词之间的相似度不仅仅依靠字符串的比较。而是进一步依赖单词的共现信息计算单词内涵的语义。使得”开心“与”快乐“两词，虽然在字符串上不相似，但是在语义上相似。

此方法特指使用深度学习的Embedding方法，此类方法与Corpus-based similarity的区别在于，不再基于词袋集合（利用共现信息），加入了单个词的上下文信息。认为上下文相似的词，意思相近。

此类方法借助外部的知识库例如WordNet进行语义计算。而外部的知识库往往由专家编撰，不仅仅有同义词、上下位词这样简单的语义关系，还包含更复杂的语义关系。

Resnik similarity: Information Content (IC) of the most informative subsume
Vector similarity: A vector is create for each word used in the Word Net glosses from a given corpus and then represents each concept with a vector that is the average of this co-occurrence vector.

Wikipedia: Semantic similarity
徐健,张智雄,肖卓,邓昭俊.科技术语语义相似度计算方法研究综述[J].现代图书情报技术,2010(Z1):51-57.
Pradhan N, Gyanchandani M, Wadhvani R. A Review on Text Similarity Technique used in IR and its Application[J]. International Journal of Computer Applications, 2015, 120(9).
Gomaa W H, Fahmy A A. A survey of text similarity approaches[J]. International Journal of Computer Applications, 2013, 68(13): 13-18.
Alvarez J E, Bast H. A review of word embedding and document similarity algorithms applied to academic text[D]. University OF Freiburg, 2017.