共词的含义与前提

共词关系:词A与词B共同出现在一篇文档中,则称词A和词B有共词关系。共词关系又称共线关系(co-occurrence)。

共词关系可以被用于分析的前提:

  • 作者写作时认真选词,因此两个共现词之间有着某种关系。
  • 如果有足够多的作者的文档中出现了某种共词,代表这种共词有着某种普遍的意义。

共词关系所代表的具体语义关系是不明确的,它可以包括了上下位,近义词等各种关系。因此共词关系与词语相似性是有区别的。

共词分析的应用

共词本质上是一种关系,这种关系可以用来:

  • 计算相似性
  • 寻找主题

共词的计算

共词一般仅限于两个词的共线,而多个词的共线又有更深的含义。

当我们利用共词关系进行文本分析时,一个重要指标在于共词关系的强弱的衡量,下面多种指标用于反映共词关系的强弱:

(1) 共词次数

共词次数\(C_{ij}\):表示关键词i与关键词j在同一语料中出现的次数。

(2) 包容指数 (inclusion index)

\[I_{ij} = \frac{C_{ij}}{min(C_i, C_j)}\]

其中\(C_{ij}\)表示关键词i与关键词j在同一语料中出现的次数,\(C_i\)表示关键词i在语料中出现的次数,\(C_j\)表示关键词j在语料中出现的次数。

包容指数比简单计算共词次数多考虑了关键词i和j单独出现的次数。防止了如下情况,如果一个关键词出现地越多,那么它与其他词的共词次数自然也越多。

此处包容的含义为,出现的关键词i或j中包容了百分之多少的关键词(i,j)共词情况。

(3) 邻近指数(proximity index)

\[P_{ij} = \frac{C_{ij}}{C_i C_j} \times N\]

邻近指数可以看做\(\frac{C_{ij}}{C_i} / \frac{C_j}{N}\),此时假设\(C_i < C_j\)。邻近指数与包容指数不同之处在于多除了一个\(\frac{C_j}{N}\)。此时,邻近指数表明,即使共词关系也许对于关键词i不重要,但关键词i和j在语料集中出现次数较少,因此也许更为重要。

(4) 等价系数(equivalence coefficient)

\[E_{ij} = \frac{C_{ij}}{C_i} \times \frac{C_{ij}}{C_j} = \frac{C_{ij}^2}{C_i C_j}\]

等价系数同时计算关键词i和j出现时共线的比例。

(5) 互信息(mutual information)

\[I(X;Y) = \sum_{x \in X} \sum_{y \in Y} p(x,y) log \frac{p(x,y)}{p(x)p(y)}\]

(6) 词袋模型

在正统NLP中,词袋模型是最经典的假设。

参考文献

  • 冯璐, 冷伏海. 共词分析方法理论进展[D]. , 2006.