【Method】共词关系(Co-word)

共词的含义与前提

共词关系：词A与词B共同出现在一篇文档中，则称词A和词B有共词关系。共词关系又称共线关系(co-occurrence)。

共词关系可以被用于分析的前提：

作者写作时认真选词，因此两个共现词之间有着某种关系。
如果有足够多的作者的文档中出现了某种共词，代表这种共词有着某种普遍的意义。

共词关系所代表的具体语义关系是不明确的，它可以包括了上下位，近义词等各种关系。因此共词关系与词语相似性是有区别的。

共词分析的应用

共词本质上是一种关系，这种关系可以用来：

计算相似性
寻找主题

共词的计算

共词一般仅限于两个词的共线，而多个词的共线又有更深的含义。

当我们利用共词关系进行文本分析时，一个重要指标在于共词关系的强弱的衡量，下面多种指标用于反映共词关系的强弱：

(1) 共词次数

共词次数\(C_{ij}\)：表示关键词i与关键词j在同一语料中出现的次数。

(2) 包容指数 (inclusion index)

\[I_{ij} = \frac{C_{ij}}{min(C_i, C_j)}\]

其中\(C_{ij}\)表示关键词i与关键词j在同一语料中出现的次数，\(C_i\)表示关键词i在语料中出现的次数，\(C_j\)表示关键词j在语料中出现的次数。

包容指数比简单计算共词次数多考虑了关键词i和j单独出现的次数。防止了如下情况，如果一个关键词出现地越多，那么它与其他词的共词次数自然也越多。

此处包容的含义为，出现的关键词i或j中包容了百分之多少的关键词(i,j)共词情况。

(3) 邻近指数（proximity index）

\[P_{ij} = \frac{C_{ij}}{C_i C_j} \times N\]

邻近指数可以看做\(\frac{C_{ij}}{C_i} / \frac{C_j}{N}\)，此时假设\(C_i < C_j\)。邻近指数与包容指数不同之处在于多除了一个\(\frac{C_j}{N}\)。此时，邻近指数表明，即使共词关系也许对于关键词i不重要，但关键词i和j在语料集中出现次数较少，因此也许更为重要。

(4) 等价系数（equivalence coefficient）

\[E_{ij} = \frac{C_{ij}}{C_i} \times \frac{C_{ij}}{C_j} = \frac{C_{ij}^2}{C_i C_j}\]

等价系数同时计算关键词i和j出现时共线的比例。

(5) 互信息（mutual information）

\[I(X;Y) = \sum_{x \in X} \sum_{y \in Y} p(x,y) log \frac{p(x,y)}{p(x)p(y)}\]

(6) 词袋模型

在正统NLP中，词袋模型是最经典的假设。

参考文献

冯璐, 冷伏海. 共词分析方法理论进展[D]. , 2006.