【Method】共词关系(Co-word)
共词的含义与前提
共词关系:词A与词B共同出现在一篇文档中,则称词A和词B有共词关系。共词关系又称共线关系(co-occurrence)。
共词关系可以被用于分析的前提:
- 作者写作时认真选词,因此两个共现词之间有着某种关系。
- 如果有足够多的作者的文档中出现了某种共词,代表这种共词有着某种普遍的意义。
共词关系所代表的具体语义关系是不明确的,它可以包括了上下位,近义词等各种关系。因此共词关系与词语相似性是有区别的。
共词分析的应用
共词本质上是一种关系,这种关系可以用来:
- 计算相似性
- 寻找主题
共词的计算
共词一般仅限于两个词的共线,而多个词的共线又有更深的含义。
当我们利用共词关系进行文本分析时,一个重要指标在于共词关系的强弱的衡量,下面多种指标用于反映共词关系的强弱:
(1) 共词次数
共词次数\(C_{ij}\):表示关键词i与关键词j在同一语料中出现的次数。
(2) 包容指数 (inclusion index)
\[I_{ij} = \frac{C_{ij}}{min(C_i, C_j)}\]其中\(C_{ij}\)表示关键词i与关键词j在同一语料中出现的次数,\(C_i\)表示关键词i在语料中出现的次数,\(C_j\)表示关键词j在语料中出现的次数。
包容指数比简单计算共词次数多考虑了关键词i和j单独出现的次数。防止了如下情况,如果一个关键词出现地越多,那么它与其他词的共词次数自然也越多。
此处包容的含义为,出现的关键词i或j中包容了百分之多少的关键词(i,j)共词情况。
(3) 邻近指数(proximity index)
\[P_{ij} = \frac{C_{ij}}{C_i C_j} \times N\]邻近指数可以看做\(\frac{C_{ij}}{C_i} / \frac{C_j}{N}\),此时假设\(C_i < C_j\)。邻近指数与包容指数不同之处在于多除了一个\(\frac{C_j}{N}\)。此时,邻近指数表明,即使共词关系也许对于关键词i不重要,但关键词i和j在语料集中出现次数较少,因此也许更为重要。
(4) 等价系数(equivalence coefficient)
\[E_{ij} = \frac{C_{ij}}{C_i} \times \frac{C_{ij}}{C_j} = \frac{C_{ij}^2}{C_i C_j}\]等价系数同时计算关键词i和j出现时共线的比例。
(5) 互信息(mutual information)
\[I(X;Y) = \sum_{x \in X} \sum_{y \in Y} p(x,y) log \frac{p(x,y)}{p(x)p(y)}\](6) 词袋模型
在正统NLP中,词袋模型是最经典的假设。
参考文献
- 冯璐, 冷伏海. 共词分析方法理论进展[D]. , 2006.