!!!logDice !まず、Dice係数を出す +「strong tea」の共起頻度 +「strong」の頻度 +「tea」の頻度 Dice係数=(共起頻度×2)÷(片方の頻度+もう片方の頻度) !Dice係数の底を2とする対数をとり、14を足したものが、logDice logDice = 14+log2(Dice) !解釈 *最大値14(すべての場合に共起する) *スコア0:いずれかの語の16,000語あたりの共起回数が1以下 *スコアがマイナスの場合:統計的に共起関係はないといえる。 *スコアを比較して、 **片方が1大きい場合、共起頻度は2倍 **片方が7大きい場合、共起頻度は100倍 *スコアはコーパスサイズに依存しない。(相対頻度なので) !Rのスクリプト {{ref LD.R}} ---- !Reference Pavel Rychlý (2008) A Lexicographer-Friendly Association Score, In Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2008, pp. 6–9, 2008.