R !!!dispersion 分散率 !!DP (Deviation of Proportions) *ある語のn個の部分に分けたコーパスでの分散の程度を示す指標 !!計算方法 ! 1. コーパスをn個に分けたそれぞれの部分を%で比率を出す。(期待値) ! 2. ある語の出現率を各部分ごとに%で比率を出す。(観察値) ! 3. 期待値と観察値の差の絶対値を出す。 ! 4. 絶対値を足し合わせて、<<2>>で割る。 !!計算方法の例 ! 1. コーパスを4個に分けたそれぞれの部分を%で比率を出す。(期待値) * 均等に4つに分けたとして、 ,コーパスの部分, その比率 ,a,0.25 ,b,0.25 ,c,0.25 ,d,0.25 ! 2. ある語の出現率を各部分ごとに%で比率を出す。(観察値) * 架空の例として、0.50, 0.25, 0.15, 0.10とする。 ,コーパスの部分, その比率, 語の出現率 ,a,0.25,0.50 ,b,0.25,0.25 ,c,0.25,0.15 ,d,0.25,0.10 ! 3. 期待値と観察値の差の絶対値を出す。 ,コーパスの部分, その比率, 語の出現率,|差| ,a,0.25,0.50,0.25 ,b,0.25,0.25,0.00 ,c,0.25,0.15,0.10 ,d,0.25,0.10,0.15 ! 4. 絶対値を足し合わせて、<<2>>で割る(<<0.25>>) 0.25 + 0.00 + 0.10 + 0.15 = 0.50 0.50/2 = 0.25 ! 注1:観察値も、均等になっていた場合(<<0>>) * すべての差が0となって、合計したものを2で割っても0となる。均一。 ! 注2:観察値が、1か所に偏っていた場合 (0.75 + 0.25 + 0.25 + 0.25)/2 = 0.75 !!評価方法 ! 値は0と1の間。 ! ある語が、すべての部分に均等に出現しているほど、値は0に近くなる。 !!Gries 2008の提案 ! 上で計算したDPを<<1-(1/n)>>で割ることで正規化する + 架空の例の場合  :0.75/(1-(1/4))= 1 + 均等に観察された場:0 + 1か所に偏った場合:0.375/(1-(1/4))= 0.5 !!Lijffijt and Gries 2012の修正案 ! 1-(1/n)ではなく、<<1-min>>で割る * minとは、分割したコーパスの最小部分の割合 !!References Lijffijt and Gries 2012. Correction to Stefan Th. Gries’ “Dispersions and adjusted frequencies in corpora”, International Journal of Corpus Linguistics, 13:4 (2008), 403–437 Gries, St. Th. 2008. “Dispersions and adjusted frequencies in corpora”. International Journal of Corpus Linguistics, 13 (4), 403–437. Gries, St. Th. 2010. “Dispersions and adjusted frequencies in corpora: Further explorations”. In St. Th. Gries, S. Wul¯ & M. Davies (Eds.), Corpus Linguistic Applications: Current Studies, New Directions. Amsterdam: Rodopi, 197–2