*disclaimer
451643
dispersion 分散率
- dispersion 分散率
DP (Deviation of Proportions)
- ある語のn個の部分に分けたコーパスでの分散の程度を示す指標
計算方法
1. コーパスをn個に分けたそれぞれの部分を%で比率を出す。(期待値)
2. ある語の出現率を各部分ごとに%で比率を出す。(観察値)
3. 期待値と観察値の差の絶対値を出す。
4. 絶対値を足し合わせて、2で割る。
-1 =< 0 =< 1 の絶対値の幅が2あるので、
2で割ることで、最小0・最大1という指標となる。
計算方法の例
1. コーパスを4個に分けたそれぞれの部分を%で比率を出す。(期待値)
- 均等に4つに分けたとして、
コーパスの部分 | その比率 |
---|---|
a | 0.25 |
b | 0.25 |
c | 0.25 |
d | 0.25 |
2. ある語の出現率を各部分ごとに%で比率を出す。(観察値)
- 架空の例として、0.50, 0.25, 0.15, 0.10とする。
コーパスの部分 | その比率 | 語の出現率 |
---|---|---|
a | 0.25 | 0.50 |
b | 0.25 | 0.25 |
c | 0.25 | 0.15 |
d | 0.25 | 0.10 |
3. 期待値と観察値の差の絶対値を出す。
コーパスの部分 | その比率 | 語の出現率 | |差| |
---|---|---|---|
a | 0.25 | 0.50 | 0.25 |
b | 0.25 | 0.25 | 0.00 |
c | 0.25 | 0.15 | 0.10 |
d | 0.25 | 0.10 | 0.15 |
4. 絶対値を足し合わせて、2で割る(0.25)
0.25 + 0.00 + 0.10 + 0.15 = 0.50
0.50/2 = 0.25
注1:観察値も、均等になっていた場合(0)
- すべての差が0となって、合計したものを2で割っても0となる。均一。
コーパスの部分 | その比率 | 語の出現率 | |差| |
---|---|---|---|
a | 0.25 | 0.25 | 0.00 |
b | 0.25 | 0.25 | 0.00 |
c | 0.25 | 0.25 | 0.00 |
d | 0.25 | 0.25 | 0.00 |
注2:観察値が、1か所に偏っていた場合(0.75)
コーパスの部分 | その比率 | 語の出現率 | |差| |
---|---|---|---|
a | 0.25 | 1.00 | 0.75 |
b | 0.25 | 0.00 | 0.25 |
c | 0.25 | 0.00 | 0.25 |
d | 0.25 | 0.00 | 0.25 |
(0.75 + 0.25 + 0.25 + 0.25)/2 = 0.75
評価方法
値は0と1の間。
ある語が、すべての部分に均等に出現しているほど、値は0に近くなる。
Gries 2008の提案: GPnorm
上で計算したDPを1-(1/n)で割ることで正規化する
- 架空の例の場合 :0.25/(1-(1/4))= 0.333
- 均等に観察された場:0
- 1か所に偏った場合:0.75/(1-(1/4))= 1
Lijffijt and Gries 2012の修正案: GPnorm2012
1-(1/n)ではなく、1-minで割る
- minとは、分割したコーパスの最小部分の割合
- 架空の例の場合 :0.25/(1-0.25)= 0.333
- 均等に観察された場:0
- 1か所に偏った場合:0.75/(1-0.25)= 1
- 上記の例では、均等に分割したので、最小部分も(最大部分も全部)0.25で、結果は、Gries 2008と違いはない。
- コーパスの分割が大きく偏った際に、違いが出る。
- コーパスの分割をほぼ均等にする場合、事実上、違いはない。
References
Lijffijt and Gries 2012. Correction to Stefan Th. Gries’ “Dispersions and adjusted frequencies in corpora”, International Journal of Corpus Linguistics, 13:4 (2008), 403–437
Gries, St. Th. 2008. “Dispersions and adjusted frequencies in corpora”. International Journal of Corpus Linguistics, 13 (4), 403–437.
Gries, St. Th. 2010. “Dispersions and adjusted frequencies in corpora: Further explorations”. In St. Th. Gries, S. Wul¯ & M. Davies (Eds.), Corpus Linguistic Applications: Current Studies, New Directions. Amsterdam: Rodopi, 197–2
そもそも、全体をいくつに分けるとよいかという問題
一番細かく分けるとしたら、データの最小単位ごと
もしくは、全体を何分割するかという問題
分割するサイズが、大きい場合と小さい場合でどうなるか
実例:ICNALEのエッセイで日本語母語英語学習者A2レベル154人
- 接続語句 however の使用頻度
- 一人が二つのエッセイを書いている
- 二つのエッセイを合わせた全体での使用頻度
- 154人308エッセイ全体で、94回出現
ケース | DP | GriesDP2008 | GriesDP2012 | 分析単位当たりの平均 |
---|---|---|---|---|
人ごと(1人x154分割) | 0.669 | 0.673 | 0.673 | 0.6 |
22分割(7人x22分割) | 0.243 | 0.254 | 0.254 | 4.3 |
7分割(22人x7分割) | 0.120 | 0.140 | 0.140 | 13.4 |
結論:大くくりにするほど、分散率は下がる。
- 分散率が下がるということは、より「均一」に分布していることになる
- おおざっぱにするほど、違いは見えなくなる、ということ。
- 分散率が報告されている場合、全体をいくつに分けたかに注意。
Related sites
https://educationalresearchtechniques.com/2017/08/09/diversity-and-lexical-dispersion-analysis-in-r/
https://sugiura-ken.org/wiki/