R
!!!dispersion 分散率
{{outline}}
----
!!DP (Deviation of Proportions)

*ある語のn個の部分に分けたコーパスでの分散の程度を示す指標

!!計算方法
! 1. コーパスをn個に分けたそれぞれの部分を%で比率を出す。（期待値）
! 2. ある語の出現率を各部分ごとに%で比率を出す。（観察値）
! 3. 期待値と観察値の差の絶対値を出す。
! 4. 絶対値を足し合わせて、<<2>>で割る。
-1 =< 0 =< 1 の絶対値の幅が2あるので、
2で割ることで、最小０・最大１という指標となる。
!!計算方法の例
! 1. コーパスを4個に分けたそれぞれの部分を%で比率を出す。（期待値）
* 均等に4つに分けたとして、
,コーパスの部分, その比率
,a,0.25
,b,0.25
,c,0.25
,d,0.25
! 2. ある語の出現率を各部分ごとに%で比率を出す。（観察値）
* 架空の例として、0.50, 0.25, 0.15, 0.10とする。
,コーパスの部分, その比率, 語の出現率
,a,0.25,0.50
,b,0.25,0.25
,c,0.25,0.15
,d,0.25,0.10
! 3. 期待値と観察値の差の絶対値を出す。
,コーパスの部分, その比率, 語の出現率,｜差｜
,a,0.25,0.50,0.25
,b,0.25,0.25,0.00
,c,0.25,0.15,0.10
,d,0.25,0.10,0.15
! 4. 絶対値を足し合わせて、<<2>>で割る（<<0.25>>）
 0.25 + 0.00 + 0.10 + 0.15 = 0.50

 0.50/2 = 0.25

! 注1：観察値も、均等になっていた場合（<<0>>）
* すべての差が0となって、合計したものを2で割っても0となる。均一。

,コーパスの部分, その比率, 語の出現率,｜差｜
,a,0.25,0.25,0.00
,b,0.25,0.25,0.00
,c,0.25,0.25,0.00
,d,0.25,0.25,0.00

! 注2：観察値が、1か所に偏っていた場合（<<0.75>>）
,コーパスの部分, その比率, 語の出現率,｜差｜
,a,0.25,1.00,0.75
,b,0.25,0.00,0.25
,c,0.25,0.00,0.25
,d,0.25,0.00,0.25

 (0.75 + 0.25 + 0.25 + 0.25)/2 = 0.75
!!評価方法
! 値は0と1の間。
! ある語が、すべての部分に均等に出現しているほど、値は0に近くなる。


!!Gries 2008の提案： GP{{sub norm}}
! 上で計算したDPを<<1-(1/n)>>で割ることで正規化する

+ 架空の例の場合　　：0.25/(1-(1/4))= 0.333
+ 均等に観察された場：0
+ １か所に偏った場合：0.75/(1-(1/4))= 1

!!Lijffijt and Gries 2012の修正案： GP{{sub norm2012}}
! 1-(1/n)ではなく、<<1-min>>で割る
* minとは、分割したコーパスの最小部分の割合

+ 架空の例の場合　　：0.25/(1-0.25)= 0.333
+ 均等に観察された場：0
+ １か所に偏った場合：0.75/(1-0.25)= 1

*上記の例では、均等に分割したので、最小部分も（最大部分も全部）0.25で、結果は、Gries 2008と違いはない。
*コーパスの分割が大きく偏った際に、違いが出る。
*コーパスの分割をほぼ均等にする場合、事実上、違いはない。


!!References
Lijffijt and Gries 2012. Correction to Stefan Th. Gries’ “Dispersions and adjusted frequencies in corpora”, International Journal of Corpus Linguistics, 13:4 (2008), 403&#8211;437

Gries, St. Th. 2008. “Dispersions and adjusted frequencies in corpora”. International Journal of Corpus Linguistics, 13 (4), 403&#8211;437.

Gries, St. Th. 2010. “Dispersions and adjusted frequencies in corpora: Further explorations”. In St. Th. Gries, S. Wul&#175; & M. Davies (Eds.), Corpus Linguistic Applications: Current Studies, New Directions. Amsterdam: Rodopi, 197&#8211;2

!!そもそも、全体をいくつに分けるとよいかという問題

!一番細かく分けるとしたら、データの最小単位ごと

!もしくは、全体を何分割するかという問題

!分割するサイズが、大きい場合と小さい場合でどうなるか

!実例：ICNALEのエッセイで日本語母語英語学習者A2レベル154人
*接続語句 however の使用頻度
*一人が二つのエッセイを書いている
*二つのエッセイを合わせた全体での使用頻度
*154人308エッセイ全体で、94回出現
,ケース,DP, GriesDP2008, GriesDP2012, 分析単位当たりの平均
,人ごと(1人x154分割), 0.669, 0.673, 0.673, 0.6
,22分割(7人x22分割), 0.243, 0.254, 0.254, 4.3
, 7分割(22人x7分割), 0.120, 0.140, 0.140,13.4

!結論：大くくりにするほど、分散率は下がる。
*分散率が下がるということは、より「均一」に分布していることになる
*おおざっぱにするほど、違いは見えなくなる、ということ。
*分散率が報告されている場合、全体をいくつに分けたかに注意。


!!Related sites
https://educationalresearchtechniques.com/2017/08/09/diversity-and-lexical-dispersion-analysis-in-r/

https://osf.io/rpfb8/

https://krbrick.github.io/

https://rpubs.com/Naomi_2017/495585