トップ履歴一覧 Farm ソース検索ヘルプ PDF RSS ログイン

dispersion

dispersion 分散率

dispersion 分散率

DP (Deviation of Proportions)
計算方法

1. コーパスをn個に分けたそれぞれの部分を%で比率を出す。（期待値）
2. ある語の出現率を各部分ごとに%で比率を出す。（観察値）
3. 期待値と観察値の差の絶対値を出す。
4. 絶対値を足し合わせて、2で割る。

計算方法の例

1. コーパスを4個に分けたそれぞれの部分を%で比率を出す。（期待値）
2. ある語の出現率を各部分ごとに%で比率を出す。（観察値）
3. 期待値と観察値の差の絶対値を出す。
4. 絶対値を足し合わせて、2で割る（0.25）
注1：観察値も、均等になっていた場合（0）
注2：観察値が、1か所に偏っていた場合（0.75）

評価方法

値は0と1の間。
ある語が、すべての部分に均等に出現しているほど、値は0に近くなる。

Gries 2008の提案： GP

上で計算したDPを1-(1/n)で割ることで正規化する

Lijffijt and Gries 2012の修正案： GP

1-(1/n)ではなく、1-minで割る

References
そもそも、全体をいくつに分けるとよいかという問題

一番細かく分けるとしたら、データの最小単位ごと
もしくは、全体を何分割するかという問題
分割するサイズが、大きい場合と小さい場合でどうなるか
実例：ICNALEのエッセイで日本語母語英語学習者A2レベル154人
結論：大くくりにするほど、分散率は下がる。

Related sites

DP (Deviation of Proportions)

ある語のn個の部分に分けたコーパスでの分散の程度を示す指標

計算方法

1. コーパスをn個に分けたそれぞれの部分を%で比率を出す。（期待値）

2. ある語の出現率を各部分ごとに%で比率を出す。（観察値）

3. 期待値と観察値の差の絶対値を出す。

4. 絶対値を足し合わせて、2で割る。

-1 =< 0 =< 1 の絶対値の幅が2あるので、
2で割ることで、最小０・最大１という指標となる。

計算方法の例

1. コーパスを4個に分けたそれぞれの部分を%で比率を出す。（期待値）

均等に4つに分けたとして、

コーパスの部分	その比率
a	0.25
b	0.25
c	0.25
d	0.25

2. ある語の出現率を各部分ごとに%で比率を出す。（観察値）

架空の例として、0.50, 0.25, 0.15, 0.10とする。

コーパスの部分	その比率	語の出現率
a	0.25	0.50
b	0.25	0.25
c	0.25	0.15
d	0.25	0.10

3. 期待値と観察値の差の絶対値を出す。

コーパスの部分	その比率	語の出現率	｜差｜
a	0.25	0.50	0.25
b	0.25	0.25	0.00
c	0.25	0.15	0.10
d	0.25	0.10	0.15

4. 絶対値を足し合わせて、2で割る（0.25）

0.25 + 0.00 + 0.10 + 0.15 = 0.50

0.50/2 = 0.25

注1：観察値も、均等になっていた場合（0）

すべての差が0となって、合計したものを2で割っても0となる。均一。

コーパスの部分	その比率	語の出現率	｜差｜
a	0.25	0.25	0.00
b	0.25	0.25	0.00
c	0.25	0.25	0.00
d	0.25	0.25	0.00

注2：観察値が、1か所に偏っていた場合（0.75）

コーパスの部分	その比率	語の出現率	｜差｜
a	0.25	1.00	0.75
b	0.25	0.00	0.25
c	0.25	0.00	0.25
d	0.25	0.00	0.25

(0.75 + 0.25 + 0.25 + 0.25)/2 = 0.75

評価方法

値は0と1の間。

ある語が、すべての部分に均等に出現しているほど、値は0に近くなる。

Gries 2008の提案： GP_norm

上で計算したDPを1-(1/n)で割ることで 正規化する

架空の例の場合　　：0.25/(1-(1/4))= 0.333
均等に観察された場：0
１か所に偏った場合：0.75/(1-(1/4))= 1

Lijffijt and Gries 2012の修正案： GP_norm2012

1-(1/n)ではなく、1-minで割る

minとは、分割したコーパスの最小部分の割合

架空の例の場合　　：0.25/(1-0.25)= 0.333
均等に観察された場：0
１か所に偏った場合：0.75/(1-0.25)= 1

上記の例では、均等に分割したので、最小部分も（最大部分も全部）0.25で、結果は、Gries 2008と違いはない。
コーパスの分割が大きく偏った際に、違いが出る。
コーパスの分割をほぼ均等にする場合、事実上、違いはない。

References

Lijffijt and Gries 2012. Correction to Stefan Th. Gries’ “Dispersions and adjusted frequencies in corpora”, International Journal of Corpus Linguistics, 13:4 (2008), 403–437

Gries, St. Th. 2008. “Dispersions and adjusted frequencies in corpora”. International Journal of Corpus Linguistics, 13 (4), 403–437.

Gries, St. Th. 2010. “Dispersions and adjusted frequencies in corpora: Further explorations”. In St. Th. Gries, S. Wul¯ & M. Davies (Eds.), Corpus Linguistic Applications: Current Studies, New Directions. Amsterdam: Rodopi, 197–2

そもそも、全体をいくつに分けるとよいかという問題

一番細かく分けるとしたら、データの最小単位ごと

もしくは、全体を何分割するかという問題

分割するサイズが、大きい場合と小さい場合でどうなるか

実例：ICNALEのエッセイで日本語母語英語学習者A2レベル154人

接続語句 however の使用頻度
一人が二つのエッセイを書いている
二つのエッセイを合わせた全体での使用頻度
154人308エッセイ全体で、94回出現

ケース	DP	GriesDP2008	GriesDP2012	分析単位当たりの平均
人ごと(1人x154分割)	0.669	0.673	0.673	0.6
22分割(7人x22分割)	0.243	0.254	0.254	4.3
7分割(22人x7分割)	0.120	0.140	0.140	13.4

結論：大くくりにするほど、分散率は下がる。

分散率が下がるということは、より「均一」に分布していることになる
おおざっぱにするほど、違いは見えなくなる、ということ。
分散率が報告されている場合、全体をいくつに分けたかに注意。

Related sites

https://educationalresearchtechniques.com/2017/08/09/diversity-and-lexical-dispersion-analysis-in-r/

https://osf.io/rpfb8/

https://krbrick.github.io/

https://rpubs.com/Naomi_2017/495585

https://sugiura-ken.org/wiki/

Menu

keyword

category

[GLMM]
[Linux]
[HSP]
[R]
[Python]
[Corpus]
[Google]

更新履歴

2024/4/26

2024/4/24

2024/4/23

stringr

2024/4/22

2024/4/16

sugiura-ken

2024/4/6

sjPlot

2024/4/5

MicrosoftTeams

2024/3/23

順序ロジスティック回帰

2024/3/22

ggplot2

2024/3/20

emmeans

2024/3/16

Windows11

2024/3/8

R

2024/1/28

sakura editor

2024/1/17

spacyr

2024/1/16

Excel.tips

2024/1/11

2024/1/10

dplyr

2024/1/8

sum contrasts

2024/1/6

jtools

2024/1/3

contrast coding

2023/12/29

abline()

2023/12/22

Word.tips

2023/12/21

easystats

2023/12/20

table()

2023/12/15

Constructional Diversity Analyzer

2023/12/11

Kivy

2023/12/8

多重比較

2023/12/1

Multiple Regression Analysis

2023/11/30

performance

2023/11/26

2023/11/23

相関係数の検定

2023/11/19

2023/11/18

SCA

2023/11/15

Emacs

2023/11/10

inkscape

2023/11/8

forward digit span test

2023/10/29

2023/10/28

ChatGPT

2023/10/26

Thunderbird

2023/10/23

IPSyn

2023/10/21

AntConc

2023/10/16

Outlook

2023/10/15

GoogleSlides

2023/10/9

HSP

2023/10/7

Edge

2023/9/29

TeX

2023/9/27

Discord

2023/9/26

NUCT

2023/9/25

Freemind

2023/9/19

2023/9/18

fitdistrplus

2023/9/17

ICC

2023/9/16

2023/9/14

ownCloud

2023/8/22

xtabs()

2023/8/20

モデル選択

2023/8/8

2023/7/29

Git

2023/7/28

Overleaf

2023/7/21

Zotero

2023/7/13

Beamer

2023/7/11

simpleboot

2023/7/10

2023/7/9

lingpsych

2023/6/28

Brunner-Munzel検定

2023/6/21

2023/6/18

DALL.E

2023/6/17

glmmTMB
Menu

2023/6/13

Bing Image Creator

2023/6/12

ggeffects

2023/6/7

ExpbyHSP

2023/6/2

ifelse

2023/5/30

TextForHSP04

2023/5/25

facet

2023/5/24

TextForHSP03

2023/5/16

antisaccade test

2023/5/10

TextForHSP

2023/5/9

2023/5/2

geom_boxplot()

2023/4/28

mutate()

2023/4/14

CloudLaTeX

2023/4/10

MicrosoftOffice

2023/3/26

反応時間の分析

2023/3/24

p.adjust

2023/3/22

Tobii

2023/3/11

2023/3/7

CHAT

2023/2/21

SQL

2023/2/20

TACT

2023/1/25

COCA

2023/1/19

R.package

2023/1/15

stopwords

2022/12/28

2022/12/26

flexplot

2022/12/25

2022/12/23

VIF

2022/12/20

2022/12/16

Zoom

2022/12/14

PowerPoint