R !!!keyness *複数の文書からなるコーパスがあったとして、 *その中の特定の文書が、ほかの残りと比べて、際立って違う言葉遣いをしていることを探る。 *二種類の文書に対して行うことで、二つの文書の相違を観察できる。 **targetとreference group *符号付き2x2の関連性スコア(association score) quanteda::<> *target で、注目したい文書を指定する。 **数字を入れれば、文書行列中の要素番号 **ほかには、文書行列に、各文書の属性情報をつけて置き、その属性でグループを指定する。 ***例えば、JANとNTVという属性をつけて、JANをターゲットに指定して、残りのNTVと比較する。 *measure = オプションで統計値を選べる。(signed というのは、プラスマイナスの符号を使うから) ** chi2 は、χ二乗 ** exact は、Fisher's exact test ** lr は、likelihood ratio(G2) {{pre nicestJAN.1st <- textstat_keyness(nicestJAN.dfm, 1) nicestJAN.1st feature chi2 p n_target n_reference 1 specialized 3.295107e+01 9.450749e-09 5 0 2 knowledge 1.741756e+01 3.000417e-05 5 3 3 bload 1.656914e+01 4.690807e-05 3 0 4 knowledges 8.652160e+00 3.266739e-03 2 0 5 subject 8.652160e+00 3.266739e-03 2 0 6 walking 8.652160e+00 3.266739e-03 2 0 7 dictionary 8.652160e+00 3.266739e-03 2 0 8 dictionaries 8.652160e+00 3.266739e-03 2 0 9 become 8.652160e+00 3.266739e-03 2 0 10 get 8.090752e+00 4.449170e-03 3 2 11 you 5.415006e+00 1.996438e-02 11 43 12 such 4.849584e+00 2.765279e-02 2 1 13 specific 4.849584e+00 2.765279e-02 2 1 14 does 4.849584e+00 2.765279e-02 2 1 15 something 4.849584e+00 2.765279e-02 2 1 16 better 3.007704e+00 8.286961e-02 2 2 17 to 2.199027e+00 1.380979e-01 11 57 18 one 1.950172e+00 1.625683e-01 2 3 textplot_keyness(nicestJAN.1st) }} {{ref_image keyness1st.png}}