*disclaimer
639841
Constructional Diversity Analyzer (CDA)
https://haerimhwang.github.io/tools/English-constructional-diversity-analyzer
出典
Hwang, H., & Kim, H. (2022). Automatic analysis of constructional diversity as a predictor of EFL students’ writing proficiency. Applied linguistics. (online first)
Hwang, H., Choe, A., & Zenker, F. (2020). Construction Counter: A tool to measure (nonnative) language development. Brown Bag Series, University of Hawai‘i at Mānoa, Honolulu, USA. (April 16)
spaCyとKivyを使用
- Natural Language Toolkit (Bird et al. 2009)のsent_tokenizeで文ごとに区切る
- spaCy (Honnibal and Montani 2019)で、節に分割
- token.lemma_でレマ化
- token.pos_で品詞タグ付け
- token_dep_で統語依存関係タグ付け
分析手順
- 11種類の構文に分類
- 構文の延べ頻度(節の数と同じ)を計算
- 構文の異なり頻度を計算(構文多様性)
- 各構文の頻度と割合を計算
- 各構文内の動詞の異なり頻度を計算(動詞多様性)
11の構文
- 6は構文文法より(Goldberg 1995)
- 使役移動 : She faxed a letter to him.
- 二重目的語: She faxed him a letter.
- 自動詞移動: The fly buzzed into the room.
- 自動詞結果: The pond froze solid.
- 句動詞 : The girl looked the name up.
- 他動詞結果: The girl made the can flat.
- 5は基礎的
- 叙述 : She is a student.
- 受け身 : It was folded.
- 単純自動詞: I worked.
- 単純他動詞: The man kicked the ball.
- 存在のthere: There is a house.
精度検証
- American National Corpus (Reppen et al 2005)
- 1000の節の分類
- 応用言語学者二人 Cohen's kappa 1.00
- CDA
- recall 0.82
- precision 0.86
- F1 0.82
構文多様性スコア計算方法 Constructional Diversity Score
- log10(頻度+1)
- タイプ頻度に1をたしているのはラプラシアン平滑化(Manning et al. 2008)
- 対数を取っているのは標準化するため(Comptone et al. 2020)
- 各構文の比率を出して、
- それを逆正弦変換する(Studebaker 1985)
- 比率・割合データは、逆正弦変換することで正規分布に変換できやすい
熟達度の予測
- A1からC1の9段階は1から9の連続変数として
- 4レベル以上の順序変数は連続変数として扱う慣例(Labovitz 1970, Robitzsch 2020)
- 構文多様性指標は正規分布に従っていた(Q-Q plot)
- VIFを考慮して残ったのは以下の7つ
- there構文
- 受け身
- 動詞句
- 使役移動
- 単純自動詞
- 二重目的語
- 叙述(ただし係数はマイナス)
- 説明率は11.5%
使い方
ダウンロード(430MB)
- 圧縮されているが、単一のアプリ
- 起動に時間がかかる(3分くらい)
何を出力するか選択(チェック入れる)
- 構文多様性 constructional diversity
- 動詞多様性 verbal diversity
分析対象ファイルの入っているフォルダーを選択
- [Location]で選ぶ
- プログラムの入っているドライブ内からしか選択できない
- ルートから順に下にたどっていく
- 日本語ファイル名は文字化け
- プログラムのフォルダー内にデータをコピーしたほうが便利
- フォルダーを選んで、[Select]
- [Process]を押して実行
- 少し時間がかかる(量にもよるが、2分くらい)
結果は、分析対象にしたフォルダー内に csvで保存される
constructional_diversity.csv
file_name total_num_sentences total_num_words token_frequency_of_constructions type_frequency_of_constructions log_transformed_type_frequency_of_constructions there attributive simple_intransitive intransitive_motion intransitive_resultative passive simple_transitive caused_motion ditransitive transitive_resultative phrasal_verb n/a there_prop attributive_prop simple_intransitive_prop intransitive_motion_prop intransitive_resultative_prop passive_prop simple_transitive_prop caused_motion_prop ditransitive_prop transitive_resultative_prop phrasal_verb_prop n/a_prop arcsine_transformed_there_prop arcsine_transformed_attributive_prop arcsine_transformed_simple_intransitive_prop arcsine_transformed_intransitive_motion_prop arcsine_transformed_intransitive_resultative_prop arcsine_transformed_passive_prop arcsine_transformed_simple_transitive_prop arcsine_transformed_caused_motion_prop arcsine_transformed_ditransitive_prop arcsine_transformed_transitive_resultative_prop arcsine_transformed_phrasal_verb_prop arcsine_transformed_n/a_prop
verbal_diversity.csv
file_name token_frequency_of_constructions type_frequency_of_constructions there attributive simple_intransitive intransitive_motion intransitive_resultative passive simple_transitive caused_motion ditransitive transitive_resultative phrasal_verb
https://sugiura-ken.org/wiki/