!!! Constructional Diversity Analyzer (CDA) {{outline}} ---- https://haerimhwang.github.io/tools/English-constructional-diversity-analyzer !出典 Hwang, H., & Kim, H. (2022). Automatic analysis of constructional diversity as a predictor of EFL students’ writing proficiency. Applied linguistics. (online first) Hwang, H., Choe, A., & Zenker, F. (2020). Construction Counter: A tool to measure (nonnative) language development. Brown Bag Series, University of Hawai‘i at Mānoa, Honolulu, USA. (April 16) !spaCyとKivyを使用 +Natural Language Toolkit (Bird et al. 2009)のsent_tokenizeで文ごとに区切る +spaCy (Honnibal and Montani 2019)で、節に分割 ++token.lemma_でレマ化 ++token.pos_で品詞タグ付け ++token_dep_で統語依存関係タグ付け !分析手順 +11種類の構文に分類 +構文の延べ頻度(節の数と同じ)を計算 +構文の異なり頻度を計算(構文多様性) +各構文の頻度と割合を計算 +各構文内の動詞の異なり頻度を計算(動詞多様性) !11の構文 *6は構文文法より(Goldberg 1995) ++使役移動 : She faxed a letter to him. ++二重目的語: She faxed him a letter. ++自動詞移動: The fly buzzed into the room. ++自動詞結果: The pond froze solid. ++句動詞 : The girl looked the name up. ++他動詞結果: The girl made the can flat. *5は基礎的 ++叙述 : She is a student. ++受け身 : It was folded. ++単純自動詞: I worked. ++単純他動詞: The man kicked the ball. ++存在のthere: There is a house. !精度検証 * American National Corpus (Reppen et al 2005) * 1000の節の分類 ** 応用言語学者二人 Cohen's kappa 1.00 ** CDA *** recall 0.82 *** precision 0.86 *** F1 0.82 !構文多様性スコア計算方法 Constructional Diversity Score *log10(頻度+1) **タイプ頻度に1をたしているのはラプラシアン平滑化(Manning et al. 2008) **対数を取っているのは標準化するため(Comptone et al. 2020) **各構文の比率を出して、 **それを逆正弦変換する(Studebaker 1985) ***比率・割合データは、逆正弦変換することで正規分布に変換できやすい !熟達度の予測 *A1からC1の9段階は1から9の連続変数として ** 4レベル以上の順序変数は連続変数として扱う慣例(Labovitz 1970, Robitzsch 2020) *構文多様性指標は正規分布に従っていた(Q-Q plot) *VIFを考慮して残ったのは以下の7つ ++there構文 ++受け身 ++動詞句 ++使役移動 ++単純自動詞 ++二重目的語 ++叙述(ただし係数はマイナス) *説明率は11.5% !!使い方 !ダウンロード(430MB) *圧縮されているが、単一のアプリ *起動に時間がかかる(3分くらい) !何を出力するか選択(チェック入れる) *構文多様性 constructional diversity *動詞多様性 verbal diversity !分析対象ファイルの入っているフォルダーを選択 * [Location]で選ぶ ** プログラムの入っているドライブ内からしか選択できない ** ルートから順に下にたどっていく ** 日本語ファイル名は文字化け * プログラムのフォルダー内にデータをコピーしたほうが便利 * フォルダーを選んで、[Select] *[Process]を押して実行 ** 少し時間がかかる(量にもよるが、2分くらい) !結果は、分析対象にしたフォルダー内に csvで保存される !constructional_diversity.csv {{pre file_name total_num_sentences total_num_words token_frequency_of_constructions type_frequency_of_constructions log_transformed_type_frequency_of_constructions there attributive simple_intransitive intransitive_motion intransitive_resultative passive simple_transitive caused_motion ditransitive transitive_resultative phrasal_verb n/a there_prop attributive_prop simple_intransitive_prop intransitive_motion_prop intransitive_resultative_prop passive_prop simple_transitive_prop caused_motion_prop ditransitive_prop transitive_resultative_prop phrasal_verb_prop n/a_prop arcsine_transformed_there_prop arcsine_transformed_attributive_prop arcsine_transformed_simple_intransitive_prop arcsine_transformed_intransitive_motion_prop arcsine_transformed_intransitive_resultative_prop arcsine_transformed_passive_prop arcsine_transformed_simple_transitive_prop arcsine_transformed_caused_motion_prop arcsine_transformed_ditransitive_prop arcsine_transformed_transitive_resultative_prop arcsine_transformed_phrasal_verb_prop arcsine_transformed_n/a_prop }} !verbal_diversity.csv {{pre file_name token_frequency_of_constructions type_frequency_of_constructions there attributive simple_intransitive intransitive_motion intransitive_resultative passive simple_transitive caused_motion ditransitive transitive_resultative phrasal_verb }}