!!! Constructional Diversity Analyzer (CDA) {{outline}} ---- https://haerimhwang.github.io/tools/English-constructional-diversity-analyzer !出典 Hwang, H., & Kim, H. (2022). Automatic analysis of constructional diversity as a predictor of EFL students’ writing proficiency. Applied linguistics. (online first) Hwang, H., Choe, A., & Zenker, F. (2020). Construction Counter: A tool to measure (nonnative) language development. Brown Bag Series, University of Hawai‘i at Mānoa, Honolulu, USA. (April 16) !spaCyとKivyを使用 +Natural Language Toolkit (Bird et al. 2009)のsent_tokenizeで文ごとに区切る +spaCy (Honnibal and Montani 2019)で、節に分割 ++token.lemma_でレマ化 ++token.pos_で品詞タグ付け ++token_dep_で統語依存関係タグ付け !分析手順 +11種類の構文に分類 +構文の延べ頻度(節の数と同じ)を計算 +構文の異なり頻度を計算(構文多様性) +各構文の頻度と割合を計算 +各構文内の動詞の異なり頻度を計算(動詞多様性) !11の構文 *6は構文文法より(Goldberg 1995) ++使役移動 : She faxed a letter to him. ++二重目的語: She faxed him a letter. ++自動詞移動: The fly buzzed into the room. ++自動詞結果: The pond froze solid. ++句動詞 : The girl looked the name up. ++他動詞結果: The girl made the can flat. *5は基礎的 ++叙述 : She is a student. ++受け身 : It was folded. ++単純自動詞: I worked. ++単純他動詞: The man kicked the ball. ++存在のthere: There is a house. !精度検証 * American National Corpus (Reppen et al 2005) * 1000の節の分類 ** 応用言語学者二人 Cohen's kappa 1.00 ** CDA *** recall 0.82 *** precision 0.86 *** F1 0.82 !構文多様性スコア計算方法 *log10(頻度+1) **タイプ頻度に1をたしているのはラプラシアン平滑化(Manning et al. 2008) **対数を取っているのは標準化するため(Comptone et al. 2020) **比率の計算には逆正弦変換(Studebaker 1985) !熟達度の予測 *A1からC1の9段階は1から9の連続変数として ** 4レベル以上の順序変数は連続変数として扱う慣例(Labovitz 1970, Robitzsch 2020) *構文多様性指標は正規分布に従っていた(Q-Q plot) *VIFを考慮して残ったのは以下の7つ ++there構文 ++受け身 ++動詞句 ++使役移動 ++単純自動詞 ++二重目的語 ++叙述(ただし係数はマイナス) *説明率は11.5% !!使い方 !ダウンロード(430MB) *圧縮されているが、単一のアプリ *起動に時間がかかる(3分くらい) !何を出力するか選択(チェック入れる) *構文多様性 constructional diversity *動詞多様性 verbal diversity !分析対象ファイルの入っているフォルダーを選択 * [Location] [Process]