The ETS Corpus of Non-Native Written English
LDCから入手可能。
当初は、TOEFL11 Corpusと呼ばれていた。
11種類の母語の英語学習者のエッセイデータで1,100個ずつのエッセイが集められている。プロンプトは8種類。(合計12,100ファイル)
ETSの研究報告書もある。
https://www.ets.org/Media/Research/pdf/RR-13-24.pdf
- 英語非母語話者の英語エッセイライティング
- 英語非母語話者の母語は11種類
- Arabic
- Chinese
- French
- German
- Hindi
- Italian
- Japanese
- Korean
- Spanish
- Telugu
- Turkish
- 母語の種類ごとに1,100のエッセイ(合計12,100エッセイ)
- エッセイのトピックは8種類(理由・根拠とともに賛成か反対の意見を述べる)
- 専門だけを学ぶより広く学んだ方がよい。
- 若い人の方が人生を楽しんでいる。
- 最近の若者は忙しすぎて地元のことはできない。
- 広告の品はたいてい実物より良く見せている。
- 20年後、車の使用は減るだろう。
- 旅行はガイド付きのグループ旅行がよい。
- 学生は、事実を覚えるより、考えや概念を理解することが重要だ。
- よく知っていることだけをするより、失敗を恐れず新しいことをする方が良い。
- エッセイ評価は、Low Medium High の3種類
- エッセイ評価の専門家による評価
- 各ファイルのレベルはメタデータとして別ファイルに
- データ収集時期は、2006から2007年
- 生のテキストファイルとtokenizeしたテキストファイルの二種類
- 文字コードはUTF-8
- 当初の主目的は、英語非母語話者の母語の特定研究
- 82%を訓練データとして
- 9%を開発データとして
- 9%を評価データとして