ETS Corpus

The ETS Corpus of Non-Native Written English

LDCから入手可能。

当初は、TOEFL11 Corpusと呼ばれていた。

11種類の母語の英語学習者のエッセイデータで1,100個ずつのエッセイが集められている。プロンプトは8種類。(合計12,100ファイル)

ETSの研究報告書もある。
https://www.ets.org/Media/Research/pdf/RR-13-24.pdf

 

  • 英語非母語話者の英語エッセイライティング
  • 英語非母語話者の母語は11種類
    1. Arabic
    2. Chinese
    3. French
    4. German
    5. Hindi
    6. Italian
    7. Japanese
    8. Korean
    9. Spanish
    10. Telugu
    11. Turkish
  • 母語の種類ごとに1,100のエッセイ(合計12,100エッセイ)
  • エッセイのトピックは8種類(理由・根拠とともに賛成か反対の意見を述べる)
    1. 専門だけを学ぶより広く学んだ方がよい。
    2. 若い人の方が人生を楽しんでいる。
    3. 最近の若者は忙しすぎて地元のことはできない。
    4. 広告の品はたいてい実物より良く見せている。
    5. 20年後、車の使用は減るだろう。
    6. 旅行はガイド付きのグループ旅行がよい。
    7. 学生は、事実を覚えるより、考えや概念を理解することが重要だ。
    8. よく知っていることだけをするより、失敗を恐れず新しいことをする方が良い。
  • エッセイ評価は、Low Medium High の3種類
    • エッセイ評価の専門家による評価
    • 各ファイルのレベルはメタデータとして別ファイルに
  • データ収集時期は、2006から2007年
  • 生のテキストファイルとtokenizeしたテキストファイルの二種類
  • 文字コードはUTF-8
  • 当初の主目的は、英語非母語話者の母語の特定研究
    1. 82%を訓練データとして
    2.  9%を開発データとして
    3.  9%を評価データとして