*disclaimer
1196325
[Corpus]
The NICT Japanese Learner English (JLE) Corpus
https://alaginrc.nict.go.jp/nict_jle/index.html
概要
- 1,281名分
- 英語インタビューテスト15分
- 自己紹介・イラスト描写・ロールプレイ・イラストの説明
- 9段階評価
- 167ファイルにエラータグ
- 母語話者コーパスあり
データ
ダウンロード
https://alaginrc.nict.go.jp/nict_jle/index.html#download
フォーマット XML形式
- 書き起こし・基本タグ付与ガイドライン
https://alaginrc.nict.go.jp/nict_jle/src/readme_transcription.pdf
全体構成
<interview> <filename>ファイル名</filename> <head version="1.3"> <date>日付</date> <sex>性別</sex> <age></age> <country>Japan</country> <overseas></overseas> <category></category> <step>級</step> <TOEIC>得点</TOEIC> <TOEFL>得点</TOEFL> <other_tests></other_tests> <SST_level>4</SST_level> <SST_task2>タスクの種類</SST_task2> <SST_task3>タスクの種類</SST_task3> <SST_task4>タスクの種類</SST_task4> </head> <body basictag_version="2.1.3"> <stage1> <A>試験官の発話</A> <B>受験者の発話</B> </stage1> <stage2> <task> タスク内容 </task> <followup> フォローアップ </followup> </stage2> <stage3> <task> タスク内容 </task> <followup> フォローアップ </followup> </stage3> <stage4> <task> タスク内容 </task> <followup> フォローアップ </followup> </stage4> <stage5> 終わりの挨拶 </stage5> </body> </interview>
発話内タグ
<F>フィラー</F> <R>繰り返し</R> <SC>自己訂正</SC> <.>2,3秒のポーズ</.> <..>3秒以上のポーズ</..> <OL>オーバーラップ</OL> <laughter>笑い</laughter> <nvs>非言語音</nvs> <JP>日本語</JP>
Plain Text化(学習者の発話部分)
必要な情報
<SST_level>4</SST_level>
<B>で始まる行
タグの削除
https://sugiura-ken.org/wiki/