トップ 履歴 一覧 Farm ソース 検索 ヘルプ PDF RSS ログイン

NICT JLE Corpus

*disclaimer
1196325

[Corpus]

The NICT Japanese Learner English (JLE) Corpus

https://alaginrc.nict.go.jp/nict_jle/index.html

 概要

  • 1,281名分
  • 英語インタビューテスト15分
    • 自己紹介・イラスト描写・ロールプレイ・イラストの説明
  • 9段階評価
  • 167ファイルにエラータグ
  • 母語話者コーパスあり

 データ

ダウンロード

https://alaginrc.nict.go.jp/nict_jle/index.html#download

フォーマット XML形式

  • 書き起こし・基本タグ付与ガイドライン

https://alaginrc.nict.go.jp/nict_jle/src/readme_transcription.pdf

全体構成

<interview>
<filename>ファイル名</filename>

<head version="1.3">
<date>日付</date>
<sex>性別</sex>
<age></age>
<country>Japan</country>
<overseas></overseas>
<category></category>
<step>級</step>
<TOEIC>得点</TOEIC>
<TOEFL>得点</TOEFL>
<other_tests></other_tests>
<SST_level>4</SST_level>
<SST_task2>タスクの種類</SST_task2>
<SST_task3>タスクの種類</SST_task3>
<SST_task4>タスクの種類</SST_task4>
</head>

<body basictag_version="2.1.3">
<stage1>
<A>試験官の発話</A>
<B>受験者の発話</B>

</stage1>
<stage2>
<task>

タスク内容

</task>
<followup>

フォローアップ

</followup>
</stage2>
<stage3>
<task>

タスク内容

</task>
<followup>

フォローアップ

</followup>
</stage3>
<stage4>
<task>

タスク内容

</task>
<followup>

フォローアップ

</followup>
</stage4>

<stage5>
終わりの挨拶
</stage5>

</body>
</interview>

発話内タグ

<F>フィラー</F>
<R>繰り返し</R>
<SC>自己訂正</SC>
<.>2,3秒のポーズ</.>
<..>3秒以上のポーズ</..>

<OL>オーバーラップ</OL>
<laughter>笑い</laughter>
<nvs>非言語音</nvs>
<JP>日本語</JP>


 Plain Text化(学習者の発話部分)

必要な情報


<SST_level>4</SST_level>

<B>で始まる行

タグの削除