NICE 2.2

修正と追加情報を加えたNICE 2.2.2 を2015年4月24日に公開しました。

NICE 2.2 公開(2013-11-25)

学習者コーパス NICE (Nagoya Interlanguage Corpus of English)

NICE 2.2の概要

1) 学習者データは、日本語を母語とする大学生または大学院生の英語学習者によって書かれた英文エッセイです。

2) エッセイは、「一つのテーマについて、1時間で、辞書などの参考書を使用しない」で書かれました。
ただし、個々のエッセイについては、データ収集の際に、細かい点では統一されていない条件もあります。たとえば、以下のような点です。
例1)「一時間で」という指示だけの場合と、「一時間で(500語をめざして)」と書く目安も指示した場合
例2)監督者がいる状態で書いた場合と、本人に条件だけを示して監督者がいない状態で書いた場合(監督者がいる場合も、一対一の場合や、一人が複数人を監督した場合などもあります)
例3)11のテーマから好きなものを一つ選んだ場合と、一つのテーマを指定して書いてもらった場合

3) 学習者データの収集手順は、以下の通りです:

1.実験の内容説明と契約書にサイン
2.ワープロソフトを使用し作文(スペルチェック使用)
3.執筆者情報に関するアンケートの実施
4.データ整形(匿名化を含む)

4) 現在、約9割の学習者データにTOEFLやTOEIC等の英語習熟度情報が含まれています。

5) データはCHILDES (Child Language Data Exchange System) のCHAT (Codes for the Human Analysis of Transcripts) に準拠したフォーマットになっています。(一部変則的な部分があります。)

6) 学習者が書いた英文エッセイのうち最初の201ファイルについては、文単位で英語母語話者による添削文が付与されています。
英文が間違いもしくは不自然だと思われる場合は、できるだけ構文・単語を変えずに自然な英文に書き換えてもらいました。
添削作業には複数の英語母語話者がかかわっていますが、個々の英文エッセイはそれぞれ一人の英語母語話者が添削しています。

7) 比較分析するために、英語母語話者によって書かれた英文エッセイを集めた母語話者コーパス(NICE-NS)があります。
ただし、各エッセイは、「一つのテーマについて、1時間で、辞書などの参考書を使用しないで書く」という点では学習者コーパスデータと執筆条件は同じですが、コーパス全体でみると、一人の個人が複数のテーマで複数の英文エッセイを執筆しているものがあります。母語話者コーパスのデータについては、本コーパス企画時にテーマを11にきめ、その11のテーマについて、学習者が英文エッセイをどのテーマで書いてきてももれなく比較ができるように、同じ人に11のテーマのすべてについて書いてもらうということをしました。他には、一人が一つしか書いてないものもありますし、一人が二つ書いたものもあります。詳しくは、添付の「Native_Profile_List」をご覧ください。

8) NICE2.2のパッケージには、NiceReadMe(本ファイル)、ChangeLog(各バージョンの変更点の記録)、Learner_Profile_List、Learner_Profile_List_ReadMe、Native_Profile_List、Native_Profile_List_ReadMe、NoteThat(注意書き)の7つの関連文書ファイル、および以下の5種類のデータの入ったフォルダーが含まれています。

サブコーパス名 説明
NICE-NNS    (学習者コーパス。CHAT形式に概ね準拠。342ファイル)
NICE-NS    (母語話者コーパス。学習者データと比較のため。210ファイル)

NICE-PLAIN  (学習者と母語話者エッセイの本文テキストのみのデータ)
NICE-PARSED  (学習者と母語話者エッセイに品詞タグづけをしたデータ)

NICE-ALS   (学習者エッセイに誤用分析情報を付けたデータ。15ファイル)

[ファイル形式]
(1) フォーマット: 概ねCHAT形式に準拠(一文一行)
(2) 文字コード: Shift_JIS
(3) 改行コード: CR+LF (Windows)

詳しいNICEの解説については以下の文献を参考にしてください。
また、NICEを利用した研究を発表する場合は、以下の文献を参考文献として引用してください。
………………………………………………………………………

杉浦正利 (2011) 「言語習得研究のための学習者コーパス」藤村逸子・滝沢直宏(編)『言語研究の技法』ひつじ書房. pp.123-140.

今回のバージョンアップのポイント

これまで、NICEを使われてきた方へ、今回のバージョンアップのポイントは以下の通りです:

執筆者識別記号の明記

学習者データについては、後から特定の研究の目的のために(同じ人が二つのテーマで書いた場合に、テーマの違いによりエッセイの言語的特徴にどのような影響が出るか等)追加で、以前書いたことがある人にさらにもう一つのテーマで書いてもらったり、一人の人に二つのテーマで書いてもらったエッセイがあります。

こうしたデータも、それ以前のデータと合わせてNICEのデータとして含めていますので、NICEに含まれるファイルの数は、エッセイを書いた人物の数とは一致しません。

母語話者データについては、一人に一テーマについてだけ書いてもらったものもありますが、一人の人に11のテーマすべてについて書いてもらったものもあります。母語話者データについては、本コーパス企画時にテーマを11にきめ、その11のテーマについて、学習者が英文エッセイをどのテーマで書いてきてももれなく比較ができるように、15名の人に11のテーマのすべてについて書いてもらうということをしました(後に2名追加)。従いまして、NICE公開時の母語話者データは200ファイルありますが、200人の異なる個人が一人一つずつ書いたわけではなく、「のべ」200人分のデータです。その後さらに、母語話者データの追加があり、現在は、210ファイルがNICE-NSには含まれています。

分析によっては、特定の個人が書いたエッセイにデータが偏る場合や、一人から1データのサンプルのみを取るべき場合もありますので、母語話者データにつきましては、執筆者の同一性について、識別記号(ParticipantID)をよくご確認の上、取扱いにご注意ください。

NICEに関する注意点の説明とお詫び

上記の、執筆者識別記号に関するの他、データ収集の条件について「一時間で、辞書等を使わずに、英文エッセイを書く」という最大公約数的な条件は同じですが、実際に書いてもらう際には、目安として「500語をめざして」と言った場合や、それを言わずに書いてもらった場合もありました。

また、監督者がいる状況で書いてもらったものや、監督者なしで本人にまかせて書いてもらうということもありました。監督者がいる場合でもその数と執筆者の数の比率は一定ではありませんでした。

11のテーマの中から一つ好きなものを選んで書いてもらった場合や、こちらから、テーマを指定して書いてもらった場合もありました。

例えばこのような点で、NICEのデータは全く同一条件ですべてのデータを収集したとは言えないデータです。

「一時間で、辞書等を使わずに、英文エッセイを書く」という基本的なところは同一ですが、データ収集時に細かい点で、同一条件とはなっていませんでした。こうした点が、データにどのような影響を与えていたかは、現時点では不明です。それぞれ、英文エッセイ・ライティングにおいて、こうした要因がどのような影響を与えるかということは、今後の研究課題だと思います。

これまで行ってきたNICEを使った研究においても、上記のような点に配慮を欠いた研究を行ってしまったものがあります。

すでに研究結果として発表してしまったものは、取り返しがつきませんが、内容をよく読んでいただき、上記の点に配慮が欠けた研究がありましたら「他山の石」としてくださいますよう、お願いいたします。なにか、お気づきの点がありましたらお知らせいただければ幸いです。

研究上、間違いをおかさないように、どうかデータの取扱いにはご注意ください。

なお、こうしたNICEの持つ「問題点」について、これまで十分な配慮がたりず、利用者の方々にお知らせできなかったこと、また、ご迷惑をおかけしたことについて、心よりお詫び申し上げます。

NICEの利用にあたって

本コーパスの使用にあたっては、内容をご確認の上、ご自身の判断と責任の下でご使用ください。本コーパスに含まれているかもしれない予期せぬ誤りや不具合については、いかなる責任も負いかねます。もし誤りや不具合を発見された場合、また、不明な点などありましたら、sugiura@nagoya-u.jpまでご連絡ください。誠意をもって最善を尽くして改善に努めますが、必ずしもそれをお約束することはできません。

以上の点をご理解の上、以下のリンクよりNICEをダウンロードし、ご利用ください。ダウンロードファイルに含まれる関連文書には、必ず目を通してから、ご利用ください。

改訂版のNICE 2.2.2をご利用ください。

これまですでにNICEをダウンロードしてくださった方も、上記の注意すべき点に関する情報と説明の含まれた今回のNICE 2.2をお使いくださるようお願いします。
NICE 2.2 download
ダウンロードに必要なユーザ名とパスワードは以下の通りです:

ユーザ名 Yes

パスワード I will

(パスワードのIとwillの間には半角スペースが一つあります)