Nagoya Interlanguage Corpus of English (NICE) 3.1
2016-05-27
杉浦正利
■■ NICEについて ■■
・NICEは、日本語を母語とする英語学習者を例に、第二言語の知識・処理能力がどのようになっているかを解明するために構築している学習者コーパスです。
・データはCHILDES (Child Language Data Exchange System) のCHAT (Codes for the Human Analysis of Transcripts) を参考に作成したフォーマットになっています。
(一部変則的な部分があります。)
・NICE 3.1のパッケージには、学習者データと、比較のための母語話者データ、および以下の関連ファイルが含まれています:
サブコーパス名 説明
NICE-NNS (学習者コーパス。185ファイル)
NICE-NS (母語話者コーパス。36ファイル)
関連ファイル 説明
NICE3_1readme_20160528.txt(本ファイル)
Learner_Profile_List.xls(学習者情報一覧)
Learner_Instructions.pdf(学習者用指示文)
Learner_Questionnaier.pdf(学習者用質問事項)
Native_Profile_List.xls(母語話者情報一覧)
Native_Instructions.pdf(母語話者用指示文)
Native_Questionnaire.pdf(母語話者向け質問事項)
■「NICE3系」について
・NICE 3.1は、それ以前のNICE 2.2.2とは別に、新たに収集をしたデータで構成されています。
便宜上、NICE 3.0以降を、「NICE3系」と呼び、NICE 2.2.2までのものを「NICE2系」と呼ぶことにします。
・NICE3系は、属性情報の一部にNICE2系と違い(表記方法の相違も含めて)があります。
・NICE3系は、すべてデータ収集時に監督者の監督のもとで執筆されています。
1) 学習者データは、日本語を母語とする大学生または大学院生の英語学習者によって書かれた英文エッセイです。
2) エッセイは「education」「money」「sports」の三つのテーマから学習者が一つ選び、一時間で、辞書や参考書等を使わずに書かれました。
具体的な指示内容に関しては、添付の「Learner_Instructions.pdf」をご参照下さい。
3) エッセイの執筆にはワープロソフト(WordもしくはOpenOffice)を使っています。
書いてもらう際に、使用するワープロソフトの「オートコレクト」と「スペルチェックと文章校正」の機能を全てオフにしています。
4) エッセイを書き終わった後で、書いた本人にスペルチェックのみ手動で実行してもらい、単語のスペルミスを修正してもらいました。
5) 学習者データの収集手順は、基本的に以下の通りです:
1. 実験の内容説明と契約書(著作権の譲渡)にサイン
2. ワープロソフトを使用し作文、スペルチェック
3. 執筆者情報に関するアンケートの実施
4. データ整形
5. 匿名化(個人の特定につながる可能性のある固有名詞等を{{PersonalInfo}}に置換)
6. 本人のスペルチェックで修正されていなかった明らかなスペルミスを修正
■学習者のエッセイの添削について
・学習者が書いたエッセイのうちのJPN501-JPN542のファイルについては、文単位で英語母語話者による添削文が付与されています。
・添削者がエッセイの英文が間違いもしくは不自然だと判断した場合に、最小限の修正で、正しく自然な英文になるように書き換えた英文を元の文の下の行に書いてもらいました。
・添削は一名の母語話者が行いました。添削者は30歳前後のカナダ人の女性で、文芸を専門とするプロの英文添削者(添削経験約5年)です。
■学習者のファイル毎の執筆者情報をまとめたLearner_Profile_Listについて
・各データファイルにヘッダーとして属性情報が書かれていますが、それを一覧にしたファイルが「Learner_Profile_List」です。
Participants ファイルID PID 被験者ID Age 年齢 Sex 性別 YearSch. 学年(Uは学部、Mは大学院修士課程、Dは大学院後期課程、数字は学年) Major 専攻 StudyHistory 英語学習歴(年.月の形式で、1.6で1年と6ヶ月の意味) OtherLanguage 英語以外の外国語学習歴(年.月の形式で、1.6で1年と6ヶ月の意味) Qualification:TOEIC TOEICスコア Qualification:TOEFL TOEFLスコア Qualification:Others その他、英語の資格。EIKENの1.5は準一級の意味。 Abroad 英語圏への滞在経験、滞在した国、滞在した期間 Reading 日頃の英語使用状況【読むこと】1(全く使わない)< === 3(時々使う) ===> 5(ほぼ毎日使う) Writing 日頃の英語使用状況【書くこと】1(全く使わない)< === 3(時々使う) ===> 5(ほぼ毎日使う) Listening 日頃の英語使用状況【聞くこと】1(全く使わない)< === 3(時々使う) ===> 5(ほぼ毎日使う) Speaking 日頃の英語使用状況【話すこと】1(全く使わない)< === 3(時々使う) ===> 5(ほぼ毎日使う) JapaneseEssay 「日本語で」小論文やレポートを書くのは得意ですか? 1(とても苦手)< ======> 5(とても得意) EnglishEssayEx 「英語で」小論文(エッセー)を書いたことがありますか? 1(全く書いたことがない)< === 3(何回か書いたことがある) ===> 5(とてもよく書く) EnglishEssay 「英語で」小論文(エッセー)を書くことは得意ですか? 1(とても苦手)< ======> 5(とても得意) Difficulty 「英語で」小論文(エッセー)を書くことは難しいですか? 1(とても簡単)< ======> 5(とても難しい) EssayTraining 「英語で」小論文(エッセー)を書く訓練を受けたことがありますか? 1(全くない)< === 3(何回かある) ===> 5(とてもよくある) SelfEval 今回書いた英語エッセーを自己評価してください。 1(とても悪い)< ======> 5(とても良い) TopicEase 今回書いた英語エッセーのテーマは書きやすかったですか。 1(とても書きにくい)< ======> 5(とても書きやすい) Topic 選択したトピック TWE TWEスコア(評価してないので空欄です) Proctor データ収集時の監督者 Comments 以上のヘッダーに形式上記入できなかったその他の特筆すべき事項 Date 実施日 Version バージョン番号
※具体的なアンケート項目は、添付のLearner_Questionnaire.pdfをご参照ください。
※未回答の項目は「NA」になっています。
※NICE2系とNICE3系ではアンケートの項目や、ヘッダーの名称が一部異なります。
■母語話者のファイル毎の執筆者情報をまとめたNative_Profile_Listについて
Participants ファイルID PID 被験者ID Age 年齢 Sex 性別 L1 母語(AmEはアメリカ英語、BrEはイギリス英語、OzEはオーストラリア英語、NZEはニュージーランド英語) FatherL1 父親の母語 MotherL1 母親の母語 AcademicBackground 在学中の場合は現在の学年、それ以外の場合は最終学歴 OtherLanguage 外国語学習歴 Topic 選択したトピック EnglishEssay How do you evaluate your essay writing skill in general? 1 (poor) < ------> 5 (excellent) SelfEval How do you evaluate the essay you wrote this time? 1 (poor) < ------> 5 (excellent) TopicEase Was it easy to write about the topic of the essay this time? 1 (difficult) < ------> 5 (easy) EssayTraining Have you ever been trained how to write an English essay? 1 (not at all) < ------> 5 (very much) Proctor データ収集時の監督者 Comments 以上のヘッダーに形式上記入できなかったその他の特筆すべき事項 Date 実施日 Version バージョン番号
※具体的なアンケート項目は、添付のNative_Questionnaire.pdfをご参照ください。
※NICE2系とNICE3系ではアンケートの項目や、ヘッダーの名称が一部異なります。
―――――――――――――――――――――――――――――――――――
■ChangeLog
2015-07-30 NICE 3.0 公開 学習者ファイル数107、母語話者ファイル数18 2016-05-28 NICE 3.1 公開 ・データの追加 ・学習者ファイル数185、母語話者ファイル数36 ・データの修正 ・文区切りのミス修正 ・エッセイを一文一行に整形するスクリプトのバグ対応 ・執筆者自身が文の途中で改行を入れてしまった文の修復 ・機種依存文字の置き換え ・明らかなスペルミスの修正 ・エッセイ本文に含まれないメモ書きの削除 ・エッセイ中のサブタイトルの削除 ・Native_Profile_Listの修正 ・NS501の両親の母語を確認して入力
―――――――――――――――――――――――――――――――――――
■免責条項
・本データの公開にあたって、データの正確さや配布に関していかなる保証もいたしません。
・本データの利用によっていかなる不利益を受けたとしてもその責任は一切取りません。
・本データの全体もしくは一部を事前の通告なく変更・削除することがあります。
■著作権について
・本データの著作権はすべて杉浦正利が保持します。
・教育研究目的の使用は無料です。
・事前の許可なく再配布することを禁止します。配布元より使用者が直接ダウンロードしてください。
・ダウンロードすること自体に許可は必要ありませんが、ダウンロードをした時点で、本データの著作権および免責条項に同意したものとみなします。
―――――――――――――――――――――――――――――――――――
■NICE 3.1は、科研費(24320105)の助成を受けた研究成果の一部です。
―――――――――――――――――――――――――――――――――――
NICE 3.1 download
ダウンロードに必要なユーザ名とパスワードは以下の通りです:
ユーザ名 Yes
パスワード I will
(パスワードのIとwillの間には半角スペースが一つあります)