NICER 1.3.2

NICER: the Nagoya Interlanguage Corpus of English

Reborn 1.3.2

2020-11-25

杉浦正利

■■ NICERとは ■■

・NICERは、日本語を母語とする英語学習者を例に、第二言語の知識・処理能力がどのようになっているかを解明するために構築している学習者コーパスです。

・データはCHILDES (Child Language Data Exchange System) のCHAT (Codes for the Human Analysis of Transcripts) を参考に作成したフォーマットになっています。
(一部変則的な部分があります。)

・NICER 1.3.1のパッケージには、学習者データと、比較のための母語話者データ、および以下の関連ファイルが含まれています:
サブコーパス名 説明
NICER_NNS   (学習者コーパス。381ファイル)
NICER_NS    (母語話者コーパス。71ファイル)

関連ファイル 説明
NICER1_3_2readme.txt(本ファイル)

Learner_Profile_List.xls(学習者情報一覧)
Learner_Instructions.pdf(学習者用指示文)
Learner_Questionnaier.pdf(学習者用質問事項)

Native_Profile_List.xls(母語話者情報一覧)
Native_Instructions.pdf(母語話者用指示文)
Native_Questionnaire.pdf(母語話者向け質問事項)

★「NICER」という呼び方について
これまでの「NICE3系」は、それ以前の「NICE2系」とは全く別のデータでした。それぞれを「3系」と「2系」と呼ぶことで、区別をしていましたが、単に「NICE」といった場合にどちらを指すかがわかりませんでした。
NICE3系は、これまでバージョン3.3が公開されていました。今回、データを増やすとともに、すべての学習者のエッセイをEducational Testing Service (ETS)のCriterion writing evaluation serviceを使い評価し、そのスコア情報も付加しました。そこで、3.3の改訂版として、3.4とするところでしたが、上記の通り、全く別のデータをバージョン番号の使い分けにより呼び分けるよりも、名称を変更した方が、別のデータであることを明確に示すことができるので良いと判断し、「NICE3.4」としてではなく、「NICER1.0」という名称で公開することとしました。

■「NICE3系」について(バージョン3.3までの説明)
・NICE3系は、それ以前のNICE 2.2.2とは別に、新たに収集をしたデータで構成されています。
便宜上、NICE 3.0以降を、「NICE3系」と呼び、それ以前に収集されたデータを「NICE2系」と呼ぶことにします。
・NICE3系は、属性情報の一部にNICE2系と違い(表記方法の相違も含めて)があります。
・NICE3系は、すべてデータ収集時に監督者の監督のもとで執筆されています。

1) 学習者データは、日本語を母語とする大学生または大学院生の英語学習者によって書かれた英文エッセイです。

2) エッセイは「education」「money」「sports」の三つのテーマから学習者が一つ選び、一時間で、辞書や参考書等を使わずに書かれました。
具体的な指示内容に関しては、添付の「Learner_Instructions.pdf」をご参照下さい。

3) エッセイの執筆にはワープロソフト(WordもしくはOpenOffice)を使っています。
書いてもらう際に、使用するワープロソフトの「オートコレクト」と「スペルチェックと文章校正」の機能を全てオフにしています。

4) エッセイを書き終わった後で、書いた本人にスペルチェックのみ手動で実行してもらい、単語のスペルミスを修正してもらいました。

5) 学習者データの収集手順は、基本的に以下の通りです:

1. 実験の内容説明と契約書(著作権の譲渡)にサイン
2. ワープロソフトを使用し作文、スペルチェック
3. 執筆者情報に関するアンケートの実施
4. データ整形
5. 匿名化(個人の特定につながる可能性のある固有名詞等を{{PersonalInfo}}に置換)
6. 本人のスペルチェックで修正されていなかった明らかなスペルミスを修正

■学習者のエッセイの添削について
・学習者が書いたすべてのエッセイについて、文単位で英語母語話者による添削文が付与されています。
・添削者がエッセイの英文が間違いもしくは不自然だと判断した場合に、最小限の修正で、正しく自然な英文になるように書き換えた英文を元の文の下の行に書いてもらいました。
・添削は一名の母語話者が行いました。添削者は30歳前後のカナダ人の女性で、文芸を専門とするプロの英文添削者(添削経験5年以上)です。

■学習者のファイル毎の執筆者情報をまとめたLearner_Profile_Listについて
・各データファイルにヘッダーとして属性情報が書かれていますが、それを一覧にしたファイルが「Learner_Profile_List」です。

Participants ファイルID
PID 被験者ID
Age 年齢
Sex 性別
YearSch. 学年(Uは学部、Mは大学院修士課程、Dは大学院後期課程、数字は学年)
Major 専攻
StudyHistory 英語学習歴(年.月の形式で、1.6で1年と6ヶ月の意味)
OtherLanguage 英語以外の外国語学習歴(年.月の形式で、1.6で1年と6ヶ月の意味)
Qualification:TOEIC TOEICスコア
Qualification:TOEFL TOEFLスコア
Qualification:Others その他、英語の資格。EIKENの1.5は準一級の意味。
Abroad 英語圏への滞在経験、滞在した国、滞在した期間
Reading 日頃の英語使用状況【読むこと】1(全く使わない)<=== 3(時々使う) ===> 5(ほぼ毎日使う)
Writing 日頃の英語使用状況【書くこと】1(全く使わない)<=== 3(時々使う) ===> 5(ほぼ毎日使う)
Listening 日頃の英語使用状況【聞くこと】1(全く使わない)<=== 3(時々使う) ===> 5(ほぼ毎日使う)
Speaking 日頃の英語使用状況【話すこと】1(全く使わない)<=== 3(時々使う) ===> 5(ほぼ毎日使う)
JapaneseEssay 「日本語で」小論文やレポートを書くのは得意ですか? 1(とても苦手)<======> 5(とても得意)
EnglishEssayEx 「英語で」小論文(エッセー)を書いたことがありますか? 1(全く書いたことがない)<=== 3(何回か書いたことがある) ===> 5(とてもよく書く)
EnglishEssay 「英語で」小論文(エッセー)を書くことは得意ですか? 1(とても苦手)<======> 5(とても得意)
Difficulty 「英語で」小論文(エッセー)を書くことは難しいですか? 1(とても簡単)<======> 5(とても難しい)
EssayTraining 「英語で」小論文(エッセー)を書く訓練を受けたことがありますか? 1(全くない)<=== 3(何回かある) ===> 5(とてもよくある)
SelfEval 今回書いた英語エッセーを自己評価してください。 1(とても悪い)<======> 5(とても良い)
TopicEase 今回書いた英語エッセーのテーマは書きやすかったですか。 1(とても書きにくい)<======> 5(とても書きやすい)
Topic 選択したトピック
Criterion Criterionスコア(ETS Criterion writing evaluation serviceで評価:Grade 12、Expository-6pt)
Proctor データ収集時の監督の有無(1:有、0:無)
Comments 以上のヘッダーに形式上記入できなかったその他の事項
Date 実施日
Version バージョン番号

※具体的なアンケート項目は、添付のLearner_Questionnaire.pdfをご参照ください。
※未回答の項目は「NA」になっています。
※NICE2系とNICER(NICE3系)ではアンケートの項目や、ヘッダーの名称が一部異なります。

■母語話者のファイル毎の執筆者情報をまとめたNative_Profile_Listについて

Participants ファイルID
PID 被験者ID
Age 年齢
Sex 性別
L1 母語(AmEはアメリカ英語、BrEはイギリス英語、OzEはオーストラリア英語、NZEはニュージーランド英語)
FatherL1 父親の母語
MotherL1 母親の母語
AcademicBackground 在学中の場合は現在の学年、それ以外の場合は最終学歴
OtherLanguage 外国語学習歴
Topic 選択したトピック
EnglishEssay How do you evaluate your essay writing skill in general? 1 (poor) <——> 5 (excellent)
SelfEval How do you evaluate the essay you wrote this time? 1 (poor) <——> 5 (excellent)
TopicEase Was it easy to write about the topic of the essay this time? 1 (difficult) <——> 5 (easy)
EssayTraining How much have you ever been trained how to write an English essay? 1 (not at all) <——> 5 (very much)
Proctor データ収集時の監督の有無(1:有、0:無)
Criterion Criterionスコア(ETS Criterion writing evaluation serviceで評価:College 1st Year、Expository-6pt)
Comments 以上のヘッダーに形式上記入できなかったその他の事項
Date 実施日
Version バージョン番号

※具体的なアンケート項目は、添付のNative_Questionnaire.pdfをご参照ください。
※NICE2系とNICER(NICE3系)ではアンケートの項目や、ヘッダーの名称が一部異なります。

———————————————————————————————————
Change Log

2020-11-25
NICER 1.3.2 公開

・JPN875のヘッダー部分で、Criterionスコアが未記載だったので追記。

・母語話者データのうち、NS541からNS571までの31個のファイルについて
ヘッダー部分にCriterionスコアが未記載だったので追記。

・いずれも、プロフィールファイルには記載してあった。

2020-02-20
NICER 1.3.1 公開

・母語話者による添削文の挿入箇所のずれ等を修正
修正したJPNファイル:502、547、548、549、555、566、609、698、701、753、830

2020-01-16
NICER 1.3 公開

・学習者データを32ファイル(JPN850–JPN881)追加

2020-01-09
NICER 1.2 公開

・母語話者データに、Criterionにてエッセイ評定を付与(評定のOptionは、College 1st Yearを使用。学習者と評価基準が違っている点に注意。学習者は、Grade 12)
・ただし、Criterionでは、語数が1000語を超えている場合、評価できないため、語数が1000語以下の40ファイルを対象に評価を付与しました。(1000語を超えているファイルには、評価欄にNAと明記)
・新たにCriterionの評価を付与した母語話者のファイル一覧
NS501.txt NS502.txt NS503.txt NS504.txt NS505.txt
NS506.txt NS507.txt NS508.txt NS510.txt NS511.txt
NS512.txt NS513.txt NS514.txt NS516.txt NS517.txt
NS521.txt NS523.txt NS527.txt NS528.txt NS529.txt
NS531.txt NS534.txt NS536.txt NS543.txt NS544.txt
NS545.txt NS548.txt NS550.txt NS552.txt NS554.txt
NS556.txt NS558.txt NS560.txt NS561.txt NS562.txt
NS563.txt NS565.txt NS567.txt NS568.txt NS570.txt
・母語話者データのエッセイ評定の付与に伴い、ヘッダー部分及びNative_Profile_List.xlsにもCriterionの情報を入力
・文字コードがUTF-8に統一されていなかったため、NNSファイルの文字コードをUTF-8に統一
・Shift-JISからUTF-8に変換
JPN502.txt JPN545.txt JPN546.txt JPN547.txt JPN548.txt
JPN560.txt JPN575.txt JPN581.txt JPN582.txt JPN605.txt
JPN645.txt JPN646.txt JPN649.txt JPN668.txt JPN671.txt
JPN675.txt JPN681.txt JPN683.txt
JPN828.txt
・UTF-8 with BOMからUTF-8に変換
JPN822.txt

2019-04-04
NICER 1.1 公開
・NICER 1.0にデータを追加。
・学習者データ62個追加(JPN788-JPN849)
(1.0の287ファイルに62ファイル追加)
・母語話者データ16個追加(NS556-NS571)
(1.0の55ファイルに16ファイル追加)

2018-04-04
NICER 1.0 公開
・NICE 3.3にデータを追加。
・学習者データ102個追加(JPN686-JPN787)
・母語話者データ15個追加(NS541-NS555)
・学習者データにエッセイのスコア情報を追加
・ETSのCriterionを使用
・評価基準は、Grade 12(高校3年)
・エッセイのタイプは、Expository
・評価段階は、6段階
ーーーーーーーーーーーーーーーーーーーーーーーーー
(以下は、NICE 3.3までのChange Log)

2015-07-30
NICE 3.0 公開
学習者ファイル数107、母語話者ファイル数18

2016-05-28
NICE 3.1 公開
・データの追加
・学習者ファイル数185、母語話者ファイル数36

・データの修正
・文区切りのミス修正
・エッセイを一文一行に整形するスクリプトのバグ対応
・執筆者自身が文の途中で改行を入れてしまった文の修復
・機種依存文字の置き換え
・明らかなスペルミスの修正
・エッセイ本文に含まれないメモ書きの削除
・エッセイ中のサブタイトルの削除
・Native_Profile_Listの修正
・NS501の両親の母語を確認して入力

2016-09-09
NICE 3.2 公開
・母語話者添削情報の追加
・JPN543からJPN607のファイルについて添削情報を追加。
(これにより、107個の学習者ファイルに添削情報が付きました。)

2017-09-07
NICE 3.3 公開
・母語話者データ追加(NS537-NS540)
・学習者ファイル数185、母語話者ファイル数40
・母語話者添削情報の追加:JPN608からJPN685のファイルに母語話者による添削情報を追加
(これにより、185個の学習者ファイル全てに添削情報が付きました。)
・プロフィールリストの修正
・JPN502.txt(PIDJP502)およびJPN640.txt(PIDJP640)のTOEFLスコアのラベルの間違い訂正(iBTではなくITP)
・データファイルのヘッダー情報の修正
・JPN502.txt(PIDJP502)の@QualificationのTOEFL_iBTのスコアをTOEFL_ITPに修正
・JPN640.txt(PIDJP640)の@QualificationのTOEFL_iBTのスコアをTOEFL_ITPに修正
・全角引用符の修正
・データファイル内のテキストに混じっていた全角ダブルクォート,全角シングルクォートを半角に修正
・対象ファイル一覧
・全角ダブルクォート(35ファイル)
・JPN568.txt ・JPN570.txt ・JPN572.txt ・JPN573.txt ・JPN574.txt ・JPN575.txt ・JPN576.txt
・JPN578.txt ・JPN579.txt ・JPN581.txt ・JPN582.txt ・JPN583.txt ・JPN584.txt ・JPN585.txt
・JPN587.txt ・JPN588.txt ・JPN589.txt ・JPN590.txt ・JPN591.txt ・JPN592.txt ・JPN593.txt
・JPN594.txt ・JPN596.txt ・JPN597.txt ・JPN598.txt ・JPN599.txt ・JPN602.txt ・JPN603.txt
・JPN604.txt ・JPN605.txt ・JPN607.txt ・JPN645.txt ・JPN646.txt ・JPN647.txt ・JPN665.txt
・全角シングルクォート(31ファイル)
・JPN568.txt ・JPN569.txt ・JPN576.txt ・JPN578.txt ・JPN579.txt ・JPN583.txt ・JPN584.txt
・JPN585.txt ・JPN587.txt ・JPN588.txt ・JPN590.txt ・JPN591.txt ・JPN596.txt ・JPN597.txt
・JPN600.txt ・JPN603.txt ・JPN604.txt ・JPN605.txt ・JPN609.txt ・JPN612.txt ・JPN618.txt
・JPN644.txt ・JPN645.txt ・JPN646.txt ・JPN647.txt ・JPN648.txt ・JPN649.txt ・JPN650.txt
・JPN651.txt ・JPN654.txt ・JPN655.txt
———————————————————————————————————
■利用規約
・教育研究目的の使用は無料です。
・事前の許可なく再配布することを禁止します。配布元より使用者が直接ダウンロードしてください。
・ダウンロードすること自体に許可は必要ありませんが、ダウンロードをした時点で、本データの利用規約、免責条項および著作権に同意したものとみなします。
・本データ及び関連情報を利用して個人を特定する行為を禁じます。

■免責条項
・本データの公開にあたって、データの正確さや配布に関していかなる保証もいたしません。
・本データの利用によっていかなる不利益を受けたとしてもその責任は一切取りません。
・本データ及び関連情報の全体もしくは一部を事前の通告なく変更・削除することがあります。

■著作権について
・本データの著作権はすべて杉浦正利が保持します。
———————————————————————————————————

■NICERは、科研費(24320105及び16H03444)の助成を受けた研究成果の一部です。

———————————————————————————————————
以上

NICER 1.3.2 download

ダウンロードに必要なユーザ名とパスワードは以下の通りです:

ユーザ名 Yes

パスワード I will

(パスワードのIとwillの間には半角スペースが一つあります)