NICE 2系の問題点とそれを用いた研究への影響の可能性について

●NICE 2系の問題点

これまで、NICE 2.2の公開(2013年11月25日)より、NICE 2の問題点についてWeb ページで説明してきました。その要点は次の通りです。

「NICE全体の問題について、ここで報告するに至ったのは大名力氏のご指摘によるところが大きいです。ご指摘に深く感謝いたします。」

1.データ収集過程において、「一つのテーマについて、1時間で、辞書などの参考書を使用しないで英文エッセイを書く」ということで統制してデータを収集したと説明してきました。しかし、以下の点で条件が統制されていませんでした。

(1)学習者の場合
・エッセイの分量について「500語程度」「500語を目指して」という指示の有無
・監督者の立会いの有無
・テーマの選択の自由の有無
・一人が複数のエッセイを書くか
・ワープロの文章校正機能の使用の有無

(2)母語話者の場合
・エッセイの分量について「500語程度」という指示を大多数に対して出している
・監督者の立会いがない場合が多い
・テーマの選択の自由の有無
・一人が複数のエッセイを書くか

 ※訂正情報
  「第7章 言語習得研究のための学習者コーパス」『言語研究の技法』
  「4・1【概説】学習者コーパス NICE とは」『英語学習者コーパス活用ハンドブック』

2. NICEを用いて研究する者自らが執筆した英文エッセイが含まれています。

3.エッセイ執筆者に関する情報に不整合があります。 (「別紙」参照)

●NICE 2系を用いた研究への影響の可能性

1.石田・杉浦(2015)「[訂正論文]日本人英語学習者による連語表現の言語的特徴 ―判別分析を活用して」『英語コーパス研究』22号、pp. 21–34.[訂正論文について]
データは、学習者データ(JPN001からJPN209)と母語話者データ(NS001からNS200)からファイルを選んで使用しています。訂正論文では、連語表現の総数、異なり数およびGuiraud indexを分析対象としましたが、データを収集する際、契約書に「1時間で書けるだけ(もしくは500語程度)」、指示書に「本番(1時間)」「作文(500語を目指してください)」というあいまいな指示があり、また、この指示を出した場合と出さなかった場合があったために、エッセイの執筆条件が統一されていたとはいえません。
特に、母語話者については「500語程度」という指示を与えたために、500語前後の英文エッセイが増えたと考えられます。データ収集の際にこの指示を与えていなければ、母語話者のエッセイはもっと長いものとなり、それにつれ、連語表現の種類と数にも違いが出ていた可能性が考えられます。
本論文では、この点への配慮が欠けたこと、また、エッセイ収集時に「500語程度」という指示を出したことに言及していないために、本論文に示された結果が「1時間で」という統制条件のみで書かれたエッセイから得られたかのような記述となったことについて、配慮が足りなかったと反省しております。

2.Eguchi, A., & Sugiura, M. (2015). Reconsideration of the Group Score Method in Accuracy Order Studies of Grammatical Morphemes for Japanese EFL Learners. ARELE: Annual Review of English Language Education in Japan, 26, 157–172.
本論文では、第二言語の文法形態素の習得順序研究において広く適用されてきたスコアリング法 (GSM) の潜在的問題点を指摘して、過剰使用もスコアに含める算出方法GSMIIを提案し、NICEの学習者データのうち母語話者による添削文が付与されたファイル(JPN001からJPN201)を使用して動詞形態素を対象にGSMとGSMIIのスコアを熟達度別3グループ間で比較分析しました。その結果に基づいて、熟達度と過剰使用を考慮に入れることにより個々の形態素の習得状況をより詳細に分析できる可能性について議論しました。
ただし、使用した60ファイルはデータ収集に際してWordの文章校正機能が統制されていませんでした。この機能が英文エッセイライティングにおける文法的な正確さにどのような場合にどの程度影響を与えるかは明らかになっていません。したがって、文章校正機能による影響があった可能性を否定することはできません。論文中でこうした可能性に言及しなかったことについて配慮が足りなかったと反省しております。

3.杉浦正利(研究代表者)『自然言語処理技術を応用した英語学習者の誤用に関する包括的かつ体系的分析』平成16年度~平成18年度科学研究費補助金(萌芽研究)研究成果報告書 (課題番号16652044.
本研究では、分析データの一部にNICE ver. 1を使っており、上記のNICE 2系の問題点が含まれています。こうした問題点が分析に影響を与えた可能性は否定できません。本報告書をお読みの際には、上記の問題点をふまえた上でお読みください。なお、本報告書を参考にされる場合は、研究代表者の杉浦までご連絡ください。

その他、NICE 2系のデータを使用した研究に関する疑問点やNICE 2系のデータをご使用の際に疑問点などありましたら杉浦までお問い合わせくださるよう、お願いいたします。

●参考サイト

エッセイライティングにおける語数の目安の指示の影響について

・NICE2系の改善: NICE 2.3 の公開