*disclaimer
451602
CLANでNICERを処理する
CHATに基づくNICERのフォーマット
共通点
- ファイルは@Beginで始まり@Endで終わる。
- 「ヘッダー情報」は、ファイルの先頭部分で、行頭に@項目名で示す
- 「本文部分」は、行頭にアスタリスク+話者記号で、一発話一行で記述
- 各発話の関連情報は、発話の下(次の発話との間)に、行頭に%項目名で示す
- 行の先頭の項目名と内容との間は、コロンとタブで区切る
CHATフォーマット
minCHATという最低限の枠
@Begin @Languages: eng @Participants: CHI @ID: *CHI: @End
NICERのフォーマット
- ヘッダー情報の注意点
- @Qualification で英語力を示す試験のスコア情報
- @Abroad で海外滞在経験
- @Topic でエッセイのトピック
- @Criterion で、そのエッセイをCriterionにかけた時の評価スコア(6点満点)
@Begin @Participants: JPN501 @PID: PIDJP501 @Age: 21 @Sex: F @YearInSchool: U2 @Major: agriculture @StudyHistory: 8 @OtherLanguage: Chinese=1.0;none= @Qualification: TOEIC=590(2013);none=;none= @Abroad: none=;none= (中略) @Topic: sports @Criterion: 4 (中略) *JPN501: What kind of sports do you like? %NTV: OK %COM: (本文以下省略) @End
- 本文部分
- *JPN501 は話者記号
- %NTV は英語母語の添削者による訂正(書き換え)文
- %COM は添削時のコメント
- この3行がセットとなって、発話の数だけ含まれる
- 実例: JPN501.txt
CLANの準備
インストール
workingディレクトリーの設定
- CLAN起動後、コマンド・ウィンドウ内の一番上「working」で設定
- 分析対象とするファイルを入れたフォルダーを指定
- あらかじめ、分析対象とするファイルを選んでおくのがコツ
- 分析対象とするファイルを入れたフォルダーを指定
CLANの実行
コマンド・ウィンドウ
- Progs
- コマンドを選ぶ(例:検索 kwal)
- コマンドボックス内に選んだコマンドが表示される
- 選んだコマンドに応じて、ボタンが表示される(例:「File In」「Tiers」「Search」)
- File In
- 分析対象とするファイルを選ぶ
- その際に、「Filter」で、「All files (*.*)」にして、拡張子.txtも読めるように。
- 「Add All」でフォルダー内ファイル全部
- 「Done」で設定完了
- コマンドボックス内に「@」が表示される
- 分析対象とするファイルを選ぶ
- Tiers
- 対象とするティアを選ぶ。話者行は「*speaker tier」
- 具体的な話者記号を指定する場合は、右枠内に記入(例: *CHI)
- コマンドボックス内に「+t*」と表示
- 対象とするティアを選ぶ。話者行は「*speaker tier」
- Search
- 対象とする文字列 word を指定(例:whenと入力)
- コマンドボックス内に「+s"when"」と表示
- 対象とする文字列 word を指定(例:whenと入力)
- 右下の「Run」で実行
- カーソルキーの上下で、コマンドの履歴一覧を表示・選択できる
実行結果
分析の仕方
分析コード
- CLANを使って、大量のデータに対して分析コードをつける方法は以下を参照
https://sugiura-ken.org/wiki/wiki.cgi/exp?page=CLAN#p8
https://talkbank.org/manuals/CHAT.html#_Toc107417330
- ポイントは以下のようなコードがデータについていればよい
$MOT:POS:Que $MOT:POS:Res $MOT:NEG:Que $MOT:NEG:Res $CHI:POS:Que $CHI:POS:Res $CHI:NEG:Que $CHI:NEG:Res
- コーディングのルールに従ってコードをつける
- $で始める
- 階層関係は:で区切る(スペースなし)
- 複数のコードを一つのティアに書く場合は、間に半角スペースを置く(単語を並べるのと同じ)
- コードを書くティアは%COD以外でも、自由にティア名を付けて作ってよい
%COD: $N:Y $V:N
分析コードの頻度算出
- CLANのFREQコマンドで、対象のティアを分析コードティアにして、頻度を出す。
- コードの頻度一覧が出る。
分析の例:文のタイプと文型の分析
コード
- 三つの分析ティア
- %SNT 文のタイプ
- DE 平叙, IN 疑問, IW WH疑問, IM 命令, EX 感嘆
- S 単文, cSS 従+主, ScS 主+従, StS 主+that節
- %CNS 文型
- s0 フラグメント, s1, s2, s3, s4, s5, s6, s7
- A 肯定, N 否定
- there構文, PASS受身
- %REC 関係節
- who, which, what, where, when, that
- nom 主格, obj 目的格, app 同格のthat
- %SNT 文のタイプ
実際のコーディング例(部分)
*JPN501: They are called "BUDO". %NTV: They are called budo. %COM: This word does not require capitalization. %SNT: $DE:S %CNS: $s5:A:PASS *JPN501: BUDO are JYUDO, KENDO, KYUDO and so on. %NTV: Budo include judo, kendo, kyudo, and so on. %COM: These words do not require capitalization. %SNT: $DE:S %CNS: $s2:A *JPN501: If you play BUDO, there is an important thing that you must remember. %NTV: If you play budo, there is one important thing you must remember. %COM: %SNT: $DE:cSS %CNS: $s3:A $s1:A:there %REC: $that:obj
https://sugiura-ken.org/wiki/