トップ 差分 一覧 Farm ソース 検索 ヘルプ PDF RSS ログイン

CLANdeNICER

*disclaimer
306250

CLAN
NICER

CLANNICERを処理する


 CHATに基づくNICERのフォーマット


共通点

  • ファイルは@Beginで始まり@Endで終わる。
  • 「ヘッダー情報」は、ファイルの先頭部分で、行頭に@項目名で示す
  • 「本文部分」は、行頭にアスタリスク+話者記号で、一発話一行で記述
  • 各発話の関連情報は、発話の下(次の発話との間)に、行頭に%項目名で示す
  • 行の先頭の項目名と内容との間は、コロンとタブで区切る




CHATフォーマット

minCHATという最低限の枠

@Begin
@Languages:	eng
@Participants:	CHI
@ID:	
*CHI:	
@End


NICERのフォーマット

  • ヘッダー情報の注意点
    • @Qualification で英語力を示す試験のスコア情報
    • @Abroad で海外滞在経験
    • @Topic でエッセイのトピック
    • @Criterion で、そのエッセイをCriterionにかけた時の評価スコア(6点満点)
@Begin
@Participants:	JPN501
@PID:	PIDJP501
@Age:	21
@Sex:	F
@YearInSchool:	U2
@Major:	agriculture
@StudyHistory:	8
@OtherLanguage:	Chinese=1.0;none=
@Qualification:	TOEIC=590(2013);none=;none=
@Abroad:	none=;none=
(中略)
@Topic:	sports
@Criterion:	4
(中略)
*JPN501:	What kind of sports do you like?
%NTV:	OK
%COM:	
(本文以下省略)
@End
  • 本文部分
    • *JPN501 は話者記号
    • %NTV は英語母語の添削者による訂正(書き換え)文
    • %COM は添削時のコメント

  • この3行がセットとなって、発話の数だけ含まれる



 CLANの準備

インストール

workingディレクトリーの設定

  • CLAN起動後、コマンド・ウィンドウ内の一番上「working」で設定
    • 分析対象とするファイルを入れたフォルダーを指定
      • あらかじめ、分析対象とするファイルを選んでおくのがコツ

 CLANの実行

コマンド・ウィンドウ

  • Progs
    • コマンドを選ぶ(例:検索 kwal)
    • コマンドボックス内に選んだコマンドが表示される
    • 選んだコマンドに応じて、ボタンが表示される(例:「File In」「Tiers」「Search」)
  • File In
    • 分析対象とするファイルを選ぶ
      • その際に、「Filter」で、「All files (*.*)」にして、拡張子.txtも読めるように。
      • 「Add All」でフォルダー内ファイル全部
      • 「Done」で設定完了
      • コマンドボックス内に「@」が表示される
  • Tiers
    • 対象とするティアを選ぶ。話者行は「*speaker tier」
      • 具体的な話者記号を指定する場合は、右枠内に記入(例: *CHI)
      • コマンドボックス内に「+t*」と表示
  • Search
    • 対象とする文字列 word を指定(例:whenと入力)
      • コマンドボックス内に「+s"when"」と表示
  • 右下の「Run」で実行
  • カーソルキーの上下で、コマンドの履歴一覧を表示・選択できる

実行結果

 分析の仕方

分析コード

  • CLANを使って、大量のデータに対して分析コードをつける方法は以下を参照

https://sugiura-ken.org/wiki/wiki.cgi/exp?page=CLAN#p8
https://talkbank.org/manuals/CHAT.html#_Toc107417330

  • CLANを使ってコードを付けることもできるが、
  • CLANを使わずに、普通のテキストエディターでコードを付けてもよい

  • ポイントは以下のようなコードがデータについていればよい
$MOT:POS:Que
$MOT:POS:Res
$MOT:NEG:Que
$MOT:NEG:Res
$CHI:POS:Que
$CHI:POS:Res
$CHI:NEG:Que
$CHI:NEG:Res

  • コーディングのルールに従ってコードをつける
    • $で始める
    • 階層関係は:で区切る(スペースなし)
    • 複数のコードを一つのティアに書く場合は、間に半角スペースを置く(単語を並べるのと同じ)
    • コードを書くティアは%COD以外でも、自由にティア名を付けて作ってよい
%COD: $N:Y $V:N

分析コードの頻度算出

  • CLANのFREQコマンドで、対象のティアを分析コードティアにして、頻度を出す。
  • コードの頻度一覧が出る。


 分析の例:文のタイプと文型の分析

コード

  • 三つの分析ティア
    • %SNT 文のタイプ
      • DE 平叙, IN 疑問, IW WH疑問, IM 命令, EX 感嘆
      • S 単文, cSS 従+主, ScS 主+従, StS 主+that節
    • %CNS 文型
      • s0 フラグメント, s1, s2, s3, s4, s5, s6, s7
      • A 肯定, N 否定
      • there構文, PASS受身
    • %REC 関係節
      • who, which, what, where, when, that
      • nom 主格, obj 目的格, app 同格のthat

実際のコーディング例(部分)

*JPN501:	They are called "BUDO".
%NTV:	They are called budo.
%COM:	This word does not require capitalization.
%SNT:	$DE:S
%CNS:	$s5:A:PASS
*JPN501:	BUDO are JYUDO, KENDO, KYUDO and so on.
%NTV:	Budo include judo, kendo, kyudo, and so on.
%COM:	These words do not require capitalization.
%SNT:	$DE:S
%CNS:	$s2:A
*JPN501:	If you play BUDO, there is an important thing that you must remember.
%NTV:	If you play budo, there is one important thing you must remember. 
%COM:	
%SNT:	$DE:cSS
%CNS:	$s3:A $s1:A:there
%REC:	$that:obj

%SNT 文のタイプの頻度分析


%CNS 文型の頻度分析


%REC 関係節の頻度分析