トップ 履歴 一覧 Farm ソース 検索 ヘルプ PDF RSS ログイン

CLAN

*disclaimer
603240

[CHILDES]

CLAN

 インストール

C:\TalkBank\CLAN\

環境設定

  • デフォルトで、以下にインストールされる
C:\Talkbank\clan\
  • この下に、「作業用ディレクトリ」workが作られる
 C:\Talkbank\clan\work\
  • この中にサブディレクトリーとして、分析対象ファイルを入れて作業をするのがわかりやすくてよい
    • このサブディレクトリーのショートカットを作って、自分のPCのいつものフォルダーに入れておくと便利

 ファイル作成

ID headers

  • 「Tiers」>「ID headers」で、ファイルの情報を入力
見出しデータ
Speaker IDs:
Languageeng
Corpus name:
Name code:
Age[y;m.d]
Sex:
Group
Race / SES:UnkownUNK
Role:
Education:
Custom field:
Optional speaker name:

 CHECK

  • depfile.cut というファイルに基づき、フォーマットがチェックされる

Libディレクトリーの設定 c:\TalkBank\CLAN\lib

  • depfile.cut を入れておく。

Esc-Lでチェック

 コーディング

Coder Mode

  • 画面の左下の黒い帯
    • [E] はエディターモード
    • [chat]はCHATモード

  • メニューの「Mode」から「Coder mode」を選ぶ(Esc-e)
  • 入力したいコードの一覧が含まれている「コードファイル」を選択するように窓が開く
    • /lib/coder/ にサンプルあり。(マニュアルと違うので注意)
      • 例: codes1.cut
  • 読み込むと、画面下に、分析ティアの行頭記号が表示される。
  • その記号をダブルクリックしていくと、体系的に準備してあるコードが順に入力されていく
    • コードは、階層的に配置されていることが想定されている。(下位分類されていく)
  • その個所のコードの入力が終わったら
    • Ctrl+t で次の発話ティアへ移動
    • もしくは、Esc-c でモードを抜けて、該当行へ行った後、再度、Coder modeに。(Esc-e)
  • 終わるときは、Esc-c でCoder modeを抜ける
Command Function
esc-c finish current code
esc-c (again) finish current tier
control-z undo
control-t or F1 finish current tier and go to next
esc-t restrict coding to a particular speaker
esc-esc go to the next speaker
esc-s show subcodes under cursor

サンプルコード

  • /lib/coder のフォルダーに入っている (マニュアルと違うので注意)
    • codes-basic.cut ファイル

+b50 +d +l1 +s1 +fCAfont

# coder mode commands:
# ESC-e  = toggle between coders and text editing modes
# ESC-c  = move to top codes level, if already there, then move to tier code level
# CTRL-T = finish coding current speaker and move to code the next speaker
#
# coder mode options:
# +bN: set number of commands and words before auto-save
# +d : do NOT create backup file
# +fS: specify fixed-width font S (example: +fCAfont)
# +lN: re-order (0 -leave as is, 1 -move to top, 2 -move one step up)
# +s1: program will make identical copies of codes across branches
# +tS: set CTRL-T command's next speaker to S (+t*FAT) (default: any speaker)
#
%spa:	
 " $MOT
  :POS
   :Que
   :Res
  :NEG
 " $CHI

このようにしておくと、以下のコードが入力できるようになる。(三つのレベル)

$MOT:POS:Que
$MOT:POS:Res
$MOT:NEG:Que
$MOT:NEG:Res
$CHI:POS:Que
$CHI:POS:Res
$CHI:NEG:Que
$CHI:NEG:Res

コーディングのルール

  • $で始める
  • 一番単純には$と記号で、フラットにコードを決める
    • 複数のコードを併記していくことになる。
$NY $NN $VY $VN 

  • 二番目の方法としては、カテゴリーごとに分けてコードを決める
    • 複数のコードを併記していくことになる。
$POS:N $ERR:Y
$POS:V $ERR:N

  • 三番目の方法としては、階層ごとにカテゴリーを決めて、コードを決める
    • コードとして一つにまとまる。
$N:Y
$V:N





\ +b50 +d +l1 +s1 +fCAfont

+b

自動バックアップを取るタイミングの設定

+d

もとのファイルを .bak という拡張子で保存

+l

(小文字のL)コードの一覧表示の際の設定: 1にしておくと高頻度順にソート

+s

コードを省略表記で記述してることの明示。同じ下位コードを使う場合。
下位コードが違う場合は、この手は使えないので、すべて表記。 +s つけない。

独自のコーディングファイルの作成

メニューの「Mode」から、「CHAT mode」のチェックを外す
(これは「Text Mode」と呼ばれる)
 エディターの画面の左下、黒い帯、日付の右が[E|TEXT] となっていることを確認
  • commnand-Nで新規ファイルを作成
    • 別のエディターで作ってもOK
      • 実際には、表計算でコードの一覧表を作り、それを、エディターで整形して、サンプルのコードファイルのコード部分にコピペする。
  • すべて明記する場合、

  1. 一行目に、オプションのライン
  2. 二行目に、ティアの指定
    1. % 三文字 コロン タブ
  3. 三行目から、コード

  • ティアごとに違うコードを割り振る場合も、一つのcodes.cutファイルに記述可能

コツ

  • 省略式で(+s1を使う方法)で書かないと、コードがすべて表示されて、階層的に選択できなくなるので、コードが多い場合はだめ。
  • 選択式で書く場合、重複する下位コードは、「上と同じ」という解釈をされる。
    • 下位項目がないものは、上の方に書くこと。

具体的な作業手順(事前にコードファイルは作ってあるとして)

  1. 分析したいchaファイルを開く。
  2. Modeをコーディングモードに切り替える
    1. 初めての時は、使用するcodes.cutファイルを選ぶ
  3. Ctrl+Tで、上から順にメインティアを見ていく。
  4. 該当しなければ、そのままCtrl+Tで次のティアへ
  5. コーディングする場合は、ウィンドウの下のコードが出てきてるところをみて、該当するコードを順にクリックしていく
  6. 選択し終わったら、Ctrl+Tで次のティアへ
  7. Esc-Cで終了。

具体的な作業手順2(事前にコードが入れてあるものを修正する)

  1. 分析するchaファイルを開く
  2. Esc-Eでコーディングモードに切り替え
    1. コーディングファイルを読み込む
  3. Esc-Cでコーディングモードを切る
  4. Ctrl+Fで該当コードを検索
  5. Esc-Eでコーディングモード
  6. 下に表示されるコードをダブルクリックしてコード記入
  7. Esc-Cでコーディングモードを抜ける
  8. Ctrl+Fで次を検索
  9. Esc-Eでコーディングモード
  10. つづく、、、、

 分析

コマンド

  • ビデオで見てみましょう

https://talkbank.org/screencasts/commands-1.mp4

https://www.youtube.com/watch?v=CYnOnp4c34k&feature=youtu.be
YouTubeは解像度が悪いですね)

コマンド ウィンドウ

  • メニューの「Window」から「Commands」を選ぶ
  • 左上の「working」で「作業ディレクトリー」を指定する「<-Select directory」
  • コマンドや、「File In」(分析対象ファイル)や、Tiersを選べるが、
    • 直接コマンドを下のボックスに書けばよい。

 freq 頻度一覧

  • 単語の出現頻度一覧
freq sample.cha
    • データ中で無視されるもの
      • xxx で表記される理解できない語句
      • フィラーなど特殊なものを指示するもの 0, &, +, -, # で始まる表記。
  • 特定のティア(行)のみを対象にするオプション
    • +tを使って、例えば、子供の発話なら +t*CHI
freq +t*CHI sample.cha
  • 出現頻度順 +order
    • +o をつける
freq +t*CHI +o sample.cha
  • 作業フォルダー内にある複数のファイルを一度に
    • +u をつける
    • ファイル名は、アスタリスクと拡張子
freq +t*CHI +o +u *.cha
  • 特定の文字列 +s(tring)オプションで指定(文字列はダブルクオートに入れる)
freq +s"the" sample.cha
  • 特定の語彙リストに含まれる語彙項目についての頻度
    • +s@ オプションで@の後ろにファイル名を指定
    • ファイル名は何でもよいが、拡張子は .cut としておく
    • 例:冠詞を一行一つずつ書いたファイルを articles.cutで作っておく
a
an
the

 freq +s@articles.cut sample.cha
  • 結果の保存 +f
freq +t*CHI +o +u +f *.cha

+sオプションで使える「ワイルドカード」

* は、任意の文字列いくつでも(該当するものはすべて検索対象)
_ は、任意の一文字
% は、「そこは無視する」(検索対象外)

分析コードの頻度分析例: スピーチアクトの3レベルを例に

  • スピーチアクトコードは、3レベルで表記されている
$NIA:RP:NV
    • 第一レベル($NIA) は相互作用のタイプ
    • 第二レベル(RP)は スピーチアクトのタイプ
    • 第三レベル(NV)は コミュニケーションチャンネルの種類
  • スピーチアクトのティア(%spa)の指定 +t%spa
  • 調べたいコードの指定 +s オプションで、ダブルクオート内で表記
    • ワイルドカードの使い方がポイント
freq +s"$*" +t%spa sample.cha
      • アスタリスクは、該当するものは何でも分析対象として表示
      •  パーセントは、何が来ていてもよいが分析対象としない(無視)
$*      すべてのコード
$*:%    第一レベルのタイプだけ
$%:*:%   第二レベルのタイプだけ
$RES:*:% 第一レベルがRESのものについての第二レベルのタイプ
$*:SEL:% 第二レベルがSELのものについてだけ
  • レベルが2つしかない場合は、それ以降はないことを明示的に示すため最後の%%を二つ重ねて表記しておく。

+d0 オプションで、該当行の一覧提示(concordance lines)

  • 例: %co3ティアで、AD3というコードを含む行
    • AD3の前後にワイルドカード「*」をつける点に注意。
      • つけないと、AD3という独立した単語を検索することになる
> freq +t*CHI +t%co3 +s"*AD3*" +d0 +u *.cha
freq +t*CHI +t%co3 +s*AD3* +d0 +u *.cha
Tue Feb 11 16:31:14 2020
freq (17-Jan-2020) is conducting analyses on:
  ONLY dependent tiers matching: %CO3;
****************************************
From file <KS20005.cha>
From file <KS20012.cha>
From file <KS20019.cha>
From file <KS20026b.cha>
From file <KS20103.cha>
From file <KS20110.cha>
From file <KS20117.cha>
From file <KS20200.cha>
From file <KS20211.cha>
From file <KS20214.cha>
From file <KS20222.cha>
From file <KS20300.cha>
From file <KS20304.cha>
From file <KS20312b.cha>
From file <KS20318.cha>
From file <KS20404e.cha>
From file <KS20615.cha>
From file <KS20803b.cha>
From file <KS21007b.cha>
From file <KS30000b.cha>
Speaker: *CHI:
  3 $ELS:SEN:AD3:NA2
        File "KS20304.cha": line 157.
      %co3: $ELS:SEN:AD3:NA2
        File "KS21007b.cha": line 3308.
      %co3: $ELS:SEN:AD3:NA2
        File "KS30000b.cha": line 2452.
      %co3: $ELS:SEN:AD3:NA2
  3 $PRP:SEN:AD3:NA2
        File "KS20312b.cha": line 2914.
      %co3: $PRP:SEN:AD3:NA2
        File "KS20615.cha": line 3231.
      %co3: $PRP:SEN:AD3:NA2
        File "KS21007b.cha": line 3188.
      %co3: $PRP:SEN:AD3:NA2
------------------------------
    2  Total number of different item types used
    6  Total number of items (tokens)

+d2オプションで、出力ファイルがExcel用として保存される。★これは強力!

  • フォルダー内の個別ファイルごとに、語彙リストとtype, tokenが、一枚のエクセルファイルにまとめて出力される
  • +fオプションの指定不要

+d3 オプションで、出力は語彙の一覧を除いた type, token, TTRだけになる。

  • +fオプションの指定不要

+d4 で、出力は、type-tokenのみに

 kwal で検索

kwal +s"文字列" sample.cha
  • 注意:検索対象は、行ではなく、メインティアおよびそれに属する従属ティアを一つの単位とする「クラスター」
> kwal +t*CHI +t%co3 +s"*AD3*" +u *.cha
kwal +t*CHI +t%co3 +s*AD3* +u *.cha
Tue Feb 11 16:46:21 2020
kwal (17-Jan-2020) is conducting analyses on:
  ONLY speaker main tiers matching: *CHI;
	and those speakers' ONLY dependent tiers matching: %CO3;
****************************************
From file <KS20005.cha>
From file <KS20012.cha>
From file <KS20019.cha>
From file <KS20026b.cha>
From file <KS20103.cha>
From file <KS20110.cha>
From file <KS20117.cha>
From file <KS20200.cha>
From file <KS20211.cha>
From file <KS20214.cha>
From file <KS20222.cha>
From file <KS20300.cha>
From file <KS20304.cha>
----------------------------------------
*** File "KS20304.cha": line 154. Keyword: $els:sen:ad3:na2 
*CHI:	ʃenʃa [: sensha] issho .
%co3:	$ELS:SEN:AD3:NA2
From file <KS20312b.cha>
----------------------------------------
*** File "KS20312b.cha": line 2911. Keyword: $prp:sen:ad3:na2 
*CHI:	Reechan iya .
%co3:	$PRP:SEN:AD3:NA2
From file <KS20318.cha>
From file <KS20404e.cha>
From file <KS20615.cha>
----------------------------------------
*** File "KS20615.cha": line 3228. Keyword: $prp:sen:ad3:na2 
*CHI:	Akichan joozu .
%co3:	$PRP:SEN:AD3:NA2
From file <KS20803b.cha>
From file <KS21007b.cha>
----------------------------------------
*** File "KS21007b.cha": line 3185. Keyword: $prp:sen:ad3:na2 
*CHI:	Mikkiisan dame .
%co3:	$PRP:SEN:AD3:NA2
----------------------------------------
*** File "KS21007b.cha": line 3305. Keyword: $els:sen:ad3:na2 
*CHI:	are dame !
%co3:	$ELS:SEN:AD3:NA2
From file <KS30000b.cha>
----------------------------------------
*** File "KS30000b.cha": line 2449. Keyword: $els:sen:ad3:na2 
*CHI:	yama iya .
%co3:	$ELS:SEN:AD3:NA2

>  

Profiling Commands

• C-NNLA: Northwestern Narrative Language Analysis
• C-QPA: Quantitative Production Analysis
• DSS: Developmental Sentence Score 
• EVAL: computation of a wide range of indices for aphasia 
• FluCalc: computation of a wide range of indices for stuttering
• IPSyn: Index of Productive Syntax 
• KIDEVAL: computation of a wide range of indices for child language
• MORTABLE: computation of occurrences of grammatical morphemes
• SUGAR: Sampling Utterances and Grammatical Analysis Revised 

 MOR

  • File > Get MOR Grammar > English - eng
  • Window > commands で、mor を実行
    • 対象ファイルは、File in で選択
    • 結果は、*.mor.cex という拡張子で保存される。
@UTF8
@Begin
@Languages:	eng
@Participants:	CHI
@ID:	2_DCT02
*CHI:	I get up at six .
%mor:	pro:sub|I v|get^aux|get prep|up^adv|up prep|at det:num|six .
*CHI:	I eat breakfast at seven .
%mor:	pro:sub|I v|eat n|breakfast prep|at det:num|seven .
*CHI:	I walk to school at eight .
%mor:	pro:sub|I v|walk^n|walk inf|to^prep|to n|school prep|at
	det:num|eight .
*CHI:	<from ten> [//] <from eight> [/] from eight thirty to three study at school .
%mor:	prep|from det:num|eight det:num|thirty inf|to^prep|to det:num|three
	v|study^n|study prep|at n|school .
*CHI:	finish .
%mor:	v|finish .
*CHI:	I practice dance to from [/] from three thirty to five ten .
%mor:	pro:sub|I v|practice^n|practice v|dance^n|dance inf|to^prep|to
	prep|from det:num|three det:num|thirty inf|to^prep|to det:num|five
	det:num|ten .
@End
  • 単純に文字面だけで辞書と照合しているので、「多義語」は選択肢が提示される
inf|to^prep|to
  • これを人手で、disambiguateする作業が必要

 IPSyn



 KIDEVAL


 FLUCALC

 フォーマット変換:Format Conversion Commands

• CHAT2ANVIL
• CHAT2CA
• CHAT2CONLL
• CHAT2CA
• CHAT2ELAN
• CHAT2PRAAT
• CHAT2SRT
• CHAT2TEXT
• CHAT2XMAR

• ANVIL2CHAT
• CONLL2CHAT
• ELAN2CHAT
• LAB2CHAT
• LENA2CHAT
• LIPP2CHAT
• PRAAT2CHAT
• RTF2CHAT
• SALT2CHAT
• SRT2CHAT
• TEXT2CHAT

CHATからXMLへの変換:Chatter

https://talkbank.org/software/chatter.html

 Tips

カレントディレクトリー内のファイル一覧

dir





 Resources

マニュアル

https://talkbank.org/manuals/CLAN.pdf


[CHILDES]