*disclaimer
449036
[CHILDES]
CLAN
- CLAN
インストール
- http://dali.talkbank.org/clan/ からダウンロード
- インストールされるのは
- Windowsは
C:\TalkBank\CLAN\
環境設定
- デフォルトで、以下にインストールされる
C:\Talkbank\clan\
- この下に、「作業用ディレクトリ」workが作られる
C:\Talkbank\clan\work\
- この中にサブディレクトリーとして、分析対象ファイルを入れて作業をするのがわかりやすくてよい
- このサブディレクトリーのショートカットを作って、自分のPCのいつものフォルダーに入れておくと便利
ファイル作成
ID headers
- 「Tiers」>「ID headers」で、ファイルの情報を入力
見出し | データ | |
---|---|---|
Speaker IDs: | ||
Language | eng | |
Corpus name: | ||
Name code: | ||
Age[y;m.d] | ||
Sex: | ||
Group | ||
Race / SES: | Unkown | UNK |
Role: | ||
Education: | ||
Custom field: | ||
Optional speaker name: |
CHECK
- depfile.cut というファイルに基づき、フォーマットがチェックされる
Libディレクトリーの設定 c:\TalkBank\CLAN\lib
- depfile.cut を入れておく。
Esc-Lでチェック
コーディング
Coder Mode
- 画面の左下の黒い帯
- [E] はエディターモード
- [chat]はCHATモード
- メニューの「Mode」から「Coder mode」を選ぶ(Esc-e)
- 入力したいコードの一覧が含まれている「コードファイル」を選択するように窓が開く
- /lib/coder/ にサンプルあり。(マニュアルと違うので注意)
- 例: codes1.cut
- /lib/coder/ にサンプルあり。(マニュアルと違うので注意)
- 読み込むと、画面下に、分析ティアの行頭記号が表示される。
- その記号をダブルクリックしていくと、体系的に準備してあるコードが順に入力されていく
- コードは、階層的に配置されていることが想定されている。(下位分類されていく)
- その個所のコードの入力が終わったら
- Ctrl+t で次の発話ティアへ移動
- もしくは、Esc-c でモードを抜けて、該当行へ行った後、再度、Coder modeに。(Esc-e)
- 終わるときは、Esc-c でCoder modeを抜ける
Command Function esc-c finish current code esc-c (again) finish current tier control-z undo control-t or F1 finish current tier and go to next esc-t restrict coding to a particular speaker esc-esc go to the next speaker esc-s show subcodes under cursor
サンプルコード
- /lib/coder のフォルダーに入っている (マニュアルと違うので注意)
- codes-basic.cut ファイル
# coder mode commands: # ESC-e = toggle between coders and text editing modes # ESC-c = move to top codes level, if already there, then move to tier code level # CTRL-T = finish coding current speaker and move to code the next speaker # # coder mode options: # +bN: set number of commands and words before auto-save # +d : do NOT create backup file # +fS: specify fixed-width font S (example: +fCAfont) # +lN: re-order (0 -leave as is, 1 -move to top, 2 -move one step up) # +s1: program will make identical copies of codes across branches # +tS: set CTRL-T command's next speaker to S (+t*FAT) (default: any speaker) # \ +b50 +d +l1 +s1 +fCAfont %spa: " $MOT :POS :Que :Res :NEG " $CHI
このようにしておくと、以下のコードが入力できるようになる。(三つのレベル)
$MOT:POS:Que $MOT:POS:Res $MOT:NEG:Que $MOT:NEG:Res $CHI:POS:Que $CHI:POS:Res $CHI:NEG:Que $CHI:NEG:Res
コーディングのルール
- $で始める
- 一番単純には$と記号で、フラットにコードを決める
- 複数のコードを併記していくことになる。
$NY $NN $VY $VN
- 二番目の方法としては、カテゴリーごとに分けてコードを決める
- 複数のコードを併記していくことになる。
$POS:N $ERR:Y $POS:V $ERR:N
- 三番目の方法としては、階層ごとにカテゴリーを決めて、コードを決める
- コードとして一つにまとまる。
$N:Y $V:N
\ +b50 +d +l1 +s1 +fCAfont
- +b
自動バックアップを取るタイミングの設定
- +d
もとのファイルを .bak という拡張子で保存
- +l
(小文字のL)コードの一覧表示の際の設定: 1にしておくと高頻度順にソート
- +s
コードを省略表記で記述してることの明示。同じ下位コードを使う場合。
下位コードが違う場合は、この手は使えないので、すべて表記。 +s つけない。
独自のコーディングファイルの作成
メニューの「Mode」から、「CHAT mode」のチェックを外す (これは「Text Mode」と呼ばれる) エディターの画面の左下、黒い帯、日付の右が[E|TEXT] となっていることを確認
- commnand-Nで新規ファイルを作成
- 別のエディターで作ってもOK
- 実際には、表計算でコードの一覧表を作り、それを、エディターで整形して、サンプルのコードファイルのコード部分にコピペする。
- 別のエディターで作ってもOK
- すべて明記する場合、
- 一行目に、オプションのライン
- 二行目に、ティアの指定
- % 三文字 コロン タブ
- 三行目から、コード
- ティアごとに違うコードを割り振る場合も、一つのcodes.cutファイルに記述可能
コツ
- 省略式で(+s1を使う方法)で書かないと、コードがすべて表示されて、階層的に選択できなくなるので、コードが多い場合はだめ。
- 選択式で書く場合、重複する下位コードは、「上と同じ」という解釈をされる。
- 下位項目がないものは、上の方に書くこと。
具体的な作業手順(事前にコードファイルは作ってあるとして)
- 分析したいchaファイルを開く。
- Modeをコーディングモードに切り替える
- 初めての時は、使用するcodes.cutファイルを選ぶ
- Ctrl+Tで、上から順にメインティアを見ていく。
- 該当しなければ、そのままCtrl+Tで次のティアへ
- コーディングする場合は、ウィンドウの下のコードが出てきてるところをみて、該当するコードを順にクリックしていく
- 選択し終わったら、Ctrl+Tで次のティアへ
- Esc-Cで終了。
具体的な作業手順2(事前にコードが入れてあるものを修正する)
- 分析するchaファイルを開く
- Esc-Eでコーディングモードに切り替え
- コーディングファイルを読み込む
- Esc-Cでコーディングモードを切る
- Ctrl+Fで該当コードを検索
- Esc-Eでコーディングモード
- 下に表示されるコードをダブルクリックしてコード記入
- Esc-Cでコーディングモードを抜ける
- Ctrl+Fで次を検索
- Esc-Eでコーディングモード
- つづく、、、、
分析
コマンド
- ビデオで見てみましょう
https://talkbank.org/screencasts/commands-1.mp4
https://www.youtube.com/watch?v=CYnOnp4c34k&feature=youtu.be
(YouTubeは解像度が悪いですね)
コマンド ウィンドウ
- メニューの「Window」から「Commands」を選ぶ
- 左上の「working」で「作業ディレクトリー」を指定する「<-Select directory」
- コマンドや、「File In」(分析対象ファイル)や、Tiersを選べるが、
- 直接コマンドを下のボックスに書けばよい。
freq 頻度一覧
- 単語の出現頻度一覧
freq sample.cha
- データ中で無視されるもの
- xxx で表記される理解できない語句
- フィラーなど特殊なものを指示するもの 0, &, +, -, # で始まる表記。
- 特定のティア(行)のみを対象にするオプション
- +tを使って、例えば、子供の発話なら +t*CHI
freq +t*CHI sample.cha
- 出現頻度順 +order
- +o をつける
freq +t*CHI +o sample.cha
- 作業フォルダー内にある複数のファイルを一度に
- +u をつける
- ファイル名は、アスタリスクと拡張子
freq +t*CHI +o +u *.cha
- 特定の文字列 +s(tring)オプションで指定(文字列はダブルクオートに入れる)
freq +s"the" sample.cha
- 特定の語彙リストに含まれる語彙項目についての頻度
- +s@ オプションで@の後ろにファイル名を指定
- ファイル名は何でもよいが、拡張子は .cut としておく
- 例:冠詞を一行一つずつ書いたファイルを articles.cutで作っておく
a an the
freq +s@articles.cut sample.cha
- 結果の保存 +f
freq +t*CHI +o +u +f *.cha
+sオプションで使える「ワイルドカード」
* は、任意の文字列いくつでも(該当するものはすべて検索対象) _ は、任意の一文字 % は、「そこは無視する」(検索対象外)
分析コードの頻度分析例: スピーチアクトの3レベルを例に
- スピーチアクトコードは、3レベルで表記されている
$NIA:RP:NV
- 第一レベル($NIA) は相互作用のタイプ
- 第二レベル(RP)は スピーチアクトのタイプ
- 第三レベル(NV)は コミュニケーションチャンネルの種類
- スピーチアクトのティア(%spa)の指定 +t%spa
- 調べたいコードの指定 +s オプションで、ダブルクオート内で表記
- ワイルドカードの使い方がポイント
freq +s"$*" +t%spa sample.cha
- アスタリスクは、該当するものは何でも分析対象として表示
- パーセントは、何が来ていてもよいが分析対象としない(無視)
$* すべてのコード $*:% 第一レベルのタイプだけ $%:*:% 第二レベルのタイプだけ $RES:*:% 第一レベルがRESのものについての第二レベルのタイプ $*:SEL:% 第二レベルがSELのものについてだけ
- レベルが2つしかない場合は、それ以降はないことを明示的に示すため最後の%%を二つ重ねて表記しておく。
+d0 オプションで、該当行の一覧提示(concordance lines)
- 例: %co3ティアで、AD3というコードを含む行
- AD3の前後にワイルドカード「*」をつける点に注意。
- つけないと、AD3という独立した単語を検索することになる
- AD3の前後にワイルドカード「*」をつける点に注意。
> freq +t*CHI +t%co3 +s"*AD3*" +d0 +u *.cha freq +t*CHI +t%co3 +s*AD3* +d0 +u *.cha Tue Feb 11 16:31:14 2020 freq (17-Jan-2020) is conducting analyses on: ONLY dependent tiers matching: %CO3; **************************************** From file <KS20005.cha> From file <KS20012.cha> From file <KS20019.cha> From file <KS20026b.cha> From file <KS20103.cha> From file <KS20110.cha> From file <KS20117.cha> From file <KS20200.cha> From file <KS20211.cha> From file <KS20214.cha> From file <KS20222.cha> From file <KS20300.cha> From file <KS20304.cha> From file <KS20312b.cha> From file <KS20318.cha> From file <KS20404e.cha> From file <KS20615.cha> From file <KS20803b.cha> From file <KS21007b.cha> From file <KS30000b.cha> Speaker: *CHI: 3 $ELS:SEN:AD3:NA2 File "KS20304.cha": line 157. %co3: $ELS:SEN:AD3:NA2 File "KS21007b.cha": line 3308. %co3: $ELS:SEN:AD3:NA2 File "KS30000b.cha": line 2452. %co3: $ELS:SEN:AD3:NA2 3 $PRP:SEN:AD3:NA2 File "KS20312b.cha": line 2914. %co3: $PRP:SEN:AD3:NA2 File "KS20615.cha": line 3231. %co3: $PRP:SEN:AD3:NA2 File "KS21007b.cha": line 3188. %co3: $PRP:SEN:AD3:NA2 ------------------------------ 2 Total number of different item types used 6 Total number of items (tokens)
+d2オプションで、出力ファイルがExcel用として保存される。★これは強力!
- フォルダー内の個別ファイルごとに、語彙リストとtype, tokenが、一枚のエクセルファイルにまとめて出力される
- +fオプションの指定不要
+d3 オプションで、出力は語彙の一覧を除いた type, token, TTRだけになる。
- +fオプションの指定不要
+d4 で、出力は、type-tokenのみに
kwal で検索
kwal +s"文字列" sample.cha
- 注意:検索対象は、行ではなく、メインティアおよびそれに属する従属ティアを一つの単位とする「クラスター」
> kwal +t*CHI +t%co3 +s"*AD3*" +u *.cha kwal +t*CHI +t%co3 +s*AD3* +u *.cha Tue Feb 11 16:46:21 2020 kwal (17-Jan-2020) is conducting analyses on: ONLY speaker main tiers matching: *CHI; and those speakers' ONLY dependent tiers matching: %CO3; **************************************** From file <KS20005.cha> From file <KS20012.cha> From file <KS20019.cha> From file <KS20026b.cha> From file <KS20103.cha> From file <KS20110.cha> From file <KS20117.cha> From file <KS20200.cha> From file <KS20211.cha> From file <KS20214.cha> From file <KS20222.cha> From file <KS20300.cha> From file <KS20304.cha> ---------------------------------------- *** File "KS20304.cha": line 154. Keyword: $els:sen:ad3:na2 *CHI: ʃenʃa [: sensha] issho . %co3: $ELS:SEN:AD3:NA2 From file <KS20312b.cha> ---------------------------------------- *** File "KS20312b.cha": line 2911. Keyword: $prp:sen:ad3:na2 *CHI: Reechan iya . %co3: $PRP:SEN:AD3:NA2 From file <KS20318.cha> From file <KS20404e.cha> From file <KS20615.cha> ---------------------------------------- *** File "KS20615.cha": line 3228. Keyword: $prp:sen:ad3:na2 *CHI: Akichan joozu . %co3: $PRP:SEN:AD3:NA2 From file <KS20803b.cha> From file <KS21007b.cha> ---------------------------------------- *** File "KS21007b.cha": line 3185. Keyword: $prp:sen:ad3:na2 *CHI: Mikkiisan dame . %co3: $PRP:SEN:AD3:NA2 ---------------------------------------- *** File "KS21007b.cha": line 3305. Keyword: $els:sen:ad3:na2 *CHI: are dame ! %co3: $ELS:SEN:AD3:NA2 From file <KS30000b.cha> ---------------------------------------- *** File "KS30000b.cha": line 2449. Keyword: $els:sen:ad3:na2 *CHI: yama iya . %co3: $ELS:SEN:AD3:NA2 >
Profiling Commands
• C-NNLA: Northwestern Narrative Language Analysis • C-QPA: Quantitative Production Analysis • DSS: Developmental Sentence Score • EVAL: computation of a wide range of indices for aphasia • FluCalc: computation of a wide range of indices for stuttering • IPSyn: Index of Productive Syntax • KIDEVAL: computation of a wide range of indices for child language • MORTABLE: computation of occurrences of grammatical morphemes • SUGAR: Sampling Utterances and Grammatical Analysis Revised
MOR
- File > Get MOR Grammar > English - eng
- Window > commands で、mor を実行
- 対象ファイルは、File in で選択
- 結果は、*.mor.cex という拡張子で保存される。
@UTF8 @Begin @Languages: eng @Participants: CHI @ID: 2_DCT02 *CHI: I get up at six . %mor: pro:sub|I v|get^aux|get prep|up^adv|up prep|at det:num|six . *CHI: I eat breakfast at seven . %mor: pro:sub|I v|eat n|breakfast prep|at det:num|seven . *CHI: I walk to school at eight . %mor: pro:sub|I v|walk^n|walk inf|to^prep|to n|school prep|at det:num|eight . *CHI: <from ten> [//] <from eight> [/] from eight thirty to three study at school . %mor: prep|from det:num|eight det:num|thirty inf|to^prep|to det:num|three v|study^n|study prep|at n|school . *CHI: finish . %mor: v|finish . *CHI: I practice dance to from [/] from three thirty to five ten . %mor: pro:sub|I v|practice^n|practice v|dance^n|dance inf|to^prep|to prep|from det:num|three det:num|thirty inf|to^prep|to det:num|five det:num|ten . @End
- 単純に文字面だけで辞書と照合しているので、「多義語」は選択肢が提示される
inf|to^prep|to
- これを人手で、disambiguateする作業が必要
IPSyn
KIDEVAL
FLUCALC
フォーマット変換:Format Conversion Commands
• CHAT2ANVIL • CHAT2CA • CHAT2CONLL • CHAT2CA • CHAT2ELAN • CHAT2PRAAT • CHAT2SRT • CHAT2TEXT • CHAT2XMAR • ANVIL2CHAT • CONLL2CHAT • ELAN2CHAT • LAB2CHAT • LENA2CHAT • LIPP2CHAT • PRAAT2CHAT • RTF2CHAT • SALT2CHAT • SRT2CHAT • TEXT2CHAT
CHATからXMLへの変換:Chatter
https://talkbank.org/software/chatter.html
Tips
カレントディレクトリー内のファイル一覧
dir
Resources
マニュアル
https://talkbank.org/manuals/CLAN.pdf
[CHILDES]
https://sugiura-ken.org/wiki/