{{category CHILDES}} !!!CLAN {{outline}} !!インストール *http://dali.talkbank.org/clan/ からダウンロード *インストールされるのは **Windowsは C:\TalkBank\CLAN\ !環境設定 *デフォルトで、以下にインストールされる C:\Talkbank\clan\ *この下に、「作業用ディレクトリ」workが作られる C:\Talkbank\clan\work\ *この中にサブディレクトリーとして、分析対象ファイルを入れて作業をするのがわかりやすくてよい **このサブディレクトリーのショートカットを作って、自分のPCのいつものフォルダーに入れておくと便利 !!ファイル作成 !ID headers *「Tiers」>「ID headers」で、ファイルの情報を入力 ,見出し, データ ,Speaker IDs:, ,Language, eng ,Corpus name:, ,Name code:, ,Age[y;m.d], ,Sex:, ,Group, ,Race / SES:, Unkown, UNK ,Role:, ,Education:, ,Custom field:, ,Optional speaker name:, !!CHECK *depfile.cut というファイルに基づき、フォーマットがチェックされる !Libディレクトリーの設定 c:\TalkBank\CLAN\lib * depfile.cut を入れておく。 !Esc-Lでチェック !!コーディング !Coder Mode *画面の左下の黒い帯 **[E] はエディターモード **[chat]はCHATモード *メニューの「Mode」から「Coder mode」を選ぶ(Esc-e) *入力したいコードの一覧が含まれている「コードファイル」を選択するように窓が開く ** /lib/coder/ にサンプルあり。(マニュアルと違うので注意) ***例: codes1.cut *読み込むと、画面下に、分析ティアの行頭記号が表示される。 *その記号をダブルクリックしていくと、体系的に準備してあるコードが順に入力されていく **コードは、階層的に配置されていることが想定されている。(下位分類されていく) *その個所のコードの入力が終わったら **Ctrl+t で次の発話ティアへ移動 **もしくは、Esc-c でモードを抜けて、該当行へ行った後、再度、Coder modeに。(Esc-e) *終わるときは、Esc-c でCoder modeを抜ける {{pre Command Function esc-c finish current code esc-c (again) finish current tier control-z undo control-t or F1 finish current tier and go to next esc-t restrict coding to a particular speaker esc-esc go to the next speaker esc-s show subcodes under cursor }} !サンプルコード */lib/coder のフォルダーに入っている (マニュアルと違うので注意) **codes-basic.cut ファイル {{pre # coder mode commands: # ESC-e = toggle between coders and text editing modes # ESC-c = move to top codes level, if already there, then move to tier code level # CTRL-T = finish coding current speaker and move to code the next speaker # # coder mode options: # +bN: set number of commands and words before auto-save # +d : do NOT create backup file # +fS: specify fixed-width font S (example: +fCAfont) # +lN: re-order (0 -leave as is, 1 -move to top, 2 -move one step up) # +s1: program will make identical copies of codes across branches # +tS: set CTRL-T command's next speaker to S (+t*FAT) (default: any speaker) # \ +b50 +d +l1 +s1 +fCAfont %spa: " $MOT :POS :Que :Res :NEG " $CHI }} このようにしておくと、以下のコードが入力できるようになる。(三つのレベル) {{pre $MOT:POS:Que $MOT:POS:Res $MOT:NEG:Que $MOT:NEG:Res $CHI:POS:Que $CHI:POS:Res $CHI:NEG:Que $CHI:NEG:Res }} !コーディングのルール *$で始める *一番単純には$と記号で、フラットにコードを決める **複数のコードを併記していくことになる。 $NY $NN $VY $VN *二番目の方法としては、カテゴリーごとに分けてコードを決める **複数のコードを併記していくことになる。 $POS:N $ERR:Y $POS:V $ERR:N *三番目の方法としては、階層ごとにカテゴリーを決めて、コードを決める **コードとして一つにまとまる。 $N:Y $V:N !\ +b50 +d +l1 +s1 +fCAfont ::+b 自動バックアップを取るタイミングの設定 ::+d もとのファイルを .bak という拡張子で保存 ::+l (小文字のL)コードの一覧表示の際の設定: 1にしておくと高頻度順にソート ::+s コードを省略表記で記述してることの明示。同じ下位コードを使う場合。 下位コードが違う場合は、この手は使えないので、すべて表記。 +s つけない。 !独自のコーディングファイルの作成 {{pre メニューの「Mode」から、「CHAT mode」のチェックを外す (これは「Text Mode」と呼ばれる)  エディターの画面の左下、黒い帯、日付の右が[E|TEXT] となっていることを確認 }} *commnand-Nで新規ファイルを作成 **別のエディターで作ってもOK ***実際には、表計算でコードの一覧表を作り、それを、エディターで整形して、サンプルのコードファイルのコード部分にコピペする。 *すべて明記する場合、 +一行目に、オプションのライン +二行目に、ティアの指定 ++% 三文字 コロン タブ +三行目から、コード *ティアごとに違うコードを割り振る場合も、一つのcodes.cutファイルに記述可能 !コツ *省略式で(+s1を使う方法)で書かないと、コードがすべて表示されて、階層的に選択できなくなるので、コードが多い場合はだめ。 *選択式で書く場合、重複する下位コードは、「上と同じ」という解釈をされる。 **下位項目がないものは、上の方に書くこと。 !具体的な作業手順(事前にコードファイルは作ってあるとして) +分析したいchaファイルを開く。 +Modeをコーディングモードに切り替える ++初めての時は、使用するcodes.cutファイルを選ぶ +Ctrl+Tで、上から順にメインティアを見ていく。 +該当しなければ、そのままCtrl+Tで次のティアへ +コーディングする場合は、ウィンドウの下のコードが出てきてるところをみて、該当するコードを順にクリックしていく +選択し終わったら、Ctrl+Tで次のティアへ +Esc-Cで終了。 !具体的な作業手順2(事前にコードが入れてあるものを修正する) +分析するchaファイルを開く +Esc-Eでコーディングモードに切り替え ++コーディングファイルを読み込む +Esc-Cでコーディングモードを切る +Ctrl+Fで該当コードを検索 +Esc-Eでコーディングモード +下に表示されるコードをダブルクリックしてコード記入 +Esc-Cでコーディングモードを抜ける +Ctrl+Fで次を検索 +Esc-Eでコーディングモード +つづく、、、、 !!分析 !コマンド *ビデオで見てみましょう https://talkbank.org/screencasts/commands-1.mp4 https://www.youtube.com/watch?v=CYnOnp4c34k&feature=youtu.be (YouTubeは解像度が悪いですね) !コマンド ウィンドウ *メニューの「Window」から「Commands」を選ぶ *左上の「working」で「作業ディレクトリー」を指定する「<-Select directory」 *コマンドや、「File In」(分析対象ファイル)や、Tiersを選べるが、 **直接コマンドを下のボックスに書けばよい。 !!freq 頻度一覧 *単語の出現頻度一覧 freq sample.cha **データ中で無視されるもの *** xxx で表記される理解できない語句 *** フィラーなど特殊なものを指示するもの 0, &, +, -, # で始まる表記。 *特定のティア(行)のみを対象にするオプション ** <<+t>>を使って、例えば、子供の発話なら <<+t*CHI>> freq +t*CHI sample.cha *出現頻度順 +order ** <<+o>> をつける freq +t*CHI +o sample.cha *作業フォルダー内にある複数のファイルを一度に ** <<+u>> をつける **ファイル名は、アスタリスクと拡張子 freq +t*CHI +o +u *.cha *特定の文字列 +s(tring)オプションで指定(文字列はダブルクオートに入れる) freq +s"the" sample.cha *特定の語彙リストに含まれる語彙項目についての頻度 ** +s@ オプションで@の後ろにファイル名を指定 **ファイル名は何でもよいが、拡張子は .cut としておく **例:冠詞を一行一つずつ書いたファイルを articles.cutで作っておく a an the freq +s@articles.cut sample.cha *結果の保存 <<+f>> freq +t*CHI +o +u +f *.cha !+sオプションで使える「ワイルドカード」 * は、任意の文字列いくつでも(該当するものはすべて検索対象) _ は、任意の一文字 % は、「そこは無視する」(検索対象外) !分析コードの頻度分析例: スピーチアクトの3レベルを例に *スピーチアクトコードは、3レベルで表記されている $NIA:RP:NV **第一レベル($NIA) は相互作用のタイプ **第二レベル(RP)は スピーチアクトのタイプ **第三レベル(NV)は コミュニケーションチャンネルの種類 *スピーチアクトのティア(%spa)の指定 +t%spa *調べたいコードの指定 +s オプションで、ダブルクオート内で表記 **ワイルドカードの使い方がポイント freq +s"$*" +t%spa sample.cha *** アスタリスクは、該当するものは何でも分析対象として表示 *** パーセントは、何が来ていてもよいが分析対象としない(無視) {{pre $* すべてのコード $*:% 第一レベルのタイプだけ $%:*:% 第二レベルのタイプだけ $RES:*:% 第一レベルがRESのものについての第二レベルのタイプ $*:SEL:% 第二レベルがSELのものについてだけ }} *レベルが2つしかない場合は、それ以降はないことを明示的に示すため最後の%%を二つ重ねて表記しておく。 !<<+d0>> オプションで、該当行の一覧提示(concordance lines) *例: %co3ティアで、AD3というコードを含む行 **AD3の前後にワイルドカード「*」をつける点に注意。 ***つけないと、AD3という独立した単語を検索することになる {{pre > freq +t*CHI +t%co3 +s"*AD3*" +d0 +u *.cha freq +t*CHI +t%co3 +s*AD3* +d0 +u *.cha Tue Feb 11 16:31:14 2020 freq (17-Jan-2020) is conducting analyses on: ONLY dependent tiers matching: %CO3; **************************************** From file From file From file From file From file From file From file From file From file From file From file From file From file From file From file From file From file From file From file From file Speaker: *CHI: 3 $ELS:SEN:AD3:NA2 File "KS20304.cha": line 157. %co3: $ELS:SEN:AD3:NA2 File "KS21007b.cha": line 3308. %co3: $ELS:SEN:AD3:NA2 File "KS30000b.cha": line 2452. %co3: $ELS:SEN:AD3:NA2 3 $PRP:SEN:AD3:NA2 File "KS20312b.cha": line 2914. %co3: $PRP:SEN:AD3:NA2 File "KS20615.cha": line 3231. %co3: $PRP:SEN:AD3:NA2 File "KS21007b.cha": line 3188. %co3: $PRP:SEN:AD3:NA2 ------------------------------ 2 Total number of different item types used 6 Total number of items (tokens) }} !<<+d2>>オプションで、出力ファイルがExcel用として保存される。★これは強力! *フォルダー内の個別ファイルごとに、語彙リストとtype, tokenが、一枚のエクセルファイルにまとめて出力される *+fオプションの指定不要 !<<+d3>> オプションで、出力は語彙の一覧を除いた type, token, TTRだけになる。 *+fオプションの指定不要 !<<+d4>> で、出力は、type-tokenのみに !!kwal で検索 kwal +s"文字列" sample.cha *注意:検索対象は、行ではなく、メインティアおよびそれに属する従属ティアを一つの単位とする「クラスター」 {{pre > kwal +t*CHI +t%co3 +s"*AD3*" +u *.cha kwal +t*CHI +t%co3 +s*AD3* +u *.cha Tue Feb 11 16:46:21 2020 kwal (17-Jan-2020) is conducting analyses on: ONLY speaker main tiers matching: *CHI; and those speakers' ONLY dependent tiers matching: %CO3; **************************************** From file From file From file From file From file From file From file From file From file From file From file From file From file ---------------------------------------- *** File "KS20304.cha": line 154. Keyword: $els:sen:ad3:na2 *CHI: ʃenʃa [: sensha] issho . %co3: $ELS:SEN:AD3:NA2 From file ---------------------------------------- *** File "KS20312b.cha": line 2911. Keyword: $prp:sen:ad3:na2 *CHI: Reechan iya . %co3: $PRP:SEN:AD3:NA2 From file From file From file ---------------------------------------- *** File "KS20615.cha": line 3228. Keyword: $prp:sen:ad3:na2 *CHI: Akichan joozu . %co3: $PRP:SEN:AD3:NA2 From file From file ---------------------------------------- *** File "KS21007b.cha": line 3185. Keyword: $prp:sen:ad3:na2 *CHI: Mikkiisan dame . %co3: $PRP:SEN:AD3:NA2 ---------------------------------------- *** File "KS21007b.cha": line 3305. Keyword: $els:sen:ad3:na2 *CHI: are dame ! %co3: $ELS:SEN:AD3:NA2 From file ---------------------------------------- *** File "KS30000b.cha": line 2449. Keyword: $els:sen:ad3:na2 *CHI: yama iya . %co3: $ELS:SEN:AD3:NA2 > }} !Profiling Commands {{pre • C-NNLA: Northwestern Narrative Language Analysis • C-QPA: Quantitative Production Analysis • DSS: Developmental Sentence Score • EVAL: computation of a wide range of indices for aphasia • FluCalc: computation of a wide range of indices for stuttering • IPSyn: Index of Productive Syntax • KIDEVAL: computation of a wide range of indices for child language • MORTABLE: computation of occurrences of grammatical morphemes • SUGAR: Sampling Utterances and Grammatical Analysis Revised }} !!MOR *File > Get MOR Grammar > English - eng *Window > commands で、mor を実行 **対象ファイルは、File in で選択 **結果は、*.mor.cex という拡張子で保存される。 {{pre @UTF8 @Begin @Languages: eng @Participants: CHI @ID: 2_DCT02 *CHI: I get up at six . %mor: pro:sub|I v|get^aux|get prep|up^adv|up prep|at det:num|six . *CHI: I eat breakfast at seven . %mor: pro:sub|I v|eat n|breakfast prep|at det:num|seven . *CHI: I walk to school at eight . %mor: pro:sub|I v|walk^n|walk inf|to^prep|to n|school prep|at det:num|eight . *CHI: [//] [/] from eight thirty to three study at school . %mor: prep|from det:num|eight det:num|thirty inf|to^prep|to det:num|three v|study^n|study prep|at n|school . *CHI: finish . %mor: v|finish . *CHI: I practice dance to from [/] from three thirty to five ten . %mor: pro:sub|I v|practice^n|practice v|dance^n|dance inf|to^prep|to prep|from det:num|three det:num|thirty inf|to^prep|to det:num|five det:num|ten . @End }} *単純に文字面だけで辞書と照合しているので、「多義語」は選択肢が提示される inf|to^prep|to *これを人手で、disambiguateする作業が必要 !!IPSyn !!KIDEVAL !!FLUCALC !!フォーマット変換:Format Conversion Commands {{pre • CHAT2ANVIL • CHAT2CA • CHAT2CONLL • CHAT2CA • CHAT2ELAN • CHAT2PRAAT • CHAT2SRT • CHAT2TEXT • CHAT2XMAR • ANVIL2CHAT • CONLL2CHAT • ELAN2CHAT • LAB2CHAT • LENA2CHAT • LIPP2CHAT • PRAAT2CHAT • RTF2CHAT • SALT2CHAT • SRT2CHAT • TEXT2CHAT }} ---- !CHATからXMLへの変換:Chatter https://talkbank.org/software/chatter.html !!Tips !カレントディレクトリー内のファイル一覧 dir !!Resources !マニュアル https://talkbank.org/manuals/CLAN.pdf ---- {{category CHILDES}}