{{category CHILDES}} !!!CHAT [The CHAT Transcription Format オンラインマニュアル|https://talkbank.org/manuals/CHAT.html] {{outline}} !!基本単位 !utterance *イントネーションを考慮に入れる *“c-unit” or conversational unit **"T-unit"と事実上同じ ***主節のみの発話 ***主節と従属節の発話 ***等位接続(and, but, or, so)でつながれた節は、別の発話に区切る *「main line」:一発話一行 **発話の終端記号は「.」「?」「!」のいずれか *行頭 **大文字でも小文字でもよいが、原則、小文字 ***行頭の単語の繰り返しとか言い直しとかあるので *<<等位接続詞に関する注意>>:主語と動詞を含む<<節>>をつなぐ場合には別発話 **名詞や名詞句ををつなぐ場合は、別の発話にしてはいけない。 ***<<してはいけない例↓>> {{pre I like dogs and cats.  ↓ I like dogs. and cats. }} !!Pauses:無音のポーズ *長さによって3段階 ** (.) ** (..) ** (...) !<<現実案>> *問題点:3段階に分けるのは難しい *修正案:(..)と(...)の二種類。短めと長め。 **いち・に、と数えられるくらいなら(..) **いち・に・さん、くらい以上なら(...) !!推測 **直前の語 [?] *SAR: I want a frog [?] **一連の語の場合 < > で囲む *SAR: [?] ? !<<修正案>> *問題点:直前の一語か連語かで、< > で囲むかどうか分けるのは煩雑 *修正案:語数にかかわらずその範囲を < > で囲む !!繰り返し Repetition [/] !「繰り返し」と「言い換え」の違いは微妙 *特に、部分的に重複するところがある場合 [/] [/] [//] [/] [/] I go to school **部分になっていたら部分的な繰り返し !取り扱い *語彙リストを作成する際に、繰り返した語をtokenとして数えない。 !例 *直前の語 [/] *CHI: I practice dance to from [/] from three thirty to five ten . *一連の語の場合 < > で囲む *BET: [/] I wanted to invite Margie. !<<修正案>> *問題点:直前の一語か連語かで、< > で囲むかどうか分けるのは煩雑 *修正案:語数にかかわらずその範囲を < > で囲む **CLANは問題なく動く。 *直前の語 [/] *CHI: I practice dance to [/] from three thirty to five ten . !複数回の繰り返し *いろんな表記法があるが、、、 *繰返しが複数回ある場合は、そのまま表記する。 [/] [/] [/] milk  !!言い直し !言い直し Retracing [//] *同じことを言い直している *CHI: [//] the [/] the fish are swimming. * と言い出したが、その部分を言い直している [//] *theが繰り返されている [/] *発話としては the fish are swimming が最終的に産出されたと見なす。 !言い換え Reformulation [///] *(意味はほぼ同じで)全く別の表現に言い換えている場合 *BET: [///] &-uh we all decided to go home for lunch. !言い直し False Start Without Retracing [/-] <<言いかけたことをやめて言い直す>> *BET: [/-] uh when is Margie coming? !<<修正案>> *問題点:言い直しか言い換えか、判断に迷う。 *修正案:いずれも、該当範囲を < > で囲み、[//]を使う。 **言い直しか言い換えかの区別はしない(保留) !!わからない単語 xxx *SAR: I want xxx . !!フィラー &-フィラー *フィラーの語そのもの(例: uh)の前に「&-」を付ける *BET: [//] &-uh I thought I wanted to invite Margie. 「I wanted」と言い出して、そこでやめて[//]、「アー」(&-uh)と言った後で、「I thought ...」と言い換える。 *例 &-ah, &-eh, &-er, &-ew, &-hm, &-mm, &-uh, &-uhm, &-um !日本語と英語と不明な場合と *日本語の場合は、フィラーの種類にかかわらず、&-jp としておく *英語の場合は、英語の単語と認識できる場合は、単語を書く。 **複数の単語の場合は、アンダーバーでつなぐ &-um &-well &-let_me_see &-you_know *その他不明な場合は、 &-? !!発話の一部に直接引用がある場合は引用符で囲む。 *引用符の始まりは begin double-quote (“, Unicode 201C) *終わりは end double-quote (”, Unicode 201D) !!直接引用が複数の発話の場合、<<+"/.>>の後に、引用の始まりに <<+">> をつける。 {{pre *CHI: and then the little bear said +"/. *CHI: +" please give me all of your honey. *CHI: +" if you do, I'll carry you on my back. }} *引用自体が、複数の発話になる場合 ↑ **発話自体は、複数の発話に分けて書く。 ***始まり部分行頭に +" !!複文の節の区切り [^c] *複文中の節を、二つの「発話」として処理したほうが良い場合 *節の区切りに << [^c] >> を入れておく。 !!分析対象から除きたい部分 [e] *調べたい発話部分以外のところを処理から除く。 *<<<>>と<<>>>で囲んだ後に<<[e]>>を書いておく。 *BET: [e] the cat is up the tree. !!発話の単位 9.5 C-Units, sentences, utterances, and run-ons There is a tendency in the literature to avoid the use of the term “sentence” to refer to the units of spoken language. To avoid this problem, researchers use the terms “utterance” and “c-unit” or conversational unit. The latter is defined as a main clause along with its dependent (subordinate or coordinate) clauses. However, when defined in this way, a c-unit is really not too different from a sentence. The major difference is that a c-unit may be incomplete and may include disfluencies, retraces, etc. which would not be present in written language. In the past, some transcribers have tended to group all of the words in a turn into a single sentence with only one final delimiter. This causes problems for grammatical analysis. Utterances can include main clauses with associated dependent clauses, but they should not include multiple main clauses. Sometimes children will string together multiple utterances with “and … and”. In such cases, each utterance with a new “and” should be placed on a new tier, as a new utterance. However, clauses that are joined by other conjunctions should be treated as a single utterance. !!数字はアルファベットで単語としてつづる !!日本語の単語・表現の表記 When transcribing Japanese data in Latin script (Romaji) as well as in Japanese script (Kana Kanji), you should add spaces to identify words. The WAKACHI02 system can be downloaded as a part of the complete JPN grammar from https://talkbank.org/morgrams.This web page summarizes the rules for word separation (Wakachigaki). It is crucial to follow these rules in order to get correct results from MOR (automatical morphological analysis) or DSS (Developmental Sentence Score). *英文中の日本語の単語は < > にローマ字で書いておく。 !!本文中にコメントを残す: [% コメント書いておく] *メモを書いておきたいことがあります。 *スクエアブラケットと% を使う。 {{pre *CHI: I really wish you wouldn't [% said with strong raising of eyebrows] do that. }} !!誤用分析に関連する表記 !誤用の直後に << [: 正用] [*] >>を書く。 {{pre I woren't [: didn't wear] [*] a coat. I eated [: ate] [*] some dinner. }} !語の欠損:Omitted Word 0word *具体的な語がない場合、例えば不定詞のto *EVE: I want 0to go. *冠詞の欠損 0det *動詞の欠損 0v *助動詞の欠損 0au “he 0au running” *主語の欠損 0subj !語の一部の欠損:( )で補う *RAL: I been sit(ting) all day . !!minCHAT {{pre @Begin @Languages: eng @Participants: CHI @ID: *CHI: @End }} !ここまでしないと、CHECKに通らない {{pre @Begin @Languages: eng @Participants: CHI d Student @ID: eng |d_PIC08|CHI|||||Student||| *CHI: [/] what color do you like ? @End }} *@Participants: に三つの要素が必要 **3文字記号 **「名前」 **役割 *@ID: に10のフィールドが必要(縦棒10本) **言語 **コーパス名 **3文字記号 **役割 * CLAN/lib/depfile.cut に定義が書いてある **必要であればそこを修正 ---- !!![W Data 転記規則|https://sugiura-ken.org/wiki/wiki.cgi/LCSLA?page=W+Data+%C5%BE%B5%AD%B5%AC%C2%A7]