トップ 差分 一覧 Farm ソース 検索 ヘルプ PDF RSS ログイン

CHAT

*disclaimer
98598

[CHILDES]

CHAT

The CHAT Transcription Format

 基本単位

utterance

  • イントネーションを考慮に入れる
  • “c-unit” or conversational unit
    • "T-unit"と事実上同じ
      • 主節のみの発話
      • 主節と従属節の発話
      • 等位接続(and, but, or, so)でつながれた節は、別の発話に区切る
  • 「main line」:一発話一行
    • 発話の終端記号は「.」「?」「!」のいずれか

  • 行頭
    • 大文字でも小文字でもよい
    • 「行頭だからと言って大文字にしない」と統一しておいた方がよい
      • 行頭の単語の繰り返しとか言い直しとかあるので

 Pauses:無音のポーズ

  • 長さによって3段階
    • (.)
    • (..)
    • (...)

現実案

  • 問題点:3段階に分けるのは難しい
  • 修正案:(..)と(...)の二種類。短めと長め。
    • いち・に、と数えられるくらいなら(..)
    • いち・に・さん、くらい以上なら(...)

 推測

    • 直前の語 [?]
*SAR:     I want a frog [?]
    • 一連の語の場合 < > で囲む
*SAR:     <going away with my mommy> [?] ?

修正案

  • 問題点:直前の一語か連語かで、< > で囲むかどうか分けるのは煩雑
  • 修正案:語数にかかわらずその範囲を < > で囲む

 繰り返し Repetition [/]

「繰り返し」と「言い換え」の違いは微妙

  • 特に、部分的に重複するところがある場合
<I> [/] <I> [/] <I go to> [//] <I> [/] <I go> [/] I go to school
    • 部分になっていたら部分的な繰り返し

取り扱い

  • 語彙リストを作成する際に、繰り返した語をtokenとして数えない。

  • 直前の語 [/]
*CHI:	I practice dance to from [/] from three thirty to five ten .

  • 一連の語の場合 < > で囲む
*BET:     <I wanted> [/] I wanted to invite Margie.

修正案

  • 問題点:直前の一語か連語かで、< > で囲むかどうか分けるのは煩雑
  • 修正案:語数にかかわらずその範囲を < > で囲む
    • CLANは問題なく動く。

  • 直前の語 [/]
*CHI:	I practice dance to <from> [/] from three thirty to five ten .

複数回の繰り返し

  • いろんな表記法があるが、、、
  • 繰返しが複数回ある場合は、そのまま表記する。
<milk> [/] <milk> [/] <milk> [/] milk 

 言い直し

言い直し Retracing [//]

*CHI:     <the fish is> [//] the [/] the fish are swimming.
  • <the fish is> と言い出したが、その部分を言い直している [//]
  • theが繰り返されている [/]
  • 発話としては the fish are swimming が最終的に産出されたと見なす。

言い換え Reformulation [///]

*BET:     <all of my friends had> [///] &-uh we all decided to go home for lunch.

言い直し False Start Without Retracing [/-] 言いかけたことをやめて言い直す

*BET:     <I wanted> [/-] uh when is Margie coming?

修正案

  • 問題点:言い直しか言い換えか、判断に迷う。
  • 修正案:いずれも、該当範囲を < > で囲み、[//]を使う。
    • 言い直しか言い換えかの区別はしない(保留)

 わからない単語 xxx

*SAR:     I want xxx .

 フィラー &-フィラー

  • フィラーの語そのもの(例: uh)の前に「&-」を付ける
*BET:     <I wanted> [//] &-uh I thought I wanted to invite Margie.

「I wanted」と言い出して、そこでやめて[//]、「アー」(&-uh)と言った後で、「I thought ...」と言い換える。

&-ah, &-eh, &-er, &-ew, &-hm, &-mm, &-uh, &-uhm, &-um

日本語と英語と不明な場合と

  • 日本語の場合は、フィラーの種類にかかわらず、&-jp としておく
  • 英語の場合は、英語の単語と認識できる場合は、単語を書く。
    • 複数の単語の場合は、アンダーバーでつなぐ
&-um
&-well
&-let_me_see
&-you_know
  • その他不明な場合は、 &-?

 数字はアルファベットで単語としてつづる


 日本語の単語・表現の表記

When transcribing Japanese data in Latin script (Romaji) as well as in Japanese script (Kana Kanji), 
you should add spaces to identify words. The WAKACHI02 system can be downloaded as a part of the 
complete JPN grammar from https://talkbank.org/morgrams.This web page summarizes the rules for word 
separation (Wakachigaki). It is crucial to follow these rules in order to get correct results from MOR 
(automatical morphological analysis) or DSS (Developmental Sentence Score).

  • 英文中の日本語の単語は < > にローマ字で書いておく。

 SLAで、誤用分析に関連する表記(参考)

語の欠損:Omitted Word 0word

  • 具体的な語がない場合、例えば不定詞のto
*EVE:     I want 0to go.
  • 冠詞の欠損 0det
  • 動詞の欠損 0v
  • 助動詞の欠損 0au

“he 0au running”

  • 主語の欠損 0subj

語の一部の欠損:( )で補う

*RAL:     I been sit(ting) all day .

 minCHAT


@Begin
@Languages:	eng
@Participants:	CHI
@ID:	
*CHI:	
@End

ここまでしないと、CHECKに通らない

@Begin
@Languages:	eng
@Participants:	CHI d Student
@ID:	eng |d_PIC08|CHI|||||Student|||
*CHI:	<What> [/] what color do you like ?
@End


  • @Participants: に三つの要素が必要
    • 3文字記号
    • 「名前」
    • 役割

  • @ID: に10のフィールドが必要(縦棒10本)
    • 言語
    • コーパス名
    • 3文字記号
    • 役割

  • CLAN/lib/depfile.cut に定義が書いてある
    • 必要であればそこを修正