トップ履歴一覧 Farm ソース検索ヘルプ PDF RSS ログイン

CLANdeNICER

CLANでNICERを処理する

CHATに基づくNICERのフォーマット

共通点

ファイルは@Beginで始まり@Endで終わる。
「ヘッダー情報」は、ファイルの先頭部分で、行頭に@項目名で示す
「本文部分」は、行頭にアスタリスク＋話者記号で、一発話一行で記述
各発話の関連情報は、発話の下（次の発話との間）に、行頭に%項目名で示す
行の先頭の項目名と内容との間は、コロンとタブで区切る

CHATフォーマット

minCHATという最低限の枠

@Begin
@Languages:	eng
@Participants:	CHI
@ID:	
*CHI:	
@End

NICERのフォーマット

ヘッダー情報の注意点
- @Qualification で英語力を示す試験のスコア情報
- @Abroad で海外滞在経験
- @Topic でエッセイのトピック
- @Criterion で、そのエッセイをCriterionにかけた時の評価スコア（6点満点）

@Begin
@Participants:	JPN501
@PID:	PIDJP501
@Age:	21
@Sex:	F
@YearInSchool:	U2
@Major:	agriculture
@StudyHistory:	8
@OtherLanguage:	Chinese=1.0;none=
@Qualification:	TOEIC=590(2013);none=;none=
@Abroad:	none=;none=
（中略）
@Topic:	sports
@Criterion:	4
（中略）
*JPN501:	What kind of sports do you like?
%NTV:	OK
%COM:	
（本文以下省略）
@End

本文部分
- *JPN501 は話者記号
- %NTV は英語母語の添削者による訂正（書き換え）文
- %COM は添削時のコメント

この3行がセットとなって、発話の数だけ含まれる

実例: JPN501.txt

CLANの準備

インストール

workingディレクトリーの設定

CLAN起動後、コマンド・ウィンドウ内の一番上「working」で設定
- 分析対象とするファイルを入れたフォルダーを指定
  - あらかじめ、分析対象とするファイルを選んでおくのがコツ

CLANの実行

コマンド・ウィンドウ

Progs
- コマンドを選ぶ（例：検索 kwal）
- コマンドボックス内に選んだコマンドが表示される
- 選んだコマンドに応じて、ボタンが表示される（例：「File In」「Tiers」「Search」）
File In
- 分析対象とするファイルを選ぶ
  - その際に、「Filter」で、「All files (*.*)」にして、拡張子.txtも読めるように。
  - 「Add All」でフォルダー内ファイル全部
  - 「Done」で設定完了
  - コマンドボックス内に「@」が表示される
Tiers
- 対象とするティアを選ぶ。話者行は「*speaker tier」
  - 具体的な話者記号を指定する場合は、右枠内に記入（例： *CHI）
  - コマンドボックス内に「+t*」と表示
Search
- 対象とする文字列 word を指定（例：whenと入力）
  - コマンドボックス内に「+s"when"」と表示
右下の「Run」で実行

カーソルキーの上下で、コマンドの履歴一覧を表示・選択できる

実行結果

分析の仕方

分析コード

CLANを使って、大量のデータに対して分析コードをつける方法は以下を参照

https://sugiura-ken.org/wiki/wiki.cgi/exp?page=CLAN#p8
https://talkbank.org/manuals/CHAT.html#_Toc107417330

CLANを使ってコードを付けることもできるが、
CLANを使わずに、普通のテキストエディターでコードを付けてもよい

ポイントは以下のようなコードがデータについていればよい

$MOT:POS:Que
$MOT:POS:Res
$MOT:NEG:Que
$MOT:NEG:Res
$CHI:POS:Que
$CHI:POS:Res
$CHI:NEG:Que
$CHI:NEG:Res

コーディングのルールに従ってコードをつける
- $で始める
- 階層関係は:で区切る（スペースなし）
- 複数のコードを一つのティアに書く場合は、間に半角スペースを置く（単語を並べるのと同じ）
- コードを書くティアは%COD以外でも、自由にティア名を付けて作ってよい

%COD: $N:Y $V:N

分析コードの頻度算出

CLANのFREQコマンドで、対象のティアを分析コードティアにして、頻度を出す。
コードの頻度一覧が出る。

分析の例：文のタイプと文型の分析

コード

三つの分析ティア
- %SNT　文のタイプ
  - DE 平叙, IN　疑問, IW　WH疑問, IM　命令, EX　感嘆
  - S　単文, cSS　従＋主, ScS　主＋従, StS　主＋that節
- %CNS　文型
  - s0 フラグメント, s1, s2, s3, s4, s5, s6, s7
  - A 肯定, N 否定
  - there構文, PASS受身
- %REC　関係節
  - who, which, what, where, when, that
  - nom 主格, obj 目的格, app 同格のthat

実際のコーディング例（部分）

*JPN501:	They are called "BUDO".
%NTV:	They are called budo.
%COM:	This word does not require capitalization.
%SNT:	$DE:S
%CNS:	$s5:A:PASS
*JPN501:	BUDO are JYUDO, KENDO, KYUDO and so on.
%NTV:	Budo include judo, kendo, kyudo, and so on.
%COM:	These words do not require capitalization.
%SNT:	$DE:S
%CNS:	$s2:A
*JPN501:	If you play BUDO, there is an important thing that you must remember.
%NTV:	If you play budo, there is one important thing you must remember. 
%COM:	
%SNT:	$DE:cSS
%CNS:	$s3:A $s1:A:there
%REC:	$that:obj

%SNT　文のタイプの頻度分析

%CNS　文型の頻度分析

%REC　関係節の頻度分析

https://sugiura-ken.org/wiki/

Menu

keyword

category

[GLMM]
[Linux]
[HSP]
[R]
[Python]
[Corpus]
[Google]

更新履歴

2026/3/1

FFmpeg

2026/2/7

droplevels()

2026/2/6

GoogleAlerts

2026/1/15

NICT JLE Corpus

2026/1/10

facet

2026/1/8

ImageMagick

2025/12/21

spacyr

2025/12/14

RStudio

2025/12/8

Quarto

2025/11/9

contrast coding

2025/10/23

TAASSC

2025/9/13

CaboCha

2025/9/9

Ubuntu

2025/9/4

Excel.tips

2025/8/3

2025/7/31

MeCab

2025/7/29

RMarkdown

2025/7/24

balloonplot

2025/7/6

R

2025/6/19

Colab

2025/6/18

GoogleSpreadsheet

2025/6/17

ChatGPT

2025/6/15

2025/6/12

TextForHSP05

2025/5/18

Overleaf

2025/5/14

2025/5/13

2025/5/12

GitHub

2025/5/6

sessioninfo

2025/5/2

cocaClean

2025/4/30

Audacity

2025/4/29

2025/4/28

Git

2025/4/19

2025/4/2

Postorius

2025/3/17

GoogleSlides

2025/3/16

2025/3/15

2025/3/12

2025/3/7

udpipe

2025/3/4

effects

2025/3/2

2025/2/25

Word.tips

2025/2/16

gtsummary

2025/1/31

dispersion

2025/1/25

TACT

2025/1/23

Windows11

2025/1/10

Multiple Regression Analysis

2024/12/5

Thunderbird

2024/11/25

GoogleForm

2024/11/3

formMule

2024/10/31

Discord

2024/10/17

2024/10/13

Forward Difference Coding

2024/10/8

AlmaLinux

2024/10/6

NUCT

2024/10/4

FLUCALC

2024/10/3

2024/10/2

ERRANT

2024/9/28

ROOT

2024/9/25

heatmap

2024/9/24

Log-r

2024/9/17

2024/9/15

ICC

2024/9/14

2024/9/1

sjPlot

2024/8/31

theme()

2024/8/16

RandomForest

2024/8/13

Mann-Whitney U test

2024/8/8

DateDay.hsp

2024/8/7

2024/8/3

2024/7/31

R.package

2024/7/27

OrdinalLogisticRegression

2024/7/25

2024/7/24

repmod

2024/7/22

modelsummary

2024/7/8

2024/6/27

2024/6/25

WER

2024/6/17

dummy variables

2024/6/7

GoodNotes

2024/6/5

2024/6/1

pivot_longer()

2024/5/31

TextForHSP03

2024/5/30

Python2024memo

2024/5/29

RadioButton

2024/5/26

R meets Google Spreadsheet

2024/5/24

2024/5/18

2024/5/11

Google Books Ngram Viewer

2024/5/8

スクリーンショット

2024/4/29

case_when

2024/4/24

R.data

2024/4/5

MicrosoftTeams

2024/1/28

sakura editor

2024/1/11

LCR2023

2024/1/6

jtools

2023/12/29

abline()