*disclaimer
495819
AntConc
テキストファイルの読み込み
File > Open File(s) as Quick Corpus
基本メニュー
KWIC
- キーワード検索
- 前後の文脈のどこで並べ替えるか
Plot
- キーワードがデー全体のどこで使われているか図示
- Dispersion分散率
File View
- ファイルを開いて該当語を一つずつ見ていく
Cluster
- 連語表現の抽出
N-Gram
- 連語表現リスト作成
Collocate
- 二語の結びつき関係
Word
- 語彙リスト作成
Keyword
Wordcloud
- 高頻度語のグラフィック表示
- Wordメニューでリストを作っておく
- stopword listを指定しないと機能語ばかり出てくる(下記参照)
Tips
Stop words
- 高頻度の機能語などのリストのこと
- 内容語を見たいときには、こうした高頻度語を除いて分析したいので
- NLTKのstopword listなどを取ってきておく
NLTK's list of english stopwords
https://gist.github.com/sebleier/554280
https://gist.githubusercontent.com/sebleier/554280/raw/7e0e4a1ce04c2bb7bd41089c9821dbcf6d0c786c/NLTK's%2520list%2520of%2520english%2520stopwords
- Settings > Global Settings > Tool Filters > Hide words in file
- Add File で、取ってきて置いたファイルを指定 > Apply
Corpus Managerで、コーパスデータの管理
- File > Open Corpus Manager
- ファイルを読み込むと、temp.dbができる。これを保存しておかないと、後で使えない。
- 右側で、表示しておき、Save (to file)で、dbファイルで保存
- それ以降は、Add Database File(s)で読み込む
Target Corpus vs. Reference Corpus
- 二種類のコーパスの比較
- Corpus Managerで管理
- どちらをTarget、どちらをReferenceと指定する。
- 左ボックスの下の「Open as Target/Reference Corpus」で設定
- 両方読み込んだうえで、
- File メニューで、Swap Target/Reference Corporaで切り替える
https://sugiura-ken.org/wiki/