COCA

COCA

COCA: The Corpus of Contemporary American English

TOP ↑ ↓

COCA: The Corpus of Contemporary American English

概要

8つのジャンル
5つの調べ方

利用

全部使うにはライセンスの購入が必要
オンラインでのWeb利用
データダウンロード

サンプル：890万語

Word/lemma/PoS
Linear text (ダウンロード20MBで、解凍後73MB)
英単語以外の「ゴミ」の前処理が必要

サンプルを使っての分析例
KWIC検索の利用例

手順

https://www.english-corpora.org/coca/

概要

TOP ↑ ↓

約10億語
1990年から2019まで30年×2,500万語以上ずつ

8つのジャンル

TOP ↑ ↓

spoken: テレビやラジオ番組のスクリプト

fiction: 文芸雑誌や本

magazines: 各種雑誌

newspapers: 新聞

academic texts: 学術雑誌

TV and Movies subtitles (2020-): テレビや映画の字幕（口語的）

blogs (2020-): Googleがblogと分類しているWebページ

web pages (2020-): 各種Webページ

5つの調べ方

TOP ↑ ↓

上位6万語の頻度リスト
1. 語形
2. 品詞
3. レンジ
4. 意味
5. 発音
単語検索
1. 共起語
2. トピック
3. クラスター
4. Webサイト
5. コンコーダンス
6. 関連語
英語文章とCOCAとの比較
フレーズ・文字列検索
1. 品詞を指定可能
ランダム検索
1. 「Words of the Day」

テキストIDに続き本文の英文を改行なしで。（例：　@@4001441 Our purpose ....）
縮約形は分割：can't は ca n'tに
句読点は、前後にスペース
ファイルは8種

text_acad.txt
text_fic.txt
text_news.txt
text_tvm.txt
text_blog.txt
text_mag.txt
text_spok.txt
text_web.txt

伏字は「 @ @ @ @ @ @ @ @ @ @ 」
段落は <p>

英単語以外の「ゴミ」の前処理が必要

TOP ↑ ↓

匿名記号の削除: @ @ @ @ @ @ @ @ @ @

段落記号の削除: <p>

テキストIDの削除: @@4000241

サンプルを使っての分析例

TOP ↑ ↓

KWIC検索の利用例

TOP ↑ ↓

ユーザー登録が必要（無料）

手順

TOP ↑ ↓

ログイン画面の「SEARCH」タブ
List, Chart, Word, Browse + とあるが、その一番右の + をクリックすると、さらにメニューが広がる
そこから KWICを選ぶ
入力欄に、調べたい単語を入れる
下の「Keyword in Context (KWIC)」ボタンを押す
結果画面で、目的の単語をクリック

COCA-KWIC.png(345)

COCA: The Corpus of Contemporary American English

概要

8つのジャンル

5つの調べ方

利用

全部使うにはライセンスの購入が必要

オンラインでのWeb利用

データダウンロード

サンプル：890万語

Word/lemma/PoS

Linear text (ダウンロード20MBで、解凍後73MB)

英単語以外の「ゴミ」の前処理が必要

サンプルを使っての分析例

KWIC検索の利用例

手順

https://sugiura-ken.org/wiki/

Menu

keyword

category

更新履歴