*disclaimer
742777
COCA: The Corpus of Contemporary American English
https://www.english-corpora.org/coca/
概要
- 約10億語
- 1990年から2019まで30年×2,500万語以上ずつ
8つのジャンル
- spoken
- テレビやラジオ番組のスクリプト
- fiction
- 文芸雑誌や本
- magazines
- 各種雑誌
- newspapers
- 新聞
- academic texts
- 学術雑誌
- TV and Movies subtitles (2020-)
- テレビや映画の字幕(口語的)
- blogs (2020-)
- Googleがblogと分類しているWebページ
- web pages (2020-)
- 各種Webページ
5つの調べ方
- 上位6万語の頻度リスト
- 語形
- 品詞
- レンジ
- 意味
- 発音
- 単語検索
- 共起語
- トピック
- クラスター
- Webサイト
- コンコーダンス
- 関連語
- 英語文章とCOCAとの比較
- フレーズ・文字列検索
- 品詞を指定可能
- ランダム検索
- 「Words of the Day」
利用
全部使うにはライセンスの購入が必要
オンラインでのWeb利用
データダウンロード
サンプル:890万語
https://www.corpusdata.org/coca/samples/coca-samples-text.zip
元データからランダムに、100分の一
Word/lemma/PoS
Linear text (ダウンロード20MBで、解凍後73MB)
- テキストIDに続き本文の英文を改行なしで。(例: @@4001441 Our purpose ....)
- 縮約形は分割:can't は ca n'tに
- 句読点は、前後にスペース
- ファイルは8種
text_acad.txt text_fic.txt text_news.txt text_tvm.txt text_blog.txt text_mag.txt text_spok.txt text_web.txt
- 伏字は「 @ @ @ @ @ @ @ @ @ @ 」
- 段落は <p>
サンプルを使っての分析例
KWIC検索の利用例
- ユーザー登録が必要(無料)
手順
- ログイン画面の「SEARCH」タブ
- List, Chart, Word, Browse + とあるが、その一番右の + をクリックすると、さらにメニューが広がる
- そこから KWICを選ぶ
- 入力欄に、調べたい単語を入れる
- 下の「Keyword in Context (KWIC)」ボタンを押す
- 結果画面で、目的の単語をクリック
COCA-KWIC.png(137)
https://sugiura-ken.org/wiki/