トップ 差分 一覧 Farm ソース 検索 ヘルプ PDF RSS ログイン

COCA

*disclaimer
196971

COCA: The Corpus of Contemporary American English


https://www.english-corpora.org/coca/

 概要

  • 約10億語
  • 1990年から2019まで30年×2,500万語以上ずつ
  • 8つのジャンル

  1. spoken
  2. fiction
  3. popular magazines
  4. newspapers
  5. academic texts
  6. TV and Movies subtitles (2020-)
  7. blogs (2020-)
  8. web pages (2020-)

5つの調べ方

  1. 上位6万語の頻度リスト
    1. 語形
    2. 品詞
    3. レンジ
    4. 意味
    5. 発音
  2. 単語検索
    1. 共起語
    2. トピック
    3. クラスター
    4. Webサイト
    5. コンコーダンス
    6. 関連語
  3. 英語文章とCOCAとの比較
  4. フレーズ・文字列検索
    1. 品詞を指定可能
  5. ランダム検索
    1. 「Words of the Day」


 利用

全部使うにはライセンスの購入が必要


オンラインでのWeb利用


データダウンロード


 サンプル:890万語

https://www.corpusdata.org/coca/samples/coca-samples-text.zip
元データからランダムに、100分の一

Word/lemma/PoS


Linear text (ダウンロード20MBで、解凍後73MB)

  1. テキストIDに続き本文の英文を改行なしで。(例: @@4001441 Our purpose ....)
  2. 縮約形は分割:can't は ca n'tに
  3. 句読点は、前後にスペース
  4. ファイルは8種
text_acad.txt
text_fic.txt
text_news.txt
text_tvm.txt
text_blog.txt
text_mag.txt
text_spok.txt
text_web.txt

  • 伏字は「 @ @ @ @ @ @ @ @ @ @ 」
  • 段落は <p>

 サンプルを使っての分析例