トップ 差分 一覧 Farm ソース 検索 ヘルプ PDF RSS ログイン

COCA

*disclaimer
451553

COCA: The Corpus of Contemporary American English


https://www.english-corpora.org/coca/

 概要

  • 約10億語
  • 1990年から2019まで30年×2,500万語以上ずつ

8つのジャンル

spoken
テレビやラジオ番組のスクリプト
fiction
文芸雑誌や本
magazines
各種雑誌
newspapers
新聞
academic texts
学術雑誌
TV and Movies subtitles (2020-)
テレビや映画の字幕(口語的)
blogs (2020-)
Googleがblogと分類しているWebページ
web pages (2020-)
各種Webページ

5つの調べ方

  1. 上位6万語の頻度リスト
    1. 語形
    2. 品詞
    3. レンジ
    4. 意味
    5. 発音
  2. 単語検索
    1. 共起語
    2. トピック
    3. クラスター
    4. Webサイト
    5. コンコーダンス
    6. 関連語
  3. 英語文章とCOCAとの比較
  4. フレーズ・文字列検索
    1. 品詞を指定可能
  5. ランダム検索
    1. 「Words of the Day」


 利用

全部使うにはライセンスの購入が必要


オンラインでのWeb利用


データダウンロード


 サンプル:890万語

https://www.corpusdata.org/coca/samples/coca-samples-text.zip
元データからランダムに、100分の一

Word/lemma/PoS


Linear text (ダウンロード20MBで、解凍後73MB)

  1. テキストIDに続き本文の英文を改行なしで。(例: @@4001441 Our purpose ....)
  2. 縮約形は分割:can't は ca n'tに
  3. 句読点は、前後にスペース
  4. ファイルは8種
text_acad.txt
text_fic.txt
text_news.txt
text_tvm.txt
text_blog.txt
text_mag.txt
text_spok.txt
text_web.txt

  • 伏字は「 @ @ @ @ @ @ @ @ @ @ 」
  • 段落は <p>

 サンプルを使っての分析例




 KWIC検索の利用例

  • ユーザー登録が必要(無料)

手順

  1. ログイン画面の「SEARCH」タブ
  2. List, Chart, Word, Browse + とあるが、その一番右の + をクリックすると、さらにメニューが広がる
  3. そこから KWICを選ぶ
  4. 入力欄に、調べたい単語を入れる
  5. 下の「Keyword in Context (KWIC)」ボタンを押す
  6. 結果画面で、目的の単語をクリック

COCA-KWIC.png(49)