*disclaimer
230942
COCA: The Corpus of Contemporary American English
https://www.english-corpora.org/coca/
概要
- 約10億語
- 1990年から2019まで30年×2,500万語以上ずつ
- 8つのジャンル
- spoken
- fiction
- popular magazines
- newspapers
- academic texts
- TV and Movies subtitles (2020-)
- blogs (2020-)
- web pages (2020-)
5つの調べ方
- 上位6万語の頻度リスト
- 語形
- 品詞
- レンジ
- 意味
- 発音
- 単語検索
- 共起語
- トピック
- クラスター
- Webサイト
- コンコーダンス
- 関連語
- 英語文章とCOCAとの比較
- フレーズ・文字列検索
- 品詞を指定可能
- ランダム検索
- 「Words of the Day」
利用
全部使うにはライセンスの購入が必要
オンラインでのWeb利用
データダウンロード
サンプル:890万語
https://www.corpusdata.org/coca/samples/coca-samples-text.zip
元データからランダムに、100分の一
Word/lemma/PoS
Linear text (ダウンロード20MBで、解凍後73MB)
- テキストIDに続き本文の英文を改行なしで。(例: @@4001441 Our purpose ....)
- 縮約形は分割:can't は ca n'tに
- 句読点は、前後にスペース
- ファイルは8種
text_acad.txt text_fic.txt text_news.txt text_tvm.txt text_blog.txt text_mag.txt text_spok.txt text_web.txt
- 伏字は「 @ @ @ @ @ @ @ @ @ @ 」
- 段落は <p>
https://sugiura-ken.org/wiki/