!!!COCA: The Corpus of Contemporary American English {{outline}} ---- https://www.english-corpora.org/coca/ !!概要 *約10億語 *1990年から2019まで30年×2,500万語以上ずつ *8つのジャンル +spoken +fiction +popular magazines +newspapers +academic texts +TV and Movies subtitles (2020-) +blogs (2020-) +web pages (2020-) !5つの調べ方 +上位6万語の頻度リスト ++語形 ++品詞 ++レンジ ++意味 ++発音 +単語検索 ++共起語 ++トピック ++クラスター ++Webサイト ++コンコーダンス ++関連語 +英語文章とCOCAとの比較 +フレーズ・文字列検索 ++品詞を指定可能 +ランダム検索 ++「Words of the Day」 !!利用 !全部使うにはライセンスの購入が必要 !オンラインでのWeb利用 !データダウンロード !!サンプル:890万語 https://www.corpusdata.org/coca/samples/coca-samples-text.zip 元データからランダムに、100分の一 !Word/lemma/PoS !Linear text (ダウンロード20MBで、解凍後73MB) +テキストIDに続き本文の英文を改行なしで。 +縮約形は分割:can't は ca n'tに +句読点は、前後にスペース +ファイルは8種 {{pre text_acad.txt text_fic.txt text_news.txt text_tvm.txt text_blog.txt text_mag.txt text_spok.txt text_web.txt }} *伏字は「 @ @ @ @ @ @ @ @ @ @ 」 *段落は

!!サンプルを使っての分析例