!!!COCA: The Corpus of Contemporary American English {{outline}} ---- https://www.english-corpora.org/coca/ !!概要 *約10億語 *1990年から2019まで30年×2,500万語以上ずつ !8つのジャンル :spoken:テレビやラジオ番組のスクリプト :fiction:文芸雑誌や本 :magazines:各種雑誌 :newspapers:新聞 :academic texts:学術雑誌 :TV and Movies subtitles (2020-):テレビや映画の字幕(口語的) :blogs (2020-):Googleがblogと分類しているWebページ :web pages (2020-):各種Webページ !5つの調べ方 +上位6万語の頻度リスト ++語形 ++品詞 ++レンジ ++意味 ++発音 +単語検索 ++共起語 ++トピック ++クラスター ++Webサイト ++コンコーダンス ++関連語 +英語文章とCOCAとの比較 +フレーズ・文字列検索 ++品詞を指定可能 +ランダム検索 ++「Words of the Day」 !!利用 !全部使うにはライセンスの購入が必要 !オンラインでのWeb利用 !データダウンロード !!サンプル:890万語 https://www.corpusdata.org/coca/samples/coca-samples-text.zip 元データからランダムに、100分の一 !Word/lemma/PoS !Linear text (ダウンロード20MBで、解凍後73MB) +テキストIDに続き本文の英文を改行なしで。(例: @@4001441 Our purpose ....) +縮約形は分割:can't は ca n'tに +句読点は、前後にスペース +ファイルは8種 {{pre text_acad.txt text_fic.txt text_news.txt text_tvm.txt text_blog.txt text_mag.txt text_spok.txt text_web.txt }} *伏字は「 @ @ @ @ @ @ @ @ @ @ 」 *段落は

!!サンプルを使っての分析例 !!KWIC検索の利用例 *ユーザー登録が必要(無料) !手順 +ログイン画面の「SEARCH」タブ +List, Chart, Word, Browse + とあるが、その一番右の + をクリックすると、さらにメニューが広がる +そこから KWICを選ぶ +入力欄に、調べたい単語を入れる +下の「Keyword in Context (KWIC)」ボタンを押す +結果画面で、目的の単語をクリック {{ref COCA-KWIC.png}}