トップ 差分 一覧 ソース 検索 ヘルプ PDF RSS ログイン

corpus

*disclaimer
81353

R
R.package

corpus


raw data に整形しておく


corpus_frame() で「corpus data frame object」形式のデータとして保存

title text

text_tekens() でトークン化


text_filter()

  • オプションを指定することで各種整形ができる

text_ntoken()

  • tokenの数

text_ntype()

typeの数

text_nsentence()

文の数

text_stats()

  • 上三つをまとめて行う

term_stats()

  • 各用語が、コーパス・データ中のいくつのサブコーパスに含まれるか
term_stats(data)
  • オプションでngramも同様に
term_stats(data, ngrams = 5)
  • 特定の語を含むngramも同様に
    • グラム数の範囲指定可能
    • 何語目に含むか指定可能
term_stats(data, ngrams = 2:3, types = TRUE,
          subset = type1 == "dorothy" & !type2 %in% stopwords_en)

text_locate() で KWIC検索

  • stemmerオプションでステミング可能
  • 複数のkeywordの指定可能

text_sample() で同様にランダムに検索可能