{{category R}} {{category Corpus}}
R.package
!!!corpus
{{outline}}
*https://cran.r-project.org/web/packages/corpus/index.html

!raw data に整形しておく

!corpus_frame() で「corpus data frame object」形式のデータとして保存
,title,text

!text_tekens() でトークン化

!text_filter()
*オプションを指定することで各種整形ができる

!text_ntoken()
*tokenの数
!text_ntype()
typeの数
!text_nsentence()
文の数
!text_stats()
*上三つをまとめて行う

!term_stats()
*各用語が、コーパス・データ中のいくつのサブコーパスに含まれるか
 term_stats(data)
*オプションでngramも同様に
 term_stats(data, ngrams = 5)
*特定の語を含むngramも同様に
**グラム数の範囲指定可能
**何語目に含むか指定可能
 term_stats(data, ngrams = 2:3, types = TRUE,
           subset = type1 == "dorothy" & !type2 %in% stopwords_en)
!text_locate() で　KWIC検索
*stemmerオプションでステミング可能
*複数のkeywordの指定可能

!text_sample() で同様にランダムに検索可能