{{outline}} !!!TypeとToken !Rのパッケージ corpus を参考に、TypeとTokenの振る舞いを見てみる http://corpustext.com/articles/corpus.html *オズの魔法使いのテキストを取ってきて本文だけにする。 oz.text <- gsub("\\n", " ", text) oz.text.nopunct <- gsub("\\W+", " ", oz.text) oz.words <- strsplit(oz.text.nopunct, "\\W") oz.words <- unlist(oz.words) write(oz.words, file="ozWords.txt") length(oz.words) *39,456語 *394行2列の行列、0で初期化 > oztt <- matrix(0, nrow=394, ncol=2) *100語ずつ累積して39,400語までのTypeとTokenを見てみる。 i <- 1 y <- 0 while (i <= 394) { y <- i * 100 tmp <- oz.words[1:y] oztt[i,1] <- length(tmp) oztt[i,2] <- length(unique(tmp)) i <- i+1 }