{{outline}}
!!!TypeとToken
!Rのパッケージ corpus を参考に、TypeとTokenの振る舞いを見てみる
http://corpustext.com/articles/corpus.html
*オズの魔法使いのテキストを取ってきて本文だけにする。
 oz.text <- gsub("\\n", " ", text)
 oz.text.nopunct <- gsub("\\W+", " ", oz.text)
 oz.words <- strsplit(oz.text.nopunct, "\\W")
 oz.words <- unlist(oz.words)
 write(oz.words, file="ozWords.txt")
 length(oz.words)
*39,456語
*394行2列の行列、0で初期化
 > oztt <- matrix(0, nrow=394, ncol=2)
*100語ずつ累積して39,400語までのTypeとTokenを見てみる。
	i <- 1
	y <- 0
	while (i <= 394) {
		y <- i * 100
		tmp <- oz.words[1:y]
		oztt[i,1] <- length(tmp)
		oztt[i,2] <- length(unique(tmp))
		i <- i+1
	}