{{outline}} !!!相関と回帰式 !相関係数 > cor(Type, Token) [1] 0.889026 <> 詳しくは、TypeとToken 参照 !相関関係の検定 {{pre > cor.test(Type, Token) Pearson's product-moment correlation data: Type and Token t = 32.665, df = 283, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.8618637 0.9111023 sample estimates: cor 0.889026 }} *p値は、相関が無いのに有ると間違える確率。 **p値が高ければ、間違っている確率が高くなる。<<アヤシイ>> !相関関係の散布図と回帰直線 *Tokenがx軸、Typeがy軸 *y=ax+bの回帰直線 > lm(Type ~ Token) Call: lm(formula = Type ~ Token) Coefficients: (Intercept) Token 43.587 0.298 > plot(Token, Type) *xとyが入れ替わる > abline(lm(Type ~ Token)) {{ref_image TokenType.png}} !95%の予測区間 *予測 predict() する。区間 interval を「予測」に > pred.95 <- predict(lm(Type ~ Token), interval = "prediction") *結果を保存したpred.95のデータををデータフレーム型に変更 > pred.95 <- as.data.frame(pred.95) *データをプロット > plot(Token, Type) *フィット(回帰直線)を黒で描く > lines(Token, pred.95$fit, col = "black") *上限値を赤で描く > lines(Token, pred.95$upr, col = "red") *下限値を青で描く > lines(Token, pred.95$lwr, col = "blue") {{ref_image pred95.png}}