*disclaimer
451632
相関と回帰式
相関係数
> cor(Type, Token) [1] 0.889026
TypeとTokeは語数が増えると直線には回帰しないが、局所的にはほぼ直線で回帰できる。
詳しくは、TypeとToken 参照
相関関係の検定
> cor.test(Type, Token) Pearson's product-moment correlation data: Type and Token t = 32.665, df = 283, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.8618637 0.9111023 sample estimates: cor 0.889026
- p値は、相関が無いのに有ると間違える確率。
- p値が高ければ、間違っている確率が高くなる。アヤシイ
相関関係の散布図と回帰直線
- Tokenがx軸、Typeがy軸
- y=ax+bの回帰直線
> lm(Type ~ Token) Call: lm(formula = Type ~ Token) Coefficients: (Intercept) Token 43.587 0.298
> plot(Token, Type)
- xとyが入れ替わる
> abline(lm(Type ~ Token))
95%の予測区間
- 予測 predict() する。区間 interval を「予測」に
> pred.95 <- predict(lm(Type ~ Token), interval = "prediction")
- 結果を保存したpred.95のデータををデータフレーム型に変更
> pred.95 <- as.data.frame(pred.95)
- データをプロット
> plot(Token, Type)
- フィット(回帰直線)を黒で描く
> lines(Token, pred.95$fit, col = "black")
- 上限値を赤で描く
> lines(Token, pred.95$upr, col = "red")
- 下限値を青で描く
> lines(Token, pred.95$lwr, col = "blue")
https://sugiura-ken.org/wiki/