トップ 差分 一覧 Farm ソース 検索 ヘルプ PDF RSS ログイン

相関と回帰式

*disclaimer
231347



相関と回帰式

相関係数

> cor(Type, Token)
[1] 0.889026

TypeとTokeは語数が増えると直線には回帰しないが、局所的にはほぼ直線で回帰できる。
詳しくは、TypeとToken 参照

相関関係の検定

 > cor.test(Type, Token)
 
         Pearson's product-moment correlation
 
 data:  Type and Token
 t = 32.665, df = 283, p-value < 2.2e-16
 alternative hypothesis: true correlation is not equal to 0
 95 percent confidence interval:
  0.8618637 0.9111023
 sample estimates:
     cor 
 0.889026 
  • p値は、相関が無いのに有ると間違える確率。
    • p値が高ければ、間違っている確率が高くなる。アヤシイ

相関関係の散布図と回帰直線


  • Tokenがx軸、Typeがy軸
  • y=ax+bの回帰直線
> lm(Type ~ Token)

Call:
lm(formula = Type ~ Token)

Coefficients:
(Intercept)        Token  
     43.587        0.298  

> plot(Token, Type)
  • xとyが入れ替わる
> abline(lm(Type ~ Token))


95%の予測区間

  • 予測 predict() する。区間 interval を「予測」に
> pred.95 <- predict(lm(Type ~ Token), interval = "prediction")
  • 結果を保存したpred.95のデータををデータフレーム型に変更
> pred.95 <- as.data.frame(pred.95)
  • データをプロット
> plot(Token, Type)
  • フィット(回帰直線)を黒で描く
> lines(Token, pred.95$fit, col = "black")
  • 上限値を赤で描く
> lines(Token, pred.95$upr, col = "red")
  • 下限値を青で描く
> lines(Token, pred.95$lwr, col = "blue")