トップ 差分 一覧 ソース 検索 ヘルプ PDF RSS ログイン

相関と回帰式

*disclaimer
19643



相関と回帰式

相関係数

> cor(Type, Token)
[1] 0.889026

TypeとTokeは語数が増えると直線には回帰しないが、局所的にはほぼ直線で回帰できる。
詳しくは、TypeとToken 参照

相関関係の検定

> cor.test(Type, Token)

        Pearson's product-moment correlation

data:  Type and Token
t = 32.665, df = 283, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8618637 0.9111023
sample estimates:
    cor 
0.889026 

相関関係の散布図と回帰直線


  • Tokenがx軸、Typeがy軸
  • y=ax+bの回帰直線
> lm(Type ~ Token)

Call:
lm(formula = Type ~ Token)

Coefficients:
(Intercept)        Token  
     43.587        0.298  

> plot(Token, Type)
  • xとyが入れ替わる
> abline(lm(Type ~ Token))


95%の予測区間

  • 予測 predict() する。区間 interval を「予測」に
> pred.95 <- predict(lm(Type ~ Token), interval = "prediction")
  • 結果を保存したpred.95のデータををデータフレーム型に変更
> pred.95 <- as.data.frame(pred.95)
  • データをプロット
> plot(Token, Type)
  • フィット(回帰直線)を黒で描く
> lines(Token, pred.95$fit, col = "black")
  • 上限値を赤で描く
> lines(Token, pred.95$upr, col = "red")
  • 下限値を青で描く
> lines(Token, pred.95$lwr, col = "blue")