相関と回帰式

相関と回帰式

相関係数
相関関係の検定
相関関係の散布図と回帰直線
95％の予測区間

相関係数

> cor(Type, Token)
[1] 0.889026

TypeとTokeは語数が増えると直線には回帰しないが、局所的にはほぼ直線で回帰できる。
詳しくは、TypeとToken 参照

相関関係の検定

TOP ↑ ↓

 > cor.test(Type, Token)
 
         Pearson's product-moment correlation
 
 data:  Type and Token
 t = 32.665, df = 283, p-value < 2.2e-16
 alternative hypothesis: true correlation is not equal to 0
 95 percent confidence interval:
  0.8618637 0.9111023
 sample estimates:
     cor 
 0.889026

p値は、相関が無いのに有ると間違える確率。
- p値が高ければ、間違っている確率が高くなる。アヤシイ

相関関係の散布図と回帰直線

TOP ↑ ↓

Tokenがx軸、Typeがy軸
y=ax+bの回帰直線

> lm(Type ~ Token)

Call:
lm(formula = Type ~ Token)

Coefficients:
(Intercept)        Token  
     43.587        0.298

> plot(Token, Type)

xとyが入れ替わる

> abline(lm(Type ~ Token))

95％の予測区間

TOP ↑ ↓

予測 predict() する。区間 interval を「予測」に

> pred.95 <- predict(lm(Type ~ Token), interval = "prediction")

結果を保存したpred.95のデータををデータフレーム型に変更

> pred.95 <- as.data.frame(pred.95)

データをプロット

> plot(Token, Type)

フィット（回帰直線）を黒で描く

> lines(Token, pred.95$fit, col = "black")

上限値を赤で描く

> lines(Token, pred.95$upr, col = "red")

下限値を青で描く

> lines(Token, pred.95$lwr, col = "blue")

相関と回帰式

相関と回帰式

相関係数

相関関係の検定

相関関係の散布図と回帰直線

95％の予測区間

https://sugiura-ken.org/wiki/

Menu

keyword

category

更新履歴