R.graph
- データの分布を見る(比較する)
- 真ん中の太い線:中央値 Median(50%)、平均ではないので注意
- 箱の範囲:25%から75%の範囲(これを四分範囲と呼ぶ)(つまり、半分のデータはこの範囲に入る)
- ひげの範囲:箱の端から箱の長さの1.5倍以内にある「実際の」数値の最大のもの最小のもの
- 外れている○印:外れ値(ひげの範囲外のもの)
金先生による図解
- データのばらつき具合(分布)は多様。(さまざまな分布がある)
- 平均(相加平均)(Mean)と標準偏差は、「正規分布」(normal distribution)を前提としている。
- 正規分布を前提としていないデータも、これ一つでばらつき具合を見て取れるところが便利。
- 二種類のデータを比較できるように箱ひげ図を描いてみる。
group | ms |
High | 438 |
High | 374 |
High | 313 |
High | 337 |
High | 393 |
High | 432 |
High | 380 |
High | 390 |
High | 354 |
High | 322 |
High | 328 |
High | 305 |
High | 386 |
High | 348 |
High | 271 |
High | 398 |
High | 401 |
High | 380 |
High | 324 |
High | 347 |
High | 350 |
High | 234 |
High | 327 |
High | 375 |
High | 325 |
High | 338 |
High | 366 |
High | 348 |
High | 398 |
High | 290 |
High | 384 |
High | 443 |
High | 303 |
High | 343 |
High | 358 |
High | 393 |
High | 363 |
High | 411 |
High | 389 |
High | 379 |
High | 246 |
High | 408 |
High | 393 |
High | 326 |
High | 405 |
High | 321 |
High | 353 |
High | 361 |
Low | 343 |
Low | 470 |
Low | 337 |
Low | 353 |
Low | 327 |
Low | 326 |
Low | 332 |
Low | 393 |
Low | 395 |
Low | 435 |
Low | 375 |
Low | 311 |
Low | 331 |
Low | 303 |
Low | 331 |
Low | 369 |
Low | 313 |
Low | 351 |
Low | 374 |
Low | 390 |
Low | 362 |
Low | 285 |
Low | 382 |
Low | 298 |
Low | 347 |
Low | 375 |
Low | 380 |
Low | 364 |
Low | 429 |
Low | 375 |
Low | 401 |
Low | 307 |
Low | 401 |
Low | 394 |
Low | 350 |
Low | 351 |
Low | 380 |
Low | 340 |
Low | 398 |
Low | 351 |
Low | 458 |
Low | 427 |
Low | 311 |
Low | 341 |
Low | 389 |
Low | 363 |
Low | 334 |
Low | 386 |
items <- read.table(choose.files(), header=T, sep="\t")
hi <- c(items$ms[items$group=="High"])
li <- c(items$ms[items$group=="Low"])
Hi | Lo |
438 | 343 |
374 | 470 |
313 | 337 |
337 | 353 |
393 | 327 |
432 | 326 |
380 | 332 |
390 | 393 |
354 | 395 |
322 | 435 |
328 | 375 |
305 | 311 |
386 | 331 |
348 | 303 |
271 | 331 |
398 | 369 |
401 | 313 |
380 | 351 |
324 | 374 |
347 | 390 |
350 | 362 |
234 | 285 |
327 | 382 |
375 | 298 |
325 | 347 |
338 | 375 |
366 | 380 |
348 | 364 |
398 | 429 |
290 | 375 |
384 | 401 |
443 | 307 |
303 | 401 |
343 | 394 |
358 | 350 |
393 | 351 |
363 | 380 |
411 | 340 |
389 | 398 |
379 | 351 |
246 | 458 |
408 | 427 |
393 | 311 |
326 | 341 |
405 | 389 |
321 | 363 |
353 | 334 |
361 | 386 |
hilo <- read.table(choose.files(), header=T, sep="\t")
hi <- hilo$Hi
lo <- hilo$Lo
boxplot(hi, lo)
- mainでタイトル
- ylabでy軸のラベル
- names=c(" ", " ") で各箱の名前
- ylim=c(下限値, 上限値)
- yaxp=c(下限値, 上限値, 目盛の数)
boxplot(hi, lo, main="High vs. Low", ylab="ms", names=c("High","Low"))
png("J1boxplot.png")
boxplot(J1, main="Japanese all data", ylab="freq.")
dev.off()
j1 <- boxplot(J1, main="Japanese all data", ylab="sentence length")
- 変数jiの中身が、boxplotの中身
- 中身のうち、箱ひげの図の基本的な数値は、$statで出る。
> j1$stat
[,1]
[1,] 2
[2,] 4
[3,] 7
[4,] 10
[5,] 19
attr(,"class")
V1
"integer"
- 上記の、[5, ]が箱ひげの「ひげ」の最大値。それより上が「外れ値」となる。
- 外れ値は、$out
> j1$out
[1] 21 21 25 29 20 22 20 20 22 20 23 21 20 24 21 21 24 22 22 20 23 22 25 20 20
[26] 23 21 22 21 23 22 24 20 36 21 21 29 22 24 27 25 20 22 23 29 20 21 24 24 21
[51] 20 22 29 22 23 23 20 23 22 27
https://sugiura-ken.org/wiki/