Blog Sugiura

Enjoy

StatTrek

sugiura, · カテゴリー: bib, memo · タグ:

https://stattrek.com/

グラフ作成の基本

sugiura, · カテゴリー: 未分類 · タグ:

http://www.stat.go.jp/koukou/howto/process/proc4_2_1.htm

Brunner-Munzel検定

sugiura, · カテゴリー: memo · タグ: ,

「二つの確率変数 X1,X2 が同じ分布に従うという帰無仮説を検定する」

http://oku.edu.mie-u.ac.jp/~okumura/stat/brunner-munzel.html

「lawstat パッケージに brunner.munzel.test()」

「サンプルが非常に小さい場合には,Brunner-Munzelの統計量に並べ替え検定を適用」
「(permuted Brunner-Munzel test)」

the Fisher exact p-value: distinctiveness value

sugiura, · カテゴリー: memo, Tech · タグ:

へー、観察値の効果量も加味してp値をだしているから、効果量を示さなくてよいのか。
Gries and Stefanowitsch (2004)

Statwing

sugiura, · カテゴリー: memo, software · タグ:

http://docs.statwing.com/

豊田先生の分散分析入門 Rによるスクリプト

sugiura, · カテゴリー: memo, program · タグ: ,

http://www.waseda.jp/sem-toyoda-lab/data.html

統計学習の指導のために(先生向け): 基本用語集

sugiura, · カテゴリー: memo · タグ:

http://www.stat.go.jp/teacher/c2dic.htm

統計用語集

sugiura, · カテゴリー: bib, memo, 研究 · タグ:

http://estat.sci.kagoshima-u.ac.jp/dic/index.html

効果量の計算 (Effect Size): Cohen’s d

sugiura, · カテゴリー: program, 研究 · タグ:

http://mercury.gsid.nagoya-u.ac.jp/program/perl/effectsize.html

メモを兼ねて久しぶりにCGIを作ってみる。

Effect size

sugiura, · カテゴリー: memo · タグ:

http://en.wikipedia.org/wiki/Effect_size#Cohen.27s_d

Rasch Measurement Analysis Software Directory

sugiura, · カテゴリー: software · タグ: ,

http://www.rasch.org/software.htm

SPSSによる線型混合モデルとその手順 第2版

sugiura, · カテゴリー: bib · タグ:

http://www.amazon.co.jp/dp/448902133X/
この本が「絶版」だった理由がわかった。
第2版を準備していたんだ。

Mixed Effects Models Blog

sugiura, · カテゴリー: 研究 · タグ:

http://mixedmodeljp.blogspot.jp/

Green Tea Press

sugiura, · カテゴリー: Life Hack, program · タグ: ,

http://greenteapress.com

うーん、、、いったい何と言う出版社なんだ。

「偏決定係数」=重回帰分析のpartial R^2=分散分析のpartila η^2

sugiura, · カテゴリー: 研究 · タグ:

fprでの南風原先生のご提案。

すばらしい。

一般化線形モデルへと進む道だと思う。

 

lmerで使う記号

sugiura, · カテゴリー: 未分類 · タグ: , ,

+ で要因を追加する
| でエラー条件を指定
: で交互作用を指定
* でそれぞれの要因だけでなく交互作用も含める(例:X*YというのはX+Y+X:Yと同じ)

lmer()

sugiura, · カテゴリー: 未分類 · タグ: , ,

lmer(RT ~ Trial + (1|Subject) + (1|Word), data)
 
反応時間(RT)に試行(Trial)が影響を与えるか、という問題ととらえる。
 
このTrialが固定要因
後ろのSubjectとWordが変量要因
最後のdataが分析対象のデータセット
 
Baayen (2008)では、このデータセットが、lexdecというもので、
語彙判断課題の反応時間のデータ。
被験者21人
刺激語79個(動物44個、植物35個)
 
反復測定。
各項目に対し21人分のデータを繰り返し取っている。
各被験者から79個分のデータを繰り返し取っている。
 
(1|Subject)と書いてあるのは、「1」は切片を表す1。
線形モデルでは、切片が、ベースラインとなる平均を表す。

固定要因と変量要因

sugiura, · カテゴリー: 未分類 · タグ:

Y=固定要因+変量要因+誤差
固定要因は、要因が決まっているもの。頻度が高いか低いか。
変量要因は、ばらつきが含まれる要因。個人差のある被験者とかばらつきのある実験項目。
 
ということは、変量要因として被験者と実験項目があるばあいは、次のような式になる:
Y=固定要因+変量要因1+変量要因2+誤差
 
もし要因が二つとなると
Y=固定要因1+固定要因2+変量要因1+変量要因2+誤差
となる。
(さらには、それぞれの要因間の交互作用も、、、)
 

一般線形モデルの前提

sugiura, · カテゴリー: 未分類 · タグ: ,

独立性:一人から2回データを取って、それを「別人の」二人分のデータ扱いをしてはいけない。
 
分散の均一性
誤差の正規性
線形性
 
正規分布になってないデータは、変換する。
 平方根変換(ポアソン分布もこれで対応可)
 逆数変換
 対数変換
(逆正弦変換)

説明変数が二つになった場合

sugiura, · カテゴリー: 未分類 · タグ: ,

因果間関係を考えた場合、どちらの変数(もしくは両方)が、(よりよく)「説明」できるか、という問題になる。
 
ある要因だけを考えて分析して、有意な結果が出なかった場合、他の要因も考慮に入れることで、分析の結果が違ってくることがある。
1)「他の要因」こそが重要な要因である場合
2)「他の要因」を考慮することにより、はじめの「ある要因」の影響力が適切に測れるようになる場合
3)「ある要因」と「他の要因」それぞれ単独では有意でなくても、
   同時に考慮する(式に入れる)ことにより、両方が有意になる場合
 
逆に、要因を足すことにより、説明力が下がる場合は、その要因は追加すべきではない。

すべて分散分析表のp値を見て判断。
(ただし、詳しくは、逐次平方和と調整平方和を比べること)
 

一般線形モデル

sugiura, · カテゴリー: 研究 · タグ: ,

分散分析も回帰分析も一般線形モデルの一形式としてまとめられる。

違いは、説明変数が、
分散分析はカテゴリカル型変数、
回帰分析は連続型変数、というだけ。

「問い」は「従属変数は説明変数の影響を受けるか」(関連しているかどうか)
で、検定の結果を見るのは「分散分析表」。

js-STAR 2012

sugiura, · カテゴリー: software, 研究 · タグ:

http://www.kisnet.or.jp/nappa/software/star/index.htm

なんだか知らない間に、名前が変わっていた。
 
そのうえ、Rのスクリプトまで自動で「書いてくれる」ようになっている。
 
JavaScriptのプログラムでの処理結果とRでの処理結果と、両方で結果を確認できて良いと思います。
 

7 Mixed models

sugiura, · カテゴリー: bib, 研究 · タグ:

Baayen (2008) の7章。
ふむふむ。

repeatable level=treatment factor=fixed-effects
not repeatable level=subjects, items=random effects

“Mixed-effects models, or more simply, mixed models”

つまり、被験者と項目がランダム効果、実験の要因が固定効果。

Rで使うんは、LME4というパッケージ。
そこに、lmer()という関数(コマンド)が入っていて、それを使う。

サンプルのデータは、2章で使った、lexdec というデータセット。
これは、語彙判断課題の反応時間データ。
ただし、反応時間は、対数変換したる。

いずれにせよ、分布をQ-Q plotで見ておく。関数は qqmath()。
qqmath()は、LME4のパッケージに入っているlatticeパッケージに入ってる。

で、正規分布してるか?
してなかったらデータをきれいにするかどうか。

まず考えるのは、そもそも反応時間として不自然なデータは見るべきデータではないので除くのが合理的。
1)200ミリ秒未満
2)長い方は、、、

データを見てみると、多くの「外れ値」は、log RT=7 あたりで仕分けられる。
およそ1100ミリ秒。

とするか、平均から2SDか3SDで、切るのも手。

(★とBaayenは言っているが、ここであくまでも対数変換してでも「正規分布」を想定しているところが、疑問。というか、「線形」混合モデルを使う限り、話としてはそうせざるを得ないのだろう。ということから考えると、じゃ、「非線形」モデルでやれないのかしらというのが思いつき。)

とりいそぎ。

AICを使った変数選択

sugiura, · カテゴリー: 未分類 · タグ:

http://hnami.or.tv/d/index.php?AIC%A4%F2%BB%C8%A4%C3%A4%BF%CA%D1%BF%F4%C1%AA%C2%F2

どの回帰式があてはまり具合が良いかを判断する。

統計学習の指導のために(先生向け)

sugiura, · カテゴリー: 未分類 · タグ:

http://www.stat.go.jp/teacher/index.htm

総務省統計局がこんなのを作ってるんですね。