3群以上の群間で平均値の差があるかどうかを検定したい場合には、「分散分析のF検定」(+テューキーの多重比較)を行う。ただし、この検定は「ルビーンの等分散性検定」で群間の分散が等しい場合のみ。等しくない場合は、「ウェルチののT検定」(+ゲームス・ハウエルの多重比較)を行う。2群の場合は「平均値の差のT検定」を行う。最近では等分散かどうかで分岐せず、最初から「ウェルチののT検定」を行うのが主流。ちなみに1群の場合は「1群のT検定」を使えばよい。
- 次の図の引用元: 読書感想『統計学が最強の学問である』 - いっしきまさひこBLOG
「分散分析」関連のノートは、このエントリにまとめていく予定。
分散分析(ANOVA:ANalysis Of VAriance)とは
- 対象:グループが3つ以上。2つの場合は最後に書いた『補足:「平均値の差のT検定」について』を参照
- 分散分析とは、グループごとに、ある変数の平均値を算出し、それらに差があるかを確かめる手法
- 例えば、ある地区の学校ごとに、ある英語試験の平均点を算出し、それらに差があるかを確かめるなど
分散分析の結果の見方
- 結果の見方としては、まず平均値を見る。次に有意確率を見る
- この有意確率は「分散分析のF検定」の結果(F値)
- F値=有意確率を算出するときの途中の計算の値
分散分析の「F検定」と有意確率
- 有意確率とは、偶然に起こってしまう確率のこと
- 0.05未満なら、偶然に起こる確率は非常に低い(=つまりほぼ起こらない)ので、「統計的に有意」となる。「5%水準で有意」「有意水準5%未満で統計的に有意差がある」とも言う
- 例えば有意確率が0.01なら、「平均値は等しい(=差がない)」という帰無仮説が棄却されて「各学校」と「英語の平均点」の間に関連がある(=郡間で平均点に差がある)と言える
- つまり、英語の平均点は学校ごとに差があると、ざっくり示しているに過ぎない
- 要するに、どの学校とどの学校に差があるかまでは分からない。ので、テューキーの多重比較を見る
テューキー(Tukey)の多重比較
- 各グループごとに平均値に差があるか比較して有意確率を算出する
- 分散分析のF検定が全体の有意確率で、テューキーの多重比較が部分の有意確率
ルビーン(Levene)の等分散性検定
- 対象:グループが3つ以上
- ただし分散分析のF検定やテューキーの多重比較は、各グループ内の分散が等しいときにしか使えないという制約がある
- 分散が等しいかを調べるのが、ルビーンの等分散性検定
- つまり分散分析の前に、ルビーンの等分散性検定を行っておく必要があるということ
- その有意確率が0.05未満(統計的に有意)なら、「分散が等しい」という帰無仮説が棄却されて「各グループで分散に差がある」ことを意味するので、分散分析できない
ウェルチ(Welch)のT検定
- 等分散でもそうでなくても実施可能
- 各グループで分散に差がある場合は、(分散分析のF検定の代わりに)ウェルチのT検定を行う
- 結果の見方は同じ
ゲームス・ハウエル(Games-Howell)の多重比較
- また、(テューキーの多重比較の代わりに)ゲームス・ハウエルの多重比較を行う
- 結果の見方は同じ
多重性の問題
- 以上の手法は昔の教科に載っていた手法。現在では「多重性の問題」があると言われている
- 多重性とは、「等分散性検定」→「分散分析のF検定など」による二段階検定によって、有意確率が設定した5%未満ではなく実質的に例えば9.7%ぐらいと緩くなってしまっていること
- これは問題があるので、現在では等分散性があろうがなかろうが、全部すっ飛ばして「ウェルチのT検定」を行うべし、というのがセオリーになっている(らしい)
- 参考にできる「YouTube動画:...【検定の多重性問題をうまく回避する方法】」
補足:「平均値の差のT検定」について
- 対象:グループが2つ
- 平均値の差のT検定とは、2つのグループ間に、ある変数の平均値を算出し、それらに差があるかを確かめる手法
- 例えば、2つの学校間に、ある英語試験の平均点を算出し、それらに差があるかを確かめるなど
- T値とF値は、実質的に同じものを表現しており、具体的には「T値の2乗=F値」になる
- 「平均値の差のT検定」は、2つのグループ内の分散が等しい(=等分散の)とき/等しくないとき、どちらのケースでも使ってよいとされている
- 非等分散性を気にするのであれば、ウェルチのT検定を使えばよい(「ウェルチの検定」は万能?! これだけ使うのが主流らしい)
補足:「T検定」について
- ちなみに、ひとえに「T検定」といっても、使われ方によって3つに大別できる
- 2群: 平均値の差のT検定(「対応のないT検定」、「スチューデントのT検定」、単に「T検定」とも呼ばれる)
- 1群: 1群のT検定
- 1群を2回使用: 対応のあるT検定
- 「1群のT検定」と「対応のあるT検定」は以下で説明
- なお、 3群以上なら上記の通り「分散分析のF検定(※T検定ではないが、下記のように同じ表現値)」を使う
補足:「1群のT検定」について
- 対象:グループが1つ(何も考えなくても等分散)
- 1群のT検定とは、1つのグループ内で、ある変数の平均値を算出し、それと指定された固定値とに差があるかを確かめる手法
- 例えば、1つのポテトチップス群において、内容量の平均の重さを算出し、それとパッケージにに記載された80グラム(固定値)とに差があるかを確かめるなど
補足:「対応のあるT検定」について
- 対象:グループは1つ、その1つを2回使う(主にビフォー&アフターで)(何も考えなくても等分散)
- 対応のあるT検定(paired t-test)とは、1つのグループ内で、ある変数の平均値を2回算出し、1回目と2回目に差があるかを確かめる手法
- 例えば、1つのポテトチップス群において、リニューアル前と後に分けて内容量の平均の重さを算出し、その前(ビフォー)と後(アフター)に差があるかを確かめるなど
補足:正規性がない場合について
- 正規性とは、データの母集団が正規分布に従っていること
- 通常は正規分布に従っているものと仮定して、上記のようなフローで検定を行う
- 正規性を調べるには、「正規性の検定」を行う
- 正規性の検定には、シャピロ・ウィルク(Shapiro-wilk)検定、コルモゴロフ・スミルノフ(Kolmogorov-Smirnov)検定などあるが、決定打にはならない。ヒストグラムやQ-Qプロットを見て判断したりもする
- 正規性がない場合は、非正規分布についてはT検定よりも有効性が高い「マン・ホイットニー(Mann–Whitney)のU検定」(=ウィルコクソン:Wilcoxonの順位和検定)を行う
参考文献
- 『【新版】文系でもわかる統計分析』(※「ウェルチのF検定」と書かれているけど、Web検索しても「ウェルチのT検定」しかヒットしないので、このノートでは後者を採用)
- 「t検定の使い分けの流れとイメージをざっくりとつかむ(等分散性?F検定?正規性?対応のない2群) - YouTube」
- 「等分散検定から t検定,ウェルチ検定,U検定への問題点」「Welch検定が主流,単純t検定やANOVAは時代遅れ:Statwingの話題から」