いっしきまさひこBLOG

AI・機械学習関連、Web制作関連、プログラミング関連、旅行記録などなど。一色政彦。

分散分析に関する統計学ノート

3群以上の群間で平均値の差があるかどうかを検定したい場合には、「分散分析のF検定」(+テューキーの多重比較)を行う。ただし、この検定は「ルビーンの等分散性検定」で群間の分散が等しい場合のみ。等しくない場合は、「ウェルチののT検定」(+ゲームス・ハウエルの多重比較)を行う。2群の場合は「平均値の差のT検定」を行う。最近では等分散かどうかで分岐せず、最初から「ウェルチののT検定」を行うのが主流。ちなみに1群の場合は「1群のT検定」を使えばよい。

f:id:misshiki:20200620151108p:plain
統計検定の適用方法一覧(分散分析/T検定を使う場合を赤で示した)

「分散分析」関連のノートは、このエントリにまとめていく予定。

分散分析(ANOVA:ANalysis Of VAriance)とは

  • 対象:グループが3つ以上。2つの場合は最後に書いた『補足:「平均値の差のT検定」について』を参照
  • 分散分析とは、グループごとに、ある変数の平均値を算出し、それらに差があるかを確かめる手法
  • 例えば、ある地区の学校ごとに、ある英語試験の平均点を算出し、それらに差があるかを確かめるなど

分散分析の結果の見方

  • 結果の見方としては、まず平均値を見る。次に有意確率を見る
  • この有意確率は「分散分析のF検定」の結果(F値)
  • F値=有意確率を算出するときの途中の計算の値

分散分析の「F検定」と有意確率

  • 有意確率とは、偶然に起こってしまう確率のこと
  • 0.05未満なら、偶然に起こる確率は非常に低い(=つまりほぼ起こらない)ので、「統計的に有意」となる。「5%水準で有意」「有意水準5%未満で統計的に有意差がある」とも言う
  • 例えば有意確率が0.01なら、「平均値は等しい(=差がない)」という帰無仮説が棄却されて「各学校」と「英語の平均点」の間に関連がある(=郡間で平均点に差がある)と言える
  • つまり、英語の平均点は学校ごとに差があると、ざっくり示しているに過ぎない
  • 要するに、どの学校とどの学校に差があるかまでは分からない。ので、テューキーの多重比較を見る

テューキー(Tukey)の多重比較

  • 各グループごとに平均値に差があるか比較して有意確率を算出する
  • 分散分析のF検定が全体の有意確率で、テューキーの多重比較が部分の有意確率

ルビーン(Levene)の等分散性検定

  • 対象:グループが3つ以上
  • ただし分散分析のF検定やテューキーの多重比較は、各グループ内の分散が等しいときにしか使えないという制約がある
  • 分散が等しいかを調べるのが、ルビーンの等分散性検定
  • つまり分散分析の前に、ルビーンの等分散性検定を行っておく必要があるということ
  • その有意確率が0.05未満(統計的に有意)なら、「分散が等しい」という帰無仮説が棄却されて「各グループで分散に差がある」ことを意味するので、分散分析できない

ウェルチ(Welch)のT検定

  • 等分散でもそうでなくても実施可能
  • 各グループで分散に差がある場合は、(分散分析のF検定の代わりに)ウェルチのT検定を行う
  • 結果の見方は同じ

ゲームス・ハウエル(Games-Howell)の多重比較

  • また、(テューキーの多重比較の代わりに)ゲームス・ハウエルの多重比較を行う
  • 結果の見方は同じ

多重性の問題

  • 以上の手法は昔の教科に載っていた手法。現在では「多重性の問題」があると言われている
  • 多重性とは、「等分散性検定」→「分散分析のF検定など」による二段階検定によって、有意確率が設定した5%未満ではなく実質的に例えば9.7%ぐらいと緩くなってしまっていること
  • これは問題があるので、現在では等分散性があろうがなかろうが、全部すっ飛ばして「ウェルチのT検定」を行うべし、というのがセオリーになっている(らしい)
  • 参考にできる「YouTube動画:...【検定の多重性問題をうまく回避する方法】

補足:「平均値の差のT検定」について

  • 対象:グループが2つ
  • 平均値の差のT検定とは、2つのグループ間に、ある変数の平均値を算出し、それらに差があるかを確かめる手法
  • 例えば、2つの学校間に、ある英語試験の平均点を算出し、それらに差があるかを確かめるなど
  • T値とF値は、実質的に同じものを表現しており、具体的には「T値の2乗=F値」になる
  • 「平均値の差のT検定」は、2つのグループ内の分散が等しい(=等分散の)とき/等しくないとき、どちらのケースでも使ってよいとされている
  • 非等分散性を気にするのであれば、ウェルチのT検定を使えばよい(「ウェルチの検定」は万能?! これだけ使うのが主流らしい)

補足:「T検定」について

  • ちなみに、ひとえに「T検定」といっても、使われ方によって3つに大別できる
  • 2群: 平均値の差のT検定(「対応のないT検定」、「スチューデントのT検定」、単に「T検定」とも呼ばれる)
  • 1群: 1群のT検定
  • 1群を2回使用: 対応のあるT検定
  • 「1群のT検定」と「対応のあるT検定」は以下で説明
  • なお、 3群以上なら上記の通り「分散分析のF検定(※T検定ではないが、下記のように同じ表現値)」を使う

補足:「1群のT検定」について

  • 対象:グループが1つ(何も考えなくても等分散)
  • 1群のT検定とは、1つのグループ内で、ある変数の平均値を算出し、それと指定された固定値とに差があるかを確かめる手法
  • 例えば、1つのポテトチップス群において、内容量の平均の重さを算出し、それとパッケージにに記載された80グラム(固定値)とに差があるかを確かめるなど

補足:「対応のあるT検定」について

  • 対象:グループは1つ、その1つを2回使う(主にビフォー&アフターで)(何も考えなくても等分散)
  • 対応のあるT検定(paired t-test)とは、1つのグループ内で、ある変数の平均値を2回算出し、1回目と2回目に差があるかを確かめる手法
  • 例えば、1つのポテトチップス群において、リニューアル前と後に分けて内容量の平均の重さを算出し、その前(ビフォー)と後(アフター)に差があるかを確かめるなど

補足:正規性がない場合について

  • 正規性とは、データの母集団が正規分布に従っていること
  • 通常は正規分布に従っているものと仮定して、上記のようなフローで検定を行う
  • 正規性を調べるには、「正規性の検定」を行う
  • 正規性の検定には、シャピロ・ウィルク(Shapiro-wilk)検定、コルモゴロフ・スミルノフ(Kolmogorov-Smirnov)検定などあるが、決定打にはならない。ヒストグラムやQ-Qプロットを見て判断したりもする
  • 正規性がない場合は、非正規分布についてはT検定よりも有効性が高い「マン・ホイットニー(Mann–Whitney)のU検定」(=ウィルコクソン:Wilcoxonの順位和検定)を行う

参考文献