いっしきまさひこBLOG

AI・機械学習関連、Web制作関連、プログラミング関連、旅行記録などなど。一色政彦。

クロス集計表に関する統計学ノート

質的な変数同士でクロス集計表を作ると、独立変数(説明変数)と従属変数(目的変数)の関連を「独立性のカイ二乗検定」で計算できる。変数が多項目になるなら「相関係数」を使えばよい。

f:id:misshiki:20200619092835p:plain
統計検定の適用方法一覧(クロス集計表を使う場合を赤で示した)

たぶんクロス集計表を使うことなんて今後もない気がするけど、「クロス集計表」関連のノートは、このエントリにまとめていく予定。

クロス集計表における「独立性のカイ二乗検定」と有意確率

  • 有意確率とは、偶然に起こってしまう確率のこと
  • 0.05未満なら、「統計的に有意」となる。「5%水準で有意」とも言う
  • カイ二乗値=有意確率を算出するときの途中の計算の値
  • クロス集計表で有意確率を算出することを「独立性のカイ二乗検定」と呼ぶ
  • 例えば性別と喫煙者のクロス集計表で「独立性のカイ二乗検定」の有意確率が0.01なら、2つの変数は「関連がない(=独立である)」という帰無仮説が棄却されて、「性別」と「喫煙者」には何らかの関連がある(=独立ではない)と言える

三重クロス集計表

  • 第3の変数として、独立変数でも従属変数でもない「統制変数」を使用する

クロス集計表のα係数

  • 複数の独立変数を1 つの変数にまとめることを「変数の合成」と呼ぶ
  • よく分からない変数を作ってないか? 同じモノを測定できているかをチェックするのが「信頼性分析」
  • 信頼性分析の結果は、「クロンバッハのα」、通常は「α係数」と呼ばれる
  • α係数が0.65以上だったら、質問項目は同じモノを測定できていると見なせる

クロス集計表のγ(ガンマ)係数

  • クロス集計表における独立変数と従属変数の関連の強さ(ただし各変数は順序尺度もしくは性別のような2択の名義尺度)を評価する指標にγ(ガンマ)係数がある
  • γ係数の正式名称は「グッドマン・クラスカルのγ」
  • γ係数は、-1~1の値を取る。0が無相関。1は最大関連(「1/0|0/1」のように完全一致でなくても「1/0.3|0/1」でも1になる)を意味する

クロス集計表のV(ヴイ)係数

  • クロス集計表における独立変数と従属変数の関連の強さ(汎用的に使える)を評価する指標にV(ブイ)係数も使える
  • V係数の正式名称は「クラメールのV」
  • V係数は、0~1の値を取る。1は完全関連を意味する

クロス集計表の集計結果

  • 記述と説明: 調査用語。結果まとめ提示と、その原因考察&解説のこと。

多項目のクロス集計表を理解するための相関係数

  • クロス集計表では、例えば「当てはまらない」「やや当てはまらない」~「やや当てはまる」「当てはまる」など多段階の項目も、2段階もしくは3段階の項目にまとめる
  • その理由は多段階のクロス集計表は非常にセル数が多くなり、逆に人間にとって全容が把握しづらくなるから
  • そのような多段階のクロス集計を用いたい場合は、項目同士の関連を「相関係数」で計測すればよい
  • 単に「相関係数」と言えば、「ピアソンの積率相関係数」を指す
  • -1は負の相関。0は無相関。1は正の相関
  • 有意確率は「相関係数のT検定」(解説なし)で出す

3種類の相関係数

  • 「ピアソンの積率相関係数」: 量的な(比例尺度/間隔尺度)変数同士の相関係数。r
  • 「スピアマンの順位相関係数」: 質的な(順序尺度)変数同士の相関係数。ρ(ロー)
  • 「ケンドールの順位相関係数」: 質的な(順序尺度)変数同士の相関係数。τ(タウ)
  • 質的な変数同士の相関件数は、スピアマンとケンドールのどっちを使ってもよい(通常、スピアマン)
  • 量的変数と質的変数の相関係数なら、ピアソンかケンドールを使う

量的変数と質的変数

  • 量的変数:比例尺度=0が「なし」(例:身長)
  • 量的変数:間隔尺度=0が「なし」ではない(例:温度)
  • 質的変数:順序尺度=項目間に「順序」がある(例:書道の級)
  • 質的変数:名義尺度=項目間に「序列」がない(例:性別)

参考文献