質的な変数同士でクロス集計表を作ると、独立変数(説明変数)と従属変数(目的変数)の関連を「独立性のカイ二乗検定」で計算できる。変数が多項目になるなら「相関係数」を使えばよい。
- 次の図の引用元: 読書感想『統計学が最強の学問である』 - いっしきまさひこBLOG
たぶんクロス集計表を使うことなんて今後もない気がするけど、「クロス集計表」関連のノートは、このエントリにまとめていく予定。
クロス集計表における「独立性のカイ二乗検定」と有意確率
- 有意確率とは、偶然に起こってしまう確率のこと
- 0.05未満なら、「統計的に有意」となる。「5%水準で有意」とも言う
- カイ二乗値=有意確率を算出するときの途中の計算の値
- クロス集計表で有意確率を算出することを「独立性のカイ二乗検定」と呼ぶ
- 例えば性別と喫煙者のクロス集計表で「独立性のカイ二乗検定」の有意確率が0.01なら、2つの変数は「関連がない(=独立である)」という帰無仮説が棄却されて、「性別」と「喫煙者」には何らかの関連がある(=独立ではない)と言える
三重クロス集計表
- 第3の変数として、独立変数でも従属変数でもない「統制変数」を使用する
クロス集計表のα係数
- 複数の独立変数を1 つの変数にまとめることを「変数の合成」と呼ぶ
- よく分からない変数を作ってないか? 同じモノを測定できているかをチェックするのが「信頼性分析」
- 信頼性分析の結果は、「クロンバッハのα」、通常は「α係数」と呼ばれる
- α係数が0.65以上だったら、質問項目は同じモノを測定できていると見なせる
クロス集計表のγ(ガンマ)係数
- クロス集計表における独立変数と従属変数の関連の強さ(ただし各変数は順序尺度もしくは性別のような2択の名義尺度)を評価する指標にγ(ガンマ)係数がある
- γ係数の正式名称は「グッドマン・クラスカルのγ」
- γ係数は、-1~1の値を取る。0が無相関。1は最大関連(「1/0|0/1」のように完全一致でなくても「1/0.3|0/1」でも1になる)を意味する
クロス集計表のV(ヴイ)係数
- クロス集計表における独立変数と従属変数の関連の強さ(汎用的に使える)を評価する指標にV(ブイ)係数も使える
- V係数の正式名称は「クラメールのV」
- V係数は、0~1の値を取る。1は完全関連を意味する
クロス集計表の集計結果
- 記述と説明: 調査用語。結果まとめ提示と、その原因考察&解説のこと。
多項目のクロス集計表を理解するための相関係数
- クロス集計表では、例えば「当てはまらない」「やや当てはまらない」~「やや当てはまる」「当てはまる」など多段階の項目も、2段階もしくは3段階の項目にまとめる
- その理由は多段階のクロス集計表は非常にセル数が多くなり、逆に人間にとって全容が把握しづらくなるから
- そのような多段階のクロス集計を用いたい場合は、項目同士の関連を「相関係数」で計測すればよい
- 単に「相関係数」と言えば、「ピアソンの積率相関係数」を指す
- -1は負の相関。0は無相関。1は正の相関
- 有意確率は「相関係数のT検定」(解説なし)で出す
3種類の相関係数
- 「ピアソンの積率相関係数」: 量的な(比例尺度/間隔尺度)変数同士の相関係数。
r
- 「スピアマンの順位相関係数」: 質的な(順序尺度)変数同士の相関係数。
ρ
(ロー) - 「ケンドールの順位相関係数」: 質的な(順序尺度)変数同士の相関係数。
τ
(タウ) - 質的な変数同士の相関件数は、スピアマンとケンドールのどっちを使ってもよい(通常、スピアマン)
- 量的変数と質的変数の相関係数なら、ピアソンかケンドールを使う
量的変数と質的変数
- 量的変数:比例尺度=0が「なし」(例:身長)
- 量的変数:間隔尺度=0が「なし」ではない(例:温度)
- 質的変数:順序尺度=項目間に「順序」がある(例:書道の級)
- 質的変数:名義尺度=項目間に「序列」がない(例:性別)