統計学に入門するノート - いっしきまさひこBLOG

勉強中の統計学の内容を個条書きでまとめたノートです。長いです。今後、母比率、二項分布、ポアソン分布、統計的検定などを追記予定。

個人的な目標としてまずは統計検定2級の取得を目指しています。9月は他にやりたいことがあるので10月から...。

個人的に全体像を理解するのに特に役だったコンテンツは、以下です。

『マンガでわかる統計学素朴な疑問からゆる~く解説』：最初に読んだ。前半は分かりやすいけど、説明が弱い部分がところどころあって一読で全部理解するのは難しい。まず一読して雰囲気をつかむという使い方がお勧め。
『完全独習　統計学入門』： T検定、カイ2乗検定までが、ステップバイステップですんなり理解できる。3回も読むと統計学の基礎知識が分かるので一番お勧め。オーディオブックもあり、併用すると便利。
「予備校のノリで学ぶ「大学の数学・物理」【確率統計】再生リスト」：上記の完全独習を理解してから、これを視聴すると、より深く理解できる。講義がメチャクチャ分かりやすい。繰り返し視聴すると知識が定着する。その後で、再度、上記のマンガに戻ると「そういうことだったのか」と理解できる。

ただ、これだけでは統計学の取りこぼし部分が大きいし、試験問題などの応用力が身につかない感じで、この後、どの本で学んでいくか検討中です。ベイズ統計学とか因子分析とか勉強し出したら切りがないんだけど、取りあえず統計検定2級の範囲内をマスターしようとしています。

■記述統計学

●分布

分布（Distribution）：データセット内の各データがさまざまな数値を取ること。
縮約（Contraction）：データを整理・整頓・要約して意味のある情報を抽出すること。具体的には、グラフ化して分布の特性・特徴・くせを捉えたり、データを代表する基本統計量を取得したりする。

●グラフ

散布図（Scatter plot）：データを点々としてプロットした図
ヒストグラム（Histogram）: 縦長い棒をすき間無く横に並べたグラフ。

●基本統計量

基本統計量（Basic statistics）：データの基本的な特徴を表す値。代表値と散布度がある。
代表値（Averages）：統計量の代表を表す数値で、主に以下がある。
- 平均値（$M$、Mean）： $μ$（ミュー、ギリシア文字）と表記。算術平均のこと。
  - 算術平均（Arithmetic mean）：全データを足して、データ数で割る。相加平均 とも呼ぶ。
  - 幾何平均（Geometric mean）：全データを掛けて、データ数の累乗根で割る。相乗平均 とも呼ぶ。
  - 調和平均（Harmonic Mean）：逆数の平均の逆数。行き（4 km/h）と帰り（6 km/h）の時速を平均（$\frac2{\frac14 + \frac16}=\frac2{\frac3{12} + \frac2{12}}=\frac{2×12}{5}=4.8$ km/ h）する場合などで使う。
  - 加重平均（$ω$、Weighted arithmetic mean）：各データに重み（Weight、$ω$）を掛けて全データを足し、重みの合計値で割る。東証株価指数（TOPIX）はこれで、時価総額加重平均と呼ばれている。 $\overline{x}=\frac{\sum_{i=1}^nX_iW_i}{\sum_{i=1}^nW_i}$ 。
- 中央値（Median）：データ数の真ん中を指す。
- 最頻値（Mode）：データ数が最も多いものを指す。
散布度（Dispersion）：統計量の分布を表す数値で、主に以下がある。
- 分散（$S^2$、Variance）： $\sigma^2$ （シグマ２乗、ギリシア文字）と表記。母集団分布のばらつきを表す。$S^2=\frac1n\sum_{i=1}^n(x_i-\overline{x})^2$
  - 偏差（$d$、diviation）：各データと平均値の差のこと。$d_i＝x_i-\overline{x}$
  - 標本の場合は 不偏分散（Unbiased Variance）： $U^2$ と表記。標本（標本数＝$n$）分布のばらつきを表す。ズレを調整するため「$n-1$」する必要がある。$U^2=\frac1{n-1}\sum_{i=1}^n(x_i-\overline{X})^2$
- 標準偏差（$S$、$SD$、Standard Deviation）： $σ$（シグマ、ギリシア文字）と表記。２乗されている分散の値の縮尺を、累乗根により元データと同じレベルに戻した値。母集団分布の標準偏差。$S=\sqrt{\frac1n\sum_{i=1}^n(x_i-\overline{x})^2}$
  - 標本の場合は 不偏標準偏差（$U$、Unbiased Standard Deviation）： $U$ と表記。標本分布版の標準偏差。$U=\sqrt{\frac1{n-1}\sum_{i=1}^n(x_i-\overline{X})^2}$
- 平均偏差（Mean deviation）：２乗して累乗根するのではなく、偏差の絶対値を使う方法。標準偏差の法が数学的に扱いやすいのでほぼ使われない。$\frac1n\sum_{i=1}^n|x_i-\mu|$
- 歪度（わいど、Skewness）：分布の非対称性を表す数値。0より上なら左に偏っている、0より下なら右に偏っている。
- 尖度（せんど、Kurtosis）：分布の尖（とが）り具合を表す数値。3より上なら尖っている、3より下ならなだらか。
- 標準誤差（$SE$、Standard Error）：母平均と標本平均のズレ（推定量の推定精度）。中心極限定理により算出可能。

●度数分布表の基本用語

階級（Class）：データを整理するために設定する区間。例えば体重の区間を小～大まで10階級に分けるなど。
階級幅（Class width）：各区間の上限～下限の範囲（Range）。例えば50kg～60kgなど。
階級値（Class value）：各階級幅の中央値のことこ。例えば50kg～60kgのクラス幅なら55kgなど。
度数（Frequency）：各階級に入れるデータの個数。ヒストグラムにできる。
累積度数（Cumulative frequen）：度数を階級を進めるごとに累積していく。折れ線グラフにできる。
相対度数（Relative frequency）：全階級で100％（＝1.00）としたときの、各階級の割合のこと。ヒストグラムにできる。
累積相対度数（Cumulative relative frequency）：相対度数を階級を進めるごとに累積していく。折れ線グラフにできる。

●分布の種類

度数分布：身長の棒グラフ（ヒストグラム）などがその例で、同じ階級や度数などごとにデータをまとめた分布図・分布表のこと。
- この分布図は、多くのケースで正規分布図のような 一峰性（←→ 多峰性）となるので、主に正規分布を基準に統計処理を行う（後述）。
累積度数分布：走行距離の折れ線グラフなどがその例。
確率分布（Probability distribution）：度数分布を割合ごとに並べて、度数分布の合計が100％になるように調整した分布図・分布表のこと。

●確率分布

注意点（念押し）として、一部の標本ではなく、全データ（母集団）を網羅している必要がある。
例えばサイコロで、出る目を$X$（確率変数 と呼ぶ）、確率を$P(X)$とするならば、$P(X)=\frac{X}{6} (X=1,2,3,4,5,6)$という式が成り立つ。
確率密度：正規分布の縦軸。
確率密度関数：確率変数（$X$）がある値をとる確率（確率密度）を表す関数。確率密度を積分していけば、面積になり、推測時の確率（相対度数）が分かる。
連続型確率分布（Continuous probability distribution）：確率変数が連続的（つまり量的データ）である場合に取る分布。$E[X]=\int_{\omega}X(\omega)dP(\omega)$
- 正規分布（normal distribution）：後述。
- 指数分布（Exponential distribution）
離散型確率分布（Discrete probability distribution）：確率変数が離散的（つまり質的データ）である場合に取る分布。$E[X]=\sum_{i=1}^{\infty}x_iP(X=x_i)$
- 二項分布（Binomial distribution）：後述。
- ポアソン分布（Poisson distribution）：後述。
- 幾何分布（Geometric distribution）

●正規分布

標準化変量（Standardized Variables）： 平均$\mu=0$＆標準偏差$\sigma=1$ になるように標準化された変数のこと。
- 計算式：確率変数：$X$が、
  　正規分布： $N(μ,σ^2)$に従う場合に、
  　　標準正規分布： $N(0,1)$ に変換する。
  　つまり 正規分布を標準化する式 （＝標準化変量の式）は、$Z=\frac{X-μ}{σ}$
- 「$X-μ$」は、「位置の中心化」。つまり、ずらして中心を0にしている。
- 「$\frac{1}{σ}$」は、「サイズの標準化」。つまり、グラフ全体を縮小／拡大して、サイズを標準正規分布に合わせている。
標準正規分布： 平均値$\mu=0$、分散$\sigma^2=1$ （$N(0,1)$ と表記）の正規分布のこと。結果的に、標準偏差$\sigma=1$ となる。
標準正規分布表：面積の出し方に応じて何種類かある。
中心極限定理（CLT、Central Limit Theorem）：標本平均の確率分布が、確率変数の数（$n$）が増えるにつれて、正規分布に収束する性質のこと。推測統計で重要になる原則。詳細後述。
正規分布の確率密度関数 は、$f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
- これはヒストグラムの縦の長さを計算していると考えられる
- 正規分布の確率密度関数の覚え方：「このルートにパイと押しグルマで、ラインの上の位置につけ。いいね、まぁナイスな嬢たち。２つの押しグルマに嬢を乗せよう。その上、カッコえークッションから、まぁナイスなミュージックまで、に嬢は感激。」
標準正規分布の確率密度関数 は、$f(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}$
- 当然、正規分布の確率密度関数の、$\mu$に0、$\sigma$に1、を代入した計算式になる。
標準正規分布の累積分布関数 は、$f(x)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}e^{-\frac{x^2}{2}}dx$
- $\int_a^b$（インテグラル）は、$a$から$b$まで積分するという意味。
- $dx$（ディファレンシャルx）は、「$x$で極限まで小さく微分する」という意味。
- つまり、確率密度関数（微分）で縦の線を作り、それを横に積分してくことで、正規分布のグラフ面を作成している。
$\sigma$倍ごとの確率（相対度数）は決まっている。$1\sigma$は「$68.3％$」、$2\sigma$「$95.5％$」、$3\sigma$「$99.7％$」。
- 覚え方：「ロバさんの、救護請う。緊急なの」
推測統計で使う 95％／99％信頼区間 を、$\sigma$倍で表現すると「$1.96\sigma$／$2.58\sigma$」。
- 覚え方：「救護は一苦労。緊急に今夜」

■推測統計学

●手法

推測統計学（統計的推定）には推定と検定の2つの手法がある。
推定（Estimation）：母集団（後述）の特徴を、標本の特徴から推測すること。
検定（Test）：全体の平均値が想定した値と違うか、2つの群で平均値に差（有意差）があるか、を決定すること。

●母数

母集団（Population）：対象のすべての値を含むデータセット。
母集団は、有限母集団と無限集団に分けられる。
- （a）有限母集団：人口数などデータ数に限りがある集団
- （b）無限母集団：工場製品などデータ数が無限に広がる集団
母数（parameter）：統計学において、確率分布を特徴付ける定数。
母平均（$\mu$、Population mean）：母集団の全データを足して、データ数で割る。
母分散（$\sigma^2$、Population variance）：母集団分布のばらつきを表す。$\sigma^2=\frac1n\sum_{i=1}^n(x_i-\overline{x})^2$
母標準偏差（$\sigma$、Population standard deviation）：母集団分布の標準偏差。$\sigma=\sqrt{\frac1n\sum_{i=1}^n(x_i-\overline{x})^2}$
標本平均から予測した母平均（$\hat{\mu}$）
標本分散から予測した母分散（$\hat{\sigma^2}$）
標本分散から予測した母標準偏差（$\hat{\sigma}$）

●標本統計量

標本統計量（Sample statistics）：標本データの基本的な特徴を表す値。
標本平均（$\overline{X}$、$m$、Sample mean）：全標本データを足して、標本データ数で割る。
標本分散（$S^2$、Sample variance）： $S^2$ と表記。標本（標本数＝$n$）分布のばらつきを表す。$S^2=\frac1n\sum_{i=1}^n(x_i-\overline{x})^2$。この数値は基本的に使われない。
標本の場合は 不偏分散（$U^2$、Unbiased Variance）を使う： $U^2$ と表記。標本（標本数＝$n$）分布のばらつきを表す。ズレを調整するため「$n-1$」する必要がある。$U^2=\frac1{n-1}\sum_{i=1}^n(x_i-\overline{x})^2$
標本標準偏差（$S$、$SD$、Sample standard deviation）： $S$ と表記。２乗されている分散の値の縮尺を、累乗根により元データと同じレベルに戻した値。母集団分布の標準偏差。$S=\sqrt{\frac1n\sum_{i=1}^n(x_i-\overline{x})^2}$
標本の場合は 不偏標準偏差（$U$、Unbiased Standard Deviation）を使う： $U$ と表記。標本（標本数＝$n$）分布のばらつき（※単位が元に戻っている）を表す。

●中心極限定理

中心極限定理（CLT、Central Limit Theorem）：標本平均の確率分布が、確率変数（$n$）の数が増えるにつれて、正規分布に収束する性質のこと。

「平均$\mu$、分散$\sigma^2$、で正規分布する母集団から無作為に標本を抽出した場合、
　標本$\overline{X}$の数「$n$」が増えれば増えるほど、
平均$\mu$、分散$\frac{\sigma^2}{n}$の 正規分布 に近似していく。」

【参考】標本平均の式： $\overline{X}_n=\frac1n\sum_{i=1}^nX_i$（＝母集団から$n$個サンプリングして、$1$～$n$個まで全部足し合わせてから、それを単純に$n$個で割る）。
標本平均の分散が$n$で割られていることに注意。$\frac{1}{n}$倍。
- $n$が大きければ大きいほど、ばらつきが小さくなる（＝正規分布が細高くなる）ことを意味する（＝ 中心限定定理）。
同様に、母集団の標準偏差は$\sigma$なのに対し、標本平均の標準偏差は$\frac{\sigma}{\sqrt{n}}$になる。$\frac{1}{\sqrt{n}}$倍。
例題：「新成人の平均身長を推定したい。母集団から100人分をランダムに抜き出して標本の平均身長を調査した。標準偏差が10と見積もる場合、この標本の平均身長は、母集団の平均身長（真値）とどれくらいずれているか（標本標準誤差：SEM、Standard Error of the Mean：母平均と標本平均のズレ）を答えよ。」
- $n=100$、$\sigma=10$となり、標本平均の標準偏差の式「$\frac{\sigma}{\sqrt{n}}$」により、$\frac{10}{\sqrt{100}}=1$となる。
- これが意味するのは、母集団と標本で$\pm1$程度しかずれていないということ。
- $n$の値が大きくなるとさらに分母が大きくなるので、ずれはさらに狭まっていく（大数の法則）。
このように、中心限定定理の存在意義は「誤差（ずれ）を数学的にしっかりと評価するためにある」と言える。

●推定の種類

推定には、点推定と区間推定がある
点推定（Point estimation）：ピンポイントで母数を予想すること。例えば「ずばり、母数は25でしょう」のような感じで。
区間推定（Interval estimation）：区間で母数を予測すること。例えば「95％の確率で、母数は10～25の区間でしょう」のような感じで。

●点推定

点推定：ピンポイントで母数を予想すること。例えば「ずばり25でしょう」のような感じで。
推定量：確率変数のこと。
母数（$N$）：母集団の大きさ。母集団に含まれるデータの総数。
標本数（$n$）：標本の大きさ。抽出した標本の総数。
（1）平均の点推定（○標本平均を利用）：母集団は無理だから、ランダムサンプリングした標本で平均を取ること、つまり標本平均。$\overline{X}=\frac{X_i+\cdots+X_n}{n}=\frac{1}{n}\sum_{i=1}^nX_i$。確率変数$X_i+\cdots+X_n$の総和を、総数$n$で割ると、標本平均$\overline{X}$（当然、これも確率変数になる）が求まる。
（2-1）分散の点推定（×標本分散を利用）：母集団は無理だから、ランダムサンプリングした標本で分散を取ること、つまり標本分散。$S^2=\frac{(X_1-\overline{X})^2 + \dots + (X_n-\overline{X})^2}{n}$。確率変数$X_i+\cdots+X_n$の各値と標本平均の差を二乗した偏差の総和を、総数$n$で割ると、標本分散$S^2$（当然、これも確率変数になる）が求まる。
（2-2）分散の点推定（○不偏分散を利用）：標本分散は$n$が小さいときにズレが大きいため、$n-1$の 不偏分散 を使う必要がある。$U^2=\frac{(X_1-\overline{X})^2 + \dots + (X_n-\overline{X})^2}{n-1}=\frac{n}{n-1}\frac{(X_1-\overline{X})^2 + \dots + (X_n-\overline{X})^2}{n}=\frac{n}{n-1}S^2$。確率変数$X_i+\cdots+X_n$の各値と標本平均の差を二乗した偏差の総和を、総数より1小さい値$n-1$で割ると、不偏分散$U^2$（当然、これも確率変数になる）が求まる。この式は、標本分散を$\frac{n}{n-1}$倍したものと見ることもできる。
- 分母を$n-1$にする理由：下記の3つの性質を有しているため、推定量として好ましいから。ここで、母数を$\theta$（真の値）、推定量を$\hat{\theta}$（確率変数）と置く。
  - （a）一致性： $n$が大きくなれば、すなわち標本の数が増えれば、推定量$\hat{\theta}$は母数$\theta$に限りなく近づくという性質（確率収束）。
  - （b）有効性：推定量の分散が小さいほど、精度が良いという性質。
  - （c）不偏性：推定量$\hat{\theta}$の期待値は母数$\theta$と等しくなるという性質。$E[\hat{\theta}]=\theta$。これを使って上記の点推定の式を解いていく。
    - 標本平均の期待値は、$E[\overline{X}]=\mu$。$E(X_i)$は、真の母平均そのものであること（$E(X)=\mu$）を意味する。
    - 標本分散の期待値は、$E[S^2]=\frac{n-1}{n}\sigma^2$。$E(S_i)$は、真の母分散$\sigma^2$を$\frac{n-1}{n}$倍したものであること（$E(S_i)=\frac{n-1}{n}\sigma^2$）を意味する。これだと、特に標本数$n$が少ないとき、真の分散を過小評価してしまうことが分かる。よって標本分散ではなく不偏変数を使う。
    - 不偏分散の期待値は、$E[U^2]=\sigma^2$。$E(U_i)$は、真の母分散$\sigma^2$そのものであること（$E(U_i)=\sigma^2$）を意味する。
    - 不偏分散を使う直観的な理由：最小～最大まですべてそろった母数の平均よりも、その範囲内からランダムに抽出した標本は、当然ながら範囲が狭まっているわけで、ばらつき（分散）を過小評価することになる。

●区間推定の基礎

区間推定（Interval estimation）：区間で母数を予測すること。例えば「95％の確率で、母数は10～25の区間でしょう」のような感じで。
信頼区間（confidence interval)：ありうる母数の入るべき区間。
$\sigma$倍ごとの確率（相対度数）は決まっている。
- $1\sigma$区間に収まる確率は「$68.3％$」
- $2\sigma$区間に収まる確率は「$95.5％$」
- $3\sigma$区間に収まる確率は「$99.7％$」。
- 覚え方：「ロバさんの、救護請う。緊急なの」
95％信頼区間： $\sigma$倍で表現すると「$1.96\sigma$」。
- 算出される信頼区間のうち、95％が母数（母平均など）を含む、ということ。
- 覚え方：「救護は一苦労」
- 「99％」信頼区間 を$\sigma$倍で表現すると「$2.58\sigma$」（覚え方：「緊急に今夜」）
母集団データのみでの95％信頼区間： $f(x) = -1.96 \leq \frac{(x-\mu)}{\sigma} \leq 1.96$
- これは、データ$x$をズレ中心化＆サイズ標準化して標準正規分布に従わせた上で、平均からの距離（標準偏差$\sigma$の倍数）で範囲値を出している、ということ。$95％$なら、左右に$1.96\sigma$の距離になる。

●中心極限定理を使った区間推定

条件1：母集団が正規分布している
条件2：母分散（$\sigma^2$）／母標準偏差（$\sigma$）が既知
条件3： 母平均（$\mu$）が「未知」←これを区間推定する
中心極限定理より、標準偏差は$\frac{1}{\sqrt{n}}$倍となる。
- よって「母数（この場合、母平均$\mu$）の95％信頼区間」を求めるための統計量 $Z$ の計算式は以下のようになる。
- $Z=\frac{(\overline{X}-\mu)}{\frac{\sigma}{\sqrt{n}}}$
標本データにおける95％信頼区間： $-1.96 \leq \frac{(\overline{X}-\mu)}{\frac{\sigma}{\sqrt{n}}} \leq 1.96$
- これは、標本データの標本平均$\overline{X}$をズレ中心化＆サイズ標準化して標準正規分布に従わせた上で、平均$0$からの距離（標準偏差$\sigma$の倍数）で範囲値を出している、ということ。$95％$なら、左右に$1.96\sigma$の距離になる。
母分散（$\sigma^2$）／母標準偏差（$\sigma$）が分かっていれば、この計算式から、母平均（$\mu$）の値を算出できる。

●T分布を使った区間推定

条件1：母集団が正規分布している
条件2：母分散（$\sigma^2$）／母標準偏差（$\sigma$）が「未知」
条件3： 母平均（$\mu$）が「未知」←これを区間推定する
母平均 を調べたいとき、母集団に関して何も分からなければ、T分布を使う。そのための、統計量 $T$ を計算する式は以下のようになる。
- $T = \frac{(\overline{X}-\mu)}{\frac{U}{\sqrt{n}}}$
- 統計量 $Z$ の「$\sigma$」が「$U$」に置き換わっただけ。不偏分散$U$であることに注意。
  - 標本分散で、$T = \frac{(\overline{X}-\mu)}{\frac{S}{\sqrt{n-1}}}$としても同じ意味。
標本データにおける95％信頼区間：統計量 $T$ でT分布の数値を調べる。
- 自由度が $n-1$ になることに注意する。
この計算式から、母平均（$\mu$）の値を算出できる。

●カイ二乗分布を使った区間推定

条件1：母集団が正規分布している
条件2： 母分散（$\sigma^2$）／母標準偏差（$\sigma$）が「未知」←これを区間推定する
条件3：母平均（$\mu$）が「未知」
母分散 を調べたいとき、母集団に関して何も分からなければ、カイ二乗（$\chi^2$）分布を使う。そのための、統計量 $W$ を計算する式は以下のようになる。
- $W = \frac{(n-1)U^2}{\sigma^2}$
- 公式のように「$(n-1)$かける不偏分散$U^2$、オーバー、母分散$\sigma^2$」と覚えるとよい。
  - 分子の$(n-1)$は、不偏分散計算時の分母$(n-1)$との調整（＝かけると$1$）をしているため。
  - あとは、母分散、分の、不偏分散、で統計量を出している。
  - 標本分散で、$W = \frac{(n)S^2}{\sigma^2}$としても同じ意味。
標本データにおける95％信頼区間：統計量 $T$ でT分布の数値を調べる。
- 自由度が $n-1$ になることに注意する。
この計算式から、母平均（$\mu$）の値を算出できる。