いっしきまさひこBLOG

AI・機械学習関連、Web制作関連、プログラミング関連、旅行記録などなど。一色政彦。

読書感想『統計学が最強の学問である』

書籍紹介

 2013年1月出版の本ですが、本屋さんで平積みされていたので気になっていました。audiobook.jpでセールされたので聴いて&読んでみました。Kindle版もあります。

 オーディオブックの再生時間は7時間3分。比較的短めです。

 本の概要を講義した動画も見つけました。

 「2015年1月20日までの限定公開」と書かれていますが、2020年1月26日時点でまだ視聴できるみたいです。YouTubeの「限定公開」となっているのでリンクは遠慮しておきます。視聴したい人は上記のリンク先を訪問してください。

f:id:misshiki:20200126162640p:plain
51分28秒の動画「八嶋智人が『統計学が最強の学問』を講義する!」

  1. プロローグ(2:14)
  2. オープニング(4:28)
  3. 誕生日のパラドクス(6:31)
  4. 西内啓さん紹介(10:14)
  5. ビックデータとサンプリング(3:02)
  6. テレビの視聴率はどうやって調べるのか (3:52)
  7. 身長サンプリング調査(6:09)
  8. あの格言は正しいのか(4:36)
  9. 統計学にダマされるな!(7:26)
  10. エンドロール(2:56)

概要紹介と感想

 この本の評価コメントを見ると、高い評価が多いですが、低い評価も一定数います。その理由は何となく分かります。この本に何を期待するかで、評価が全く変わるだろうなと思うからです。

 この本は、「統計学」がIT+ビッグデータにより使えるツールとなったことを事例を繰り出しながら力説します。それによって、それまで統計学を軽視してきた人たちに気付きを与えてくれます。それが高評価の理由。

 一方で、統計学を鳥瞰図的に使い道をざっくりと示しています。この説明は、統計学を知らない人には難しく、知っている人には全く内容がない(=統計学の内容をかみ砕いて書いている)ようなレベル感になっています。そこが低評価の理由だと思います。

 低評価の理由について擁護しておくと、“ある程度”統計学を知っている人には頭の中が整理できたり、統計学がどうやって成り立ったのかという意味が理解できたりします。これによって、統計学が平均・分散、T検定・カイ二乗検定、多変量解析など、個々の知識でしかなかったものが、立体感を伴って全体像が浮かび上がってきます。というか私はこれを読んで立体感を覚えました。低評価の内容も、読む人によっては高評価になり得るということです。

 だから「この本を聴いて/読んでみたい」という人は、そういったことを意識してから本を手に取った方が幸せだと思います。

 ちなみに目次は以下のようになっています。このうち、第3章までは全ての人が読んでみるとよい部分です。第4章以降は、統計学の知識が少しあった方がより理解しやすいです。

  • 第1章 なぜ統計学が最強の学問なのか?
    • 01 統計リテラシーのない者がカモられる時代がやってきた
    • 02 統計学は最善最速の正解を出す
    • 03 すべての学問は統計学のもとに
    • 04 ITと統計学の素晴らしき結婚
  • 第2章 サンプリングが情報コストを激減させる
    • 05 統計家が見たビッグデータ狂想曲
    • 06 部分が全体に勝る時
    • 07 1%の精度に数千万円をかけるべきか?
  • 第3章 誤差と因果関係が統計学のキモである
    • 08 ナイチンゲール的統計の限界
    • 09 世間にあふれる因果関係を考えない統計解析
    • 10 「60億円儲かる裏ワザ」のレポート
    • 11 p値5%以下を目指せ!
    • 12 そもそも、どんなデータを解析すべきか?
    • 13 「因果関係の向き」という大問題
  • 第4章 「ランダム化」という最強の武器
    • 14 ミルクが先か、紅茶が先か
    • 15 ランダム化比較実験が社会科学を可能にした
    • 16 「ミシンを2台買ったら1割引き」で売上は上がるのか?
    • 17 ランダム化の3つの限界
  • 第5章 ランダム化ができなかったらどうするか?
    • 18 疫学の進歩が証明したタバコのリスク
    • 19 「平凡への回帰」を分析する回帰分析
    • 20 天才フィッシャーのもう1つの偉業
    • 21 統計学の理解が劇的に進む1枚の表
    • 22 重回帰分析とロジスティック回帰
    • 23 統計学者が極めた因果の推論
  • 第6章 統計家たちの仁義なき戦い
    • 24 社会調査法vs疫学・生物統計学
    • 25 「IQ」を生み出した心理統計学
    • 26 マーケティングの現場で生まれたデータマイニング
    • 27 言葉を分析するテキストマイニング
    • 28 「演繹」の計量経済学と「帰納」の統計学
    • 29 ベイズ派と頻度論派の確率をめぐる対立
  • 終章 巨人の肩に立つ方法
    • 30 「最善の答え」を探せ
    • 31 エビデンスを探してみよう

 以下、引用しながら、私自身が気に入った内容をまとめていきます。

統計学が最強の武器になるワケ

 冒頭でも「統計学がIT+ビッグデータにより(昔と比べて)使えるツールとなった」と記述しました。昔と比べて、統計学はあらゆる学問で必須ツールとなっています。それだけでなく、企業内でもデータが増えてきており、大量のデータから意味のある情報を抽出して分析するニーズが高まっています。それを私自身も身近に感じています。これについて筆者は次のように表現しています。

どんな分野の議論においても、データを集めて分析することで最速で最善の答えを出すことができる

 私自身も、ディープラーニングや機械学習を学ぶうえで統計学の知識を身に付ける必要性を感じて、統計検定2級を受験し、合格しました。統計検定は2011年11月の試験開始から徐々に受験者数を伸ばし、私が受験した2019年11月に大幅に伸びています(下の図は「統計検定の記録(分布)|統計検定:Japan Statistical Society Certificate」からの引用です)。2020年以降も右肩上がりで伸びるのは間違いないだろうと私は見ています。<ここだけちょっと本の内容から脱線しました>

f:id:misshiki:20200124023727p:plain
統計検定の受験者総数の推移

全数調査 vs サンプリング調査

 統計学の知識がないと、「全数調査しないとダメでしょ」という意見に普通なります。しかし統計学は、「その必要はなく、ランダムサンプリングして調査すれば、かなり良い精度で推定できるよ」ということを明らかにしています。目次の見だしにある「1%の精度に数千万円をかけるべきか?」とは、全数調査とサンプリング調査では、(もちろんケースバイケースですが)精度にそれくらいの差しかないことがほとんどということを示しています。

ランダム化

 Web業界では、「A/Bテスト」と呼ばれる比較検証をよくやりますよね。対象ページのAバージョンとBバージョンを用意しておいて、訪れる参照者ごとランダムにAかBかを見せて、どちらがより効果が出るかという手法です。

 これにより、より効果の高いサイトを作っていけます。これは統計学では「ランダム化比較実験」というフィッシャーが打ち立てた方法論なのだそうです。これをベースにロザムステッドが著したのが『実験計画法』です。これについて著者は次のように述べています。

とりあえず研究参加者をランダムに分けて、異なる状況を設定し、その差を統計学的に分析してしまえばいいのだから、これほどわかりやすく強力な研究方法はない

 「ランダム化比較実験」のランダムネスは統計学において非常に重要で、しかも強力です。ランダムネス(=ランダム化やランダムサンプリング)の有効性については観察や調査(先ほど示したサンプリング調査など)においても言えます。

ランダム化に基づいて条件をコントロールする実験だけでなく、ただ何も手を加えずに調査を行う観察においても統計学は大きな力を発揮するのだ。

 また著者は、疫学研究方面における「ランダム化」の価値を言及していました。

90年台代前半の主要な医学雑誌に掲載された論文を比較検討した結果、疫学研究から示されたリスクの大きさは「ランダム化比較実験とあまり結果に差がない」である。そして、その理由としては「高度な統計手法によって、適切な条件の調整を行うことはできているから」という考察がなされていた。

「平凡への回帰」と回帰分析

 中学や高校の試験で偏差値って出ますよね。そのグラフは釣り鐘状で、中央が一番多く、両端は少ない形になります。このように一般的な傾向として、データは中央に集まってくる、つまり「平凡への回帰」(ゴルトンによる)なわけです。その後、「平均値への回帰」(=平均値に近づく)とも言い換えられているそうです。このようなことが起こる理由について著者は次のように書いています。

なぜこうした「平均値への回帰」という現象が起こるかと言えば、それは身長だろうが知能だろうが、あるいは生物の特徴だけに限らず、この世のすべての現象がさまざまな「バラつき」を持っているからだ。

 そしてバラつきを持つ事象には、回帰分析が必要だと論じています。

ゴルトンとその弟子から我々が最も学ぶべきは、バラつきを持つ現象に対する理論的な予測がそれほどうまくいかないという点である。だからこそきちんとデータをとって回帰分析を行い、その関係性を分析する必要があるのだ。

 さらに、回帰分析の注意点を示しています。

ただし、回帰分析によって得られた「最もそれらしい予測式」を得ただけでは満足してはいけない。なぜならその予測式は最もデータとの誤差を最小化するように得られたものではあるが、依然として誤差が存在することには変わりないのだ。

 この誤差があることをどう考えればよいか。これに対して、再び(天才)フィッシャーがアイデアを提示したことを著者は説明しています。

だが、フィッシャーはこのように「無制限にデータを得られればわかるはずの真に知りたい値」を真値と呼び、たまたま得られたデータから計算された統計量がどの程度の誤差で真値を推定しているかを数学的に整理することで、無限にデータを集めることなく適切な判断が下せるという考えを示した。

 この後、回帰分析の基本用語として「信頼区間」や「p値(=有意確率値)」が紹介されます。そして次のように、こららの知識が統計学において非常に重要であることを示しています。

このように、回帰係数の誤差や信頼区間(やp値)といった値を読み解けるようになれば、あなたの統計リテラシーはぐっとレベルアップする。なぜなら以前に述べたようにデータ間の関連性を分析する、あるいはあるデータから何らかの結果を予測する、といった統計学の最も大きな目的のために用いられる手法のほとんどは、広義の回帰分析であるからだ。

 “広義の”回帰分析とは何なのでしょうか? これを著者は「一般化線形モデル」のことであると説明しています(※ちなみに「一般線形モデル:General Linear Model」という似て微妙に異なる用語がある。「一般線形モデル:General Linear Model」は「分散分析/回帰分析/共分散分先など線形で表現可能なモデル」のことで、「一般化線形モデル:GLM=Generalized Linear Model」は線形回帰を正規分布以外の分布にも一般化したモデル」のことで、ロジスティック回帰などがそれ)。一般化線形モデルという視点で見ると、T検定から回帰分析までさまざまな統計手法を、「基本的に同じ手法」として見なせると著者は主張しています。そして実際に1枚の図にまとめたのが、次の図です。

f:id:misshiki:20200124023745p:plain
170ページにある「図表25 一般化線形モデルをまとめた1枚の表」を引用

 「カイ二乗検定」は「独立性の検定」を指していると思います。独立性の検定はクロス集計表とカイ二乗検定を使います。

層別解析と重回帰分析

 層別解析について、

「同様の小集団」つまり「層」ごとに区切って分析を行うことを層別解析と呼ぶ

と著者は説明しています。しかし、いつもきれいな層が取得できるわけでありませんよね。ある層の人数が多かったり少なかったりと、「層ごとに偏りがある」という問題が発生することがあります。これに対して著者は次のように説明しています。

こうした問題に対して重回帰分析は威力を発揮する。「性別によって点数が平均的に何点異なるのか」を推定すれば、層別に分けなくてもよくなるのである。

ロジスティック回帰

 重回帰分析は、データの目的変数(結果変数)が気温のような連続値である必要があります。あり/なしといった二値などのカテゴリカルな値の場合は、ロジスティック回帰を使うことになります。著者はロジスティック回帰を次のように説明しています。

もともと0か1かという二値の結果変数を変換し、連続的な変数として扱うことで重回帰分析を行えるようにした、というのがロジスティック回帰の大まかな考え方である。

 因果関係の推論において、2つ以上の要因がある場合には交互作用が含まれる課題が生じることがあります。この場面で役立つのが傾向スコアです。著者は次のように説明しています。

傾向スコアとは、興味のある二値の説明変数について「どちらに該当するか」という確率(=傾向を示す値)のこと

 「傾向スコア自体は、すでに紹介したロジスティック回帰によって簡単に得ることができる」そうです。

統計学の6つの流派と2つの論者

 統計学に対する言説は分野ごとに特徴があるとのことです。著者は、以下の6つを取り上げています。

  1. 実体把握を行う「社会調査法」:
    「正確さ」を追究する(=偏りや誤差が可能な限り小さくなる推定値を効率よく求める)。伝統的な統計学の使い方
  2. 原因究明のための「疫学・生物統計学」:
    「妥当な判断」を求める(=p値に基づいて「原因」が見つかるなら、そこまでの正確さにこだわらない)
  3. 抽象的なものを測定する「心理統計学」:
    目に見えない「抽象的なもの(心や精神など)」を測定する。因子分析を生み出した。回帰分析の他、パス解析を好む。質問紙尺度の作成に心血を注ぐ
  4. 機械的分類のための「データマイニング」:
    「予測」に役立つ。マーケティングやデータ処理の「現場」で生まれた。1993年黎明期のバスケット分析は有名だが、統計的にはカイ二乗検定の方がより良い。人工知能もこの分野で、ニューラルネットワークやサポートベクタマシン、クラスター分析といった手法がある
  5. 自然言語処理のための「テキストマイニング」:
    自然言語で書かれた文章を統計学的に分析すること。辞書を使って文章を単語に分ける形態素解析や、辞書を使わないN-Gramといった手法がある
  6. 演繹に関心をよせる「計量経済学」:
    帰納(個別事例から一般法則を導く方法)に関心をよせる「統計学」とは目的が違う。演繹できないモデルは経済学の進歩に役立たないので、あらゆる手段を用いて当てはまりのよいモデルを作ろうとする

 また、上記の分野をまたいで、「確率自体の考え方」について2つの対立軸を提示しています。

  1. 頻度論者: 普通の統計学。シンプルに考えて「観測したデータを基に予測する」
  2. ベイズ論者: ベイズ統計学。合理的に考えて「事前確率を加味して事後確率を予測する」

まとめ

 他にも有用な内容はありましたが、わたしが気になったのは上記の内容でした。