いっしきまさひこBLOG

AI・機械学習関連、Web制作関連、プログラミング関連、旅行記録などなど。一色政彦。

AWS Innovate 2020招待のヨビノリ動画で「機械学習とはなんぞや」を学ぼう

本日2020年3月10日(火)から4月17日(金)まで「AWS Innovate オンラインカンファレンス」が開催されています。ライブセッションは終わってしまったので、以後はオンデマンドでセッション動画を視聴できます。その目玉企画の一つとして、数学系人気YouTuberのヨビノリたくみ氏の招待講演があります。

ヨビノリとは、「予備校のノリで学ぶ「大学の数学・物理」 - YouTube」のことです。教科書的な網羅性はないのですが、ピンポイントで理解したい項目が動画になっており、非常に分かりやすいので、統計学を中心に私もよく視聴しています。

そのヨビノリたくみ氏が「機械学習」について講演するということで視聴してみました。そこで知らない人や興味がある人に向けてセッション内容をスクリーンキャプチャーベースで紹介します。

セッション概要

[K-2] 招待講演: 機械学習の「そと」と「なか」

機械学習とは何なのか。そして、その機械学習で何ができるのか。という『そと』の話。 そして、その背景にはどのような数学が使われているのか。という『なか』の話について、前提知識なしでわかるように解説する。「これからもっと勉強してみたい!」と思える超入門的な講義です。

誰向けの動画なのか?

機械学習についてはまったく知らない人向けですね。ヨビノリたくみ氏らしくすごく分かりやすいです。AWSはまったく関係がない内容です。

初心者レベルの人で「機械学習と数学をきちんと結び付けたい」と思っている人は視聴してみるとよいです。約48分です。

説明の流れ

イントロ「できること」と「数学」

f:id:misshiki:20200310184607p:plain
イントロ「できること」と「数学」

「機械学習とは何か」の概要説明

f:id:misshiki:20200310184644p:plain
「機械学習とは何か」の概要説明

値の予測(回帰)

f:id:misshiki:20200310184657p:plain
値の予測(回帰)

クラスの識別(分類)

f:id:misshiki:20200310184713p:plain
クラスの識別(分類)

教師あり/教師なし学習

f:id:misshiki:20200310184727p:plain
教師あり/教師なし学習

クラスタリング

f:id:misshiki:20200310184746p:plain
クラスタリング

次元削減

f:id:misshiki:20200310184812p:plain
次元削減

本の紹介1『人工知能プログラミングのための数学がわかる本』

この本は自分も持っていて読みました。きれいに整理された項目で勉強しやすいです。リファレンスとしても使いやすいと感じています。

f:id:misshiki:20200310184832p:plain
『人工知能プログラミングのための数学がわかる本』

本の紹介2『機械学習入門 ボルツマン機械学習から深層学習まで』

この本も自分も持っていて読みました。直感的なイメージで説明してくれているので確かに分かりやすいです。

f:id:misshiki:20200310184848p:plain
『機械学習入門 ボルツマン機械学習から深層学習まで』

本の紹介3『Pythonで機械学習入門: 深層学習から敵対的生成ネットワークまで』

持っておらず読んでいないのでどんな本かは知らないです。

f:id:misshiki:20200310184911p:plain
『Pythonで機械学習入門: 深層学習から敵対的生成ネットワークまで』

本の紹介4『人工知能は人間を超えるか』

この本は最初に買った本ですね。2~3回読んで、Audibleで5回以上聞きました。この本の内容はAudibleで散歩中に聞くとかで十分なぐらい分かりやすいです。自分はAudible初回登録時の「無料期間」で聞いたのですが、無料で聞けるならAudibleがお勧めです。

ただし2015年11月に発売された本で内容が古いですね...。本当は本をアップデートしてほしい。同じくらい良い本もなかなかないので仕方ないんですけど。

f:id:misshiki:20200310184932p:plain
人工知能は人間を超えるか』

内容を視聴したい場合は...

AWS Innovate オンラインカンファレンス」のサイトを訪れてください。

Google Chromeでlocalhostへアクセスするとhttpsにリダイレクトされてしまう問題の解消方法

Google Chromeで「http://localhost:8888」などのlocalhostにアクセスしようとして、以下のように表示され、ページが開けずに困っていないでしょうか?

f:id:misshiki:20200309234635p:plain
ERR_CONNECTION_REFUSED
このサイトにアクセスできませんlocalhost で接続が拒否されました。 次をお試しください - 接続を確認する - プロキシとファイアウォールを確認する

Chromeのキャッシュを消したり、いろいろやったりしたけど分からず、よく見ると、勝手に「https」にリダイレクトされているし、何これと、自分は数時間を費やしてしまいました。同様にお困りの人がいるかもしれないので、同じ問題に当たった人の時間節約のために解決方法を紹介しておきます。

最終的に参考になったのは、こちらの情報でした: Google Chrome redirecting localhost to https - Stack Overflow

原因はHSTS。自分の場合は昔なんかやったような思い当たるふしがありました。解決方法は以下の通り。

  1. Chromeのアドレスバーに「chrome://net-internals/#hsts」と入力して開く
  2. 一番下にある[Delete domain security policies]の[Domain]欄に「localhost」(日にちが経っちゃったので忘れたけど「localhost:8888」かも)を入力して[Delete]キーを押す

f:id:misshiki:20200309235928p:plain
HSTSのドメインを消す

当面これでうまく動作するみたいです。「http://localhost:8888」ってJupyter Notebookが使っているんですよね。

書き殴りですが以上です。

お勧めのMathJax設定方法(構成や日本語表示など)

いろんなところで数式レンダリングにMathJaxを使っています。最近v3を使ってみたのですが、表示が壊れるケースが多く、またv2の最新版に戻しました。

自分のためにも日本語表示方法など調べて対応したので備忘録として知見をまとめておきます。

v3を使ったときに日本語にメイリオ(Windows)を使ってみる例。ローカルで使っていたので汎用的な書き方ではないと思います。

<script>
MathJax = {
  tex: {
    inlineMath: [
      ['$', '$'],
      ['\\(', '\\)']
    ],
    displayMath: [
      ['$$', '$$'],
      ['\\[', '\\]']
    ]
  },
  options: {
    skipHtmlTags: ["script", "noscript", "style", "textarea", "pre", "code"]
  }
};
</script>
<script src="https://polyfill.io/v3/polyfill.min.js?features=es6"></script>
<script id="MathJax-script" async src="https://cdn.jsdelivr.net/npm/mathjax@3/es5/tex-chtml.js">
</script>
<style>
mjx-container mjx-utext { font-family: Meiryo !important; }
mjx-container svg text { font-family: Meiryo !important; }
mjx-container[display="true"] { margin: 0 !important; padding: 2px 0 4px 0 !important; }
mjx-mid mjx-c::before { padding-top: 0.13em !important; }
</style>

次にv2に戻したときに書いた例。

<script src='https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/MathJax.js?config=TeX-AMS_HTML-full'>
  MathJax.Hub.Config({
    "fast-preview": {disabled:true},
    tex2jax: {
      preview: "none",
      inlineMath: [['$','$'],['\\(','\\)']],
      displayMath: [['$$','$$'],['\\[','\\]']],
      skipTags: ["script", "noscript", "style", "textarea", "pre", "code"],
      processEscapes: true
    },
    "HTML-CSS": {
      undefinedFamily: "Meiryo, STIXGeneral, 'Arial Unicode MS', serif"
    }
  });
</script>

ちなみに、config=[入力形式_出力形式]で定義できます。

  • TeX-AMS_HTML:
    • TeX-AMS:数学の入力にTeX/LaTeX書式のみを使用する(※MathML書式は使わない)。なお「TeX-AMS」とは「AMS(American Mathematical Society:アメリカ数学会)」が開発したTex書式であること示す
    • HTML: HTML&CSSによる出力のみを行う(※MML出力は行わない)
  • ファイル名のサフィックス「-full」は、「完全版」フレーバーであること(※「標準版」フレーバーではない)を示す。「完全版」だと、数学レンダリングに必要なものはすべて事前にロードされる。そのためロード後の数式表示に遅延が発生しない

MathJaxはロードが遅いから(※もっと最適化する方法はあるのかなと思うけど時間的に調べ切れていません)、KaTeXに移行した方がいいのかもだけど、機能面とかどうなんだろうとか思って手をまだ出せていません。

はてなブログのMarkdownにも以下のような数式を書く書式があるけど、通常は$を使って書いてるから面倒くさいですね。

[tex:数式]

取りあえず以下のように書いてみていますが、この書き方で取りあえず問題はあまり出なさそうです。

【ブロックの場合】

<div>
$$
\begin{align}
y=x^{2} \cdots 数式1 \\
y=x^{3} \cdots 数式2
\end{align}
$$
</div>
$$ \begin{align} y=x^{2} \cdots 数式1 \\ y=x^{3} \cdots 数式2 \end{align} $$

【インラインの場合】

数式「<span>$y=x^{2}$</span>」をインラインで書く。

数式「$y=x^{2}$」をインラインで書く。

上記の通りで数式が反映されているのではないかと。

読書感想『ブチ抜く力 ―― 一つの事に魂を売れ』

書籍紹介

 2019年3月出版で約1年前の本ですが、audiobook.jpのセールで買えたので、2019年末に聴いて&読んでみました。Amazonなどでの読者評価もすごく高いです。

 オーディオブックの再生時間は7時間7分。比較的短めです。

概要紹介と感想

 内容としては、非常にシンプルで「何かを為すには、それだけに心血を注げ。それ以外の一切は切り捨てろ」ということです。当たり前のことですが、それが多くの人はできていないよね、ということです。それを与沢さん流に言うと、「ブチ抜く」「一つの事に魂を売れ」という表現になります。ちょっと言葉が汚く聞こえますが、そこがインパクトを生んでいますね。内容自体は紳士的だと思います。

 【目次】は次のとおりです。

  • 第1章◆基本の法則: 「すべての根底にある大原則」
  • 第2章◆ビジネスの法則: 「人と群れるな。誰とも組まず、単独で突っ走れ! 」
  • 第3章◆投資の成功法則: 「勝負は、チャンスが来る前から始まっている」
  • 第4章◆健康の法則: 「一日一日を全力で。その積み重ねが大きな結果に繋がる」
  • 第5章◆情報収集の法則: 「情報収集も3週間。「一人突っ込み」を繰り返し、センターピンを掴まえろ! 」
  • 第6章◆未来予測の法則: 「これからの世界で起きる事を予測し、逆算して今から動こう!

 エッセンスは第1章に詰まっていて、必読です。取りあえずここだけ読んでもよいです。

 ほとんどの人は何らかの仕事をしいてると思うので、第2章も参考になると思います。

 第3章と第4章は、与沢氏自身の直近の実践例です。投資をやっていない人とかダイエットをしていない人にはあまり興味がない話かもしれません。特に第4章はスキップしていい内容かなと……。

 第5章は「センターピン」(後述)を掴む方法を語っています。ここも読んだ方がいいです。

 第6章はどういう姿勢でこれから生きていくべきかという話でしたが、そこまでのインパクトはないですね。

 与沢氏のように、他全部を捨て去って、1つだけをやる、ってことは意外になかなか難しい。それを自分だけの力でやるのは大変です。自分自身もなかなか苦手です。テストの前とか締切の前とかなら専念できるのですが。そこを考えると与沢氏はすごいですね。

 例として、話は脱線しますが、2020年4月に「42 Tokyo(パリ発のエンジニア養成機関)」という次世代型の学校が開講します。その入学試験には、「Piscine(ピシン)」という独特の試験が行われています。Piscineは「スイミングプール」の意味で、つまり約1カ月間かけて入学試験を「泳ぎ切れるか」を測定する試験だそうです。で、私自身がちょっと興味を持って受験者のツイートなどを眺めているのですが、「1日平均、約9時間をPicscineに費やしている」という旨のツイートを見ました。それを見て思ったのが、たった1カ月で約270時間もやれるなら、多くの分野でもうまくいく気がします。これは与沢氏の“ブチ抜く”と同じことだと思いました。

 自己啓発系の本で流行った「一万時間の法則」も同じことですよね。毎日9時間、1つのことに専念すれば、3年×365日×9時間=9855時間(約1万時間)です。これだけやれば、どんな分野でも平均から頭一つ飛び抜けた存在に余裕でなれるでしょう。だけどその1万時間を10年かけてやったとしたら意味が無い。できるだけ早く、短期間で、その量を鬼のようにこなさなければ、大多数と同じ平均レベルに甘んじるのだと思います。与沢氏は、そういうことを“一つの事に魂を売れ”というメッセージで伝えるのだと思いました。

 与沢氏の経歴については、ヒルズ時代の「秒速」から、転落、シンガポールで投資家で大成功まで、知っていましたが、そこまでできるということは、やっぱり持っている意識や信念が他の人と大きく違うということでしょうし。その秘密がこの本には、非常にシンプルなメッセージで書かれていると思いました。

 これから何かを成し遂げたい人、やる気を上げたい人は、特に若い人は、この本から何か感じるものがあるのではないかと思います。そういった人にはお勧めです。

 以下、引用しながら、私自身が気に入った内容をまとめていきます。

ルール 1: 一つの事に魂を売り、ブチ抜いていこう。

 この本は出だしが強烈で、このメッセージだけでこの本1冊すべてを語っていると思います。それが次に引用した2文です。

 たった一つの結果のために、魂を売る。
 皆さんは、そう言い切れるくらいに何かをやり切った経験はあるでしょうか?

 個人的には一時的にはあると言えばあると思います。例えば大学受験した高校3年生と予備校1年の2年間。同じような各種テスト前の勉強とか。原稿を締切日前に書き上げるとか。

 他には、プログラミングやその周辺のITの勉強もすごくやりました。大学を卒業してからITエンジニア(プログラマー)になりました。会社から帰宅して、夜の3時か4時くらいまでIT書籍を読みあさっていました。だから毎日、睡眠時間は3時間程度。ジュンク堂(福岡天神)にあるITエンジニア系本棚の端から端までを主要な本は全部読む気でいました。それを4年間続けました。たぶんこれは「一万時間の法則」であり、与沢氏の言う“一つの事に魂を売ってブチ抜く”に近いかなと思います。

 ここまでやらないと、「毎日9時間それに専念する」というのはできないと思います(※もちろん、学校も仕事も辞めれば「1日中それだけしかやらない」とできるかもだけど、そういう環境はなかなか作り出せないだろうし)。それだけ尋常ではない。若くないとなかなかできないことだと思います。

 与沢氏は、「どうしたら与沢氏のように成功できるんですか?」という質問をよく受けるそうですが、次のように答えています。

 私が実践してきた事は、非常にシンプルです。それは「とにかく一つの目標に全力を注ぎ込み、結果を出すまでやめない」という事。

 これによって、「一つの事に徹底的に集中するから短い時間で上手になり、誰よりも突き抜けることができた」と思っているそうです。

 だけど“一つの事に魂を売る”のはなかなか難しい。誰しもやることがいっぱいですし、そこまで1つのことに時間を掛けられないですから。でも、「それではダメだ」と与沢氏は伝えてきます。言うなれば、これは「飛行機の離陸」と同じなのだと。

 ただ、多くの人は地面から離陸する前に走行を停止してしまう。すると、苦しい状況がずっと続くことになるのです。

 これは何となく直感的に分かります。完全に振り切れていない状態、フルスロットルではない状態、他の全部を遮断して捨て切れていない状態、そんなストイックになりきれていない状態であれば、その他大勢の中から飛び抜けるのは難しいですよね。分かっていても、なかなかできない。与沢氏は「ストイックでいるために、人は何らかの代償を払わなければならない」と語ります。与沢氏はそのあたりの覚悟の仕方がうまいのでしょう。何よりもルール2のような信念を持っていることが大きいのだと思いました。

ルール 2: 最短・最速で圧倒的な結果を出す

 与沢氏は、「なぜ『最短・最強』こそが、最強のソリューションになり得るのか」という理由について、次の3つを挙げています(部分部分を引用)。

  1. 短期間だから人は集中できる
  2. 結果が早く出るので正しい方法論に辿り着きやすい
  3. 最短・最速で結果を出すと「ブチ抜いた存在になれる」

 1と3はこれまでに説明した内容の強調ですね。2は与沢氏独自の理論だと思います。そのやり方はルール4で説明されています(※ルール3の紹介はスキップします)。

 ルール2の最後に、読者/リスナーに対して、次のようにアドバイスしています。

 これまでの常識は全部取り払って、「未だかつてない最短・最速」での目標達成プランを考え、実践してみて下さい。

ルール 4: センターピンを掴め。そして3週間、徹底的にやり切れ。

 ここでまた、インパクトのあるキーワードを出してきました。それが「センターピン」。この用語は、この本の中でタイトル以外で最も大切なキーワードだと感じました。自分はこれについてこれまで意識してきたことがなかったので、私がこの本を高評価する一番のポイントでもあります。個人的に学びがありました。

 では「センターピン」とは何なのか? 「ボウリングでいう真ん中のピンの事」とのこと。どういうことかというと、「その物事のセンターピンは何かという事」を考えること、要するに「『物事の本質は何か』を考える事」が大切なのだと与沢氏は主張します。

 では「なぜそれが大切か?」というと、与沢氏は次のように語ります。

センターピンとなるたった一つの“物事の本質”を的確に捉えさえすれば、物事は想像以上に上手くいきます。

 だからこそ、「目標を達成させるために最初にやる事」なのだと与沢氏は説きます。そして「一つのセンターピンを設定したら、最低3週間は続けてみて下さい」とアドバイスしています。

 これを読むと、上記で説明した私の「プログラミングやその周辺のITの勉強」は間違っている気がしました。センターピンが掴めていない。だからこそ最短・最速で結果を出せないのだと(結果を出せたのか出せてないのか、自分でもよく分からないけども)。与沢氏はこのあたりの努力が的確なのが良いと思います。的確になるように自分なりの理論を持っている。それが与沢氏の強さを生み出しているのだと感じます。見習いたいです。

 簡単に「センターピンを掴む」と言っても、はっきり言って「それが簡単にできたら苦労しないよ」っていう人は少なくないと思います。与沢氏はこれについても、具体的なアドバイスを用意してくれています。

 実は頭の良い人ほど、この「一つに絞る」という作業が苦手です。
 頭の良い人は物事の本質「らしきもの」を掴むのが得意なので、センターピンと思しきものを「これも、あれも」といくつも見つけてしまうのです。

 うわー。耳が痛い。頭は悪いけど、分かるわ。基本的に100%正しいとかないだろうから、「大事なのはこの3つです」とかやってしまいがちです。しかし与沢氏からすれば、これこそが「失敗のもと」で、「最短・最速を不可能にする最大の理由」とのことです。与沢氏は次のようにも説明します。

 センターピン「らしきもの」がたくさんあると、一つひとつの方法に費やす力が分散してしまうので、結果としては中途半端なものになりがちです。

 本当によく分かります。自分自身もやっていることがいっぱいあって、2019年の例では英語・TOEICやったり数学・統計学やったり機械学習・ディープラーニングやったり投資やったり音楽/映画の観賞や読書したり小説書いたり、本当にたくさんやっています。だからやっぱり時間の不足、力の分散を感じていました。ただし、1つに絞って集中し過ぎると疲れてきて、気分転換に他のことも始めてしまいます。そういうところがダメだなって、2019年末にこの本を読んで感じました。だからこそ、2020年は月単位で完全に1つに絞り、与沢流でやってみようかと思っています。たった3週間であれば、毎日9時間頑張れるでしょう? ちなみに個人的には2月は統計学の多変量解析をやっています。と言いつつもこのブログ記事も書いてしまっているので、ダメですね……。ちなみに個人ではなく仕事は、ディープラーニングのライブラリにフォーカスして深掘りしています。

 見習うべき与沢氏のアドバイスは次のとおりです。

 だから、私がセンターピンを決めた時は、必ず他の情報はシャットアウト。一度決めたら、とにかく馬鹿になって愚直にやり抜く。一度ルールを決めたら、もはや考える必要はないのです。

 これだけでもかなり排他的な雰囲気ですが、与沢氏の考えはもっともっと強烈です。それがルール5。

ルール 5: 成功したいなら、人の意見は聞かず、ストイックに突き進め。

 ストイックであろうとする際に、大きな障壁になるのが「他人の意見」です。
……でも、その「意見」の大半は無意味です。
 その理由は「誰かにとっては成功した方法であっても、それが自分自身に適用できるとは限らない」からです。

 まぁ人の意見なんて、しょせん「あなたは私の人生すべての責任を取ってくれるんですか?」というのはあります。何だかんだ言う人は多いけど、「じゃあ、全部面倒見てくれるんですか?」っていう。そういう覚悟もないのに気軽に言ってるだけなので、そこまでまともに聞く必要はないなと思います。自分の人生の責任は自分に降りかかってくるのだから、それがどれだけ人類至上最高の賢人であっても、例えばたとえ孔子であったとしても、「責任を取ってくれないのなら、参考にしたとしても、従う必要などはない」と思うので、与沢氏に賛成です。

 与沢氏は、他人の意見をうのみにするのではなく、自分で考えることが大切だと説きます。

 私が言いたいのは、「人の意見を聞くな」という事ではありません。
 大切なのは、全ての意見に対して、あなたがきちんと自分自身の頭で考え、何が良いかと思える点か、何が悪いと思う点かを自分自身で考え抜いた結果、採用するのかどうかです。

 与沢氏は「『自分で考え、納得した方法』からしか成功は生まれない」と主張しています。確かに確かに。成功者に「具体的にこうしろ」というのを聞いた人が成功できるわけではないでしょう。成功方法は、すべてそれぞれの人が考える必要があるわけです。

 ここまでの内容が第1章の基本部分です。これでやる気になれる人は本は買って手元に置くとよいです。第5章には「3週間でセンターピンを掴む方法」が紹介されています。第1章との関連性も大きいのでこれも引用しながら紹介します。

ルール 29: センターピンを掴むための情報収集・分析は3週間。まずは全体を把握すべく「登場人物」を押さえろ。

 与沢氏は「3週間」という期間を重要視にしているようです。その理由を次のように述べています。

一つの事を集中してやり抜くには、3週間というのが長過ぎず短過ぎず、ちょうどいい期間だからです。

 そしてそれを、1週間ごと3段階に分けることをお勧めしています。その内訳は次のとおりです。ちなみに「フェーズ」名は私が勝手に付けました。

  • 1週目「情報収集」フェーズ: 全体像を把握する
  • 2週目「分析予測」フェーズ: 推論を立てる
  • 3週目「精査決断」フェーズ: センターピンを設定する

 1週目の「全体像を把握する」とは、まずは俯瞰的に全容を押さえてから、物事の細部を理解した方が効率がよい、という考え方です。これは基本的なことなので全面的に納得です。与沢氏がよく使うのが、次の手順とのこと。

「そのテーマにはどんな登場プレイヤーがいるのか」をリサーチする

 これは、例えばビジネス現場や投資の世界であれば、その業界や分野でどんな主要企業があるかを知るということのようです。「リサーチ」というのは「知る」作業を少し大げさに言っていると思います(厳密には「情報収集」くらいの意味でしょう)。ここがまず「全体像を把握する」ということに該当します。

 どれくらい情報収集すればよいのでしょうか? そのヒントを次のように述べています。

 この1週目で学ぶ知識量の目安は、その業界の人なら知っていて当たり前の情報を知るという事。業界に属する人ならば、誰もが知っているレベルの知識を叩き込みましょう。

 2週目は、集めた情報から「推論を立てる」という作業を行います。具体的には次のようにします。

 まずはその業界でトップの存在を中心に、それぞれの登場人物の強みや弱み、特徴を分析していきましょう。

 これは、例えば先ほどと同じくビジネス現場や投資の世界であれば、情報収集した主要企業がなぜ強いのかを自分なりに考えてみるということです。その手法は、統計学などの科学的な手法も使ってもよいと思いますが、普通に論理的に考えればよいでしょう(あるいはある程度なら直感的に考えても良さそうとも思います)。そして、その業界や分野の先行きを予測します。これは「分析&予測」フェーズのことですね。与沢氏はここがキモだと説明しています。

 3週目は、推論を基に「センターピンを設定する」という作業を行います。具体的には次のようにします。

ここがいよいよセンターピンの決断の時です。この2週間に培ってきた知識を基に、自分がセンターピンとして設定するべきは何かを考えましょう。

 「センターピン」とはすなわち、自分がこれから取り組むべき「ただ一つの本質」を指すのでした。そのピンがセンターからズレていたら元も子もありません。誤解や矛盾がないかを「ひたすら自問自答」を繰り返しながら、じっくりと精査していく期間が必要ですよね。そこまでやってから決断を行います。それがこの3週目でやること、つまり「精査&決断」のフェーズということです。

 ところで、「自問自答」はどうやって行えばよいのでしょうか? それについてもヒントを与えてくれています。

 最終的には「自分はAという会社が注目されていくと思う。なぜなら……」と自分の決断に対して、論理的にきちんと人に説明できるレベルかどうかを確認しましょう。

 以上の3週が終わったら実践あるのみ…ではなく、「その前に、ルール30をやらなければならない」と与沢氏は諭します。

ルール 30: 「1人突っ込み」を繰り返し、自説への反論・悪口・対抗記事を論破せよ。

 これは、3週目のセンターピンを常に疑い、検証し続けろ、ということです。与沢氏は語ります。

何度も何度も「この仮説は本当に正しいのか?」と検証しなければいけません。

 具体的な手順は次のとおりです。

自分の決断に対する反証データをひたすら探し、その反証データを自分が論破できるかどうかを自問自答するというもの。反論を探す場所は、テレビでも雑誌でも新聞でもネットでも何でも構いません。

 それでもし、「論破」できなかったら、どうなるのでしょうか?

 もし論破できる確たる根拠が見つからなければ、あなたのセンターピンは間違っている可能性があるので、いま一度、決断を見直してください。

 自分の考えたセンターピンを反証していくのは、苦痛の伴う作業でしょう。与沢氏は、注意点を次のように述べています。

 人間というのは不思議なもので、多くの人は自分が「こうであって欲しい」と思うような情報ばかりを見てしまいます。

 気を付けたいですね。

 あとはルール35まで続きます。本稿では35個のルールのうち、6個だけ(17%分)を、筆者の理解の流れで紹介しました。内容はかなり大ざっぱに抜粋引用したうえに、あくまで私の解釈でしかないので、本稿で興味を持ったら、厳密・正確には本を読んでくださいね。

Data Science Fes 2019 クロージングフォーラム 聴講ノート

※これはセミナー聴講時の個人的なノートをそのまま公開したものです。誤字誤植や勘違いがある可能性があるのでご了承ください。

Data Science Fes 2019 クロージングフォーラム|EventRegist(イベントレジスト) に参加しました。

15:00~15:55 セッション1 データ/AIのビジネス活用への勘所

  • ファシリテイタ―:杉山俊幸氏(日経BP 総合研究所 主席研究員)
    • 自社内のデータ活用は進んできたが、会社間のデータ連携は進んでいない。その解決が今進められている
    • インターネットとAIを対比させて20年後に向かって見ると、現在はまだ果実が実る段階ではない。利益を出すことを慌ててはいけない
    • インターネットでは、20年前はポータルサイトばかりだったが、今は検索とECで大きな果実が実った
    • アワードの審査ポイント「産業・社会的なインパクト」「先進・独自性」「チャレンジ度」
    • 大賞=キューピーの「AI食品原材料検査装置」(協調と競争の二軸が大事で、これは他社にも使ってほしい「協調」の技術)
    • 「ディープラーニングビジネス活用アワード」大賞はキユーピー:日経クロストレンド
    • 特別賞には、パッケージデザインのプラグの「パッケージデザインの好意度スコアを予測するAIサービス」など
  • 小川亮氏(プラグ 代表取締役社長 経営管理博士)
    • プラグはデザイン+調査の会社(社員70名)
    • 各商品のデザインの評価を調査している: 3000人に調査していてお金がが掛かる、誰かがSNSに秘密の商品をアップしてしまうリスク、などなどの問題がある
    • この調査をAIで自動化した: かなり良い精度で当てられるように。すべての案件が客観的に評価できる、情報漏えいがない、仮説検証が低コストで何回もできる、マーケターの時間を大切に使える、などなどのメリットがある
    • パッケージデザインを11回評価して決めた。AIで今までとやり方が変わる
    • 同じ形式で溜めてきたデータだけはある、AIでいけるのではないか(回帰? 分類? 画像処理?)、秋の大きな展示会に取りあえず応募してみた、依頼先を探すも分からなくて高い、大学との共同研究に手紙を出しても無反応か億単位のお金が必要、やばい展示会・・・、社員の1人「俺がやる」
    • 独学で勉強開始、本を読む、似た課題のプログラムを当てはめる、速いPCを1台、・・・と地道に進めていき(1000時間くれ)、何とか展示会に間に合った
    • 営業を始めて「試してみたい」という声は多いが、「なぜそういう結果になったかを知りたい」という声が多かった。そこでバージョンアップして「どこが好意度に寄与するのか」をヒートマップで表示できるようにした。また、評価コメントのコトバ(イメージワード)を表示できようにした。これからその新版をリリースする予定
    • やりたいことを5段階でいうとまだ1.5ぐらい。例えば「どういう言葉で訴求したらいいか」など
  • 杉山氏からの質問:
    • 「俺がやる」誰も手を挙げなかったら? → どうしていたか分からないが外注しなくて良かった。自社で行うことでノウハウも溜まった
    • AIに携わる人員は? → 東京大学との共同研究なども進めているが、実質的に1人の社員がやっている。AIのチームを社内外に作るステージに来ている。学生をアルバイトで雇ったりしてもよい(高専生は特に優秀)
    • 学生アルバイトを使うメリットは? → 大学の人は経験値があるので、「理論上はそうではないが、経験上はこうすると速い」などのアドバイスがもらえたりする
  • 大企業のAI活用は? → ベンチャーと大企業と大学が組むパターンが増えてきた。そういうフレキシビリティが大切

16:00~16:55氏 セッション2 大学の実践的な教育への取り組みと企業との連携

  • ファシリテイタ―:加茂倫明氏(POL代表取締役CEO)
    • アカデミアのバックグラウンド: 現役の理系学生(東大工学部を休学中)
    • 2016年9月に共同設立者と起業。日本の科学は停滞傾向、論文数は減少中。研究領域には課題が山積み。それを解決するために起業した
    • 研究者の可能性を最大化するプラットフォームを創造する
    • LabBase: 優秀理系学生の採用プラットフォーム=採用市場に出にくい理系学生を、検索して一本釣りできるサービス
    • LabBaseX: 産学連携を加速するナレッジプラットフォーム(2019年3月リリース)=大学を横断して検索
    • 課題意識: 産学マッチングの裾野拡大(→データと高性能計算機の提供)、DS(データサイエンス)人材の技能要件の定義明確化/細分化(→適切なジョブマッチング/人材育成)
  • 沼田洋一氏(ADKマーケティング・ソリューションズ事業役員/Data Chemistry代表取締役社長)
    • ADKは業界第3位の広告会社グループ
    • データとは何か?
      • 量を集める(=データ)→視点で整理(=情報)→発見(=知性・洞察)→判断(=意思決定)→行動(=アクション)
      • ロジック×データ=両方ともあるのが一番良い
      • データに関わる業務領域はたくさんある
    • 東京大学/武蔵大学社会学部グローバルデータサイエンスコース/早稲大学と連携
      • データ提供する意味: 大規模・シングルソース・定期・クリーニング済みのデータでないと研究・勉強できないのかという思いから提供
      • ADK生活者総合調査: オリジナルの調査データ
      • 企業データを預けることの難しさ: データ漏えいなどを防ぐための契約書など
      • Waseda Integraged Research platform(WIRP)という契約面とシステム面を一括サポートする仕組みを使えばよい
    • 企業側が求めているもの=課題設定が難しくてそれができる人材がいない。想像力はすべてのビジネスの基礎。データサイエンス+社会科学の想像力が必要とされている
  • 小野陽子氏(横浜市立大学データサイエンス学部助教授)
    • YCUでの教育プログラム: ドメインへの興味喚起→数学を含めた基礎教育→アルゴリズム+統計+計算機科学→柱となる学問への融合領域→ドメイン・・・
      • プロセス: 課題発見→データ定義・収集・加工・分析→解釈・提案→解決
      • 学外での学び: セミナー、企業講座、PDS(インターシップ)、共同研究、修士課程で共同研究
    • PDS(Practical Data Science): 学部3年生対象。PBL=”Probrem” Based Learning、産学連携など
      • PBL実習: 実績追体験型、解決プロセス現在進行型、課題未着手型、課題理解型、その他
    • YOKOHAMA D-STEP: 修士レベル相当だが大学院ではない。産官学連携でデータをもらって、実課題解決型PBLを実施
    • WiDS: Women in Data Science(スタンフォード、ICMEを中心に始まった)。ゴール=Inspire、Educate、Support。ローカルイベントも実施
  • 以下はディスカッション
  • 加茂氏:何がデータサイエンティストには大事か?
    • 沼田氏:想像力。売っている商品は女性向けが多いので、気持ちが分かる女性のデータサイエンスとに分析してほしい。
    • 小野氏:女性でないとというのは幻想かもしない。現場に出るのが大事。
    • 沼田氏:現場は大事。シャンプー売場を見てみないと分からない。
  • 加茂氏:企業がどうデータサイエンスを使うかを1年生にインプットする意図は?
    • 小野氏:微積などの基礎学習ばかりでは、興味が持てないところがあるという理由もある。
  • 加茂氏:コミュニケーションに関する課題は?
    • 小野氏:私自身は、統計出身だが工学にも興味があったが、工学系からすると統計系は独立とか有位とかじゃなく早く動くものを作れとなると思う。そういう分野ごろに断絶されてる状態ではなく、どの人とも話せるコミュニケーション力が必要になる。WiDSを見ると、統計と計算科学でコミュニケーションが取れない問題は世界共通。
  • 加茂氏:大学へのデータ提供で難しい面は?
    • 沼田氏:やはり契約面。誰が責任をとるのか? 大学がまとめて責任をとる契約でないと。調査データなので個人データではないと思っているが、個人情報の問題もある。早稲田はWIRPで楽ちん。
    • 小野氏:データがある企業に行くの(=インターンシップ)が今のところ安心。
  • 加茂氏:文系出身の人が沼田さんのような立ち位置になるには?
    • 沼田氏:専門分野の本を10冊ぐらい読む。用語を易しく言い換えできるようになれば大丈夫。
    • 小野氏:10冊読めるというのは問題解決したいというドメインへの情熱や興味があったと思う。それがないとどうにもならない。
  • 加茂氏:最後に企業にメッセージを。
    • 沼田氏: 文系企業でもデータサイエンスの知識を持って話をできるように。妄想力が大事。データは会社にあるが出す側がビビるので契約面を何とかする。
    • 小野氏: トレランス、寛容性が大事。コミュニケーションで寛容性がないと、データサイエンスの実施にストップがかかりやすい。

17:05~18:15 セッション3 Data・AI-Readyな社会を私たちが創ってゆくために

  • 小澤健祐氏(ディップ AINOW編集長)
  • 瀧島勇樹氏(経済産業省 情報技術利用促進課長)
  • 菅野流飛氏( 高専キャリア教育研究所代表取締役社長) 
  • 進行:水無徹郎氏(日経新聞メディアビジネス クロスメディアユニット)
  • 水無氏:
    • 政府による「人間中心のAI社会原則」の上にあるビジョンが「AI-Readyな社会」
    • 経団連による「AI-Ready化ガイドライン」(企業、個人、社会制度・産業基盤)。指針はレベル1~5に分けられている
    • 5年後にレベル3まで進行していると過程して、今の状況は? → パネリストそれぞれ見解は分かれた。それを踏まえてディスカッション
  • 小澤氏:
    • AINOW編集長。「AI業界の広報になりたい」という思いを持っている。テレビやYouTube、講演など多方面で活動中
    • AIドルは数学とプログラミングの勉強をしている
    • dipという会社はバイトルなどの人材サービスを扱っている。AINOWは「AI」関連の検索で強い
    • 2019年: 自然言語処理のBERTが目立った。BERTのGoogle検索への採用など、技術の水平展開だった1年。OCRの技術が確立した
    • SIerの限界: B2B2Cモデルにおける課題=今までのAI市場はPoCで成り立っていた
    • AI導入の課題: 課題設定(あらゆるフェーズで課題が分からない)。企画←要件定義←PoC←導入と年々遡っている
    • 現場特化型(課題把握)の人材育成: 42 Tokyoがオープン
    • 課題解決のデジタルシフトが大事ではないか。AI-Readyに向けて
    • 2020年はデータ基盤→RPA→AIという形で山を大きくしていくのが理想
  • 瀧島氏: デジタルトランスフォーメーション(DX)の展開
    • WEFダボス会議:安陪総理スピーチより「作り上げるべき体制はDFFT(データ・フリー・フロー・トラスト)」
    • デジタルトランスフォーメーション(DX)とは何か? → デジタル技術を使って、つながり方を変えて、本当にやりたかったことをやる
      • ユーザーの気持ちで再構築する、経営とデジタルは一体である、というこにつながる
    • Society 5.0: あらゆる段階でのデータ化
    • ネクスト・ジェネレーション・ガバメントの在り方: 政府が動画で作った。本もAmazonで売れている
      • 19世紀にモノの大量生産体制ができ、インフラ面も作られた
      • 20世紀には、政府ですることが増えた(GDPの16%が政府の施策)
      • 21世紀次世代は、(小さなユーザーの困ったに対応する)ユーザー起点の政府でないことに問題意識を持っているので、つながり方を変えていくためのプラットフォームを作っていく
      • 「テクノロジーをうまく使いこなすために、政府や公共はどうあるべきか」→ DXやAI社会の実現
    • 「2025年の崖」=DXの必要性を理解しているが、レガシーシステムもあるので実現できない
    • IT投資における日米比較: 日本は守り、米国は攻めのIT投資をしている
    • なぜデジタルレディに投資が向かわない? → 部門間、経営者、投資額、人材、危機感などの問題。経営者はオポチュニティを掴めているのか。DXがダメなところに良い人材が入るのか
    • 「DX推進指標」の策定、「デジタルガバナンスコード」(社長自らが方針を宣言することにインセンティブ)の検討、IPA未踏IT人材、などの対策をしている
    • やはりDX推進にはリーダーシップが大事
  • 菅野氏: データ・AI-Readyな社会に備えるためのスタンス考察
    • 高専卒業生のイノベーターの価値を見いだし、「高専スタンフォード計画」をスローガンに掲げている
    • 高専は現場の実装に強い。未踏スーパークリエイターの高専生の割合は13%、ハッカソンの優勝チームも40%。松尾先生も高専を高く評価している(DCON開催)
    • 高専生の行動特性: まず手を動かして結果を出す。不確実性をいったん受け止める
    • AI-Readyに求められるスタンスとは? → PoCではなく、動かせる結果を持ってくる
    • 完全な構造(業務改善や事業側)と完ぺきなカオス(発明やDX側)の中間にあるのがイノベーション(新規事業)=不確実性を楽しめるメンタリティ(まず動く)=スタンス
    • 「20%作る力」+「80%受け入れる力」ができると日本社会が変わる=「できないこと、知らないこと、違うこと」を受け入れる寛容さが社会として必要
  • 以下はディスカッション
    • 瀧島氏: 官僚組織は決められたことの権化みたいに思われているがスーパーカオスでもある。どうブレンドすればよいのか?
      • 瀧島氏: リクルートの上司は問題があったら守ってくれた。そのおかげでできたプロジェクトがあるので感謝している。構造を守る側がそういうスタンスだとパフォーマンスがあがる。
    • 小澤氏: カオス側を受け入れるためにはどうすればよいか?
      • 菅野氏: 私が言える話でもないが、聞いた話では、トヨタの場合、治外法権の組織を別に作ってしまう、というのは良い。結果が出るまでのリードタイムを許容できるようにする。
      • 瀧島氏: 経営者などの工夫が必要な場面はある。
    • 小澤氏: そういう組織にするには?
      • 瀧島氏: 自由な空間を作ってイノベーションを起こすという宣言を社長がする「デジタルガバナンスコード」が必要。
    • 水無氏: 会社が変わるのを待つのではなく、個人ができることは?
      • 小澤氏: スタートアップやスピンアウト系が増えているのはそれだから。自分で動いて作ってしまうのが早い。
      • 菅野氏: シリコンバレーではアライアンスが大事で、ゆるふわにつながりたいという人が多い。会社に所属するのではなく、契約にしてフラットにするケースが増えている。
    • 小澤氏: 大企業では労働基準で働く時間制限もあるので燃え切れない人もいる。
      • 瀧島氏: 大企業に入らなければ良い(会場:笑)。若い人から変わっていくのでは。そういう現実から規制を変えていくのが大事。
    • 小澤氏: 実際に大企業に勤めている人はどんな感じ?
      • 菅野氏: 人間関係が嫌だという人間はいないが、仕事がつまらないという人は多い。大手企業は優秀な人は多いので、仕事自体がチャレンジングであればもっと日本も成長できるはず。

産学連携教育への挑戦~滋賀大データサイエンス学部1期生と共に歩んだ4か月 聴講ノート

※これはセミナー聴講時の個人的なノートをそのまま公開したものです。誤字誤植や勘違いがある可能性があるのでご了承ください。

産学連携教育への挑戦~滋賀大データサイエンス学部1期生と共に歩んだ4か月|IT勉強会ならTECH PLAY[テックプレイ] に参加しました。

15:00 - 16:00 講演『産学連携教育への挑戦~滋賀大データサイエンス学部1期生と共に歩んだ4か月』

  • 国立大学法人 滋賀大学 河本 薫氏
  • 株式会社電通 関西支社 湊 康明氏
  • 株式会社インテージホールディングス 小金 悦美氏

産学連携ゼミというこうとで滋賀大学の一期生と取り組んだ結果を説明する。

産学連携ゼミの狙い(河本氏)

  • 大阪ガスを経て滋賀大学の教員になった
  • データサイエンスの持論
    • 「役立つ≠分かる」: 研究論文は分かれば書けるが、大阪ガスでは問題解決に役立つとは限らない
    • 「データサイエンス(役立つ)≠統計学(分かる)」
    • 「データサイエンス力+データエンジニアリング力+ビジネス力」と図にまとめられるが、本来は多義的: アルゴリズム開発型、ドメイン深掘型、☆ビジネス支援型☆、サービス創造型
    • 求められているのは「ビジネス支援型」←この人材を育てるのが河本氏自身のミッション
  • データサイエンティストが直面するお題:「最近売り上げが落ちているから、原因が知りたい」など
  • データサイエンス教育の持論
    • 「医者≒データサイエンティスト」: 「臨床実習(問診→検査→治療)≒PBL(課題発見→データ分析→問題解決)」
  • 産学協同教育で、シームレスな人材育成: 大学教育と企業教育、それぞれの教える力で強力し合える部分がある
  • 河本ゼミの教育目標: ビジネス支援型データサイエンティストに求められる能力(課題設計力、データ収集と整形、データ分析と解釈、 報告と実装)
  • 河本ゼミのPBL方針: 「一気通貫型教育」&「全体俯瞰型教育」、産学連携して共同教育を行う、コミュニケーション力の育成
  • PBL演習に必要な3つの外部始動(2019年の例):
    • 【課題発見】ビジネスの悩みや願望: チョコレートの購買状況について何が課題であるかを設計
    • 【データ分析】実データ(インテージ社から提供): 50代女性がチョコレートの購入意向をもつかどうかを分析(行動仮説を探索)
    • 【問題解決】当事者へのプレゼン機会: 結果を発表
    • 「わかる」→「役立つ」への価値観の改革ができた

参加者アンケートの結果について(ディスカッション)

  • 河本氏/小金氏: やらされている感ではなく、積極的・自発的に取り組むようになった
  • 湊氏:アウトプットのためのインプットになったのが大きい

インテージが産学連携ゼミに参画した理由(小金氏)

  • インテージはさまざまなデータを集めている(市場調査やマーケティングリサーチ)
  • ビジネスにおけるデータ活用課題: デジタル化&スピーディな意思決定の時代だが、意思決定につながるアウトプットができるデータサイエンティストが不足している
  • ビジネスサイドが教育に関与する意義は、データサイエンティストに必要とされる「ビジネス力」の部分を育成する必要があるから(社長:会社の責務として貢献したい)
  • インテージの増田氏による「現場」の説明:
    • 講義するうえで気を付けた点: 目的の重要性(何のために? 誰が?)、実務と理論のバランス(実利用と研究論文では違う)、データ分析(目的を考えて自らが不足するデータを拡張)
    • 議論を通じて感じた点: 目的の重要性(自走する学習に発展)、考え方の変化(答えを求める態度から可能性を追求する態度へ)、結果の説明(データ分析に明るくない人への説明を想定)

学生時代にビジネスシーンをイメージすることの必要性(湊氏)

  • 電通若者研究部の研究員としての研究経験などから「若者×テクノロジー」などに取り組む
  • 学生の間にキャリアを意識する瞬間が大切
  • 大学院生時代: “勉強がどう社会還元されるのか、イメージする力”がなかった
  • バックキャスト思考の重要性: 未来やビジネスシーンをイメージする、自分の実力の検証と気付いていない視点の拡張、勉学への意義づけとアクションプランの策定
  • 社会に還元される「イメージ」を持ってもらう: ビジネスでの意思決定手法としてのデータサイエンスを意識させた
  • 自分の実力の検証と気付いていない視点の拡張: 「アイデアを出していない」「企画書が書けてない」「ビジネスとして成立していない」といった、ビジネスの基礎力の欠損の提示
  • 勉学への意義づけとアクションプランの策定: ワークシートを活用した振り返り
  • 「報告と実装」では、プレゼンして終わりではなく、アプリケーション開発力も大切
  • 技術が分かるプロデューサー、ビジネス感覚のあるエンジニア=いわば翻訳者のような人材が必要: アカデミック的素養がある人材にビジネスマインドをインプットするのは価値がある
  • 次世代のリーダーを育てる:多業種合同インターンプログラム 「engawa young academy」

16:00 - 17:00 パネルディスカッション

  • モデレーター:ヤマトホールディングス株式会社 中林 紀彦氏
  • 国立大学法人 滋賀大学 河本 薫氏
  • 株式会社電通 関西支社 湊 康明氏
  • 株式会社インテージホールディングス 小金 悦美氏

人材育成について産学連携のToBe像

日本に必要なモデルは?

  • 河本氏: 企業が能動的に大学と連携していくべき。PBLに基づく教育基盤は大学連携でしか難しい。「課題発見をどう教えるのか?」=大学で数学に詳しい人が教えるのがうまいわけではない。ビジネスを持つ企業の人の方が教えるのがうまい可能性が高い。だからといって杓子定規に分けられないので、大学と企業が一緒に教育内容を考える必要がある。学生は問題と課題の違いが分かっていないことが多いので、そこから教える必要がある。

  • 湊氏: 企業への長期インターンをした方がいい。若いうちにビジネスシーンに触れられるから。企業にとってもメリットがあるはず。

  • 小金氏: 社内でやりたいという声が挙がったわけではない。実態として仕事が忙しいのにやってられないという状況だった。優秀なデータサイエンティストが2名も大学に教育者として派遣することに本当に価値があるのかという議論はある。

  • 中林氏: 人に依存しないサステイナブルなモデルを作っていく必要がある。

  • 河本氏: 予算がいただけるならば解消できるかもしれないが。

  • 湊氏: 学校法人から企業への対価がペイするものかというとそうではない。学生さんに任せられる業務を3割ぐらいに増やせるのなら、うまくいくのではないか。そういった体制を作る方が現実的。

  • 小金氏: 複数の企業が参画できる点は、学生に刺激が与えられる点ではよい。そういった学生はインテージにとっても人材採用の面で魅力的に見える。

  • 河本氏: モチベーションと自信があれば学生は自走する。だからモチベーションを付けてやるのが大事。

  • 湊氏: 学生でプログラミングできてもアプリが作れないのが嫌で、アプリ実装サークルなどに入って、企業から時給5000円で請け負って、実践を学ぶ例などがある。こういうおんは良いモデルだと思う。

  • 会場質問: データサイエンスといっても領域はさまざま。企業が欲しい領域の人材と必ずしもマッチングできていない。例えばデータ分析やりたい人と機会学習やりたい人は違うので、ミスマッチが起きると、企業をすぐにやめていってしまう。これについてはどう考えているか?

  • 中林氏: マッチングの精度を上げるにはどうするべきか?

  • 湊氏: 人材の取り合いが起きている状況。企業は人材を逃したくないと思うので、社内副業制度を作っていくのが良いと思う。

  • 小金氏: データサイエンスという用語は広義だが、採用時にその人の能力ややりたいことをきっちりと見極めるのは結構難しく、悩ましい。

  • 中林氏: 企業は総合職のような形で採用せざるを得ない。専門職を作っても将来的に変化していくので。

  • 会場質問: 課題設定の進め方のコツ。

  • 河本氏: そこが核心で、私が得意なところで、大学が果たすべき分野だと思う。そのノウハウこそが日本の財産になる。

  • 小金氏: カリキュラム作成でさんざんディスカッションした。

  • 湊氏: 産学協同で参画した三者の距離が遠かったことが、より良い議論につながった。

  • 会場質問: 大学生の話が中心だったが、少子高齢化で学び直しが必要になるのでは?

  • 河本氏: 滋賀大学では院を作ってリカレント教育にも力を入れ始めた。ただし、休職が必要なので、企業ではなかなか難しい面がある。ニーズはあるが、実現が難しいのが問題。

  • 小金氏: リカレント教育のできる社会になるとよい。データサイエンスを習得できる場が増やせるとよい。最後のまとめとしては、企業としてもデータサイエンスの産学協同をサステイナブルにする必要がある。同じような企業が増えていけばよりやりやすい。

  • 湊氏: リカレント教育は賛成だが、それを実現するには社内体制を整える必要がある。企業で産学連携のイメージができて、仲間がふえていくとよい。

読書感想『統計学が最強の学問である』

書籍紹介

 2013年1月出版の本ですが、本屋さんで平積みされていたので気になっていました。audiobook.jpでセールされたので聴いて&読んでみました。Kindle版もあります。

 オーディオブックの再生時間は7時間3分。比較的短めです。

 本の概要を講義した動画も見つけました。

 「2015年1月20日までの限定公開」と書かれていますが、2020年1月26日時点でまだ視聴できるみたいです。YouTubeの「限定公開」となっているのでリンクは遠慮しておきます。視聴したい人は上記のリンク先を訪問してください。

f:id:misshiki:20200126162640p:plain
51分28秒の動画「八嶋智人が『統計学が最強の学問』を講義する!」

  1. プロローグ(2:14)
  2. オープニング(4:28)
  3. 誕生日のパラドクス(6:31)
  4. 西内啓さん紹介(10:14)
  5. ビックデータとサンプリング(3:02)
  6. テレビの視聴率はどうやって調べるのか (3:52)
  7. 身長サンプリング調査(6:09)
  8. あの格言は正しいのか(4:36)
  9. 統計学にダマされるな!(7:26)
  10. エンドロール(2:56)

概要紹介と感想

 この本の評価コメントを見ると、高い評価が多いですが、低い評価も一定数います。その理由は何となく分かります。この本に何を期待するかで、評価が全く変わるだろうなと思うからです。

 この本は、「統計学」がIT+ビッグデータにより使えるツールとなったことを事例を繰り出しながら力説します。それによって、それまで統計学を軽視してきた人たちに気付きを与えてくれます。それが高評価の理由。

 一方で、統計学を鳥瞰図的に使い道をざっくりと示しています。この説明は、統計学を知らない人には難しく、知っている人には全く内容がない(=統計学の内容をかみ砕いて書いている)ようなレベル感になっています。そこが低評価の理由だと思います。

 低評価の理由について擁護しておくと、“ある程度”統計学を知っている人には頭の中が整理できたり、統計学がどうやって成り立ったのかという意味が理解できたりします。これによって、統計学が平均・分散、T検定・カイ二乗検定、多変量解析など、個々の知識でしかなかったものが、立体感を伴って全体像が浮かび上がってきます。というか私はこれを読んで立体感を覚えました。低評価の内容も、読む人によっては高評価になり得るということです。

 だから「この本を聴いて/読んでみたい」という人は、そういったことを意識してから本を手に取った方が幸せだと思います。

 ちなみに目次は以下のようになっています。このうち、第3章までは全ての人が読んでみるとよい部分です。第4章以降は、統計学の知識が少しあった方がより理解しやすいです。

  • 第1章 なぜ統計学が最強の学問なのか?
    • 01 統計リテラシーのない者がカモられる時代がやってきた
    • 02 統計学は最善最速の正解を出す
    • 03 すべての学問は統計学のもとに
    • 04 ITと統計学の素晴らしき結婚
  • 第2章 サンプリングが情報コストを激減させる
    • 05 統計家が見たビッグデータ狂想曲
    • 06 部分が全体に勝る時
    • 07 1%の精度に数千万円をかけるべきか?
  • 第3章 誤差と因果関係が統計学のキモである
    • 08 ナイチンゲール的統計の限界
    • 09 世間にあふれる因果関係を考えない統計解析
    • 10 「60億円儲かる裏ワザ」のレポート
    • 11 p値5%以下を目指せ!
    • 12 そもそも、どんなデータを解析すべきか?
    • 13 「因果関係の向き」という大問題
  • 第4章 「ランダム化」という最強の武器
    • 14 ミルクが先か、紅茶が先か
    • 15 ランダム化比較実験が社会科学を可能にした
    • 16 「ミシンを2台買ったら1割引き」で売上は上がるのか?
    • 17 ランダム化の3つの限界
  • 第5章 ランダム化ができなかったらどうするか?
    • 18 疫学の進歩が証明したタバコのリスク
    • 19 「平凡への回帰」を分析する回帰分析
    • 20 天才フィッシャーのもう1つの偉業
    • 21 統計学の理解が劇的に進む1枚の表
    • 22 重回帰分析とロジスティック回帰
    • 23 統計学者が極めた因果の推論
  • 第6章 統計家たちの仁義なき戦い
    • 24 社会調査法vs疫学・生物統計学
    • 25 「IQ」を生み出した心理統計学
    • 26 マーケティングの現場で生まれたデータマイニング
    • 27 言葉を分析するテキストマイニング
    • 28 「演繹」の計量経済学と「帰納」の統計学
    • 29 ベイズ派と頻度論派の確率をめぐる対立
  • 終章 巨人の肩に立つ方法
    • 30 「最善の答え」を探せ
    • 31 エビデンスを探してみよう

 以下、引用しながら、私自身が気に入った内容をまとめていきます。

統計学が最強の武器になるワケ

 冒頭でも「統計学がIT+ビッグデータにより(昔と比べて)使えるツールとなった」と記述しました。昔と比べて、統計学はあらゆる学問で必須ツールとなっています。それだけでなく、企業内でもデータが増えてきており、大量のデータから意味のある情報を抽出して分析するニーズが高まっています。それを私自身も身近に感じています。これについて筆者は次のように表現しています。

どんな分野の議論においても、データを集めて分析することで最速で最善の答えを出すことができる

 私自身も、ディープラーニングや機械学習を学ぶうえで統計学の知識を身に付ける必要性を感じて、統計検定2級を受験し、合格しました。統計検定は2011年11月の試験開始から徐々に受験者数を伸ばし、私が受験した2019年11月に大幅に伸びています(下の図は「統計検定の記録(分布)|統計検定:Japan Statistical Society Certificate」からの引用です)。2020年以降も右肩上がりで伸びるのは間違いないだろうと私は見ています。<ここだけちょっと本の内容から脱線しました>

f:id:misshiki:20200124023727p:plain
統計検定の受験者総数の推移

全数調査 vs サンプリング調査

 統計学の知識がないと、「全数調査しないとダメでしょ」という意見に普通なります。しかし統計学は、「その必要はなく、ランダムサンプリングして調査すれば、かなり良い精度で推定できるよ」ということを明らかにしています。目次の見だしにある「1%の精度に数千万円をかけるべきか?」とは、全数調査とサンプリング調査では、(もちろんケースバイケースですが)精度にそれくらいの差しかないことがほとんどということを示しています。

ランダム化

 Web業界では、「A/Bテスト」と呼ばれる比較検証をよくやりますよね。対象ページのAバージョンとBバージョンを用意しておいて、訪れる参照者ごとランダムにAかBかを見せて、どちらがより効果が出るかという手法です。

 これにより、より効果の高いサイトを作っていけます。これは統計学では「ランダム化比較実験」というフィッシャーが打ち立てた方法論なのだそうです。これをベースにロザムステッドが著したのが『実験計画法』です。これについて著者は次のように述べています。

とりあえず研究参加者をランダムに分けて、異なる状況を設定し、その差を統計学的に分析してしまえばいいのだから、これほどわかりやすく強力な研究方法はない

 「ランダム化比較実験」のランダムネスは統計学において非常に重要で、しかも強力です。ランダムネス(=ランダム化やランダムサンプリング)の有効性については観察や調査(先ほど示したサンプリング調査など)においても言えます。

ランダム化に基づいて条件をコントロールする実験だけでなく、ただ何も手を加えずに調査を行う観察においても統計学は大きな力を発揮するのだ。

 また著者は、疫学研究方面における「ランダム化」の価値を言及していました。

90年台代前半の主要な医学雑誌に掲載された論文を比較検討した結果、疫学研究から示されたリスクの大きさは「ランダム化比較実験とあまり結果に差がない」である。そして、その理由としては「高度な統計手法によって、適切な条件の調整を行うことはできているから」という考察がなされていた。

「平凡への回帰」と回帰分析

 中学や高校の試験で偏差値って出ますよね。そのグラフは釣り鐘状で、中央が一番多く、両端は少ない形になります。このように一般的な傾向として、データは中央に集まってくる、つまり「平凡への回帰」(ゴルトンによる)なわけです。その後、「平均値への回帰」(=平均値に近づく)とも言い換えられているそうです。このようなことが起こる理由について著者は次のように書いています。

なぜこうした「平均値への回帰」という現象が起こるかと言えば、それは身長だろうが知能だろうが、あるいは生物の特徴だけに限らず、この世のすべての現象がさまざまな「バラつき」を持っているからだ。

 そしてバラつきを持つ事象には、回帰分析が必要だと論じています。

ゴルトンとその弟子から我々が最も学ぶべきは、バラつきを持つ現象に対する理論的な予測がそれほどうまくいかないという点である。だからこそきちんとデータをとって回帰分析を行い、その関係性を分析する必要があるのだ。

 さらに、回帰分析の注意点を示しています。

ただし、回帰分析によって得られた「最もそれらしい予測式」を得ただけでは満足してはいけない。なぜならその予測式は最もデータとの誤差を最小化するように得られたものではあるが、依然として誤差が存在することには変わりないのだ。

 この誤差があることをどう考えればよいか。これに対して、再び(天才)フィッシャーがアイデアを提示したことを著者は説明しています。

だが、フィッシャーはこのように「無制限にデータを得られればわかるはずの真に知りたい値」を真値と呼び、たまたま得られたデータから計算された統計量がどの程度の誤差で真値を推定しているかを数学的に整理することで、無限にデータを集めることなく適切な判断が下せるという考えを示した。

 この後、回帰分析の基本用語として「信頼区間」や「p値(=有意確率値)」が紹介されます。そして次のように、こららの知識が統計学において非常に重要であることを示しています。

このように、回帰係数の誤差や信頼区間(やp値)といった値を読み解けるようになれば、あなたの統計リテラシーはぐっとレベルアップする。なぜなら以前に述べたようにデータ間の関連性を分析する、あるいはあるデータから何らかの結果を予測する、といった統計学の最も大きな目的のために用いられる手法のほとんどは、広義の回帰分析であるからだ。

 “広義の”回帰分析とは何なのでしょうか? これを著者は「一般化線形モデル」のことであると説明しています(※ちなみに「一般線形モデル」という似て微妙に異なる用語があるとのこと)。一般化線形モデルという視点で見ると、T検定から回帰分析までさまざまな統計手法を、「基本的に同じ手法」として見なせると著者は主張しています。そして実際に1枚の図にまとめたのが、次の図です。

f:id:misshiki:20200124023745p:plain
170ページにある「図表25 一般化線形モデルをまとめた1枚の表」を引用

 「カイ二乗検定」は「適合度検定」を指していると思います。適合度検定はクロス集計表とカイ二乗検定を使います。

層別解析と重回帰分析

 層別解析について、

「同様の小集団」つまり「層」ごとに区切って分析を行うことを層別解析と呼ぶ

と著者は説明しています。しかし、いつもきれいな層が取得できるわけでありませんよね。ある層の人数が多かったり少なかったりと、「層ごとに偏りがある」という問題が発生することがあります。これに対して著者は次のように説明しています。

こうした問題に対して重回帰分析は威力を発揮する。「性別によって点数が平均的に何点異なるのか」を推定すれば、層別に分けなくてもよくなるのである。

ロジスティック回帰

 重回帰分析は、データの目的変数(結果変数)が気温のような連続値である必要があります。あり/なしといった二値などのカテゴリカルな値の場合は、ロジスティック回帰を使うことになります。著者はロジスティック回帰を次のように説明しています。

もともと0か1かという二値の結果変数を変換し、連続的な変数として扱うことで重回帰分析を行えるようにした、というのがロジスティック回帰の大まかな考え方である。

 因果関係の推論において、2つ以上の要因がある場合には交互作用が含まれる課題が生じることがあります。この場面で役立つのが傾向スコアです。著者は次のように説明しています。

傾向スコアとは、興味のある二値の説明変数について「どちらに該当するか」という確率(=傾向を示す値)のこと

 「傾向スコア自体は、すでに紹介したロジスティック回帰によって簡単に得ることができる」そうです。

統計学の6つの流派と2つの論者

 統計学に対する言説は分野ごとに特徴があるとのことです。著者は、以下の6つを取り上げています。

  1. 実体把握を行う「社会調査法」:
    「正確さ」を追究する(=偏りや誤差が可能な限り小さくなる推定値を効率よく求める)。伝統的な統計学の使い方
  2. 原因究明のための「疫学・生物統計学」:
    「妥当な判断」を求める(=p値に基づいて「原因」が見つかるなら、そこまでの正確さにこだわらない)
  3. 抽象的なものを測定する「心理統計学」:
    目に見えない「抽象的なもの(心や精神など)」を測定する。因子分析を生み出した。回帰分析の他、パス解析を好む。質問紙尺度の作成に心血を注ぐ
  4. 機械的分類のための「データマイニング」:
    「予測」に役立つ。マーケティングやデータ処理の「現場」で生まれた。1993年黎明期のバスケット分析は有名だが、統計的にはカイ二乗検定の方がより良い。人工知能もこの分野で、ニューラルネットワークやサポートベクタマシン、クラスター分析といった手法がある
  5. 自然言語処理のための「テキストマイニング」:
    自然言語で書かれた文章を統計学的に分析すること。辞書を使って文章を単語に分ける形態素解析や、辞書を使わないN-Gramといった手法がある
  6. 演繹に関心をよせる「計量経済学」:
    帰納(個別事例から一般法則を導く方法)に関心をよせる「統計学」とは目的が違う。演繹できないモデルは経済学の進歩に役立たないので、あらゆる手段を用いて当てはまりのよいモデルを作ろうとする

 また、上記の分野をまたいで、「確率自体の考え方」について2つの対立軸を提示しています。

  1. 頻度論者: 普通の統計学。シンプルに考えて「観測したデータを基に予測する」
  2. ベイズ論者: ベイズ統計学。合理的に考えて「事前確率を加味して事後確率を予測する」

まとめ

 他にも有用な内容はありましたが、わたしが気になったのは上記の内容でした。