2020-01-24

読書感想『統計学が最強の学問である』

意見と感想読書統計

書籍紹介

　2013年1月出版の本ですが、本屋さんで平積みされていたので気になっていました。audiobook.jpでセールされたので聴いて＆読んでみました。Kindle版もあります。

　オーディオブックの再生時間は7時間3分。比較的短めです。

　本の概要を講義した動画も見つけました。

51分28秒の動画「八嶋智人が『統計学が最強の学問』を講義する！」（ダイヤモンド社）

　「2015年1月20日までの限定公開」と書かれていますが、2020年1月26日時点でまだ視聴できるみたいです。YouTubeの「限定公開」となっているのでリンクは遠慮しておきます。視聴したい人は上記のリンク先を訪問してください。

f:id:misshiki:20200126162640p:plain — 51分28秒の動画「八嶋智人が『統計学が最強の学問』を講義する！」

プロローグ（2:14）
オープニング（4:28）
誕生日のパラドクス（6:31）
西内啓さん紹介（10:14）
ビックデータとサンプリング（3:02）
テレビの視聴率はどうやって調べるのか（3:52）
身長サンプリング調査（6:09）
あの格言は正しいのか（4:36）
統計学にダマされるな！（7:26）
エンドロール（2:56）

概要紹介と感想

　この本の評価コメントを見ると、高い評価が多いですが、低い評価も一定数います。その理由は何となく分かります。この本に何を期待するかで、評価が全く変わるだろうなと思うからです。

　この本は、「統計学」がIT＋ビッグデータにより使えるツールとなったことを事例を繰り出しながら力説します。それによって、それまで統計学を軽視してきた人たちに気付きを与えてくれます。それが高評価の理由。

　一方で、統計学を鳥瞰図的に使い道をざっくりと示しています。この説明は、統計学を知らない人には難しく、知っている人には全く内容がない（＝統計学の内容をかみ砕いて書いている）ようなレベル感になっています。そこが低評価の理由だと思います。

　低評価の理由について擁護しておくと、“ある程度”統計学を知っている人には頭の中が整理できたり、統計学がどうやって成り立ったのかという意味が理解できたりします。これによって、統計学が平均・分散、T検定・カイ二乗検定、多変量解析など、個々の知識でしかなかったものが、立体感を伴って全体像が浮かび上がってきます。というか私はこれを読んで立体感を覚えました。低評価の内容も、読む人によっては高評価になり得るということです。

　だから「この本を聴いて／読んでみたい」という人は、そういったことを意識してから本を手に取った方が幸せだと思います。

　ちなみに目次は以下のようになっています。このうち、第3章までは全ての人が読んでみるとよい部分です。第4章以降は、統計学の知識が少しあった方がより理解しやすいです。

第1章　なぜ統計学が最強の学問なのか？
- 01　統計リテラシーのない者がカモられる時代がやってきた
- 02　統計学は最善最速の正解を出す
- 03　すべての学問は統計学のもとに
- 04　ＩＴと統計学の素晴らしき結婚
第2章　サンプリングが情報コストを激減させる
- 05　統計家が見たビッグデータ狂想曲
- 06　部分が全体に勝る時
- 07　1％の精度に数千万円をかけるべきか？
第3章　誤差と因果関係が統計学のキモである
- 08　ナイチンゲール的統計の限界
- 09　世間にあふれる因果関係を考えない統計解析
- 10　「60億円儲かる裏ワザ」のレポート
- 11　p値5％以下を目指せ！
- 12　そもそも、どんなデータを解析すべきか？
- 13　「因果関係の向き」という大問題
第4章　「ランダム化」という最強の武器
- 14　ミルクが先か、紅茶が先か
- 15　ランダム化比較実験が社会科学を可能にした
- 16　「ミシンを2台買ったら1割引き」で売上は上がるのか？
- 17　ランダム化の3つの限界
第5章　ランダム化ができなかったらどうするか？
- 18　疫学の進歩が証明したタバコのリスク
- 19　「平凡への回帰」を分析する回帰分析
- 20　天才フィッシャーのもう1つの偉業
- 21　統計学の理解が劇的に進む1枚の表
- 22　重回帰分析とロジスティック回帰
- 23　統計学者が極めた因果の推論
第6章　統計家たちの仁義なき戦い
- 24　社会調査法vs疫学・生物統計学
- 25　「ＩＱ」を生み出した心理統計学
- 26　マーケティングの現場で生まれたデータマイニング
- 27　言葉を分析するテキストマイニング
- 28　「演繹」の計量経済学と「帰納」の統計学
- 29　ベイズ派と頻度論派の確率をめぐる対立
終章　巨人の肩に立つ方法
- 30　「最善の答え」を探せ
- 31　エビデンスを探してみよう

　以下、引用しながら、私自身が気に入った内容をまとめていきます。

統計学が最強の武器になるワケ

　冒頭でも「統計学がIT＋ビッグデータにより（昔と比べて）使えるツールとなった」と記述しました。昔と比べて、統計学はあらゆる学問で必須ツールとなっています。それだけでなく、企業内でもデータが増えてきており、大量のデータから意味のある情報を抽出して分析するニーズが高まっています。それを私自身も身近に感じています。これについて筆者は次のように表現しています。

どんな分野の議論においても、データを集めて分析することで最速で最善の答えを出すことができる

　私自身も、ディープラーニングや機械学習を学ぶうえで統計学の知識を身に付ける必要性を感じて、統計検定2級を受験し、合格しました。統計検定は2011年11月の試験開始から徐々に受験者数を伸ばし、私が受験した2019年11月に大幅に伸びています（下の図は「統計検定の記録（分布）｜統計検定：Japan Statistical Society Certificate」からの引用です）。2020年以降も右肩上がりで伸びるのは間違いないだろうと私は見ています。＜ここだけちょっと本の内容から脱線しました＞

f:id:misshiki:20200124023727p:plain — 統計検定の受験者総数の推移

全数調査 vs サンプリング調査

　統計学の知識がないと、「全数調査しないとダメでしょ」という意見に普通なります。しかし統計学は、「その必要はなく、ランダムサンプリングして調査すれば、かなり良い精度で推定できるよ」ということを明らかにしています。目次の見だしにある「1％の精度に数千万円をかけるべきか？」とは、全数調査とサンプリング調査では、（もちろんケースバイケースですが）精度にそれくらいの差しかないことがほとんどということを示しています。

ランダム化

　Web業界では、「A／Bテスト」と呼ばれる比較検証をよくやりますよね。対象ページのAバージョンとBバージョンを用意しておいて、訪れる参照者ごとランダムにAかBかを見せて、どちらがより効果が出るかという手法です。

　これにより、より効果の高いサイトを作っていけます。これは統計学では「ランダム化比較実験」というフィッシャーが打ち立てた方法論なのだそうです。これをベースにロザムステッドが著したのが『実験計画法』です。これについて著者は次のように述べています。

とりあえず研究参加者をランダムに分けて、異なる状況を設定し、その差を統計学的に分析してしまえばいいのだから、これほどわかりやすく強力な研究方法はない

　「ランダム化比較実験」のランダムネスは統計学において非常に重要で、しかも強力です。ランダムネス（＝ランダム化やランダムサンプリング）の有効性については観察や調査（先ほど示したサンプリング調査など）においても言えます。

ランダム化に基づいて条件をコントロールする実験だけでなく、ただ何も手を加えずに調査を行う観察においても統計学は大きな力を発揮するのだ。

　また著者は、疫学研究方面における「ランダム化」の価値を言及していました。

90年台代前半の主要な医学雑誌に掲載された論文を比較検討した結果、疫学研究から示されたリスクの大きさは「ランダム化比較実験とあまり結果に差がない」である。そして、その理由としては「高度な統計手法によって、適切な条件の調整を行うことはできているから」という考察がなされていた。

「平凡への回帰」と回帰分析

　中学や高校の試験で偏差値って出ますよね。そのグラフは釣り鐘状で、中央が一番多く、両端は少ない形になります。このように一般的な傾向として、データは中央に集まってくる、つまり「平凡への回帰」（ゴルトンによる）なわけです。その後、「平均値への回帰」（＝平均値に近づく）とも言い換えられているそうです。このようなことが起こる理由について著者は次のように書いています。

なぜこうした「平均値への回帰」という現象が起こるかと言えば、それは身長だろうが知能だろうが、あるいは生物の特徴だけに限らず、この世のすべての現象がさまざまな「バラつき」を持っているからだ。

　そしてバラつきを持つ事象には、回帰分析が必要だと論じています。

ゴルトンとその弟子から我々が最も学ぶべきは、バラつきを持つ現象に対する理論的な予測がそれほどうまくいかないという点である。だからこそきちんとデータをとって回帰分析を行い、その関係性を分析する必要があるのだ。

　さらに、回帰分析の注意点を示しています。

ただし、回帰分析によって得られた「最もそれらしい予測式」を得ただけでは満足してはいけない。なぜならその予測式は最もデータとの誤差を最小化するように得られたものではあるが、依然として誤差が存在することには変わりないのだ。

　この誤差があることをどう考えればよいか。これに対して、再び（天才）フィッシャーがアイデアを提示したことを著者は説明しています。

だが、フィッシャーはこのように「無制限にデータを得られればわかるはずの真に知りたい値」を真値と呼び、たまたま得られたデータから計算された統計量がどの程度の誤差で真値を推定しているかを数学的に整理することで、無限にデータを集めることなく適切な判断が下せるという考えを示した。

　この後、回帰分析の基本用語として「信頼区間」や「p値（＝有意確率値）」が紹介されます。そして次のように、こららの知識が統計学において非常に重要であることを示しています。

このように、回帰係数の誤差や信頼区間（やp値）といった値を読み解けるようになれば、あなたの統計リテラシーはぐっとレベルアップする。なぜなら以前に述べたようにデータ間の関連性を分析する、あるいはあるデータから何らかの結果を予測する、といった統計学の最も大きな目的のために用いられる手法のほとんどは、広義の回帰分析であるからだ。

　“広義の”回帰分析とは何なのでしょうか？これを著者は「一般化線形モデル」のことであると説明しています（※ちなみに「一般線形モデル：General Linear Model」という似て微妙に異なる用語がある。「一般線形モデル：General Linear Model」は「分散分析／回帰分析／共分散分先など線形で表現可能なモデル」のことで、「一般化線形モデル：GLM＝Generalized Linear Model」は線形回帰を正規分布以外の分布にも一般化したモデル」のことで、ロジスティック回帰などがそれ）。一般化線形モデルという視点で見ると、T検定から回帰分析までさまざまな統計手法を、「基本的に同じ手法」として見なせると著者は主張しています。そして実際に1枚の図にまとめたのが、次の図です。

f:id:misshiki:20200124023745p:plain — 170ページにある「図表25　一般化線形モデルをまとめた1枚の表」を引用

　「カイ二乗検定」は「独立性の検定」を指していると思います。独立性の検定はクロス集計表とカイ二乗検定を使います。

層別解析と重回帰分析

　層別解析について、

「同様の小集団」つまり「層」ごとに区切って分析を行うことを層別解析と呼ぶ

と著者は説明しています。しかし、いつもきれいな層が取得できるわけでありませんよね。ある層の人数が多かったり少なかったりと、「層ごとに偏りがある」という問題が発生することがあります。これに対して著者は次のように説明しています。

こうした問題に対して重回帰分析は威力を発揮する。「性別によって点数が平均的に何点異なるのか」を推定すれば、層別に分けなくてもよくなるのである。

ロジスティック回帰

　重回帰分析は、データの目的変数（結果変数）が気温のような連続値である必要があります。あり／なしといった二値などのカテゴリカルな値の場合は、ロジスティック回帰を使うことになります。著者はロジスティック回帰を次のように説明しています。

もともと0か1かという二値の結果変数を変換し、連続的な変数として扱うことで重回帰分析を行えるようにした、というのがロジスティック回帰の大まかな考え方である。

　因果関係の推論において、2つ以上の要因がある場合には交互作用が含まれる課題が生じることがあります。この場面で役立つのが傾向スコアです。著者は次のように説明しています。

傾向スコアとは、興味のある二値の説明変数について「どちらに該当するか」という確率（＝傾向を示す値）のこと

　「傾向スコア自体は、すでに紹介したロジスティック回帰によって簡単に得ることができる」そうです。

統計学の6つの流派と2つの論者

　統計学に対する言説は分野ごとに特徴があるとのことです。著者は、以下の6つを取り上げています。

実体把握を行う「社会調査法」：
「正確さ」を追究する（＝偏りや誤差が可能な限り小さくなる推定値を効率よく求める）。伝統的な統計学の使い方
原因究明のための「疫学・生物統計学」：
「妥当な判断」を求める（＝p値に基づいて「原因」が見つかるなら、そこまでの正確さにこだわらない）
抽象的なものを測定する「心理統計学」：
目に見えない「抽象的なもの（心や精神など）」を測定する。因子分析を生み出した。回帰分析の他、パス解析を好む。質問紙尺度の作成に心血を注ぐ
機械的分類のための「データマイニング」：
「予測」に役立つ。マーケティングやデータ処理の「現場」で生まれた。1993年黎明期のバスケット分析は有名だが、統計的にはカイ二乗検定の方がより良い。人工知能もこの分野で、ニューラルネットワークやサポートベクタマシン、クラスター分析といった手法がある
自然言語処理のための「テキストマイニング」：
自然言語で書かれた文章を統計学的に分析すること。辞書を使って文章を単語に分ける形態素解析や、辞書を使わないN-Gramといった手法がある
演繹に関心をよせる「計量経済学」：
帰納（個別事例から一般法則を導く方法）に関心をよせる「統計学」とは目的が違う。演繹できないモデルは経済学の進歩に役立たないので、あらゆる手段を用いて当てはまりのよいモデルを作ろうとする

　また、上記の分野をまたいで、「確率自体の考え方」について2つの対立軸を提示しています。

頻度論者： 普通の統計学。シンプルに考えて「観測したデータを基に予測する」
ベイズ論者： ベイズ統計学。合理的に考えて「事前確率を加味して事後確率を予測する」

まとめ

　他にも有用な内容はありましたが、わたしが気になったのは上記の内容でした。

2020-01-10

GitHub Sponsors（オープンソース活動のクラウドファンディング）を始めてみた

意見と感想自作ソフト

2019年5月14日から、GitHub Sponsors（GitHubスポンサー）という機能がGitHubで利用可能です。

・GitHub Sponsorsの公式サイトはこちら（下の図）

f:id:misshiki:20200110155029p:plain — GitHub Sponsorsの公式ページ（キャプチャして引用）

GitHub Sponsorsはいわば、コードをオープンソースで書く人を金銭的に支援するための機能です。イメージ的には、Kickstarterなどのクラウドファンディングのように、気に入ったプロジェクトや人、活動を金銭的に支援して、活動の成功を見守り、対価（リターン）として何らかのサービスを教授できるサービスです。

オープンソース活動の場合の対価は、通常は物ではなく、「優先的にGitHub Issuesやプルリクエストなどに対応してもらう」といった「権利」提供型サービスになるのかなと思います。どれくらいの金額支援に対してはどれくらいのサービスを提供するかはTierという形で、オープンソース開発者／プロジェクト側で作成します。特にTierの基準は用意されていないので、近しいプロジェクトの事例などを参考にしてオリジナルものを作る必要があります。

通常のクラウドファンディングと違うのは、支援が1回きりではなく、毎月で、止めるまで継続されるサブスクリプション制であるという点です。1回のみの支援というオプションはあえて用意されていません。

日本でも何人かはやっている人はいるみたいです。ただし多くはなく、広まっていないようですね。というのも、

オープンソース貢献者個人への金銭的支援を可能にする「GitHub Sponsors」 | スラドオープンソース

というスレッドで話題になったのですが、GitHub Sponsorsのサブスクリプションが、ライブパフォーマンスで受け取る「投げ銭」（＝コンテンツ提供者への金銭提供）と同じで、そのような投げ銭をネット上で行うことは、資金決済法における「為替取引」に該当する可能性があり、法律的に禁止されているから、という意見が以前から多くあるからではないかなと思います。

ちなみに（投げ銭ではなく）「電子決済」であれば、「資金移動」に該当するので、プラットホーム運営者が資金移動業に登録する必要があるようです（例えば電子決済サービスの「ペイペイ」は資金移動業に登録済みなので、個人間でお金の受け渡しができます。もしくは「資金移動」の法律を回避するために、いったんポイントなどを購入してもらい、そのポイントを人に渡す（例：はてなポイント）という方法を採用するケースも多いみたいです）。ただしGitHub Sponsorsのサブスクリプションは、「電子決済」というより、どちらかというと「投げ銭」に近いと思いますが。むしろ「サブスクリプション」と呼んでいるように、（投げ銭ですらなく）「特典の定期購入」だとは個人的に思っています。

状況はクラウドファンディングに近いと思うので、その解説の一つで「Readyfor（レディーフォー）：クラウドファンディングの種類」（下の図）を見ると、

f:id:misshiki:20200110155057p:plain — Readyforのクラウドファンディングの種類ページ（キャプチャして引用）

GitHub Sponsorsのサブスクリプションは、先ほど書いたように「権利の定期購入」と見るのならば「購入型」に該当するのかなと考えています。一切の特典（権利）を渡さず、手紙やメールでお礼を言うぐらいであれば「寄付型」なのかなと思っています。

※以上、思っていることを書きましたが、法律については無知なので、詳しくは法律家に相談してみてください。わたしは本稿の内容に対して一切の責任を取りません。ちなみに自分も「弁護士ドットコム：ソフトウェア開発者への金銭的支援と、資金決済法について」に質問してみましたが、「クラウドファンディングのような方法で資金を集める場合に、……、対価が質問にあるような特典（例：毎月2000円なら開発者側ページに『名前／ロゴ』が掲載される特典）であれば、金融商品取引法の規制対象とはならず、せいぜい特定商取引法の通信販売の規制対象となるだけだろうと思います。」「寄付や投げ銭であれば、規制はありませんが、寄付を受けた金額が年間で110万円を超えれば、超えた部分に贈与税がかかります。」という回答がつきました（※あくまでネット上にある一つの意見であり、これを読んで取った行動は全て自己責任です。念のため）。

前置きが長かったですが、たまに「無料でこれ提供してくれてありがとう。お金払いたいぐらいだよ」と書き込みされることがあったので、試しに自分もGitHub Sponsorsに申請してみました。で、できたページが下記のリンク先です。

- Sponsor @isshiki on GitHub Sponsors

申請してみたい人向けにもう少し体験を書いておくと、申請してもすぐに始まるわけではなく、承認や口座や、米国での課税を免除してもらうためのW-8BENを電子的に記入して提出する必要など、工程がたくさんありました（参考：「Setting up GitHub Sponsors for your user account - GitHub ヘルプ」）。1カ月近くかかるのを見積もった方がいいです。

しかも申請書類が全て英語で、よく分からない。特に難しかったのは、「What are your pronouns?（あなたの代名詞は何ですか？）」という質問。代名詞って「最強の四番打者」とかかと思ったんだけど、たぶん言葉通りに「My pronouns are he him his」と答えるのだと思います（※確信はないです）。恐らくこれは性別問題と関係していて、男性でも「she her hers」と言ってもらいたい人もいるとかかなと思うので。これは英語を文化面も含めて知らないと答えられないですよね。

もう一つがW-8BENで、赤枠で囲まれている欄だけ記入すればよいと思います。記入内容は「( 2019最新版） W8benの書き方完全ガイド / マイナンバー対応 | 稼ぎたい人のためのストックフォト副業ログ」を参考にしました。

GitHub Sponsorsは海外でやっている人でもそこまで多くの支援者が付いているわけではないので、現状のままだと流行ることなく終わりそうという気がしてしまいますね。自分も誰も付かないだろうな...。

それよりも日本人はGitHubスターをあまりつけないらしくて、それでも米国などとの差が出ているって何かで読んだのですが、「まずはみんな気に入ったら気軽にGitHubスターを押す習慣を持とう」という運動が日本で始まればいいなと思っています。自分もほとんどスター押してないから人のことは言えないです。

2020-01-09

第4回 Jetsonユーザー会「Jetson Nano超入門」著者パネルディスカッション＋LT大会聴講ノート

Jetson AI ＆機械学習

※これはセミナー聴講時の個人的なノートをそのまま公開したものです。誤字誤植や勘違いがある可能性があるのでご了承ください。

第4回 Jetsonユーザー会「Jetson Nano超入門」著者パネルディスカッション＋LT大会 - connpass に参加しました。

19:40　 NVIDIA社から

19:50 発表開始 (30分）パネルディスカッション :

Jetson Nano 超入門

Jetsonで何をさせたらおもしろい？

メディアプレイヤー
物体検出は多いが、3Dをグリグリ動かすアプリケーション
画像のディープラーニングでの検出・認識など。ラズパイカメラが標準で使えるので
GPIOはラズパイを意識した作りなので、逆にラズパイにできないことを

Jetson nanoや後継Xavier NXなどのエッジAIデバイスの可能性は？

センサーではないものが検出できる。例えば人の表情でまぶしそうだから照明を調整するなど
推論はデバイスにやらせるという分業が進んでいく。モデルを作る人とアプリを作り人は別に
個人で安くて手に入るので、それを活かして、教育的な活用を進めてほしい
自分だけのカメラが作れるのでは。AIで画風変化とか
PHS（プリントしてはんこシテスキャンする）の自動化？

AIエッジデバイスの産業用途

Jetson nanoをオススメしているが、AIの解釈性の問題などで実現にいたらない。ミッションクリティカルな場面では難しいだろうが、こうすれば使えるなどのユースケースは必要
TX1/TX2ではフルオートメーション、AI監視カメラ、インフラ管理などでの活用は多いが、あまり公開される実例情報としては世の中に出てきにくい
エッジコンピューティングについては日本が世界をリードしてほしい
AIを使いこなす会社が結局は伸びていくのではないかと思う

Jetsonシリーズに期待すること

継続的に提供してほしい。JetPackの提供が終わってしまうなどがないように（JetPackのアップデートは最新のものを使っておくべき）
情報が少ないのが不満
少し高い。普及することで安くなるのでは
ラズパイと比べると、使える周辺機器が少ない。一工夫しないと使えないので、今後は使えるものが増えるとうれしい
オーディオ関係が弱い。ラズパイと同じくらい気軽に使いたい
MicroSDカードの差し替えが頻繁だと壊れやすいので、MicroSDカードの延長ケーブルを使うとよい

汎用AIは実現するのか？

汎用AIといわれてもイメージできない
ドラえもんを作るのは10年後はまだできないと思うけど…
このまま技術を積み重ねていけばできるのではないのか
中身は計算式なので、コンピューティングパワーがまだまだ足りないので、しばらく無理だと思う
生きているうちにドラえもんを見てみたいが、今は虫みたいなものなので、もうワンステップした別理論が必要。だから100年単位が必要だと思う
ドラえもんが出してくれるアイテムの方に興味がある。ほんにゃくこんにゃくなど
複数のセンサーやAIを組み合わせる「マルチモーダル」なAIロボットであれば5年後にはできるだろう

20:40 LT (3枠）(5分）USAHIROU Jetson NanoでJetbotならぬROS対応のRotsonを作ったよ

Jetson Nano+ROS＝Rotson

(5分）LT枠: Deep Stream系

NVIDIA DeepStream SDK | NVIDIA Developer
OpenCVじゃなぜだめか：時間軸の概念がない、CPUリソースを食う
Yoloでの物体検知をやってみる（デモ）
例：Jetson NanoでDeepStreamを使ってYOLOv3-tinyを動かす - やってみた！

資料だけではわかりにくい点もあるかと思いますので、話した内容等は別途ブログにまとめる予定です

第4回 Jetsonユーザー会 LT 『Jetson nanoでDeepStreamを使ってみた』 from JunOhashi

(5分）LT枠: Jetson NanoとGR-ROSEで始めるROS2

LT枠全体

2019-12-23

良資料の紹介「『ダメな科学』を見分けるための大まかな指針」

備忘録統計

ネットサーフィン中にたまたま見つけた資料ですが、良いと思ったので個人的な備忘録も含めての紹介です。

大本（英語）のソース： A Rough Guide to Spotting Bad Science – Compound Interest
日本語化のソース：「ダメな科学」を見分けるための大まかな指針」のポスター - うさうさメモ

「『ダメな科学』を見分けるための大まかな指針」というポスターを見たことがあるでしょうか？ 2014年とちょっと古いですが...。以下は上記の「日本語化のソース」から引用したポスターです。両方とも「Creative Commons — 表示 - 非営利 - 改変禁止」に従って再配布可能のようです（詳しくは上記のリンク先を確認してください）。

うさうさメモに、それぞれの項目の内容が詳しく解説されています。下記リンク先を参照してください。

1. 扇情的な見出し、2. 結果の曲解 - うさうさメモ
3. 利益相反 - うさうさメモ
4. 相関関係と因果関係の混同 - うさうさメモ
5. 推測表現　（おまけ：「科学的風だけど実は科学的証拠ではないもの」の例） - うさうさメモ
6. 小さすぎるサンプルサイズ、7. 代表的でないサンプル - うさうさメモ
8. 対照群がない、9. 盲検試験が行われていない - うさうさメモ
（10. 結果のいいとこ取り、11. 結果に再現性がない、12. ジャーナルと引用数、は解説がないみたい）

2019-12-16

統計検定2級に合格！私の勉強方法と試験対策

意見と感想統計

ちょっとずつ閲覧数が増えてきたので、2級合格までに実践してきた勉強法と試験対策について大幅に追記しました（2020年3月24日）。元々書いていた「 2級合格体験と今後の目標」は後ろに回しました。

理解するための勉強方法

私の場合、理解するための勉強と試験対策は違う勉強の仕方が必要だと感じました。まずは2～3カ月かけて基礎をしっかりと理解すること。その根幹となるのが、正規分布関連から、カイ二乗検定、T検定までを完全に理解することです。これを行うために、以下の順番で勉強しました。特に「完全独習　統計学入門」は真剣に読み込みました。

『マンガでわかる統計学素朴な疑問からゆる~く解説』：最初に読んだ。前半は分かりやすいけど、説明が弱い部分がところどころあって一読で全部理解するのは難しい。まず一読して雰囲気をつかむという使い方がお勧め。
『完全独習　統計学入門』： T検定、カイ2乗検定までが、ステップバイステップですんなり理解できる。3回も読むと統計学の基礎知識が分かるので一番お勧め。オーディオブックもあり、併用すると便利。
「予備校のノリで学ぶ「大学の数学・物理」【確率統計】再生リスト」：上記の完全独習を理解してから、これを視聴すると、より深く理解できる。講義がメチャクチャ分かりやすい。繰り返し視聴すると知識が定着する。その後で、再度、上記のマンガに戻ると「そういうことだったのか」と理解できる。

ここまでで50％ぐらいの勉強が完了です。この後、次の公式書籍にざっと目を通して、試験を受けるには全然知識が足りないことに慌てました。

『改訂版日本統計学会公式認定統計検定2級対応統計学基礎』

基本的には、あまり評判の良くないこの教科書で勉強しましたが、補足で下記の動画やWeb記事を読んだりしました。

「予備校のノリで学ぶ「大学の数学・物理」【確率統計】再生リスト」：ベイズの定理、ポアソン分布、回帰分析（最小二乗法）あたりはこの動画で学べます。
「全人類がわかる統計学 | 統計学入門から、多変量解析、Rでの解析まで。とにかくわかりやすく！」

とりあえず勉強はここまでで100％です。一通り理解したら、すぐに試験対策に入った方がいいです。試験対策の期間が長いほど有利です。

試験対策

試験対策で最初に取り組んだのが、下記の書籍です。Kindle Unlimitedにより無料で読めたからです。タダだからと思って何気に読み始めたら、これが非常に秀逸でした。実は、上記の勉強の後半で足りなかった部分の大半はこの本で身に付けたといっても過言ではないです。

『統計検定２級合格のツボ』

でも試験対策に乗り出したのが、試験の2週間前で、もっと効率的に学びたい、と思っていたところ、下記の動画コンテンツ（いずれも Yuya.K_ASN 氏のYouTubeチャンネル）を見つけました。これが上記の試験対策本を超えて優秀でした。これを試験の2カ月前から繰り返し視聴すれば、合格は間違いないと思います。

※これらが扱っているのは過去問です。視聴するには、過去問の本も購入する必要があります。

『日本統計学会公式認定統計検定 2級公式問題集[2017〜2019年] 』

また、Yuya.K_ASN 氏のYouTube動画では、「どの問題でどの検定を使うか」などの資料に、下記の本を使っていますね。一応、私も買いましたが、演習問題は解いてないです...。

『統計学演習』
「『統計学演習』 - YouTube」

もし最短かつ最安で2級に受かることだけを考えるなら、過去問を買って、Yuya.K_ASN 氏のYouTubeチャンネルの「【2017年6月】統計検定2級解説」再生リストだけを繰り返し視聴すれば、余裕で受かると思います。でも、目的としてしっかりと統計学を身に付けたい場合は、地道に勉強していくことをお勧めします。

以上、自分が感じている「これを勉強したら合格できるよ」という内容の暴露です。せっかく方法を公開したので、誰かのお役に立てればうれしいです。

2級合格体験と今後の目標

2019年11月24日（日曜日）に統計検定2級を受験して合格。本日、Webで合格発表がありました。

統計検定2級に合格しました。
だけど、出題範囲が広くて試験までの勉強時間が足りず、一部の出題範囲は一夜漬だったので、もうちょっと勉強を継続します。
2020年6月21日の試験で準1級を目指します。 pic.twitter.com/FE7KvsJxYC
— Masahiko Isshiki (@isshiki) 2019年12月16日

AI・機械学習をやるうえで必須かと思い、今年の6月ぐらいから徐々に統計学の勉強を始めました。統計学を学んでみると、「機械学習のこれは、統計学のこれのことか」と気付くことが多く、勉強して良かったと思っています。

もう一つの収穫は、統計学の基礎が理解できることと、実践にまで応用できることには開きがあると、実際の問題を解き始めて気付いたことです。実際に問題を前にすると難しく、まだまだだと反省させられます（慣れてくると、問題パターンから解答パターンがある程度は見えてきてしまう感じがしましたが……たぶんそれは2級レベルだから。準1級、1級はもっと難しいのかと）。

ちなみに2級の合格率は43.7％ぐらいみたいです。→参考：受験データ 2018年6月17日試験｜統計検定：Japan Statistical Society Certificate これが準１級の合格率になると20.2％と半分以下にまで下がるのでかなりの難関みたいです。今回のようなつけ刃は通用しないと思うので、もう一度、2級までの内容が完璧になるように、再学習してから、来年6月の準１級の試験に臨みたいと思います。

最終的には1級取得を目指しています。できれば1年後...。

2019-12-15

「確率的」を意味する「Stochastic」と「Probabilistic」（Probability）は何が違うか？

英語統計

「確率的」とは、英語では「stochastic」もしくは「probabilistic」と表現されます。どう使い分ければよいのでしょうか？（どう違うか非常に迷ったのですが、良い資料もヒットしないので、理解したことを書いておきます。）

「何％の確率」（＝イベントが発生する可能性の高さ）などという一般的な意味の「確率」は、英語で「probability」です。その関連用語（形容詞化？）が「probabilistic」（確率的）です。確率（probability）に関する数学の一分野は、「確率論」（Probability theory）と呼ばれます。

一方、統計分析において「ランダムに決定するプロセスであること」は、英語で「stochastic」です。日本語では、同じく「確率的」と訳されますが、、むしろ「確率論的」という訳語の方が適切かもしれません。というのも、「stochastic」の「ランダムに決定するプロセス」は、確率論（Probability theory）に基づく考え方であるためです。つまり「stochastic」は、あくまで確率論の一部であり、特に「ランダムであること」が重要なのです。

「probabilistic」には、「ランダム」の意味はなく、シンプルに「イベント発生の可能性であること」だけを示しています。そこが両用語の使い分け基準になるかと思います。

ちなみに、「probabilistic」（確率的）と「probability」（確率）は意味が共通的です。しかし、「stochastic」の名詞は「stochasticity」で「偶然性」という意味になり（いわば「ランダム性」を格好よくした単語で）、「stochastic」（確率論的）と意味が少しズレて、より「ランダムであること」が強調された意味なのでご注意ください。

2019-12-13

AWS re:Invent 2019 re:Cap | AI/ML 聴講ノート

AI ＆機械学習 AWS

※これはセミナー聴講時の個人的なノートをそのまま公開したものです。誤字誤植や勘違いがある可能性があるのでご了承ください。

AWS re:Invent 2019 re:Cap | AI/ML - connpass
アンケート回答者はプレゼント資料をダウンロードできた（手元に資料あるけど、メモのみ共有）
じっくりと説明するというよりは速報的に次々と説明があったので、気になった部分だけメモりました

AWSのAIサービスに関するアップデート

Amazon Rekognition Custom Labels

Amazon Rekognition カスタムラベル

Amazon Comprehend

日本語対応

Amazon Transcribe

日本語対応

Amazon Transcribe Medical

医療向けの高精度な音声文字起こしサービス
まだ英語のみ

Amazon Kendra

機械学習を利用した高精度な文書検索
まだ英語のみ

Amazon Fraud Detector

機械学習による不正検知サービス

Amazon CodeGuru

コードレビューの自動化と性能改善のためのガイドを行う開発者向けのサービス

Contact Lens for Amazon Connect

コンタクトセンターにおける業務をAIで効率化するためのサービス

AWSの機械学習ハンズオンのためのサービス

DeepComposer

99ドル、1～3月、Amazon.com: AWS DeepComposer – a machine learning-enabled musical keyboard for developers: Amazon Devices

DeepRacer

ステレオカメラなどいろいろアップデート

Amazon SageMakerのアップデート

(SageMaker オススメ動画) Julien Simon - YouTube
前処理やアルゴリズム選択を手軽に実行したいというニーズがあった

Amazon SageMaker Studio

SageMakerの各機能を呼び出せるWeb上の統合開発環境
対応リージョン：オハイオ

Amazon SageMaker Autopilot

表データに対して分類／予測を行う機械学習のAutoML機能
東京リージョンでも利用可能

Amazon SageMaker Processing

SageMaker Pricessing SDK
データの前処理／後処理をバッチで行える機能

Amazon SageMaker Debugger

SageMaker Debugger SDK
学習時の異常出力などの問題（勾配の消失など）を検出
TensorFlow、Keras、Apache MXNet、PyTorch、XGBoost などに対応
テンソルの急激な増加や消滅（NaNまたはゼロ値に達するパラメーター）、勾配の爆発や消滅、変化しない損失などの一般的な問題

Amazon SageMaker Experiments

SageMaker Experiments SDK
学習を改善するための試行錯誤を支援する機能

Amazon SageMaker Model Monitor

MLモデルの品質を維持する機能

Amazon Augumented AI

推論結果を人間が修正するワークフローを構築する機能

Amazon SageMaker Operators for Kubernetes

Deep Graph Library (DGL) がSageMakerで利用可能

AWS Step Functions Data Science SDK

Amazon AthenaでSQLクエリからML実行

Amazon Aurora Machine Learning

マルチモデルエンドポイント (MME) が利用可能に

MLインフラストラクチャのアップデート

Inf1インスタンス

機械学習の推論を低レイテンシかつ安価に実現する推論用チップ「AWS Inferentia」を搭載した新インスタンス

AWS Inferentia

AWSによる独自設計推論プロセッサ

AWS Neuron SDK

AWS Inferentiaで実行するにはコンパイルが必要

Amazon Braket

量子コンピュータのマネージサービス
Amazon Braket – アマゾンウェブサービス
Amazon Braket Preview
Amazon Braket SDK：量子ビットと量子回路を体験できる
AWSから量子コンピュータ実機へのアクセスが可能に