2019-12-03

JuliaTokyo #10 聴講ノート

AI ＆機械学習 Julia

※これはセミナー聴講時の個人的なノートをそのまま公開したものです。誤字誤植や勘違いがある可能性があるのでご了承ください。

JuliaTokyo #10 - connpass
v1.3が3日前（2019/11/26）にリリース： Releases · JuliaLang/julia · GitHub
The Julia Language

18:40-19:00 スポンサーセション

Turing.jl によるベイジアンなデータ分析 Bayesian Data Analysis with Turing.jl (Julia…
確率を「事象に対する確信度」として扱い、観測データに基づき更新していく
さまざまな近似推論法がある：サンプリング、変分推論
PPL：かつてはStan、JAGSだったが、今は…Gen.jl、PyMC3、Turing.jl
GitHub - TuringLang/Turing.jl: A library for robust, efficient, general-purpose probabilistic programming
Turing.jl - Turing.jl
比較： Gen.jlは実用面でもう少し、PyMC3は機能面の不満はないがv4で大幅な仕様変更あるかも
PPLの選択（機能面）：PyMC3がカバレッジや手軽さで勝る、（速度面）：Turing.jlはPyMC3と同等かそれ以上
O'Reilly Japan - Juliaプログラミングクックブック
WEB+DB PRESS Vol.111 | はじめてのJulia

19:00-19:30 ごまふあざらし(@MathSorcerer)さん

19:30-19:50 Shuhei Kadowaki(@kdwkshh)さん

https://docs.google.com/presentation/d/1nazmfMO-7LzjZTSrAhB6pOhPERMPl90ZH1podl0BQyE/edit#slide=id.g7a62709e7f_0_148
Juno
Jupyterの強化版のようなIDE
Atomの拡張機能として作られている
Visual Studio Codeは静的解析だが、Junoはダイナミックインタラクティビティ

20:00-20:30 眠気.jl(@julialangisthe)さん

MacBookしまってしまったのでメモなし

20:30-20:50 ライトニングトークなど

MacBookしまってしまったのでメモなし

あんちもん2(@antimon2)さん

金子さん

hsugawa(@hsugawa)さん

資料未公開

参加者プレゼントで3名のプレゼントに当たった

#JuliaTokyo No.10 勉強会で、当たりました。オライリーさん提供とのことだったです。ありがとうございます！
今日の勉強会でも話が出て、欲しいなと思ったところでした。 pic.twitter.com/IBYLPoV93Y
— Masahiko Isshiki (@isshiki) 2019年11月29日

2019-11-29

機械学習モデル解釈ナイト (エンジニア向け) 聴講ノート

AI ＆機械学習

※これはセミナー聴講時の個人的なノートをそのまま公開したものです。誤字誤植や勘違いがある可能性があるのでご了承ください。

機械学習モデル解釈ナイト (エンジニア向け) - connpass

モデル解釈の知識は浅かったので非常に良かったです。
2時間でかなり詰め込んだ感じがあったので、One-dayイベントでこのテーマで行けるのかなと思いました。
あとAutoML関連もよく知らないので、勉強会があるといいな。
（テーマに関係ないけど、DLLabって最近、運営体制変わってきたのかなって思っている。）

BlackBox モデルの説明性・解釈性技術の実装

表形式データ、画像データ、テキストデータに対して、種々の説明性・解釈性技術を実装し、実行してみた結果や感想について解説します。
小川雄太郎氏株式会社電通国際情報サービス
BlackBox モデルの説明性・解釈性技術の実装
GitHub - YutaroOgawa/my_azure: MS Azure関連のプログラムのリポジトリです

表形式データ

局所的な説明： LIME、SHAP、Anchors
SHAPがオススメ、Anchorsはライブラリが未整備などの欠点がある

画像データ

Grad-CAM、LIME、SHAP
Grad-CAMがオススメ、LIMEは使いづらい

テキストデータ（tf-idf）

LIMEでまずまず機能する

テキストデータ（BERT）

Attention
influence：説明したいテストデータと最も良く似た訓練データを1つ探す手法。日本ではあまり知られていないがオススメ

一般化線形モデル (GLM) & 一般化加法モデル(GAM)

本セッションでは、最も古典的かつ重要な解釈可能モデルの一つである GLM と、その応用技術である GAM について、歴史とアルゴリズムを概観します。さらに、実際に解析する場面を想定し、GLM/GAM に対するモデル解釈で気をつけるべきポイントもご紹介します。
山口順也氏日本マイクロソフト株式会社
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
Linear Regression、GLM（Generalized Linear Regression）、GAM（Generalized Additive Model）、GA2M（Generalized Additive 2 Model）にフォーカスして話す

一般化線形モデル（GLM）

歴史から： 1972年にGLMを定式化、1982年に教科書…
誤差が指数型分布族の分布に独立に氏が従うことを仮定する統計モデル

一般化加法モデル（GAM）

1990年に、GLMの問題点を受けて提案された統計モデル
GLMでは重み付けしていたスコアの計算をもっと柔軟に

一般化加法2モデル（GA2M）

GitHub - interpretml/interpret: Fit interpretable models. Explain blackbox machine learning.

PythonでのGLM/GAMの使い方

AutoML のモデルを Azure Machine Learning Interpret で解釈してみる

AutoML で作成したモデルを Azure ML のモデル解釈機能で解釈します。
女部田啓太氏日本マイクロソフト株式会社
AutoML & InterpretML (2019/11/27 Deep Learning Lab 講演資料)

AutoMLとは

機械学習のプロセスを自動的に処理するテクノロジー
パラメーターチューニングのところだけ自動化、アルゴリズム選択も特徴量エンジニアリングも自動化する 2種類がある
メリット：試行錯誤が楽になる、AIの民主化、モデルを大量に生成できる

Azureが提供するAutoML

自動機械学習「Automated Machine Learning」：協調フィルタリングとベイズ最適化をメタ学習に採用
自動ハイパーパラメーターチューニング「Hyperdrive」
Microsoft Researchが開発しているAutoMLツールキット「Neural Network Intelligence」： GitHub - microsoft/nni: An open source AutoML toolkit for neural architecture search and hyper-parameter tuning.

モデル解釈

Interpretability SDK（Azure ML）
Azure Machine Learning service におけるモデルの解釈可能性 - Azure Machine Learning | Microsoft Docs
提供しているExplainer： SHAP、Mimic Explainer（LightGBM、線形回帰、SGD…）、Permutation Feature Importance Explainer 、LIME Explainerなど
欠損値の補完がある。データの前処理が自動化されているので、予期せぬ値になっていないか注意が必要

2019-11-26

Amazon Transcribeの日本語テープ起こしを試してみたけど...

意見と感想 AI ＆機械学習

Amazon Transcribeが日本語対応して、もしかして精度高いのではないかと期待して、とあるセミナーのセッション「30分」（日本語）を自動「テープ起こし」してみたけど、次のような結果でした。

f:id:misshiki:20191126121243p:plain — 自動「書き起こし」結果

意味不明...。単語単語でところどころ拾えているところはあるんだけど、使いものにはならないね。これを修正するよりは、手動でテープ起こしした方がまし。

日本語の自動「書き起こし」はまだまだまともなものは出てこなさそうです。手動で書き起こしている最中に、自動「書き起こし」予測とかで入力を補助してもらえたりすると作業が効率化するんだろうか。そういうのないけど。

2019-11-18

読書感想『ダントツになりたいなら、「たったひとつの確実な技術」を教えよう』

意見と感想読書

書籍紹介

　1カ月前ぐらいに読んだ本です。Kindle Unlimitedで読めます（※2019/11/17時点）。~~あとAmazonだと単行本が買えなくなっています...~~買えるようになっていました（※2019/12/16時点）。

『ダントツになりたいなら、「たったひとつの確実な技術」を教えよう』のオーディオブック - audiobook.jp
『ダントツになりたいなら、「たったひとつの確実な技術」を教えよう』のKindle本 - Amazon.co.jp
『ダントツになりたいなら、「たったひとつの確実な技術」を教えよう』の単行本 - Amazon.co.jp
著者：エリック・ベルトランド・ラーセン (著), 山口真由 (監修), 鹿田昌美 (翻訳)
出版社: 飛鳥新社
発売日： 2015/5/9

　オーディオブックの再生時間は6時間6分。短めですね。

概要紹介と感想

　内容としては、ノルウェーでオリンピック選手やトップクラス経営者を顧客にメンター（＝仕事上の助言者）で活躍する著者「エリック・ベルトランド・ラーセン氏」による方法論を説明するもの。どうやれば人は100％の実力が出せるのかを、例を挙げながら説明しています。

パート１　日常生活を変える
パート２　［実践篇］本番力をつける

という2部構成で、パート1で理論を学び、パート2であたかも著者にコンサルティングを受けてるかのような形で読める内容となっています。そのため、理論を自分自身にも応用しやすいかもしれません。

　以下、引用しながら、私自身が気に入った内容をまとめていきます。

人生を俯瞰で見る＝自分の「価値観」と「欲求」を正確に知ること

　まずは序章で、

自分が思っているよりも、はるかに上に行けるのだ！

とガツンとかましてきます。そして「ダントツの人」とそうでない人は何が違うのかという疑問に対して、それは驚くほどわずかな違いでしかなく、

ひと言でいうと、日常の小さな『正しい決断』を下すのが上手なのだ

と説明。つまり「ダントツの人」は、才能ではなく、小さな選択の積み重ねでできていると言っているわけです。そのためには、

自分に「正しく質問する」習慣をつけること

が大切だそうです。つまり自問自答しろと。例えば朝起きたら「あと5分寝るか？」「今日は何をしようか？」など。そういった質問をしたり回答をしたりするためには、自分自身がどんな価値観と欲求を持っているかを見つめ直す必要があります。

最初にすべきなのは、己を知り、自分の価値観と欲求を知ること

　これがこの本の根幹的なメッセージの一つなのだと諭しています。自分の価値観と欲求を知るには、まずは自分の「現在位置」をはっきりとさせる必要があります。

「まず人生を俯瞰で見てください」

　当然でやっている人も多いと思いますが、まずは自分の人生全体を見つめ直し、その中で今の自分はどのあたりかを考えてみることが大事ですよね。

人間は、本質的に変化を嫌う生きもの

　だからこそ、変化を引き起こすには人生を俯瞰で見ることが大切。それによって正しい選択ができるようになります。それだけでなく、「急いで実施しよう」という意志力も生まれます。人生は無限ではないのだから、

人生を俯瞰で見て、いつかは終わるという意識を持つ

ことが大事です。

成功に備える＝意識のトレーニング

　価値観や欲求に基づく夢や目標が打ち立てられたら、そこに向けて努力していきます。とはいっても、不安や失敗への恐れなどが沸き上がってくるものです。それは人間が持つ自然な感情なわけですが、「ダントツの人」になるにはその感情をコントロールしていく必要があります。これに対し著者は、

私が行うトレーニングのうち、20パーセントは最悪のシナリオへの備えであり、80パーセントは成功に備えるものである

と答えています。つまり不安に備える代案も用意しておけと。そうすることで夢や目標に、より効果的に進めると著者は主張しています。

目標を具体化するには

　では、その目標をどうやって設定すればよいのか。目標設定は企業が得意です。

あなたが本気で自分を変えたいなら、まず、あなた個人を「ひとつの会社に見立てる」ことを試してほしい。重役会議にあてる時間をつくり、業務明細表を作成し、ゴールを決めて戦略計画を立てる。そして、あなた自身の「理念」を決める。そうすると、よい目標を設定して、そこに到達するために必要なステップを踏むことが、より簡単になるだろう。

目標に到達するためのプロセス

　著者は、目標に向かって進むためには、努力を「自動化」、つまり習慣化することが大切だと説きます。

私はこの局面を「段取り中」と呼ぶ。いわば、あなたが目標にたどりつくまでに通過しなければならないすべての平日だ。

　目標へのプロセスは、地味で粘り強さが求められる局面です。だからこそ、

目標を常に思い出し、自分が何と戦って、何を手に入れたいのかを、確認する

のが大事で、週に一度は絶対にこれを確認すべきだとしています。自己啓発本では、よく張り紙するだの、目標を毎日見て確認するだの、があると思いますが、そういったたぐいのことはあらためて重要だということですね。

どんな分野でも優秀になれる

　この本で「1万時間の法則」というのを知りました。最近、オーディオブックで買いやすいので自己啓発本を何冊か読んだら、有名な話みたいでよく出てきます。

グラッドウェルが著書のなかで何度も立ち戻っているのが「1万時間の法則」である。どんな分野でも成功の鍵を握るのは鍛錬であり、1万時間を費やせば、平凡な人間でも、特定の分野において世界レベルの能力を得られる、というのだ。

　1万時間はかなりの時間です。毎日10時間、目標に向かって努力すると、1000日（＝2年と9カ月）、つまり3年もかかります。確かにそれだけ専念してやれれば、人より頭一つ飛び抜けられるんだろうなとは思います。

　この本は、目標を毎日意識して、長期に渡って自分を律しながら不屈の努力を粘り強く続けることの大切さを、色んな表現で説得してきます。それによって、「自分が思っているよりも、はるかに上に行けるのだ」と、自らの体験（序章の話）を通して力説しています。

この本のオススメ度

　上記の内容に納得して、その概念や意識を自分の中にすり込みたいという人は買ってもよいと思います。

　ただし、内容は浅いなというか、（人生を俯瞰するとか目標設定とか）よくある話の印象で、この本自身がダントツではない気がします。かつアスリート寄りの内容も多く、パート2で「三大ツール」という手法が出てくるのですが普通の人には使いづらい気がします。

　「1万時間の法則」は気に入りました。基準が明確になって、努力しやすい気がするので。でも言葉一つなので、それを理由にあえて本を買うほどまでではないのかなと……。この本に関してはこういう評価です。

2019-10-29

読書感想『スタンフォードのストレスを力に変える教科書』

意見と感想読書

書籍紹介

　最近、本を大量に読んでいるのですが、文字でひたすら読むのはつらくて、オーディオブックで耳でも聞きながら読んでいます。そうやって最近、読んだ中で、一番ボリュームがあったのがこの本です。

「スタンフォードのストレスを力に変える教科書」のオーディオブック - audiobook.jp
「スタンフォードのストレスを力に変える教科書」の単行本 - Amazon.co.jp
「スタンフォードのストレスを力に変える教科書」のKindle本 - Amazon.co.jp
著者：ケリー・マクゴニガル (著), 神崎朗子 (翻訳)
出版社: 大和書房
発売日： 2015/10/22

　再生時間は11時間18分。1.5倍速で読んだので、約7時間30分ぐらいかかりました。ネットで検索したら、4～5時間で読んでいる人がいるのですが、読むの速いですね...

概要紹介と感想

　内容として、「ストレスは体に悪い」という情報そのものによって、ストレスが体に悪く作用するという実例や研究を徹底的に実証的に説明している本です。エッセンスだけ抜き出すと、シンプルなのですが、研究の説明などが入るのですごいボリュームに。このなかなか進まない感じが挫折しやすい本だなぁと感じます。みんな最後まで読めているのでしょうか。

　確かに思い起こしてみると、受験のようなストレスがあるから勉強するのだし、そうやって頑張るから達成感が得られます。「ストレスは悪者」と一律に決めつけるのはおかしいですね。むしろ、レジリエンス（＝立ち直る力）を高めるために、進んでストレスを探すのもよい。つまり「ストレスを利用して自分を成長させるきっかけにすればいい」と。最後の方はそういう主張にまで持っていっていました。

　それでメモっておきたい内容があったので、「引用」ということでここに紹介しておきます。

ストレスを力に変えるエクササイズ

　本文中にちょこちょことエクササイズが出てきます。たくさん出てくるのですが、これはメモっときたいと思ったものだけです。次のエクササイズは227～228ページに掲載されています。

【引用】1日にひとつ、誰かの役に立つ

　行き詰まったときには、毎日していること以外に、誰かのためにできることを探してみましょう。「そんなひまも余裕もないのに」と思うかもしれませんが、だからこそ、あえてそうすべきなのです。それを毎日の習慣にしてもよいかもしれません――1日にひとつ、誰かの役に立てる機会を見つけるのです。そうすれば、あなたの体と脳は積極的によい行動を起こせるようになり、勇気や希望やつながりを実感できます。
　どうせならより大きな効果を得るために、ふたつの方法があります。ひとつは、毎日同じようなことを繰り返すのではなく、なにか新しいことや意外なことをすること。そうすれば、脳の報酬系への刺激がよけいに大きくなります。
　もうひとつは、スピーチのときに身ぶり手ぶりを大きくするのが効果的なのと同じで、ささいなことが大きな効果をもたらすので、誰かの役に立てる機会をただ待っているのではなく、小さなことでも自分にできることを見つけること。
　わたしは学生たちには、周りの人のためにどんなことができるか、柔軟な発想で考えるように勧めています。たとえば、誰かに感謝の気持ちを伝えるとか、相手の話にしっかりと耳を傾けるとか、相手の言葉を善意に解釈するとか、そんなことでもいいのです。
　これまでに見てきた、マインドセットを変えるための方法（「自分にとって大切な価値観を思い出す」「心臓がドキドキするのは、体が行動を起こす準備を整えているしるしだと考える」など）と同じで、わたしたちの小さな選択が思いがけない効果をもたらし、ストレスの感じ方が大きく変わります。

その他、思ったこと

　結局は、モノの捉え方、考え方次第で、いろいろと好転して、逆に自分の力に応用できるということだ思います。日本語で「苦境」とかではなく、全部「逆境」と捉えるといいのかなと思いました。「苦境」は苦しい状況が続くイメージですが、「逆境」はあくまで進んでいる中で出てきた障害という感じです。「逆境」だと捉えるマインドセット（＝心理状態）で考えて行動すれば、結果的に取る行動がまったく異なってくることが何となく想像できますよね。

　あとは、本当に苦しい状況や孤独な状況にある場合は、それが自分だけだと考えないことが大切みたいです。他の人も同じようにつらい体験をしていると考える。これは「コモン・ヒューマニティ」というらしいです。好きなテレビ番組にテレ東の「家、ついて行ってイイですか？」があるのですが、家についていって話を聞くと、まったく想像できないような苦しいことや楽しいことなどを人々はさまざまに抱えているものだと分かります。顔を見るだけでは分からないんですよね。

　もし本当に苦しいストレス状況になった場合は、コモン・ヒューマニティを思い出してください。あなたは1人ではない。あなたは他の人とつながっている存在であり、あなた個人よりもっと大きなものの一部だと考えて逆境に立ち向かうことが、大いに役立つとのことです。

オーディオブック版の特典：著者インタビュー

　オーディオブックでは最後に、著者のケリー・マクゴニガルさんにインタビューした音声が収録されていました。最初全部英語か～って思ったら、後で日本語翻訳音声も入っていました。

　その中でも特に気に入った発言があったので、最後にそれも引用しておきます。

【引用】1日1分で確実にレジリエンスを高めるためのエクササイズ

　「自分の基本的な価値観は何か？」「自分にとって最も大切なことは何か？」を考えてみることをお勧めします。私自身が毎朝ベッドから起き上がる前に、これをやっています。これならとても簡単なので、1分でできます。
　それは「あなたが何を大切しているのか？」を振り返り、心にそれを覚えさせておくということです。これを行うと、日々のストレスと向き合う中で、「自分が一体何を気にしているか？」が分かるのです。
　1日に1度でもこの作業を行っている人は、多忙なビジネスパーソンが直面するようなストレスに対しても、自分をコントロールできていると実感し、希望を持ち、可能性を感じられることが研究によって明らかになっています。

2019-09-17

統計学に入門するノート

AI ＆機械学習統計

勉強中の統計学の内容を個条書きでまとめたノートです。長いです。今後、母比率、二項分布、ポアソン分布、統計的検定などを追記予定。

個人的な目標としてまずは統計検定2級の取得を目指しています。9月は他にやりたいことがあるので10月から...。

個人的に全体像を理解するのに特に役だったコンテンツは、以下です。

『マンガでわかる統計学素朴な疑問からゆる~く解説』：最初に読んだ。前半は分かりやすいけど、説明が弱い部分がところどころあって一読で全部理解するのは難しい。まず一読して雰囲気をつかむという使い方がお勧め。
『完全独習　統計学入門』： T検定、カイ2乗検定までが、ステップバイステップですんなり理解できる。3回も読むと統計学の基礎知識が分かるので一番お勧め。オーディオブックもあり、併用すると便利。
「予備校のノリで学ぶ「大学の数学・物理」【確率統計】再生リスト」：上記の完全独習を理解してから、これを視聴すると、より深く理解できる。講義がメチャクチャ分かりやすい。繰り返し視聴すると知識が定着する。その後で、再度、上記のマンガに戻ると「そういうことだったのか」と理解できる。

ただ、これだけでは統計学の取りこぼし部分が大きいし、試験問題などの応用力が身につかない感じで、この後、どの本で学んでいくか検討中です。ベイズ統計学とか因子分析とか勉強し出したら切りがないんだけど、取りあえず統計検定2級の範囲内をマスターしようとしています。

■記述統計学

●分布

分布（Distribution）：データセット内の各データがさまざまな数値を取ること。
縮約（Contraction）：データを整理・整頓・要約して意味のある情報を抽出すること。具体的には、グラフ化して分布の特性・特徴・くせを捉えたり、データを代表する基本統計量を取得したりする。

●グラフ

散布図（Scatter plot）：データを点々としてプロットした図
ヒストグラム（Histogram）: 縦長い棒をすき間無く横に並べたグラフ。

●基本統計量

基本統計量（Basic statistics）：データの基本的な特徴を表す値。代表値と散布度がある。
代表値（Averages）：統計量の代表を表す数値で、主に以下がある。
- 平均値（$M$、Mean）： $μ$（ミュー、ギリシア文字）と表記。算術平均のこと。
  - 算術平均（Arithmetic mean）：全データを足して、データ数で割る。相加平均 とも呼ぶ。
  - 幾何平均（Geometric mean）：全データを掛けて、データ数の累乗根で割る。相乗平均 とも呼ぶ。
  - 調和平均（Harmonic Mean）：逆数の平均の逆数。行き（4 km/h）と帰り（6 km/h）の時速を平均（$\frac2{\frac14 + \frac16}=\frac2{\frac3{12} + \frac2{12}}=\frac{2×12}{5}=4.8$ km/ h）する場合などで使う。
  - 加重平均（$ω$、Weighted arithmetic mean）：各データに重み（Weight、$ω$）を掛けて全データを足し、重みの合計値で割る。東証株価指数（TOPIX）はこれで、時価総額加重平均と呼ばれている。 $\overline{x}=\frac{\sum_{i=1}^nX_iW_i}{\sum_{i=1}^nW_i}$ 。
- 中央値（Median）：データ数の真ん中を指す。
- 最頻値（Mode）：データ数が最も多いものを指す。
散布度（Dispersion）：統計量の分布を表す数値で、主に以下がある。
- 分散（$S^2$、Variance）： $\sigma^2$ （シグマ２乗、ギリシア文字）と表記。母集団分布のばらつきを表す。$S^2=\frac1n\sum_{i=1}^n(x_i-\overline{x})^2$
  - 偏差（$d$、diviation）：各データと平均値の差のこと。$d_i＝x_i-\overline{x}$
  - 標本の場合は 不偏分散（Unbiased Variance）： $U^2$ と表記。標本（標本数＝$n$）分布のばらつきを表す。ズレを調整するため「$n-1$」する必要がある。$U^2=\frac1{n-1}\sum_{i=1}^n(x_i-\overline{X})^2$
- 標準偏差（$S$、$SD$、Standard Deviation）： $σ$（シグマ、ギリシア文字）と表記。２乗されている分散の値の縮尺を、累乗根により元データと同じレベルに戻した値。母集団分布の標準偏差。$S=\sqrt{\frac1n\sum_{i=1}^n(x_i-\overline{x})^2}$
  - 標本の場合は 不偏標準偏差（$U$、Unbiased Standard Deviation）： $U$ と表記。標本分布版の標準偏差。$U=\sqrt{\frac1{n-1}\sum_{i=1}^n(x_i-\overline{X})^2}$
- 平均偏差（Mean deviation）：２乗して累乗根するのではなく、偏差の絶対値を使う方法。標準偏差の法が数学的に扱いやすいのでほぼ使われない。$\frac1n\sum_{i=1}^n|x_i-\mu|$
- 歪度（わいど、Skewness）：分布の非対称性を表す数値。0より上なら左に偏っている、0より下なら右に偏っている。
- 尖度（せんど、Kurtosis）：分布の尖（とが）り具合を表す数値。3より上なら尖っている、3より下ならなだらか。
- 標準誤差（$SE$、Standard Error）：母平均と標本平均のズレ（推定量の推定精度）。中心極限定理により算出可能。

●度数分布表の基本用語

階級（Class）：データを整理するために設定する区間。例えば体重の区間を小～大まで10階級に分けるなど。
階級幅（Class width）：各区間の上限～下限の範囲（Range）。例えば50kg～60kgなど。
階級値（Class value）：各階級幅の中央値のことこ。例えば50kg～60kgのクラス幅なら55kgなど。
度数（Frequency）：各階級に入れるデータの個数。ヒストグラムにできる。
累積度数（Cumulative frequen）：度数を階級を進めるごとに累積していく。折れ線グラフにできる。
相対度数（Relative frequency）：全階級で100％（＝1.00）としたときの、各階級の割合のこと。ヒストグラムにできる。
累積相対度数（Cumulative relative frequency）：相対度数を階級を進めるごとに累積していく。折れ線グラフにできる。

●分布の種類

度数分布：身長の棒グラフ（ヒストグラム）などがその例で、同じ階級や度数などごとにデータをまとめた分布図・分布表のこと。
- この分布図は、多くのケースで正規分布図のような 一峰性（←→ 多峰性）となるので、主に正規分布を基準に統計処理を行う（後述）。
累積度数分布：走行距離の折れ線グラフなどがその例。
確率分布（Probability distribution）：度数分布を割合ごとに並べて、度数分布の合計が100％になるように調整した分布図・分布表のこと。

●確率分布

注意点（念押し）として、一部の標本ではなく、全データ（母集団）を網羅している必要がある。
例えばサイコロで、出る目を$X$（確率変数 と呼ぶ）、確率を$P(X)$とするならば、$P(X)=\frac{X}{6} (X=1,2,3,4,5,6)$という式が成り立つ。
確率密度：正規分布の縦軸。
確率密度関数：確率変数（$X$）がある値をとる確率（確率密度）を表す関数。確率密度を積分していけば、面積になり、推測時の確率（相対度数）が分かる。
連続型確率分布（Continuous probability distribution）：確率変数が連続的（つまり量的データ）である場合に取る分布。$E[X]=\int_{\omega}X(\omega)dP(\omega)$
- 正規分布（normal distribution）：後述。
- 指数分布（Exponential distribution）
離散型確率分布（Discrete probability distribution）：確率変数が離散的（つまり質的データ）である場合に取る分布。$E[X]=\sum_{i=1}^{\infty}x_iP(X=x_i)$
- 二項分布（Binomial distribution）：後述。
- ポアソン分布（Poisson distribution）：後述。
- 幾何分布（Geometric distribution）

●正規分布

標準化変量（Standardized Variables）： 平均$\mu=0$＆標準偏差$\sigma=1$ になるように標準化された変数のこと。
- 計算式：確率変数：$X$が、
  　正規分布： $N(μ,σ^2)$に従う場合に、
  　　標準正規分布： $N(0,1)$ に変換する。
  　つまり 正規分布を標準化する式 （＝標準化変量の式）は、$Z=\frac{X-μ}{σ}$
- 「$X-μ$」は、「位置の中心化」。つまり、ずらして中心を0にしている。
- 「$\frac{1}{σ}$」は、「サイズの標準化」。つまり、グラフ全体を縮小／拡大して、サイズを標準正規分布に合わせている。
標準正規分布： 平均値$\mu=0$、分散$\sigma^2=1$ （$N(0,1)$ と表記）の正規分布のこと。結果的に、標準偏差$\sigma=1$ となる。
標準正規分布表：面積の出し方に応じて何種類かある。
中心極限定理（CLT、Central Limit Theorem）：標本平均の確率分布が、確率変数の数（$n$）が増えるにつれて、正規分布に収束する性質のこと。推測統計で重要になる原則。詳細後述。
正規分布の確率密度関数 は、$f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
- これはヒストグラムの縦の長さを計算していると考えられる
- 正規分布の確率密度関数の覚え方：「このルートにパイと押しグルマで、ラインの上の位置につけ。いいね、まぁナイスな嬢たち。２つの押しグルマに嬢を乗せよう。その上、カッコえークッションから、まぁナイスなミュージックまで、に嬢は感激。」
標準正規分布の確率密度関数 は、$f(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}$
- 当然、正規分布の確率密度関数の、$\mu$に0、$\sigma$に1、を代入した計算式になる。
標準正規分布の累積分布関数 は、$f(x)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}e^{-\frac{x^2}{2}}dx$
- $\int_a^b$（インテグラル）は、$a$から$b$まで積分するという意味。
- $dx$（ディファレンシャルx）は、「$x$で極限まで小さく微分する」という意味。
- つまり、確率密度関数（微分）で縦の線を作り、それを横に積分してくことで、正規分布のグラフ面を作成している。
$\sigma$倍ごとの確率（相対度数）は決まっている。$1\sigma$は「$68.3％$」、$2\sigma$「$95.5％$」、$3\sigma$「$99.7％$」。
- 覚え方：「ロバさんの、救護請う。緊急なの」
推測統計で使う 95％／99％信頼区間 を、$\sigma$倍で表現すると「$1.96\sigma$／$2.58\sigma$」。
- 覚え方：「救護は一苦労。緊急に今夜」

■推測統計学

●手法

推測統計学（統計的推定）には推定と検定の2つの手法がある。
推定（Estimation）：母集団（後述）の特徴を、標本の特徴から推測すること。
検定（Test）：全体の平均値が想定した値と違うか、2つの群で平均値に差（有意差）があるか、を決定すること。

●母数

母集団（Population）：対象のすべての値を含むデータセット。
母集団は、有限母集団と無限集団に分けられる。
- （a）有限母集団：人口数などデータ数に限りがある集団
- （b）無限母集団：工場製品などデータ数が無限に広がる集団
母数（parameter）：統計学において、確率分布を特徴付ける定数。
母平均（$\mu$、Population mean）：母集団の全データを足して、データ数で割る。
母分散（$\sigma^2$、Population variance）：母集団分布のばらつきを表す。$\sigma^2=\frac1n\sum_{i=1}^n(x_i-\overline{x})^2$
母標準偏差（$\sigma$、Population standard deviation）：母集団分布の標準偏差。$\sigma=\sqrt{\frac1n\sum_{i=1}^n(x_i-\overline{x})^2}$
標本平均から予測した母平均（$\hat{\mu}$）
標本分散から予測した母分散（$\hat{\sigma^2}$）
標本分散から予測した母標準偏差（$\hat{\sigma}$）

●標本統計量

標本統計量（Sample statistics）：標本データの基本的な特徴を表す値。
標本平均（$\overline{X}$、$m$、Sample mean）：全標本データを足して、標本データ数で割る。
標本分散（$S^2$、Sample variance）： $S^2$ と表記。標本（標本数＝$n$）分布のばらつきを表す。$S^2=\frac1n\sum_{i=1}^n(x_i-\overline{x})^2$。この数値は基本的に使われない。
標本の場合は 不偏分散（$U^2$、Unbiased Variance）を使う： $U^2$ と表記。標本（標本数＝$n$）分布のばらつきを表す。ズレを調整するため「$n-1$」する必要がある。$U^2=\frac1{n-1}\sum_{i=1}^n(x_i-\overline{x})^2$
標本標準偏差（$S$、$SD$、Sample standard deviation）： $S$ と表記。２乗されている分散の値の縮尺を、累乗根により元データと同じレベルに戻した値。母集団分布の標準偏差。$S=\sqrt{\frac1n\sum_{i=1}^n(x_i-\overline{x})^2}$
標本の場合は 不偏標準偏差（$U$、Unbiased Standard Deviation）を使う： $U$ と表記。標本（標本数＝$n$）分布のばらつき（※単位が元に戻っている）を表す。

●中心極限定理

中心極限定理（CLT、Central Limit Theorem）：標本平均の確率分布が、確率変数（$n$）の数が増えるにつれて、正規分布に収束する性質のこと。

「平均$\mu$、分散$\sigma^2$、で正規分布する母集団から無作為に標本を抽出した場合、
　標本$\overline{X}$の数「$n$」が増えれば増えるほど、
平均$\mu$、分散$\frac{\sigma^2}{n}$の 正規分布 に近似していく。」

【参考】標本平均の式： $\overline{X}_n=\frac1n\sum_{i=1}^nX_i$（＝母集団から$n$個サンプリングして、$1$～$n$個まで全部足し合わせてから、それを単純に$n$個で割る）。
標本平均の分散が$n$で割られていることに注意。$\frac{1}{n}$倍。
- $n$が大きければ大きいほど、ばらつきが小さくなる（＝正規分布が細高くなる）ことを意味する（＝ 中心限定定理）。
同様に、母集団の標準偏差は$\sigma$なのに対し、標本平均の標準偏差は$\frac{\sigma}{\sqrt{n}}$になる。$\frac{1}{\sqrt{n}}$倍。
例題：「新成人の平均身長を推定したい。母集団から100人分をランダムに抜き出して標本の平均身長を調査した。標準偏差が10と見積もる場合、この標本の平均身長は、母集団の平均身長（真値）とどれくらいずれているか（標本標準誤差：SEM、Standard Error of the Mean：母平均と標本平均のズレ）を答えよ。」
- $n=100$、$\sigma=10$となり、標本平均の標準偏差の式「$\frac{\sigma}{\sqrt{n}}$」により、$\frac{10}{\sqrt{100}}=1$となる。
- これが意味するのは、母集団と標本で$\pm1$程度しかずれていないということ。
- $n$の値が大きくなるとさらに分母が大きくなるので、ずれはさらに狭まっていく（大数の法則）。
このように、中心限定定理の存在意義は「誤差（ずれ）を数学的にしっかりと評価するためにある」と言える。

●推定の種類

推定には、点推定と区間推定がある
点推定（Point estimation）：ピンポイントで母数を予想すること。例えば「ずばり、母数は25でしょう」のような感じで。
区間推定（Interval estimation）：区間で母数を予測すること。例えば「95％の確率で、母数は10～25の区間でしょう」のような感じで。

●点推定

点推定：ピンポイントで母数を予想すること。例えば「ずばり25でしょう」のような感じで。
推定量：確率変数のこと。
母数（$N$）：母集団の大きさ。母集団に含まれるデータの総数。
標本数（$n$）：標本の大きさ。抽出した標本の総数。
（1）平均の点推定（○標本平均を利用）：母集団は無理だから、ランダムサンプリングした標本で平均を取ること、つまり標本平均。$\overline{X}=\frac{X_i+\cdots+X_n}{n}=\frac{1}{n}\sum_{i=1}^nX_i$。確率変数$X_i+\cdots+X_n$の総和を、総数$n$で割ると、標本平均$\overline{X}$（当然、これも確率変数になる）が求まる。
（2-1）分散の点推定（×標本分散を利用）：母集団は無理だから、ランダムサンプリングした標本で分散を取ること、つまり標本分散。$S^2=\frac{(X_1-\overline{X})^2 + \dots + (X_n-\overline{X})^2}{n}$。確率変数$X_i+\cdots+X_n$の各値と標本平均の差を二乗した偏差の総和を、総数$n$で割ると、標本分散$S^2$（当然、これも確率変数になる）が求まる。
（2-2）分散の点推定（○不偏分散を利用）：標本分散は$n$が小さいときにズレが大きいため、$n-1$の 不偏分散 を使う必要がある。$U^2=\frac{(X_1-\overline{X})^2 + \dots + (X_n-\overline{X})^2}{n-1}=\frac{n}{n-1}\frac{(X_1-\overline{X})^2 + \dots + (X_n-\overline{X})^2}{n}=\frac{n}{n-1}S^2$。確率変数$X_i+\cdots+X_n$の各値と標本平均の差を二乗した偏差の総和を、総数より1小さい値$n-1$で割ると、不偏分散$U^2$（当然、これも確率変数になる）が求まる。この式は、標本分散を$\frac{n}{n-1}$倍したものと見ることもできる。
- 分母を$n-1$にする理由：下記の3つの性質を有しているため、推定量として好ましいから。ここで、母数を$\theta$（真の値）、推定量を$\hat{\theta}$（確率変数）と置く。
  - （a）一致性： $n$が大きくなれば、すなわち標本の数が増えれば、推定量$\hat{\theta}$は母数$\theta$に限りなく近づくという性質（確率収束）。
  - （b）有効性：推定量の分散が小さいほど、精度が良いという性質。
  - （c）不偏性：推定量$\hat{\theta}$の期待値は母数$\theta$と等しくなるという性質。$E[\hat{\theta}]=\theta$。これを使って上記の点推定の式を解いていく。
    - 標本平均の期待値は、$E[\overline{X}]=\mu$。$E(X_i)$は、真の母平均そのものであること（$E(X)=\mu$）を意味する。
    - 標本分散の期待値は、$E[S^2]=\frac{n-1}{n}\sigma^2$。$E(S_i)$は、真の母分散$\sigma^2$を$\frac{n-1}{n}$倍したものであること（$E(S_i)=\frac{n-1}{n}\sigma^2$）を意味する。これだと、特に標本数$n$が少ないとき、真の分散を過小評価してしまうことが分かる。よって標本分散ではなく不偏変数を使う。
    - 不偏分散の期待値は、$E[U^2]=\sigma^2$。$E(U_i)$は、真の母分散$\sigma^2$そのものであること（$E(U_i)=\sigma^2$）を意味する。
    - 不偏分散を使う直観的な理由：最小～最大まですべてそろった母数の平均よりも、その範囲内からランダムに抽出した標本は、当然ながら範囲が狭まっているわけで、ばらつき（分散）を過小評価することになる。

●区間推定の基礎

区間推定（Interval estimation）：区間で母数を予測すること。例えば「95％の確率で、母数は10～25の区間でしょう」のような感じで。
信頼区間（confidence interval)：ありうる母数の入るべき区間。
$\sigma$倍ごとの確率（相対度数）は決まっている。
- $1\sigma$区間に収まる確率は「$68.3％$」
- $2\sigma$区間に収まる確率は「$95.5％$」
- $3\sigma$区間に収まる確率は「$99.7％$」。
- 覚え方：「ロバさんの、救護請う。緊急なの」
95％信頼区間： $\sigma$倍で表現すると「$1.96\sigma$」。
- 算出される信頼区間のうち、95％が母数（母平均など）を含む、ということ。
- 覚え方：「救護は一苦労」
- 「99％」信頼区間 を$\sigma$倍で表現すると「$2.58\sigma$」（覚え方：「緊急に今夜」）
母集団データのみでの95％信頼区間： $f(x) = -1.96 \leq \frac{(x-\mu)}{\sigma} \leq 1.96$
- これは、データ$x$をズレ中心化＆サイズ標準化して標準正規分布に従わせた上で、平均からの距離（標準偏差$\sigma$の倍数）で範囲値を出している、ということ。$95％$なら、左右に$1.96\sigma$の距離になる。

●中心極限定理を使った区間推定

条件1：母集団が正規分布している
条件2：母分散（$\sigma^2$）／母標準偏差（$\sigma$）が既知
条件3： 母平均（$\mu$）が「未知」←これを区間推定する
中心極限定理より、標準偏差は$\frac{1}{\sqrt{n}}$倍となる。
- よって「母数（この場合、母平均$\mu$）の95％信頼区間」を求めるための統計量 $Z$ の計算式は以下のようになる。
- $Z=\frac{(\overline{X}-\mu)}{\frac{\sigma}{\sqrt{n}}}$
標本データにおける95％信頼区間： $-1.96 \leq \frac{(\overline{X}-\mu)}{\frac{\sigma}{\sqrt{n}}} \leq 1.96$
- これは、標本データの標本平均$\overline{X}$をズレ中心化＆サイズ標準化して標準正規分布に従わせた上で、平均$0$からの距離（標準偏差$\sigma$の倍数）で範囲値を出している、ということ。$95％$なら、左右に$1.96\sigma$の距離になる。
母分散（$\sigma^2$）／母標準偏差（$\sigma$）が分かっていれば、この計算式から、母平均（$\mu$）の値を算出できる。

●T分布を使った区間推定

条件1：母集団が正規分布している
条件2：母分散（$\sigma^2$）／母標準偏差（$\sigma$）が「未知」
条件3： 母平均（$\mu$）が「未知」←これを区間推定する
母平均 を調べたいとき、母集団に関して何も分からなければ、T分布を使う。そのための、統計量 $T$ を計算する式は以下のようになる。
- $T = \frac{(\overline{X}-\mu)}{\frac{U}{\sqrt{n}}}$
- 統計量 $Z$ の「$\sigma$」が「$U$」に置き換わっただけ。不偏分散$U$であることに注意。
  - 標本分散で、$T = \frac{(\overline{X}-\mu)}{\frac{S}{\sqrt{n-1}}}$としても同じ意味。
標本データにおける95％信頼区間：統計量 $T$ でT分布の数値を調べる。
- 自由度が $n-1$ になることに注意する。
この計算式から、母平均（$\mu$）の値を算出できる。

●カイ二乗分布を使った区間推定

条件1：母集団が正規分布している
条件2： 母分散（$\sigma^2$）／母標準偏差（$\sigma$）が「未知」←これを区間推定する
条件3：母平均（$\mu$）が「未知」
母分散 を調べたいとき、母集団に関して何も分からなければ、カイ二乗（$\chi^2$）分布を使う。そのための、統計量 $W$ を計算する式は以下のようになる。
- $W = \frac{(n-1)U^2}{\sigma^2}$
- 公式のように「$(n-1)$かける不偏分散$U^2$、オーバー、母分散$\sigma^2$」と覚えるとよい。
  - 分子の$(n-1)$は、不偏分散計算時の分母$(n-1)$との調整（＝かけると$1$）をしているため。
  - あとは、母分散、分の、不偏分散、で統計量を出している。
  - 標本分散で、$W = \frac{(n)S^2}{\sigma^2}$としても同じ意味。
標本データにおける95％信頼区間：統計量 $T$ でT分布の数値を調べる。
- 自由度が $n-1$ になることに注意する。
この計算式から、母平均（$\mu$）の値を算出できる。

2019-08-16

Visual Studio Code＋Markdownでチャート／グラフ／図を描画するには？

Visual Studio Code Tips & Tricks AI ＆機械学習

日ごろ、原稿以外のすべてのテキストをMarkdownフォーマットで書くようになってしまっているのですが、数式はLaTeXコマンドで書いています。数式があると、棒グラフや折れ線グラフも書きたくなるケースは多いと思います。「どうやって書くんだろう？」とググりまくってみて、なかなか解決策がヒットしなかったので、同じように時間を無駄にしないように、ここで情報提供しておきます（※自分が書き方とかを見返すための忘備録でもありますが）。

Markdown Preview Enhanced拡張機能と数式（LaTeX）

そもそも、数式のLaTeXコマンドは $＜数式のLaTeXコマンド＞$ の形で自然に書いていたのですが、これは、

Markdown Preview Enhanced

という拡張機能のおかげでした。。例えば、

f:id:misshiki:20190816152900p:plain — LaTexコマンドによる数式の例

のように書くと（※一見、難しそうなコマンドに見えますが、いったん覚えると書き方の法則はシンプルで難しくないです）、Markdown Preview EnhancedによるそのMarkdownプレビューは、

f:id:misshiki:20190816153049p:plain — LaTeXで数式を書いた場合のMarkdowプレビューの例

のような表示になります（※なお、背景が黒いのは、自分が黒いスタイルシートを設定しているためです）。

Markdown Preview Enhanced拡張機能によるグラフ描画

このMarkdown Preview Enhanced拡張機能で図も書けることは何となく知っていましたが、折れ線グラフのようなチャートもデフォルトのままで書けます。それを紹介します。