2020-01-24

産学連携教育への挑戦～滋賀大データサイエンス学部１期生と共に歩んだ４か月聴講ノート

AI ＆機械学習

※これはセミナー聴講時の個人的なノートをそのまま公開したものです。誤字誤植や勘違いがある可能性があるのでご了承ください。

産学連携教育への挑戦～滋賀大データサイエンス学部１期生と共に歩んだ４か月｜IT勉強会ならTECH PLAY［テックプレイ］に参加しました。

15:00 - 16:00 講演『産学連携教育への挑戦～滋賀大データサイエンス学部１期生と共に歩んだ４か月』

国立大学法人滋賀大学　河本薫氏
株式会社電通関西支社　湊康明氏
株式会社インテージホールディングス　小金悦美氏

産学連携ゼミというこうとで滋賀大学の一期生と取り組んだ結果を説明する。

産学連携ゼミの狙い（河本氏）

大阪ガスを経て滋賀大学の教員になった
データサイエンスの持論
- 「役立つ≠分かる」：研究論文は分かれば書けるが、大阪ガスでは問題解決に役立つとは限らない
- 「データサイエンス（役立つ）≠統計学（分かる）」
- 「データサイエンス力＋データエンジニアリング力＋ビジネス力」と図にまとめられるが、本来は多義的：アルゴリズム開発型、ドメイン深掘型、☆ビジネス支援型☆、サービス創造型
- 求められているのは「ビジネス支援型」←この人材を育てるのが河本氏自身のミッション
データサイエンティストが直面するお題：「最近売り上げが落ちているから、原因が知りたい」など
データサイエンス教育の持論
- 「医者≒データサイエンティスト」: 「臨床実習（問診→検査→治療）≒PBL（課題発見→データ分析→問題解決）」
産学協同教育で、シームレスな人材育成：大学教育と企業教育、それぞれの教える力で強力し合える部分がある
河本ゼミの教育目標：ビジネス支援型データサイエンティストに求められる能力（課題設計力、データ収集と整形、データ分析と解釈、　報告と実装）
河本ゼミのPBL方針：「一気通貫型教育」＆「全体俯瞰型教育」、産学連携して共同教育を行う、コミュニケーション力の育成
PBL演習に必要な3つの外部始動（2019年の例）：
- 【課題発見】ビジネスの悩みや願望：チョコレートの購買状況について何が課題であるかを設計
- 【データ分析】実データ（インテージ社から提供）： 50代女性がチョコレートの購入意向をもつかどうかを分析（行動仮説を探索）
- 【問題解決】当事者へのプレゼン機会：結果を発表
- 「わかる」→「役立つ」への価値観の改革ができた

参加者アンケートの結果について（ディスカッション）

河本氏／小金氏：やらされている感ではなく、積極的・自発的に取り組むようになった
湊氏：アウトプットのためのインプットになったのが大きい

インテージが産学連携ゼミに参画した理由（小金氏）

インテージはさまざまなデータを集めている（市場調査やマーケティングリサーチ）
ビジネスにおけるデータ活用課題：デジタル化＆スピーディな意思決定の時代だが、意思決定につながるアウトプットができるデータサイエンティストが不足している
ビジネスサイドが教育に関与する意義は、データサイエンティストに必要とされる「ビジネス力」の部分を育成する必要があるから（社長：会社の責務として貢献したい）
インテージの増田氏による「現場」の説明：
- 講義するうえで気を付けた点：目的の重要性（何のために？誰が？）、実務と理論のバランス（実利用と研究論文では違う）、データ分析（目的を考えて自らが不足するデータを拡張）
- 議論を通じて感じた点：目的の重要性（自走する学習に発展）、考え方の変化（答えを求める態度から可能性を追求する態度へ）、結果の説明（データ分析に明るくない人への説明を想定）

学生時代にビジネスシーンをイメージすることの必要性（湊氏）

電通若者研究部の研究員としての研究経験などから「若者×テクノロジー」などに取り組む
学生の間にキャリアを意識する瞬間が大切
大学院生時代： “勉強がどう社会還元されるのか、イメージする力”がなかった
バックキャスト思考の重要性：未来やビジネスシーンをイメージする、自分の実力の検証と気付いていない視点の拡張、勉学への意義づけとアクションプランの策定
社会に還元される「イメージ」を持ってもらう：ビジネスでの意思決定手法としてのデータサイエンスを意識させた
自分の実力の検証と気付いていない視点の拡張：「アイデアを出していない」「企画書が書けてない」「ビジネスとして成立していない」といった、ビジネスの基礎力の欠損の提示
勉学への意義づけとアクションプランの策定：ワークシートを活用した振り返り
「報告と実装」では、プレゼンして終わりではなく、アプリケーション開発力も大切
技術が分かるプロデューサー、ビジネス感覚のあるエンジニア＝いわば翻訳者のような人材が必要：アカデミック的素養がある人材にビジネスマインドをインプットするのは価値がある
次世代のリーダーを育てる：多業種合同インターンプログラム「engawa young academy」

16:00 - 17:00 パネルディスカッション

モデレーター：ヤマトホールディングス株式会社　中林紀彦氏
国立大学法人滋賀大学　河本薫氏
株式会社電通関西支社　湊康明氏
株式会社インテージホールディングス　小金悦美氏

人材育成について産学連携のToBe像

中林氏：世界で一番成功しているプログラムは「Insight Data Science Fellows Program」。基礎的なところを教えた後はPBLが大事

日本に必要なモデルは？

河本氏：企業が能動的に大学と連携していくべき。PBLに基づく教育基盤は大学連携でしか難しい。「課題発見をどう教えるのか？」＝大学で数学に詳しい人が教えるのがうまいわけではない。ビジネスを持つ企業の人の方が教えるのがうまい可能性が高い。だからといって杓子定規に分けられないので、大学と企業が一緒に教育内容を考える必要がある。学生は問題と課題の違いが分かっていないことが多いので、そこから教える必要がある。
湊氏：企業への長期インターンをした方がいい。若いうちにビジネスシーンに触れられるから。企業にとってもメリットがあるはず。
小金氏：社内でやりたいという声が挙がったわけではない。実態として仕事が忙しいのにやってられないという状況だった。優秀なデータサイエンティストが2名も大学に教育者として派遣することに本当に価値があるのかという議論はある。
中林氏：人に依存しないサステイナブルなモデルを作っていく必要がある。
河本氏：予算がいただけるならば解消できるかもしれないが。
湊氏：学校法人から企業への対価がペイするものかというとそうではない。学生さんに任せられる業務を3割ぐらいに増やせるのなら、うまくいくのではないか。そういった体制を作る方が現実的。
小金氏：複数の企業が参画できる点は、学生に刺激が与えられる点ではよい。そういった学生はインテージにとっても人材採用の面で魅力的に見える。
河本氏：モチベーションと自信があれば学生は自走する。だからモチベーションを付けてやるのが大事。
湊氏：学生でプログラミングできてもアプリが作れないのが嫌で、アプリ実装サークルなどに入って、企業から時給5000円で請け負って、実践を学ぶ例などがある。こういうおんは良いモデルだと思う。
会場質問：データサイエンスといっても領域はさまざま。企業が欲しい領域の人材と必ずしもマッチングできていない。例えばデータ分析やりたい人と機会学習やりたい人は違うので、ミスマッチが起きると、企業をすぐにやめていってしまう。これについてはどう考えているか？
中林氏：マッチングの精度を上げるにはどうするべきか？
湊氏：人材の取り合いが起きている状況。企業は人材を逃したくないと思うので、社内副業制度を作っていくのが良いと思う。
小金氏：データサイエンスという用語は広義だが、採用時にその人の能力ややりたいことをきっちりと見極めるのは結構難しく、悩ましい。
中林氏：企業は総合職のような形で採用せざるを得ない。専門職を作っても将来的に変化していくので。
会場質問：課題設定の進め方のコツ。
河本氏：そこが核心で、私が得意なところで、大学が果たすべき分野だと思う。そのノウハウこそが日本の財産になる。
小金氏：カリキュラム作成でさんざんディスカッションした。
湊氏：産学協同で参画した三者の距離が遠かったことが、より良い議論につながった。
会場質問：大学生の話が中心だったが、少子高齢化で学び直しが必要になるのでは？
河本氏：滋賀大学では院を作ってリカレント教育にも力を入れ始めた。ただし、休職が必要なので、企業ではなかなか難しい面がある。ニーズはあるが、実現が難しいのが問題。
小金氏：リカレント教育のできる社会になるとよい。データサイエンスを習得できる場が増やせるとよい。最後のまとめとしては、企業としてもデータサイエンスの産学協同をサステイナブルにする必要がある。同じような企業が増えていけばよりやりやすい。
湊氏：リカレント教育は賛成だが、それを実現するには社内体制を整える必要がある。企業で産学連携のイメージができて、仲間がふえていくとよい。

2020-01-24

読書感想『統計学が最強の学問である』

意見と感想読書統計

書籍紹介

　2013年1月出版の本ですが、本屋さんで平積みされていたので気になっていました。audiobook.jpでセールされたので聴いて＆読んでみました。Kindle版もあります。

　オーディオブックの再生時間は7時間3分。比較的短めです。

　本の概要を講義した動画も見つけました。

51分28秒の動画「八嶋智人が『統計学が最強の学問』を講義する！」（ダイヤモンド社）

　「2015年1月20日までの限定公開」と書かれていますが、2020年1月26日時点でまだ視聴できるみたいです。YouTubeの「限定公開」となっているのでリンクは遠慮しておきます。視聴したい人は上記のリンク先を訪問してください。

f:id:misshiki:20200126162640p:plain — 51分28秒の動画「八嶋智人が『統計学が最強の学問』を講義する！」

プロローグ（2:14）
オープニング（4:28）
誕生日のパラドクス（6:31）
西内啓さん紹介（10:14）
ビックデータとサンプリング（3:02）
テレビの視聴率はどうやって調べるのか（3:52）
身長サンプリング調査（6:09）
あの格言は正しいのか（4:36）
統計学にダマされるな！（7:26）
エンドロール（2:56）

概要紹介と感想

　この本の評価コメントを見ると、高い評価が多いですが、低い評価も一定数います。その理由は何となく分かります。この本に何を期待するかで、評価が全く変わるだろうなと思うからです。

　この本は、「統計学」がIT＋ビッグデータにより使えるツールとなったことを事例を繰り出しながら力説します。それによって、それまで統計学を軽視してきた人たちに気付きを与えてくれます。それが高評価の理由。

　一方で、統計学を鳥瞰図的に使い道をざっくりと示しています。この説明は、統計学を知らない人には難しく、知っている人には全く内容がない（＝統計学の内容をかみ砕いて書いている）ようなレベル感になっています。そこが低評価の理由だと思います。

　低評価の理由について擁護しておくと、“ある程度”統計学を知っている人には頭の中が整理できたり、統計学がどうやって成り立ったのかという意味が理解できたりします。これによって、統計学が平均・分散、T検定・カイ二乗検定、多変量解析など、個々の知識でしかなかったものが、立体感を伴って全体像が浮かび上がってきます。というか私はこれを読んで立体感を覚えました。低評価の内容も、読む人によっては高評価になり得るということです。

　だから「この本を聴いて／読んでみたい」という人は、そういったことを意識してから本を手に取った方が幸せだと思います。

　ちなみに目次は以下のようになっています。このうち、第3章までは全ての人が読んでみるとよい部分です。第4章以降は、統計学の知識が少しあった方がより理解しやすいです。

第1章　なぜ統計学が最強の学問なのか？
- 01　統計リテラシーのない者がカモられる時代がやってきた
- 02　統計学は最善最速の正解を出す
- 03　すべての学問は統計学のもとに
- 04　ＩＴと統計学の素晴らしき結婚
第2章　サンプリングが情報コストを激減させる
- 05　統計家が見たビッグデータ狂想曲
- 06　部分が全体に勝る時
- 07　1％の精度に数千万円をかけるべきか？
第3章　誤差と因果関係が統計学のキモである
- 08　ナイチンゲール的統計の限界
- 09　世間にあふれる因果関係を考えない統計解析
- 10　「60億円儲かる裏ワザ」のレポート
- 11　p値5％以下を目指せ！
- 12　そもそも、どんなデータを解析すべきか？
- 13　「因果関係の向き」という大問題
第4章　「ランダム化」という最強の武器
- 14　ミルクが先か、紅茶が先か
- 15　ランダム化比較実験が社会科学を可能にした
- 16　「ミシンを2台買ったら1割引き」で売上は上がるのか？
- 17　ランダム化の3つの限界
第5章　ランダム化ができなかったらどうするか？
- 18　疫学の進歩が証明したタバコのリスク
- 19　「平凡への回帰」を分析する回帰分析
- 20　天才フィッシャーのもう1つの偉業
- 21　統計学の理解が劇的に進む1枚の表
- 22　重回帰分析とロジスティック回帰
- 23　統計学者が極めた因果の推論
第6章　統計家たちの仁義なき戦い
- 24　社会調査法vs疫学・生物統計学
- 25　「ＩＱ」を生み出した心理統計学
- 26　マーケティングの現場で生まれたデータマイニング
- 27　言葉を分析するテキストマイニング
- 28　「演繹」の計量経済学と「帰納」の統計学
- 29　ベイズ派と頻度論派の確率をめぐる対立
終章　巨人の肩に立つ方法
- 30　「最善の答え」を探せ
- 31　エビデンスを探してみよう

　以下、引用しながら、私自身が気に入った内容をまとめていきます。

統計学が最強の武器になるワケ

　冒頭でも「統計学がIT＋ビッグデータにより（昔と比べて）使えるツールとなった」と記述しました。昔と比べて、統計学はあらゆる学問で必須ツールとなっています。それだけでなく、企業内でもデータが増えてきており、大量のデータから意味のある情報を抽出して分析するニーズが高まっています。それを私自身も身近に感じています。これについて筆者は次のように表現しています。

どんな分野の議論においても、データを集めて分析することで最速で最善の答えを出すことができる

　私自身も、ディープラーニングや機械学習を学ぶうえで統計学の知識を身に付ける必要性を感じて、統計検定2級を受験し、合格しました。統計検定は2011年11月の試験開始から徐々に受験者数を伸ばし、私が受験した2019年11月に大幅に伸びています（下の図は「統計検定の記録（分布）｜統計検定：Japan Statistical Society Certificate」からの引用です）。2020年以降も右肩上がりで伸びるのは間違いないだろうと私は見ています。＜ここだけちょっと本の内容から脱線しました＞

f:id:misshiki:20200124023727p:plain — 統計検定の受験者総数の推移

全数調査 vs サンプリング調査

　統計学の知識がないと、「全数調査しないとダメでしょ」という意見に普通なります。しかし統計学は、「その必要はなく、ランダムサンプリングして調査すれば、かなり良い精度で推定できるよ」ということを明らかにしています。目次の見だしにある「1％の精度に数千万円をかけるべきか？」とは、全数調査とサンプリング調査では、（もちろんケースバイケースですが）精度にそれくらいの差しかないことがほとんどということを示しています。

ランダム化

　Web業界では、「A／Bテスト」と呼ばれる比較検証をよくやりますよね。対象ページのAバージョンとBバージョンを用意しておいて、訪れる参照者ごとランダムにAかBかを見せて、どちらがより効果が出るかという手法です。

　これにより、より効果の高いサイトを作っていけます。これは統計学では「ランダム化比較実験」というフィッシャーが打ち立てた方法論なのだそうです。これをベースにロザムステッドが著したのが『実験計画法』です。これについて著者は次のように述べています。

とりあえず研究参加者をランダムに分けて、異なる状況を設定し、その差を統計学的に分析してしまえばいいのだから、これほどわかりやすく強力な研究方法はない

　「ランダム化比較実験」のランダムネスは統計学において非常に重要で、しかも強力です。ランダムネス（＝ランダム化やランダムサンプリング）の有効性については観察や調査（先ほど示したサンプリング調査など）においても言えます。

ランダム化に基づいて条件をコントロールする実験だけでなく、ただ何も手を加えずに調査を行う観察においても統計学は大きな力を発揮するのだ。

　また著者は、疫学研究方面における「ランダム化」の価値を言及していました。

90年台代前半の主要な医学雑誌に掲載された論文を比較検討した結果、疫学研究から示されたリスクの大きさは「ランダム化比較実験とあまり結果に差がない」である。そして、その理由としては「高度な統計手法によって、適切な条件の調整を行うことはできているから」という考察がなされていた。

「平凡への回帰」と回帰分析

　中学や高校の試験で偏差値って出ますよね。そのグラフは釣り鐘状で、中央が一番多く、両端は少ない形になります。このように一般的な傾向として、データは中央に集まってくる、つまり「平凡への回帰」（ゴルトンによる）なわけです。その後、「平均値への回帰」（＝平均値に近づく）とも言い換えられているそうです。このようなことが起こる理由について著者は次のように書いています。

なぜこうした「平均値への回帰」という現象が起こるかと言えば、それは身長だろうが知能だろうが、あるいは生物の特徴だけに限らず、この世のすべての現象がさまざまな「バラつき」を持っているからだ。

　そしてバラつきを持つ事象には、回帰分析が必要だと論じています。

ゴルトンとその弟子から我々が最も学ぶべきは、バラつきを持つ現象に対する理論的な予測がそれほどうまくいかないという点である。だからこそきちんとデータをとって回帰分析を行い、その関係性を分析する必要があるのだ。

　さらに、回帰分析の注意点を示しています。

ただし、回帰分析によって得られた「最もそれらしい予測式」を得ただけでは満足してはいけない。なぜならその予測式は最もデータとの誤差を最小化するように得られたものではあるが、依然として誤差が存在することには変わりないのだ。

　この誤差があることをどう考えればよいか。これに対して、再び（天才）フィッシャーがアイデアを提示したことを著者は説明しています。

だが、フィッシャーはこのように「無制限にデータを得られればわかるはずの真に知りたい値」を真値と呼び、たまたま得られたデータから計算された統計量がどの程度の誤差で真値を推定しているかを数学的に整理することで、無限にデータを集めることなく適切な判断が下せるという考えを示した。

　この後、回帰分析の基本用語として「信頼区間」や「p値（＝有意確率値）」が紹介されます。そして次のように、こららの知識が統計学において非常に重要であることを示しています。

このように、回帰係数の誤差や信頼区間（やp値）といった値を読み解けるようになれば、あなたの統計リテラシーはぐっとレベルアップする。なぜなら以前に述べたようにデータ間の関連性を分析する、あるいはあるデータから何らかの結果を予測する、といった統計学の最も大きな目的のために用いられる手法のほとんどは、広義の回帰分析であるからだ。

　“広義の”回帰分析とは何なのでしょうか？これを著者は「一般化線形モデル」のことであると説明しています（※ちなみに「一般線形モデル：General Linear Model」という似て微妙に異なる用語がある。「一般線形モデル：General Linear Model」は「分散分析／回帰分析／共分散分先など線形で表現可能なモデル」のことで、「一般化線形モデル：GLM＝Generalized Linear Model」は線形回帰を正規分布以外の分布にも一般化したモデル」のことで、ロジスティック回帰などがそれ）。一般化線形モデルという視点で見ると、T検定から回帰分析までさまざまな統計手法を、「基本的に同じ手法」として見なせると著者は主張しています。そして実際に1枚の図にまとめたのが、次の図です。

f:id:misshiki:20200124023745p:plain — 170ページにある「図表25　一般化線形モデルをまとめた1枚の表」を引用

　「カイ二乗検定」は「独立性の検定」を指していると思います。独立性の検定はクロス集計表とカイ二乗検定を使います。

層別解析と重回帰分析

　層別解析について、

「同様の小集団」つまり「層」ごとに区切って分析を行うことを層別解析と呼ぶ

と著者は説明しています。しかし、いつもきれいな層が取得できるわけでありませんよね。ある層の人数が多かったり少なかったりと、「層ごとに偏りがある」という問題が発生することがあります。これに対して著者は次のように説明しています。

こうした問題に対して重回帰分析は威力を発揮する。「性別によって点数が平均的に何点異なるのか」を推定すれば、層別に分けなくてもよくなるのである。

ロジスティック回帰

　重回帰分析は、データの目的変数（結果変数）が気温のような連続値である必要があります。あり／なしといった二値などのカテゴリカルな値の場合は、ロジスティック回帰を使うことになります。著者はロジスティック回帰を次のように説明しています。

もともと0か1かという二値の結果変数を変換し、連続的な変数として扱うことで重回帰分析を行えるようにした、というのがロジスティック回帰の大まかな考え方である。

　因果関係の推論において、2つ以上の要因がある場合には交互作用が含まれる課題が生じることがあります。この場面で役立つのが傾向スコアです。著者は次のように説明しています。

傾向スコアとは、興味のある二値の説明変数について「どちらに該当するか」という確率（＝傾向を示す値）のこと

　「傾向スコア自体は、すでに紹介したロジスティック回帰によって簡単に得ることができる」そうです。

統計学の6つの流派と2つの論者

　統計学に対する言説は分野ごとに特徴があるとのことです。著者は、以下の6つを取り上げています。

実体把握を行う「社会調査法」：
「正確さ」を追究する（＝偏りや誤差が可能な限り小さくなる推定値を効率よく求める）。伝統的な統計学の使い方
原因究明のための「疫学・生物統計学」：
「妥当な判断」を求める（＝p値に基づいて「原因」が見つかるなら、そこまでの正確さにこだわらない）
抽象的なものを測定する「心理統計学」：
目に見えない「抽象的なもの（心や精神など）」を測定する。因子分析を生み出した。回帰分析の他、パス解析を好む。質問紙尺度の作成に心血を注ぐ
機械的分類のための「データマイニング」：
「予測」に役立つ。マーケティングやデータ処理の「現場」で生まれた。1993年黎明期のバスケット分析は有名だが、統計的にはカイ二乗検定の方がより良い。人工知能もこの分野で、ニューラルネットワークやサポートベクタマシン、クラスター分析といった手法がある
自然言語処理のための「テキストマイニング」：
自然言語で書かれた文章を統計学的に分析すること。辞書を使って文章を単語に分ける形態素解析や、辞書を使わないN-Gramといった手法がある
演繹に関心をよせる「計量経済学」：
帰納（個別事例から一般法則を導く方法）に関心をよせる「統計学」とは目的が違う。演繹できないモデルは経済学の進歩に役立たないので、あらゆる手段を用いて当てはまりのよいモデルを作ろうとする

　また、上記の分野をまたいで、「確率自体の考え方」について2つの対立軸を提示しています。

頻度論者： 普通の統計学。シンプルに考えて「観測したデータを基に予測する」
ベイズ論者： ベイズ統計学。合理的に考えて「事前確率を加味して事後確率を予測する」

まとめ

　他にも有用な内容はありましたが、わたしが気になったのは上記の内容でした。

2020-01-10

GitHub Sponsors（オープンソース活動のクラウドファンディング）を始めてみた

意見と感想自作ソフト

2019年5月14日から、GitHub Sponsors（GitHubスポンサー）という機能がGitHubで利用可能です。

・GitHub Sponsorsの公式サイトはこちら（下の図）

f:id:misshiki:20200110155029p:plain — GitHub Sponsorsの公式ページ（キャプチャして引用）

GitHub Sponsorsはいわば、コードをオープンソースで書く人を金銭的に支援するための機能です。イメージ的には、Kickstarterなどのクラウドファンディングのように、気に入ったプロジェクトや人、活動を金銭的に支援して、活動の成功を見守り、対価（リターン）として何らかのサービスを教授できるサービスです。

オープンソース活動の場合の対価は、通常は物ではなく、「優先的にGitHub Issuesやプルリクエストなどに対応してもらう」といった「権利」提供型サービスになるのかなと思います。どれくらいの金額支援に対してはどれくらいのサービスを提供するかはTierという形で、オープンソース開発者／プロジェクト側で作成します。特にTierの基準は用意されていないので、近しいプロジェクトの事例などを参考にしてオリジナルものを作る必要があります。

通常のクラウドファンディングと違うのは、支援が1回きりではなく、毎月で、止めるまで継続されるサブスクリプション制であるという点です。1回のみの支援というオプションはあえて用意されていません。

日本でも何人かはやっている人はいるみたいです。ただし多くはなく、広まっていないようですね。というのも、

オープンソース貢献者個人への金銭的支援を可能にする「GitHub Sponsors」 | スラドオープンソース

というスレッドで話題になったのですが、GitHub Sponsorsのサブスクリプションが、ライブパフォーマンスで受け取る「投げ銭」（＝コンテンツ提供者への金銭提供）と同じで、そのような投げ銭をネット上で行うことは、資金決済法における「為替取引」に該当する可能性があり、法律的に禁止されているから、という意見が以前から多くあるからではないかなと思います。

ちなみに（投げ銭ではなく）「電子決済」であれば、「資金移動」に該当するので、プラットホーム運営者が資金移動業に登録する必要があるようです（例えば電子決済サービスの「ペイペイ」は資金移動業に登録済みなので、個人間でお金の受け渡しができます。もしくは「資金移動」の法律を回避するために、いったんポイントなどを購入してもらい、そのポイントを人に渡す（例：はてなポイント）という方法を採用するケースも多いみたいです）。ただしGitHub Sponsorsのサブスクリプションは、「電子決済」というより、どちらかというと「投げ銭」に近いと思いますが。むしろ「サブスクリプション」と呼んでいるように、（投げ銭ですらなく）「特典の定期購入」だとは個人的に思っています。

状況はクラウドファンディングに近いと思うので、その解説の一つで「Readyfor（レディーフォー）：クラウドファンディングの種類」（下の図）を見ると、

f:id:misshiki:20200110155057p:plain — Readyforのクラウドファンディングの種類ページ（キャプチャして引用）

GitHub Sponsorsのサブスクリプションは、先ほど書いたように「権利の定期購入」と見るのならば「購入型」に該当するのかなと考えています。一切の特典（権利）を渡さず、手紙やメールでお礼を言うぐらいであれば「寄付型」なのかなと思っています。

※以上、思っていることを書きましたが、法律については無知なので、詳しくは法律家に相談してみてください。わたしは本稿の内容に対して一切の責任を取りません。ちなみに自分も「弁護士ドットコム：ソフトウェア開発者への金銭的支援と、資金決済法について」に質問してみましたが、「クラウドファンディングのような方法で資金を集める場合に、……、対価が質問にあるような特典（例：毎月2000円なら開発者側ページに『名前／ロゴ』が掲載される特典）であれば、金融商品取引法の規制対象とはならず、せいぜい特定商取引法の通信販売の規制対象となるだけだろうと思います。」「寄付や投げ銭であれば、規制はありませんが、寄付を受けた金額が年間で110万円を超えれば、超えた部分に贈与税がかかります。」という回答がつきました（※あくまでネット上にある一つの意見であり、これを読んで取った行動は全て自己責任です。念のため）。

前置きが長かったですが、たまに「無料でこれ提供してくれてありがとう。お金払いたいぐらいだよ」と書き込みされることがあったので、試しに自分もGitHub Sponsorsに申請してみました。で、できたページが下記のリンク先です。

- Sponsor @isshiki on GitHub Sponsors

申請してみたい人向けにもう少し体験を書いておくと、申請してもすぐに始まるわけではなく、承認や口座や、米国での課税を免除してもらうためのW-8BENを電子的に記入して提出する必要など、工程がたくさんありました（参考：「Setting up GitHub Sponsors for your user account - GitHub ヘルプ」）。1カ月近くかかるのを見積もった方がいいです。

しかも申請書類が全て英語で、よく分からない。特に難しかったのは、「What are your pronouns?（あなたの代名詞は何ですか？）」という質問。代名詞って「最強の四番打者」とかかと思ったんだけど、たぶん言葉通りに「My pronouns are he him his」と答えるのだと思います（※確信はないです）。恐らくこれは性別問題と関係していて、男性でも「she her hers」と言ってもらいたい人もいるとかかなと思うので。これは英語を文化面も含めて知らないと答えられないですよね。

もう一つがW-8BENで、赤枠で囲まれている欄だけ記入すればよいと思います。記入内容は「( 2019最新版） W8benの書き方完全ガイド / マイナンバー対応 | 稼ぎたい人のためのストックフォト副業ログ」を参考にしました。

GitHub Sponsorsは海外でやっている人でもそこまで多くの支援者が付いているわけではないので、現状のままだと流行ることなく終わりそうという気がしてしまいますね。自分も誰も付かないだろうな...。

それよりも日本人はGitHubスターをあまりつけないらしくて、それでも米国などとの差が出ているって何かで読んだのですが、「まずはみんな気に入ったら気軽にGitHubスターを押す習慣を持とう」という運動が日本で始まればいいなと思っています。自分もほとんどスター押してないから人のことは言えないです。

2020-01-09

第4回 Jetsonユーザー会「Jetson Nano超入門」著者パネルディスカッション＋LT大会聴講ノート

Jetson AI ＆機械学習

※これはセミナー聴講時の個人的なノートをそのまま公開したものです。誤字誤植や勘違いがある可能性があるのでご了承ください。

第4回 Jetsonユーザー会「Jetson Nano超入門」著者パネルディスカッション＋LT大会 - connpass に参加しました。

19:40　 NVIDIA社から

19:50 発表開始 (30分）パネルディスカッション :

Jetson Nano 超入門

Jetsonで何をさせたらおもしろい？

メディアプレイヤー
物体検出は多いが、3Dをグリグリ動かすアプリケーション
画像のディープラーニングでの検出・認識など。ラズパイカメラが標準で使えるので
GPIOはラズパイを意識した作りなので、逆にラズパイにできないことを

Jetson nanoや後継Xavier NXなどのエッジAIデバイスの可能性は？

センサーではないものが検出できる。例えば人の表情でまぶしそうだから照明を調整するなど
推論はデバイスにやらせるという分業が進んでいく。モデルを作る人とアプリを作り人は別に
個人で安くて手に入るので、それを活かして、教育的な活用を進めてほしい
自分だけのカメラが作れるのでは。AIで画風変化とか
PHS（プリントしてはんこシテスキャンする）の自動化？

AIエッジデバイスの産業用途

Jetson nanoをオススメしているが、AIの解釈性の問題などで実現にいたらない。ミッションクリティカルな場面では難しいだろうが、こうすれば使えるなどのユースケースは必要
TX1/TX2ではフルオートメーション、AI監視カメラ、インフラ管理などでの活用は多いが、あまり公開される実例情報としては世の中に出てきにくい
エッジコンピューティングについては日本が世界をリードしてほしい
AIを使いこなす会社が結局は伸びていくのではないかと思う

Jetsonシリーズに期待すること

継続的に提供してほしい。JetPackの提供が終わってしまうなどがないように（JetPackのアップデートは最新のものを使っておくべき）
情報が少ないのが不満
少し高い。普及することで安くなるのでは
ラズパイと比べると、使える周辺機器が少ない。一工夫しないと使えないので、今後は使えるものが増えるとうれしい
オーディオ関係が弱い。ラズパイと同じくらい気軽に使いたい
MicroSDカードの差し替えが頻繁だと壊れやすいので、MicroSDカードの延長ケーブルを使うとよい

汎用AIは実現するのか？

汎用AIといわれてもイメージできない
ドラえもんを作るのは10年後はまだできないと思うけど…
このまま技術を積み重ねていけばできるのではないのか
中身は計算式なので、コンピューティングパワーがまだまだ足りないので、しばらく無理だと思う
生きているうちにドラえもんを見てみたいが、今は虫みたいなものなので、もうワンステップした別理論が必要。だから100年単位が必要だと思う
ドラえもんが出してくれるアイテムの方に興味がある。ほんにゃくこんにゃくなど
複数のセンサーやAIを組み合わせる「マルチモーダル」なAIロボットであれば5年後にはできるだろう

20:40 LT (3枠）(5分）USAHIROU Jetson NanoでJetbotならぬROS対応のRotsonを作ったよ

Jetson Nano+ROS＝Rotson

(5分）LT枠: Deep Stream系

NVIDIA DeepStream SDK | NVIDIA Developer
OpenCVじゃなぜだめか：時間軸の概念がない、CPUリソースを食う
Yoloでの物体検知をやってみる（デモ）
例：Jetson NanoでDeepStreamを使ってYOLOv3-tinyを動かす - やってみた！

資料だけではわかりにくい点もあるかと思いますので、話した内容等は別途ブログにまとめる予定です

第4回 Jetsonユーザー会 LT 『Jetson nanoでDeepStreamを使ってみた』 from JunOhashi

(5分）LT枠: Jetson NanoとGR-ROSEで始めるROS2

LT枠全体

2019-12-23

良資料の紹介「『ダメな科学』を見分けるための大まかな指針」

備忘録統計

ネットサーフィン中にたまたま見つけた資料ですが、良いと思ったので個人的な備忘録も含めての紹介です。

大本（英語）のソース： A Rough Guide to Spotting Bad Science – Compound Interest
日本語化のソース：「ダメな科学」を見分けるための大まかな指針」のポスター - うさうさメモ

「『ダメな科学』を見分けるための大まかな指針」というポスターを見たことがあるでしょうか？ 2014年とちょっと古いですが...。以下は上記の「日本語化のソース」から引用したポスターです。両方とも「Creative Commons — 表示 - 非営利 - 改変禁止」に従って再配布可能のようです（詳しくは上記のリンク先を確認してください）。

うさうさメモに、それぞれの項目の内容が詳しく解説されています。下記リンク先を参照してください。

1. 扇情的な見出し、2. 結果の曲解 - うさうさメモ
3. 利益相反 - うさうさメモ
4. 相関関係と因果関係の混同 - うさうさメモ
5. 推測表現　（おまけ：「科学的風だけど実は科学的証拠ではないもの」の例） - うさうさメモ
6. 小さすぎるサンプルサイズ、7. 代表的でないサンプル - うさうさメモ
8. 対照群がない、9. 盲検試験が行われていない - うさうさメモ
（10. 結果のいいとこ取り、11. 結果に再現性がない、12. ジャーナルと引用数、は解説がないみたい）

2019-12-16

統計検定2級に合格！私の勉強方法と試験対策

意見と感想統計

ちょっとずつ閲覧数が増えてきたので、2級合格までに実践してきた勉強法と試験対策について大幅に追記しました（2020年3月24日）。元々書いていた「 2級合格体験と今後の目標」は後ろに回しました。

理解するための勉強方法

私の場合、理解するための勉強と試験対策は違う勉強の仕方が必要だと感じました。まずは2～3カ月かけて基礎をしっかりと理解すること。その根幹となるのが、正規分布関連から、カイ二乗検定、T検定までを完全に理解することです。これを行うために、以下の順番で勉強しました。特に「完全独習　統計学入門」は真剣に読み込みました。

『マンガでわかる統計学素朴な疑問からゆる~く解説』：最初に読んだ。前半は分かりやすいけど、説明が弱い部分がところどころあって一読で全部理解するのは難しい。まず一読して雰囲気をつかむという使い方がお勧め。
『完全独習　統計学入門』： T検定、カイ2乗検定までが、ステップバイステップですんなり理解できる。3回も読むと統計学の基礎知識が分かるので一番お勧め。オーディオブックもあり、併用すると便利。
「予備校のノリで学ぶ「大学の数学・物理」【確率統計】再生リスト」：上記の完全独習を理解してから、これを視聴すると、より深く理解できる。講義がメチャクチャ分かりやすい。繰り返し視聴すると知識が定着する。その後で、再度、上記のマンガに戻ると「そういうことだったのか」と理解できる。

ここまでで50％ぐらいの勉強が完了です。この後、次の公式書籍にざっと目を通して、試験を受けるには全然知識が足りないことに慌てました。

『改訂版日本統計学会公式認定統計検定2級対応統計学基礎』

基本的には、あまり評判の良くないこの教科書で勉強しましたが、補足で下記の動画やWeb記事を読んだりしました。

「予備校のノリで学ぶ「大学の数学・物理」【確率統計】再生リスト」：ベイズの定理、ポアソン分布、回帰分析（最小二乗法）あたりはこの動画で学べます。
「全人類がわかる統計学 | 統計学入門から、多変量解析、Rでの解析まで。とにかくわかりやすく！」

とりあえず勉強はここまでで100％です。一通り理解したら、すぐに試験対策に入った方がいいです。試験対策の期間が長いほど有利です。

試験対策

試験対策で最初に取り組んだのが、下記の書籍です。Kindle Unlimitedにより無料で読めたからです。タダだからと思って何気に読み始めたら、これが非常に秀逸でした。実は、上記の勉強の後半で足りなかった部分の大半はこの本で身に付けたといっても過言ではないです。

『統計検定２級合格のツボ』

でも試験対策に乗り出したのが、試験の2週間前で、もっと効率的に学びたい、と思っていたところ、下記の動画コンテンツ（いずれも Yuya.K_ASN 氏のYouTubeチャンネル）を見つけました。これが上記の試験対策本を超えて優秀でした。これを試験の2カ月前から繰り返し視聴すれば、合格は間違いないと思います。

※これらが扱っているのは過去問です。視聴するには、過去問の本も購入する必要があります。

『日本統計学会公式認定統計検定 2級公式問題集[2017〜2019年] 』

また、Yuya.K_ASN 氏のYouTube動画では、「どの問題でどの検定を使うか」などの資料に、下記の本を使っていますね。一応、私も買いましたが、演習問題は解いてないです...。

『統計学演習』
「『統計学演習』 - YouTube」

もし最短かつ最安で2級に受かることだけを考えるなら、過去問を買って、Yuya.K_ASN 氏のYouTubeチャンネルの「【2017年6月】統計検定2級解説」再生リストだけを繰り返し視聴すれば、余裕で受かると思います。でも、目的としてしっかりと統計学を身に付けたい場合は、地道に勉強していくことをお勧めします。

以上、自分が感じている「これを勉強したら合格できるよ」という内容の暴露です。せっかく方法を公開したので、誰かのお役に立てればうれしいです。

2級合格体験と今後の目標

2019年11月24日（日曜日）に統計検定2級を受験して合格。本日、Webで合格発表がありました。

統計検定2級に合格しました。
だけど、出題範囲が広くて試験までの勉強時間が足りず、一部の出題範囲は一夜漬だったので、もうちょっと勉強を継続します。
2020年6月21日の試験で準1級を目指します。 pic.twitter.com/FE7KvsJxYC
— Masahiko Isshiki (@isshiki) 2019年12月16日

AI・機械学習をやるうえで必須かと思い、今年の6月ぐらいから徐々に統計学の勉強を始めました。統計学を学んでみると、「機械学習のこれは、統計学のこれのことか」と気付くことが多く、勉強して良かったと思っています。

もう一つの収穫は、統計学の基礎が理解できることと、実践にまで応用できることには開きがあると、実際の問題を解き始めて気付いたことです。実際に問題を前にすると難しく、まだまだだと反省させられます（慣れてくると、問題パターンから解答パターンがある程度は見えてきてしまう感じがしましたが……たぶんそれは2級レベルだから。準1級、1級はもっと難しいのかと）。

ちなみに2級の合格率は43.7％ぐらいみたいです。→参考：受験データ 2018年6月17日試験｜統計検定：Japan Statistical Society Certificate これが準１級の合格率になると20.2％と半分以下にまで下がるのでかなりの難関みたいです。今回のようなつけ刃は通用しないと思うので、もう一度、2級までの内容が完璧になるように、再学習してから、来年6月の準１級の試験に臨みたいと思います。

最終的には1級取得を目指しています。できれば1年後...。

2019-12-15

「確率的」を意味する「Stochastic」と「Probabilistic」（Probability）は何が違うか？

英語統計

「確率的」とは、英語では「stochastic」もしくは「probabilistic」と表現されます。どう使い分ければよいのでしょうか？（どう違うか非常に迷ったのですが、良い資料もヒットしないので、理解したことを書いておきます。）

「何％の確率」（＝イベントが発生する可能性の高さ）などという一般的な意味の「確率」は、英語で「probability」です。その関連用語（形容詞化？）が「probabilistic」（確率的）です。確率（probability）に関する数学の一分野は、「確率論」（Probability theory）と呼ばれます。

一方、統計分析において「ランダムに決定するプロセスであること」は、英語で「stochastic」です。日本語では、同じく「確率的」と訳されますが、、むしろ「確率論的」という訳語の方が適切かもしれません。というのも、「stochastic」の「ランダムに決定するプロセス」は、確率論（Probability theory）に基づく考え方であるためです。つまり「stochastic」は、あくまで確率論の一部であり、特に「ランダムであること」が重要なのです。

「probabilistic」には、「ランダム」の意味はなく、シンプルに「イベント発生の可能性であること」だけを示しています。そこが両用語の使い分け基準になるかと思います。

ちなみに、「probabilistic」（確率的）と「probability」（確率）は意味が共通的です。しかし、「stochastic」の名詞は「stochasticity」で「偶然性」という意味になり（いわば「ランダム性」を格好よくした単語で）、「stochastic」（確率論的）と意味が少しズレて、より「ランダムであること」が強調された意味なのでご注意ください。