いっしきまさひこBLOG

AI・機械学習関連、Web制作関連、プログラミング関連、旅行記録などなど。一色政彦。

Pythonで書いた計算コードから数式の描画/TeX取得を行う方法(handcalcs)

機械学習関連をしていると、数式をコードで表現するときがありますが、逆にコードで書いたものを人に説明するためや、自分で後で見直したいとき用に、数式を描画したいときがあります。Jupyter Notebookを使っている場合は、通常、TeX/Latex書式で書くのではないかと思います。

1つぐらいであればTeXコマンド文を手書きした方が速いと思いますが、大量にある場合、「コードから数式を表示できないの?」って思う人も多いかもしれません。そんなことができるライブラリを見つけたので紹介します。

上記の「handcalcs」というPythonライブラリです。注意点としては、Python 3.7以上である必要があります。Colabだと2020/09/03時点でバージョン3.6なので使えなかったです。Kaggle Notebook(Python 3.7.6)を使って、以下の内容を試しました。

インストール方法

PyPIパッケージなのでpipでインストールできます。

!pip install handcalcs

# Collecting handcalcs
#   Downloading handcalcs-0.8.1-py3-none-any.whl (24 kB)
# Requirement already satisfied: pyparsing<3.0.0,>=2.4.7 in /opt/conda/lib/python3.7/site-packages (from handcalcs) (2.4.7)
# Installing collected packages: handcalcs
# Successfully installed handcalcs-0.8.1

handcalcsレンダラーのインポート

import handcalcs.render

Python計算コードのレンダリング

あとは%%renderセルマジックで記述するだけです。

%%render
a = 2
b = 3
c = 2*a + b/3

これをJupyter Notebook上で実行すると次のようにレンダリングされます。

f:id:misshiki:20200903161632p:plain
handcalcsレンダリング結果

MathJaxでレンダリングされているので、右クリックメニューからTeXコマンド文を取得できます。

数式だけでなく、その計算結果までレンダリングされているのもポイントです。

TeX初心者であればかなり参考になるのではないでしょうか。

レンダリング例2

f:id:misshiki:20200903162151p:plain
mathモジュールのsqrtやpiも利用可能

直接にTeXコマンド文を取得

%%texセルマジックを使えばレンダリングではなくTeXコマンド文が出力されます。

f:id:misshiki:20200903162241p:plain
TeXコマンド文を取得するモードもあります

この他にもいろいろと機能があるので、公式GitHubページをご確認ください。

回帰分析に関する統計学ノート

1つ/2つ以上の独立変数(説明変数)を用いて従属変数(目的変数)を表す直線(回帰式)を、最小二乗法によって求める手法を「単回帰/重回帰分析」と呼ぶ。独立変数と従属変数はどちらも量的変数である必要がある。ただし質的変数を「1、0」エンコーディングしてダミー変数にすることで、独立変数に使用することもできる。各独立変数に対する偏回帰係数は、それぞれT検定により有意確率を確かめる。回帰分析モデルを評価するための指標には、「標準化回帰係数(β)」「決定係数(R2)」「自由度調整済み決定係数(補正R2)」などがある。最後に回帰式全体の有意確率をF検定で確かめる。多重共線性に注意が必要。

f:id:misshiki:20200622141842p:plain
統計検定の適用方法一覧(単回帰分析/重回帰分析を使う場合を赤で示した)

「回帰分析」関連のノートは、このエントリにまとめていく予定(ロジスティック回帰は別エントリにする予定)。まだ途中です。

回帰分析(単回帰分析)

  • 最小二乗法を使って最も当てはまりがよい直線を求める
  • その直線の傾きが「回帰係数」、切片が「定数」と呼ばれる
  • 直線は一次式なので「線形回帰」とも呼ばれる。二次式以上にして曲線になるなら「非線形回帰」と呼ばれる
  • 回帰分析の場合、独立変数と従属変数はどちらも基本的に「量的変数」でなければならない

ダミー変数

  • 例外として、独立変数として「ダミー変数」を使ってもよい
  • ダミー変数とは、質的変数に数値を割り当てたもの、例えば「男性:0、女性:1」のような「カテゴリカル変数のエンコーディング(した値)」を指す
  • このようなダミー変数を使っても、統計学的に問題ないことが証明されている

重回帰分析

  • 独立変数が1つの場合が「単回帰分析」、2つ以上の場合が「重回帰分析」
  • 各独立変数は標準化した方がよい。標準化とは、平均0、分散1にスケーリングすること
  • 重回帰分析は、最小二乗法を使って最も当てはまりがよい平面や超平面を求める
  • 各次元の傾きが「偏回帰係数」(重み)、切片が「定数」(バイアス)と呼ばれる

「偏回帰係数のT検定」で有意確率を確認

  • 偏回帰係数の有意確率を確かめるには「T検定」を行う
  • 有意確率とは、偶然に起こってしまう確率のこと
  • 0.05未満なら、偶然に起こる確率は非常に低い(=つまりほぼ起こらない)ので、「統計的に有意」となる。「5%水準で有意」「有意水準5%未満で統計的に有意差がある」とも言う
  • 例えば、ある独立変数の有意確率が0.01なら、「その独立変数は効果がない(=0と差がない)」という帰無仮説が棄却されて「ある独立変数」と「0(固定値)」の間に差がある(=その独立変数には効果がある)と言える
  • このようなT検定は「1群のT検定」に分類できる(参考:「分散分析に関する統計学ノート」の最後にある補足)

標準化回帰係数(β)

  • 独立変数同士は、必ずしも単位が同じではないので、個々の偏回帰係数を比較しても意味が無い
  • そこで、各独立変数における偏回帰係数の効果を比較するための指標「標準化回帰係数(β)」

サンプルサイズ(N)

  • 標本データの数のこと

決定係数(R2)

  • 「全ての独立変数によって、従属変数の何%が説明できるか」を示すがのが「決定係数(R2、R二乗値)」
  • R2=0.345 なら、34.5%説明できるということ

自由度調整済み決定係数(補正R2)

  • 決定係数は独立変数が多くなるほど1に近づくので、その自由度を調整して再計算したのが「自由度調整済み決定係数(補正R2)」
  • 独立変数の数による影響を除外できるので、より適切に回帰分析モデルを評価できる

「回帰式のF検定」で有意確率を確認

  • 回帰式の有意確率を確かめるには「F検定」を行う
  • 決定係数が「全独立変数における偏回帰係数の効果」を示す指標なら、回帰のF検定は「全独立変数の役立たなさ、意味のなさ」を示す指標
  • 例えば5%水準でF検定の有意確率が0.01なら、「各独立変数が0に等しい(=差がない)」という帰無仮説が棄却されて「各独立変数」は等しくない(=有意差がある)、つまり回帰式には「意味がある」と言える

注意事項:多重共線性

  • 独立変数同士の相関が高すぎると、偏回帰係数を正しく算出できなくなってしまう現象「多重共線性」(=マルチコ:multi-colinearity)
  • 多重共線性を回避するためには、その減少を引き起こしている独立変数を除外(もしくは他の独立変数と合成)する必要がある
  • このために、各独立変数に対して「分散増幅因子(VIF)」という指標を算出して、そのVIF値が大きいものを除外すればよい
  • VIF値が、いくつ以上だったら除外するかは諸説あるが、だいたい5以上(最低でも10以上)の独立変数を除外すればよい。2未満なら安心できる。0.1未満で全く問題なし

疑問:質的変数を独立変数にするには?

  • 質的変数を「1、0」データ(対象だけ1、それ以外を0で表現する数値列)に変換してダミー変数を作ればよい(「k-1個」のone-hotエンコーディング)
  • 例えばお菓子の3種類でポテチ/アイス/チョコがあるなら、「ポテチ=1、それ以外=0」「アイス=1、それ以外=0」「チョコ=1、それ以外=0」のうち2つを作成すればよい
  • つまり「1、0」ならポテチ、「0、1」ならアイス、「0、0」ならチョコという具合に、2つの独立変数ができるということ
  • ちなみにニューラルネットワークのone-hotエンコーディングは、通常、3種類を3つのダミー変数に変換する
  • 一方、回帰分析のone-hotエンコーディングでは、このようにk個(この例では3個)から1個を引いた「k-1個」(この例では2個)のダミー変数を作成するので注意
  • すべての独立変数が質的変数である場合に、それら全てを「1、0」のダミー変数にして重回帰分析する手法は「数量化Ⅰ類」と呼ばれる
  • ちなみに、すべての独立変数が質的変数である場合の判別分析は「数量化Ⅱ類」、質的データに対する主成分分析は「数量化Ⅲ類」と呼ばれる

参考文献

分散分析に関する統計学ノート

3群以上の群間で平均値の差があるかどうかを検定したい場合には、「分散分析のF検定」(+テューキーの多重比較)を行う。ただし、この検定は「ルビーンの等分散性検定」で群間の分散が等しい場合のみ。等しくない場合は、「ウェルチののT検定」(+ゲームス・ハウエルの多重比較)を行う。2群の場合は「平均値の差のT検定」を行う。最近では等分散かどうかで分岐せず、最初から「ウェルチののT検定」を行うのが主流。ちなみに1群の場合は「1群のT検定」を使えばよい。

f:id:misshiki:20200620151108p:plain
統計検定の適用方法一覧(分散分析/T検定を使う場合を赤で示した)

「分散分析」関連のノートは、このエントリにまとめていく予定。

分散分析(ANOVA:ANalysis Of VAriance)とは

  • 対象:グループが3つ以上。2つの場合は最後に書いた『補足:「平均値の差のT検定」について』を参照
  • 分散分析とは、グループごとに、ある変数の平均値を算出し、それらに差があるかを確かめる手法
  • 例えば、ある地区の学校ごとに、ある英語試験の平均点を算出し、それらに差があるかを確かめるなど

分散分析の結果の見方

  • 結果の見方としては、まず平均値を見る。次に有意確率を見る
  • この有意確率は「分散分析のF検定」の結果(F値)
  • F値=有意確率を算出するときの途中の計算の値

分散分析の「F検定」と有意確率

  • 有意確率とは、偶然に起こってしまう確率のこと
  • 0.05未満なら、偶然に起こる確率は非常に低い(=つまりほぼ起こらない)ので、「統計的に有意」となる。「5%水準で有意」「有意水準5%未満で統計的に有意差がある」とも言う
  • 例えば有意確率が0.01なら、「平均値は等しい(=差がない)」という帰無仮説が棄却されて「各学校」と「英語の平均点」の間に関連がある(=郡間で平均点に差がある)と言える
  • つまり、英語の平均点は学校ごとに差があると、ざっくり示しているに過ぎない
  • 要するに、どの学校とどの学校に差があるかまでは分からない。ので、テューキーの多重比較を見る

テューキー(Tukey)の多重比較

  • 各グループごとに平均値に差があるか比較して有意確率を算出する
  • 分散分析のF検定が全体の有意確率で、テューキーの多重比較が部分の有意確率

ルビーン(Levene)の等分散性検定

  • 対象:グループが3つ以上
  • ただし分散分析のF検定やテューキーの多重比較は、各グループ内の分散が等しいときにしか使えないという制約がある
  • 分散が等しいかを調べるのが、ルビーンの等分散性検定
  • つまり分散分析の前に、ルビーンの等分散性検定を行っておく必要があるということ
  • その有意確率が0.05未満(統計的に有意)なら、「分散が等しい」という帰無仮説が棄却されて「各グループで分散に差がある」ことを意味するので、分散分析できない

ウェルチ(Welch)のT検定

  • 等分散でもそうでなくても実施可能
  • 各グループで分散に差がある場合は、(分散分析のF検定の代わりに)ウェルチのT検定を行う
  • 結果の見方は同じ

ゲームス・ハウエル(Games-Howell)の多重比較

  • また、(テューキーの多重比較の代わりに)ゲームス・ハウエルの多重比較を行う
  • 結果の見方は同じ

多重性の問題

  • 以上の手法は昔の教科に載っていた手法。現在では「多重性の問題」があると言われている
  • 多重性とは、「等分散性検定」→「分散分析のF検定など」による二段階検定によって、有意確率が設定した5%未満ではなく実質的に例えば9.7%ぐらいと緩くなってしまっていること
  • これは問題があるので、現在では等分散性があろうがなかろうが、全部すっ飛ばして「ウェルチのT検定」を行うべし、というのがセオリーになっている(らしい)
  • 参考にできる「YouTube動画:...【検定の多重性問題をうまく回避する方法】

補足:「平均値の差のT検定」について

  • 対象:グループが2つ
  • 平均値の差のT検定とは、2つのグループ間に、ある変数の平均値を算出し、それらに差があるかを確かめる手法
  • 例えば、2つの学校間に、ある英語試験の平均点を算出し、それらに差があるかを確かめるなど
  • T値とF値は、実質的に同じものを表現しており、具体的には「T値の2乗=F値」になる
  • 「平均値の差のT検定」は、2つのグループ内の分散が等しい(=等分散の)とき/等しくないとき、どちらのケースでも使ってよいとされている
  • 非等分散性を気にするのであれば、ウェルチのT検定を使えばよい(「ウェルチの検定」は万能?! これだけ使うのが主流らしい)

補足:「T検定」について

  • ちなみに、ひとえに「T検定」といっても、使われ方によって3つに大別できる
  • 2群: 平均値の差のT検定(「対応のないT検定」、「スチューデントのT検定」、単に「T検定」とも呼ばれる)
  • 1群: 1群のT検定
  • 1群を2回使用: 対応のあるT検定
  • 「1群のT検定」と「対応のあるT検定」は以下で説明
  • なお、 3群以上なら上記の通り「分散分析のF検定(※T検定ではないが、下記のように同じ表現値)」を使う

補足:「1群のT検定」について

  • 対象:グループが1つ(何も考えなくても等分散)
  • 1群のT検定とは、1つのグループ内で、ある変数の平均値を算出し、それと指定された固定値とに差があるかを確かめる手法
  • 例えば、1つのポテトチップス群において、内容量の平均の重さを算出し、それとパッケージにに記載された80グラム(固定値)とに差があるかを確かめるなど

補足:「対応のあるT検定」について

  • 対象:グループは1つ、その1つを2回使う(主にビフォー&アフターで)(何も考えなくても等分散)
  • 対応のあるT検定(paired t-test)とは、1つのグループ内で、ある変数の平均値を2回算出し、1回目と2回目に差があるかを確かめる手法
  • 例えば、1つのポテトチップス群において、リニューアル前と後に分けて内容量の平均の重さを算出し、その前(ビフォー)と後(アフター)に差があるかを確かめるなど

補足:正規性がない場合について

  • 正規性とは、データの母集団が正規分布に従っていること
  • 通常は正規分布に従っているものと仮定して、上記のようなフローで検定を行う
  • 正規性を調べるには、「正規性の検定」を行う
  • 正規性の検定には、シャピロ・ウィルク(Shapiro-wilk)検定、コルモゴロフ・スミルノフ(Kolmogorov-Smirnov)検定などあるが、決定打にはならない。ヒストグラムやQ-Qプロットを見て判断したりもする
  • 正規性がない場合は、非正規分布についてはT検定よりも有効性が高い「マン・ホイットニー(Mann–Whitney)のU検定」(=ウィルコクソン:Wilcoxonの順位和検定)を行う

参考文献

de:code 2020 聴講ノート(AI・機械学習関連のみ)

2020年6月17日~30日に開催されちえる「de:code 2020 | 開発者をはじめとする IT に携わるすべてのエンジニアのためのイベント」(AI・機械学習関連のみ)を聴講時に取った個人的なノートをそのまま公開したものです。誤字誤植や勘違いがある可能性があるのでご了承ください。

6月19日現在では、すべてのセッションが公開されているわけではないので一部だけです。→1カ月後の7月17日現在で、de:code 2020は終了しました。全部は見きれなかった。「Microsoft AI が目指す「全ての人のための AI」」「”AI パーツ” であなたは何つくる? Azure Cognitive Services アップデート」というセッションも見て良かったけど、ノートは省いてしまった。履歴を見ると14セッションも視聴していました。

AutoML ではじめる機械学習の民主化

自動機械学習とは?

  • 機械学習の民主化=誰でも使えるようにしたい
  • 機械学習のプロセス: 特徴量エンジニアリング、アルゴリズム選択、パラメーター選択
  • Azure Machine Learningでは自動機械学習(Automated Machine Learning:AutoML)を提供

f:id:misshiki:20200717162802p:plain
自動機械学習が目指すところ

f:id:misshiki:20200717162814p:plain
Azure Machine Learning

  • 問題種別: 分類、回帰、時系列の予測をサポート
  • 開発・運用: Python、R、Azure Machine Learning Studio、Jupyter Notebook、Visual Studio Code、PyCharmをサポート
  • ライブラリ: PyTorch、TensorFlow、scikit-learnなど

機能詳細と最新情報

  • データに関する機能:
    • 大規模データ(100GBまで)への対応
    • Azure Open Datasets
    • Data Guardrails
  • 特徴量エンジニアリングに関する機能:
    • BERTによる特徴量抽出
    • 特徴量変換のカスタム指定
    • 自動での特徴量変換
    • 時系列データ前処理の自動化: ラグ、ローリングウィンドウなど
  • アルゴリズム選択に関する機能:
    • Microsoft LightGBM
    • 時系列予測: ARIMA、Prophet、Forecast TCN
  • パラメーター選択に関する機能
    • 強調フィルタリング+ベイズ最適化: 「特徴量エンジニアリング」と「アルゴリズム選択」を含む全体のプロセス
  • 機械学習プロセスの追跡(リネージ)
  • モデル解釈: 責任ある機械学習(Understand、Protect、Control)を実現
    • InterpretML: モデル解釈(モデル全体のグローバル解釈、予測値ごとのローカル解釈)に対応し、直感的なダッシュボードを提供予定

f:id:misshiki:20200717162828p:plain
新しいダッシュボード

  • Azure Machine Learningのロードマップ

f:id:misshiki:20200717162846p:plain
2020年5月末時点でのロードマップ

デモンストレーション

  • Azure Machine Learningの操作例

f:id:misshiki:20200717162857p:plain
Azure Machine Learningの画面

f:id:misshiki:20200717162908p:plain
自動MLを作成しているところ

f:id:misshiki:20200717162928p:plain
分類、回帰、時系列の予測から選択

f:id:misshiki:20200717162955p:plain
選択された最適なモデルの精度を確認

f:id:misshiki:20200717163008p:plain
データの整合性などを確認できるデータガードレール

f:id:misshiki:20200717163019p:plain
実行されたモデルの一覧

f:id:misshiki:20200717163032p:plain
モデル解釈として影響度の高い特徴量も分かる

f:id:misshiki:20200717163044p:plain
デプロイ機能もある

  • Python SDKの実行例

f:id:misshiki:20200717163111p:plain
AutoMLConfigクラスの実装コード例

参考情報

AI・機械学習で新たに創出されるデータとアノテーションビジネス

AIとデータを取り巻く課題

  • 時代背景:不透明さが増すAI
  • 倫理と責任あるAIが求められる(公平性や透明性など)

AI倫理審査ボード

  • マイクロソフトは「AI倫理審査ボード」を設置

f:id:misshiki:20200619132403p:plain
AI倫理審査ボード

  • 「Ethical AI Dicision Framework」を定めて推進

f:id:misshiki:20200619132423p:plain
Ethical AI Dicision Framework

AIベンダーやAIエンジニアが注意するべき法的事項

  • 「アノテーション」「クレンジング」作業に焦点を当て、どのような権利が発生するかを示す
  • 著作権は発生するのか? 一般的に「アノテーション」「クレンジング」は著作物の創作ではない
  • 著作権法10条1項9号「プログラムの著作物」: アイデアは著作物ではない。アイデアは特許法で保護
  • 著作権法30条の4「著作物に表現された思想又は感情の享受を目的としない利用」: 「アノテーション」「クレンジング」が著作物だったとしても、この条文によりAIの学習に無断で利用できることになっている
  • 不正競争防止法2条7項「限定提供データとしての保護」: 「アノテーション」「クレンジング」データはこれにより保護できると考えられる。よって「限定提供データ」として保管するのが大事
  • これ以外で保護する方法: 「契約による保護」。そのために、信用できる特定プラットフォーム上でデータを流注させるのが重要
  • AIデータ活用コンソーシアムでこのための契約書(テンプレート?)を準備中

ソフトウェアと製造物責任(PL法)

  • 問題があった場合に、製造物であるソフトウェアの責任を負わなければならない
  • 通常は、原因調査により問題のあったプロセス箇所を明らかにし、そのプロセスのエンティティが責任を負う
  • AIの場合は、ブラックボックスであり上記のような責任所在の特定は難しい。よってデータやアノテーションにおいても製造物責任を考慮しておく必要がある
  • 例えばアノテーションを担当した人が悪意を持ってラベリングする可能性などがある。そんため作業者の身元確認と保証も大事になってくる
  • データには偏りが生まれる可能性がある。例えば人種の偏りがあるデータで学習してしまった場合、人種差別を持つAIとなる。また、データは時間とともに変化し、世代により意味が変化したりする。データの偏りは無くす必要がある
  • AIの用途によって、データに求められる保証レベルも変わってくる
  • 「AI利活用ガイドライン」に10の原則も参考にしてほしい

リテール AI の PoC 事例から学ぶスケールアウトへのヒント

リテールAI研究会とは

  • 一般社団法人リテールAI研究会
  • リテールAI研究会の中で、PoCを推進するための「分科会」活動を推進
  • リテールAIでよくある失敗: 「フルカスタマイズしようとしてPoCが終わらない」「ビジネス側とエンジニア側で意見の食い違い」

PoC事例の振り返り

  • 何個か事例の説明があったけど割愛

リテールAI検定

リテールAIを成功させる秘訣

  1. 「推論した後に何をするか」をあらかじめ議論すべし
  2. そのためには、最初の段階から、ビジネス部門ユーザーを取り込むべし
  3. ビジネス部門の初心者でも簡単にできるようなシナリオを用意すべし
  4. 部門ごとの要求を取り過ぎてしまわないようにすべし(カスタマイズしすぎるとスケールアウトしないので)

アマダの Azure への取り組みと DevOPS・MLOPS 環境の構築と運用

Azure Machine Learning + MLOps

ざっくりとスライドの引用で紹介します。

f:id:misshiki:20200619161642p:plain
MLOpsのイメージ

f:id:misshiki:20200619161701p:plain
なぜAzure ML+MLOpsなのか

  • MLOps構築をアバナードに業務委託した

アバナードによるMLOps構築

  • 要件と3カ月の成果について説明がありました

アーキテクチャの全体構成は図がないと分からないので、スライドを引用します。

f:id:misshiki:20200619161729p:plain
アーキテクチャの全体構成

f:id:misshiki:20200619161750p:plain
機械学習実行アーキテクチャ

MLOps導入の効果

  1. 工数削減と品質確保
  2. 実験トレーサビリティの確保
  3. 属人化/属環境化の防止

MLOps運用での検討事項

  1. Azureランニングコストの最適化
  2. MLOpsを十分に理解した技術者が必要

Azure Cognitive Search で作る! 一歩先を行く検索機能 〜 富士フイルム IMAGE WORKS 事例 〜

AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ

アジェンダ

  • 混合精度演算(Mixed Precision Training)
    • Tensorコア
    • AMP
  • NVIDIA A100 TensorコアGPU
    • TF32による演算
    • 構造化疎性(Structural Sparsity)
    • Multi Instance GPU(MIG)
  • GPUの利用環境
    • AzureのGPUインスタンス

混合精度演算(Mixed Precision Training)

f:id:misshiki:20200619173843p:plain
FP32とFP16の違い

  • FP16を使う利点:最近のGPUではFP16の演算スループットがFP32の2倍~8倍高い
  • そこでTensorコア。これを使いこなすのが鍵

f:id:misshiki:20200619173859p:plain
Tensorコア

  • 混合精度演算でトレーニングを高速化するには、いくつかの対策が必要。それを自動的に行うのが「AMP:自動混合精度演算」
  • AMPは、計算グラフを解析して適切にキャストしたり、勾配のアンダーフロー(小さくなると表現できずに0になる問題)を防ぐためのロススケーリングしたりできる
  • AMPは現在TensorFlow/PyTorch/MXNetに対応しており、わずか数行を追加するだけで有効化できる

NVIDIA A100 TensorコアGPU

  • 新型GPUが登場。性能は大幅に向上した

f:id:misshiki:20200619173918p:plain
NVIDIA A100 Tensorコア GPU

  • 「TF32 Tensorコア」というF32のレンジとFP16の精度を合わせ持つ新しい数値データ型を導入

f:id:misshiki:20200619173935p:plain
TF32 Tensorコア

  • ここまではトレーニングの高速化。ここからは推論の高速化
  • 構造的疎性(Sparsity)により推論を高速化する

f:id:misshiki:20200619173951p:plain
推論の高速化

  • FP64(倍精度演算)にも対応
  • さらに「Multi Instance GPU(MIG)」という新機能により、GPUインスタンを分割して使用率を最適化できる。推論時のスループットも向上する

GPUの利用環境

  • NVIDIAのGPUは次のような歴史がある

f:id:misshiki:20200619174014p:plain
NVIDIA GPUの歴史

  • AuzreでGPUを使うときは「NVIDIA NGC Image for Deep Learning and HPC」を使うとすべて準備が整っていて便利

f:id:misshiki:20200619174033p:plain
NVIDIAが提供するVM

さくっとプチ成功する機械学習プロジェクトのコツ

4つのコツ

  • 最初から完璧なゴールを目指さない、周囲の理解を得ながら段階的に進める

f:id:misshiki:20200717153926p:plain
機械学習プロジェクトの成功とは?

  • 各スキルをバランスよく補うプロジェクトチームを作る。特にビジネス理解者必須

f:id:misshiki:20200717153945p:plain
理想的なプロジェクトチーム体制

  • Azure PaaSを活用して、速攻&低コストで環境構築し、作業効率化

f:id:misshiki:20200717153958p:plain
機械学習プロジェクトに必要な環境

  • 機械学習モデルは誤差解析から思わぬインサイトを得られる可能性がある、可視化は大切

f:id:misshiki:20200717154013p:plain
Power BIによる可視化イメージ

gacco(統計学/サイエンス/AI・機械学習)の修了証

gaccoの修了証を表示する場所もないので、このエントリに貼り付けていくことにしました。

ちなみに「AI/機械学習/データサイエンス関連の検定・資格の取得履歴」というページもあります。

文部科学省enPiT-Proの「スマートエスイー」シリーズ

『ga136:推論・知識処理・自然言語処理』(August 25, 2020)

『ga136:推論・知識処理・自然言語処理』の修了証(2020)

『ga137:機械学習』(September 17, 2020)

『ga137:機械学習』の修了証

日本統計学会の「統計学」シリーズ

『ga014:統計学Ⅰ:データ分析の基礎』(June 18, 2020)

『ga014:統計学Ⅰ:データ分析の基礎』の修了証

『ga082:統計学Ⅲ: 多変量データ解析法』(March 11, 2020)

『ga082:統計学Ⅲ: 多変量データ解析法』の修了証

総務省統計局の「データサイエンス」シリーズ

『ga031:社会人のためのデータサイエンス入門』(1周回目:December 02, 2019、2周回目:July 07, 2020)

『ga031:社会人のためのデータサイエンス入門』の修了証(2020)
『ga031:社会人のためのデータサイエンス入門』の修了証(2019)

滋賀大学データサイエンス学部

『ga109:大学生のためのデータサイエンス(Ⅰ)』(September 7, 2020)

『ga109:大学生のためのデータサイエンス(Ⅰ)』の修了証

『pt010:高校生のためのデータサイエンス入門』(September 17, 2020)

『pt010:高校生のためのデータサイエンス入門』の修了証

「Grow with Google」シリーズ

『pt028:はじめてのAI』(November 11, 2019)

『pt028:はじめてのAI』の修了証

クロス集計表に関する統計学ノート

質的な変数同士でクロス集計表を作ると、独立変数(説明変数)と従属変数(目的変数)の関連を「独立性のカイ二乗検定」で計算できる。変数が多項目になるなら「相関係数」を使えばよい。

f:id:misshiki:20200619092835p:plain
統計検定の適用方法一覧(クロス集計表を使う場合を赤で示した)

たぶんクロス集計表を使うことなんて今後もない気がするけど、「クロス集計表」関連のノートは、このエントリにまとめていく予定。

クロス集計表における「独立性のカイ二乗検定」と有意確率

  • 有意確率とは、偶然に起こってしまう確率のこと
  • 0.05未満なら、「統計的に有意」となる。「5%水準で有意」とも言う
  • カイ二乗値=有意確率を算出するときの途中の計算の値
  • クロス集計表で有意確率を算出することを「独立性のカイ二乗検定」と呼ぶ
  • 例えば性別と喫煙者のクロス集計表で「独立性のカイ二乗検定」の有意確率が0.01なら、2つの変数は「関連がない(=独立である)」という帰無仮説が棄却されて、「性別」と「喫煙者」には何らかの関連がある(=独立ではない)と言える

三重クロス集計表

  • 第3の変数として、独立変数でも従属変数でもない「統制変数」を使用する

クロス集計表のα係数

  • 複数の独立変数を1 つの変数にまとめることを「変数の合成」と呼ぶ
  • よく分からない変数を作ってないか? 同じモノを測定できているかをチェックするのが「信頼性分析」
  • 信頼性分析の結果は、「クロンバッハのα」、通常は「α係数」と呼ばれる
  • α係数が0.65以上だったら、質問項目は同じモノを測定できていると見なせる

クロス集計表のγ(ガンマ)係数

  • クロス集計表における独立変数と従属変数の関連の強さ(ただし各変数は順序尺度もしくは性別のような2択の名義尺度)を評価する指標にγ(ガンマ)係数がある
  • γ係数の正式名称は「グッドマン・クラスカルのγ」
  • γ係数は、-1~1の値を取る。0が無相関。1は最大関連(「1/0|0/1」のように完全一致でなくても「1/0.3|0/1」でも1になる)を意味する

クロス集計表のV(ヴイ)係数

  • クロス集計表における独立変数と従属変数の関連の強さ(汎用的に使える)を評価する指標にV(ブイ)係数も使える
  • V係数の正式名称は「クラメールのV」
  • V係数は、0~1の値を取る。1は完全関連を意味する

クロス集計表の集計結果

  • 記述と説明: 調査用語。結果まとめ提示と、その原因考察&解説のこと。

多項目のクロス集計表を理解するための相関係数

  • クロス集計表では、例えば「当てはまらない」「やや当てはまらない」~「やや当てはまる」「当てはまる」など多段階の項目も、2段階もしくは3段階の項目にまとめる
  • その理由は多段階のクロス集計表は非常にセル数が多くなり、逆に人間にとって全容が把握しづらくなるから
  • そのような多段階のクロス集計を用いたい場合は、項目同士の関連を「相関係数」で計測すればよい
  • 単に「相関係数」と言えば、「ピアソンの積率相関係数」を指す
  • -1は負の相関。0は無相関。1は正の相関
  • 有意確率は「相関係数のT検定」(解説なし)で出す

3種類の相関係数

  • 「ピアソンの積率相関係数」: 量的な(比例尺度/間隔尺度)変数同士の相関係数。r
  • 「スピアマンの順位相関係数」: 質的な(順序尺度)変数同士の相関係数。ρ(ロー)
  • 「ケンドールの順位相関係数」: 質的な(順序尺度)変数同士の相関係数。τ(タウ)
  • 質的な変数同士の相関件数は、スピアマンとケンドールのどっちを使ってもよい(通常、スピアマン)
  • 量的変数と質的変数の相関係数なら、ピアソンかケンドールを使う

量的変数と質的変数

  • 量的変数:比例尺度=0が「なし」(例:身長)
  • 量的変数:間隔尺度=0が「なし」ではない(例:温度)
  • 質的変数:順序尺度=項目間に「順序」がある(例:書道の級)
  • 質的変数:名義尺度=項目間に「序列」がない(例:性別)

参考文献

Google Cloud Day: Digital 2020 3日目(機械学習)聴講ノート

本稿は、下記イベントの3日目(機械学習)を視聴時に取った個人的なノートをほぼそのまま公開したレポート記事です。誤字誤植や勘違いがある可能性があるのでご了承ください。 ざっくり目を通すと、機械学習関連のセッションの概要が分かると思います。視聴する際の判断材料や、内容を思い出すためのご参考に。

  • Google Cloud Day: Digital 2020
  • 2020 年 6 月 9 日 (火) - 11 日 (木) ライブ配信
  • 2020 年 6 月 9 日 (火) - 30 日 (火) 開催
  • 2020 年 7 月 1 日 (水) - オンデマンド配信中

なお、3日目の6/11当日は人工知能学会全国大会と日程が被っており、ライブ参加はできなかったので、後日6/12にオンデマンド配信を視聴しました。あと18日間、6月30日まで視聴できます。2020/7/9現在、オンデマンド配信中です。

Cloud AI の紹介と最新情報

  • Google Cloud 吉川 隼人 氏
  • ノートはまとめましたが、ほぼ全部知っている情報でした。

1. Cloud AI プロダクトグループ

Google Cloud(GCP)のAI関連の構成図が提示されました。

f:id:misshiki:20200612163532p:plain
Cloud AI プロダクトの一覧

どんな人が使えるものかがざっくりと示されました。

f:id:misshiki:20200612163611p:plain
Cloud AI プロダクトを活用するための指針

2. Contact Center AI

コンタクトセンター用のソリューションです。Google Cloud Text-to-Speechなどが使えるらしいです。コンタクトセンターについては、自分にはちょっと遠い話題なので割愛します。

3. Cloud AutoML

Cloud AutoMLは、カスタムモデルを作成できる機能です。名前と違って、自動で機械学習を行ってくれる技術というわけでは必ずしもありません。次のような感じで使えます。

f:id:misshiki:20200612222528p:plain
Cloud AutoMLの活用イメージ

Cloud AutoMLには次のようなものがあります。

f:id:misshiki:20200612222549p:plain
Cloud AutoMLの機能一覧

ビジネスにとっても価値のあるデータは以下のようなものがあるそうです。構造化データや時系列データが大きな部分を占めています。

f:id:misshiki:20200612222606p:plain
ビジネス価値のあるデータ

そのうちの構造化データにAutoML Tableが使えると。自動的に特徴量を選択して、整形されていないデータを考慮してくれるなどのメリットがあります。

4. AI Platform

機械学習プロジェクトを効率的に本番環境に構築するためにAI Platformが使えます。具体的には次のようなフロー全体をAI Platformが支援します。

f:id:misshiki:20200612222623p:plain
機械学習のフロー

このあと、それぞれのプロダクトの機能紹介がありました。超要約すると、いろんな機能があって効率的になるよ~、ってことです。

5. AI Explanations

AIの中身はブラックボックスと言われていますよね。

f:id:misshiki:20200612222641p:plain
AIはブラックボックス?!

AI Explanationsで推論結果に「説明」を付加できます。

f:id:misshiki:20200612222702p:plain
説明を付加

TensorFlow Probability によるベイズモデリング入門

  • アクセンチュア株式会社 須山 敦志 氏
  • TFP(TensorFlow Probability)は名前だけ知っていましたが、ベイズモデリングの概要からTFPによる実践まで説明されていて良かったです。

0. ベイズモデリングとは?

  • 統計モデリングの一種で、データ解析を行う方法
  • 確率計算に基づいたモデリング手法
  • 予測を分布で表せるのが特徴(次の図を参照)

f:id:misshiki:20200612222724p:plain
ベイズモデルでできること

「機械学習とモデリングの違い=ツールボックスアプローチとモデリングアプローチの違い」が示されました。

f:id:misshiki:20200612222745p:plain
ツールボックスアプローチとモデリングアプローチの違い

2. TensorFlow Probability によるモデリングと計算

  • TFP(TensorFlow Probability)=TensorFlowをベースにした確率的プログラミング言語(PPL)

TFPでいろいろ効率的になります。より具体的にビフォーアフターが説明されました。

f:id:misshiki:20200612222801p:plain
TFP(TensorFlow Probability)

次に線形回帰で例が示されました。まず、TFPをインポートして散布図を描画。

f:id:misshiki:20200612222818p:plain
TFPの実践例1

各点にフィットする回帰直線の式を設計。

f:id:misshiki:20200612222833p:plain
TFPの実践例2

推論計算を実行。

f:id:misshiki:20200612222848p:plain
TFPの実践例3

結果を可視化。ベイズモデリングは予測を分布で表現するので多数の線が引かれたような図になります。

f:id:misshiki:20200612222904p:plain
TFPの実践例4

3. 解析事例

以下の事例が示されました。

  • 事例1: ガウス過程回帰モデルによる予測的指標管理
  • 事例2: 潜在変数モデルによるセンサーデータ解析

4. まとめ

f:id:misshiki:20200612222919p:plain
まとめ

Cloud AutoML で実践する業務システム構築と ML デザイン

  • Google 尾崎 隆 氏, Google 佐藤 一憲 氏
  • 内容的にはこれも基本的だったです。

1. Cloud AutoMLとは

ML開発を支える人材が少なく、その作業も複雑で大変です。そのハードルを下げるためにグーグルが提供するのがCloud AutoML。例えばAutoML Visionでは画像認識・物体検知のカスタムモデルが作れます。ここでデモが流れました。まずはデータをインポート。

f:id:misshiki:20200612223009p:plain
データをインポート

それからトレーニング。

f:id:misshiki:20200612223028p:plain
トレーニング

結果を確認してカスタムモデルは完成。

f:id:misshiki:20200612223043p:plain
結果を確認

あとはエクスポートして使います。ラズパイなどで画像認識するデバイスなども作れます。

f:id:misshiki:20200612223101p:plain
ラズパイを使った画像認識デバイス

AutoML Translation、AutoML Natural Languageなど他にもあります。

2. AutoML Tablesと業務システムへの適用

AutoML Tablesを使うと、構造化データ(表データ)のカスタムMLモデルを作成できます。前処理が簡単。最も良いモデルが自動的に選択されます。

f:id:misshiki:20200612223119p:plain
MLモデルカタログから自動選択

そのバックグラウンドは次のような仕組みになっているそうです。

f:id:misshiki:20200612223139p:plain
AutoML Tablesのバックグラウンド

3. AutoML TablesとMLデザイン

ここで登壇者が尾崎氏(渋谷駅前で働くデータサイエンティストとして有名な方ですね)に代わりました。機械学習の基本的なことが解説されていきます。わかりやすいです。例えば過学習について。

f:id:misshiki:20200612223153p:plain
過学習

過学習を避けるためには必要な交差検証の話。

f:id:misshiki:20200612223215p:plain
交差検証

これに対応する機能もAutoML Tablesには搭載されているとのことです。

f:id:misshiki:20200612223232p:plain
AutoML Tablesで交差検証

4. AutoML TablesでスケーラブルなML開発

以前は多くの人的リソースを使って開発していたものが、AutoML Tablesでより少人数で簡単にできるようになってきているそうです。

f:id:misshiki:20200612223247p:plain
AutoML Tablesを使えばチームは不要

GCP の言語・音声系機械学習 API を活用したサービス実装

  • ソースネクスト株式会社 川竹 一, Google Cloud 唐澤 匠

機械翻訳:Google Cloud Translation API

  • BasicとAdvancedがある
  • Advancedは用語集を使える

f:id:misshiki:20200709203913p:plain
Translation APIのBasicとAdvanced

  • AutoML Translation API: 文章の対を登録できる

音声認識:Google Cloud Speech to Text API

  • Speech to Text Adaptation(適応): Pharase、Boost、Classesがある

f:id:misshiki:20200709203929p:plain
Speech to Text Adaptation

自然言語処理:Google Cloud Natural Language API

  • エンティティ抽出、感情分析、構文解析、コンテンツ分類ができる

f:id:misshiki:20200709203941p:plain
Natural Language API

  • AutoML Natural Language API

ポケトークでの活用事例

  • 音声翻訳は3つのステップ

f:id:misshiki:20200709203955p:plain
音声認識→機械翻訳→音声合成

  • カメラ翻訳も3つのステップ

f:id:misshiki:20200709204012p:plain
文字認識→機械翻訳→AR

  • 会話レッスンも3つのステップ

f:id:misshiki:20200709204130p:plain
音声認識→チャットボット→音声合成

AI Platform で実現する ML Pipeline

  • 株式会社プレイド 春日 瑛, Google Cloud 脇阪 洋平

  • AI Platform: Training、Prediction、Notebooks、Pipelines

f:id:misshiki:20200709223253p:plain
AI Platform Training

f:id:misshiki:20200709223305p:plain
AI Platform Prediction

f:id:misshiki:20200709223318p:plain
AI Platform Pipelines

  • Kubeflow Pipelines: 機械学習パイプラインの作成・実行・管理、そしてモジュールの再利用
  • KARTEにおけるML Platforの実現(株式会社プレイド)
  • KARTE: CX(顧客体験)プラットフォーム、非常に大規模なデータ集積&分析基板

f:id:misshiki:20200709223339p:plain
KARTEでもAI Platform Pipelinesの活用内容(Human-in-the-loop型のソリューション)

  • ロイヤルカスタマー分類、需要予測、異常検知といった課題解決テンプレート

f:id:misshiki:20200709223354p:plain
課題解決解決テンプレートの内容例

  • インフラ基盤

f:id:misshiki:20200709223407p:plain
実際に構築したパイプライン

  • AI Platform Pipelinesをベースとしたパイプライン環境の統一:
    • パイプライン実行環境の統一による管理工数が約30%削減
    • パイプライン開発効率の向上
  • AI Platform Trainingによる学習環境のスケーラビリティ:
    • インスタンスコストを約50%も削減
    • 学習環境をHigh-Memory、GPUなど柔軟に選択可能に
    • インフラの管理工数も削減
  • GCPと他社製品を組み合わせたCI(継続的インテグレーション)/CD(継続的デプロイ)の実現:

    • デプロイにかかる工数を約20%削減 -安定的に最新版をデプロイ可能に
  • 質問:販売予測や需要予測での、BigQueryとAutoMLの使い分けは?

AI Platform を利用した「アスクル・シミュレータ」による物流シミュレーション

  • アスクル株式会社 小池 和弘
  • AI Platform自体の解説は少なめだったのでメモも少なめに...

現在取り組んでいること

  • 2014年ごろから、データ分析基盤「ASUKUL EARTH」をGCPで構築してきた

f:id:misshiki:20200709230242p:plain
ASUKUL EARTHの構成図

  • 2019年からは、さらに知財ライブラリ「アスクルシミュレーター」を(AI Platform の Notebooks と AI Hub を活用して)構築している

f:id:misshiki:20200709230256p:plain
アスクルシミュレーターの構成図

EC物流シミュレーション

  • 構造的な問題にはメタな視点が必要

f:id:misshiki:20200709230311p:plain
構造問題の解法

Kaggle で勝つ GCP の活用方法

  • アクサ生命株式会社 平松 雄司, Google Cloud 葛木 美紀

Cloud AI NotebooksでKaggle ワークフローをポワーアップ

  • Kaggle: 誰でも参加可能なデータサイエンスのコンペ
  • Kaggle ノートブック使用時の課題: 計算量の多いタスクスでは不便
  • そこで、AI Platform Notebooks(CAIP Notebooks)

f:id:misshiki:20200710152537p:plain
AI Platform Notebooksとは

  • KaggleコンペをAI Platform Notebooksを経由して強力なGCPで処理

f:id:misshiki:20200710152551p:plain
AI Platform Notebooksの仕組み

  • ここでデモがありました。分かりやすい
  • AI Platform Notebooks/Kaggle/Colabでプラットフォーム間の比較

f:id:misshiki:20200710152608p:plain
プラットフォーム間の比較

  • KaggleでAI Platform Notebooksを利用する際のTIPS

f:id:misshiki:20200710152622p:plain
TIPS(KaggleでAI Platform Notebooks)

KaggleにおけるGCP活用事例

  • 『Kaggleで勝つデータ分析の技術』の著者の一人
  • Kaggleの称号システム: Novice、Kaggler、Contributor、Expert、Master、Grand Master
  • GCPをKaggleで活用した事例紹介

f:id:misshiki:20200710152634p:plain
事例紹介(KaggleでGCP)

  • 事例1:貸し倒れの予測をするタスク。評価指標はAUC
  • 実務では計算量の大きい巨大モデルはナンセンスだが、Kaggleでは競争なのであり

f:id:misshiki:20200710152645p:plain
巨大なモデルを実行するためのスクリプト

事例1

  • ノーフリーランチ定理: 全てのデータやタスクにおいて、「常に」他よりも優れているルールなどは存在しないこと
  • よって、参加者はKaggleに参加するたびに、より良いモデルを探ることなる。試せるだけしらみつぶしに試すだけの計算リソースが必要
  • 特にエーブルデータのコンペで、計算量が大きくなりやすいパターンがある

f:id:misshiki:20200710152659p:plain
計算量が大きくなるケース

  • そういったときにGCPが役立つ。金額はおサイフに相談になるが、GCPなら細かく調整可能

f:id:misshiki:20200710152711p:plain
Google Computer EngineのVMインスタンスを利用したりBigQueryを利用したり

事例2

  • 最近だとモデルの推論時間に制限がある傾向がある。この事例では2時間以内だっため、より小さなモデルを作成
  • 一方でモデルの学習時間には制限はなかった
  • 学習時の計算量が大きい場合、その計算環境を「ローカル+GCE」で柔軟に構築する方法を提案

f:id:misshiki:20200710152723p:plain
ローカル+GCE

まとめ

  • ご利用は計画的に

f:id:misshiki:20200710152736p:plain
知人の例:金メダルを取ったがトータル40万円で奥さんからお叱りをうける