2020-09-03

Pythonで書いた計算コードから数式の描画／TeX取得を行う方法（handcalcs）

機械学習関連をしていると、数式をコードで表現するときがありますが、逆にコードで書いたものを人に説明するためや、自分で後で見直したいとき用に、数式を描画したいときがあります。Jupyter Notebookを使っている場合は、通常、TeX／Latex書式で書くのではないかと思います。

1つぐらいであればTeXコマンド文を手書きした方が速いと思いますが、大量にある場合、「コードから数式を表示できないの？」って思う人も多いかもしれません。そんなことができるライブラリを見つけたので紹介します。

connorferster/handcalcs: Python library for converting Python calculations into rendered latex.

上記の「handcalcs」というPythonライブラリです。注意点としては、Python 3.7以上である必要があります。Colabだと2020/09/03時点でバージョン3.6なので使えなかったです。Kaggle Notebook（Python 3.7.6）を使って、以下の内容を試しました。

インストール方法

PyPIパッケージなのでpipでインストールできます。

!pip install handcalcs

# Collecting handcalcs
#   Downloading handcalcs-0.8.1-py3-none-any.whl (24 kB)
# Requirement already satisfied: pyparsing<3.0.0,>=2.4.7 in /opt/conda/lib/python3.7/site-packages (from handcalcs) (2.4.7)
# Installing collected packages: handcalcs
# Successfully installed handcalcs-0.8.1

handcalcsレンダラーのインポート

import handcalcs.render

Python計算コードのレンダリング

あとは%%renderセルマジックで記述するだけです。

%%render
a = 2
b = 3
c = 2*a + b/3

これをJupyter Notebook上で実行すると次のようにレンダリングされます。

f:id:misshiki:20200903161632p:plain — handcalcsレンダリング結果

MathJaxでレンダリングされているので、右クリックメニューからTeXコマンド文を取得できます。

数式だけでなく、その計算結果までレンダリングされているのもポイントです。

TeX初心者であればかなり参考になるのではないでしょうか。

レンダリング例2

f:id:misshiki:20200903162151p:plain — mathモジュールのsqrtやpiも利用可能

直接にTeXコマンド文を取得

%%texセルマジックを使えばレンダリングではなくTeXコマンド文が出力されます。

f:id:misshiki:20200903162241p:plain — TeXコマンド文を取得するモードもあります

この他にもいろいろと機能があるので、公式GitHubページをご確認ください。

2020-06-22

回帰分析に関する統計学ノート

統計

1つ／2つ以上の独立変数（説明変数）を用いて従属変数（目的変数）を表す直線（回帰式）を、最小二乗法によって求める手法を「単回帰／重回帰分析」と呼ぶ。独立変数と従属変数はどちらも量的変数である必要がある。ただし質的変数を「1、0」エンコーディングしてダミー変数にすることで、独立変数に使用することもできる。各独立変数に対する偏回帰係数は、それぞれT検定により有意確率を確かめる。回帰分析モデルを評価するための指標には、「標準化回帰係数（β）」「決定係数（R²）」「自由度調整済み決定係数（補正R²）」などがある。最後に回帰式全体の有意確率をF検定で確かめる。多重共線性に注意が必要。

次の図の引用元：読書感想『統計学が最強の学問である』 - いっしきまさひこBLOG

f:id:misshiki:20200622141842p:plain — 統計検定の適用方法一覧（単回帰分析／重回帰分析を使う場合を赤で示した）

「回帰分析」関連のノートは、このエントリにまとめていく予定（ロジスティック回帰は別エントリにする予定）。まだ途中です。

回帰分析（単回帰分析）

最小二乗法を使って最も当てはまりがよい直線を求める
その直線の傾きが「回帰係数」、切片が「定数」と呼ばれる
直線は一次式なので「線形回帰」とも呼ばれる。二次式以上にして曲線になるなら「非線形回帰」と呼ばれる
回帰分析の場合、独立変数と従属変数はどちらも基本的に「量的変数」でなければならない

ダミー変数

例外として、独立変数として「ダミー変数」を使ってもよい
ダミー変数とは、質的変数に数値を割り当てたもの、例えば「男性：0、女性：1」のような「カテゴリカル変数のエンコーディング（した値）」を指す
このようなダミー変数を使っても、統計学的に問題ないことが証明されている

重回帰分析

独立変数が1つの場合が「単回帰分析」、2つ以上の場合が「重回帰分析」
各独立変数は標準化した方がよい。標準化とは、平均0、分散1にスケーリングすること
重回帰分析は、最小二乗法を使って最も当てはまりがよい平面や超平面を求める
各次元の傾きが「偏回帰係数」（重み）、切片が「定数」（バイアス）と呼ばれる

「偏回帰係数のT検定」で有意確率を確認

偏回帰係数の有意確率を確かめるには「T検定」を行う
有意確率とは、偶然に起こってしまう確率のこと
0.05未満なら、偶然に起こる確率は非常に低い（＝つまりほぼ起こらない）ので、「統計的に有意」となる。「5%水準で有意」「有意水準5％未満で統計的に有意差がある」とも言う
例えば、ある独立変数の有意確率が0.01なら、「その独立変数は効果がない（＝0と差がない）」という帰無仮説が棄却されて「ある独立変数」と「0（固定値）」の間に差がある（＝その独立変数には効果がある）と言える
このようなT検定は「1群のT検定」に分類できる（参考：「分散分析に関する統計学ノート」の最後にある補足）

標準化回帰係数（β）

独立変数同士は、必ずしも単位が同じではないので、個々の偏回帰係数を比較しても意味が無い
そこで、各独立変数における偏回帰係数の効果を比較するための指標「標準化回帰係数（β）」

サンプルサイズ（N）

標本データの数のこと

決定係数（R2）

「全ての独立変数によって、従属変数の何％が説明できるか」を示すがのが「決定係数（R2、R二乗値）」
R²=0.345 なら、34.5％説明できるということ

自由度調整済み決定係数（補正R2）

決定係数は独立変数が多くなるほど1に近づくので、その自由度を調整して再計算したのが「自由度調整済み決定係数（補正R2）」
独立変数の数による影響を除外できるので、より適切に回帰分析モデルを評価できる

「回帰式のF検定」で有意確率を確認

回帰式の有意確率を確かめるには「F検定」を行う
決定係数が「全独立変数における偏回帰係数の効果」を示す指標なら、回帰のF検定は「全独立変数の役立たなさ、意味のなさ」を示す指標
例えば5%水準でF検定の有意確率が0.01なら、「各独立変数が0に等しい（＝差がない）」という帰無仮説が棄却されて「各独立変数」は等しくない（＝有意差がある）、つまり回帰式には「意味がある」と言える

注意事項：多重共線性

独立変数同士の相関が高すぎると、偏回帰係数を正しく算出できなくなってしまう現象「多重共線性」（＝マルチコ：multi-colinearity）
多重共線性を回避するためには、その減少を引き起こしている独立変数を除外（もしくは他の独立変数と合成）する必要がある
このために、各独立変数に対して「分散増幅因子（VIF）」という指標を算出して、そのVIF値が大きいものを除外すればよい
VIF値が、いくつ以上だったら除外するかは諸説あるが、だいたい5以上（最低でも10以上）の独立変数を除外すればよい。2未満なら安心できる。0.1未満で全く問題なし

疑問：質的変数を独立変数にするには？

質的変数を「1、0」データ（対象だけ1、それ以外を0で表現する数値列）に変換してダミー変数を作ればよい（「k-1個」のone-hotエンコーディング）
例えばお菓子の3種類でポテチ／アイス／チョコがあるなら、「ポテチ＝1、それ以外＝0」「アイス＝1、それ以外＝0」「チョコ＝1、それ以外＝0」のうち2つを作成すればよい
つまり「1、0」ならポテチ、「0、1」ならアイス、「0、0」ならチョコという具合に、2つの独立変数ができるということ
ちなみにニューラルネットワークのone-hotエンコーディングは、通常、3種類を3つのダミー変数に変換する
一方、回帰分析のone-hotエンコーディングでは、このようにk個（この例では3個）から1個を引いた「k-1個」（この例では2個）のダミー変数を作成するので注意
すべての独立変数が質的変数である場合に、それら全てを「1、0」のダミー変数にして重回帰分析する手法は「数量化Ⅰ類」と呼ばれる
ちなみに、すべての独立変数が質的変数である場合の判別分析は「数量化Ⅱ類」、質的データに対する主成分分析は「数量化Ⅲ類」と呼ばれる

参考文献

2020-06-20

分散分析に関する統計学ノート

統計

3群以上の群間で平均値の差があるかどうかを検定したい場合には、「分散分析のF検定」（＋テューキーの多重比較）を行う。ただし、この検定は「ルビーンの等分散性検定」で群間の分散が等しい場合のみ。等しくない場合は、「ウェルチののT検定」（＋ゲームス・ハウエルの多重比較）を行う。2群の場合は「平均値の差のT検定」を行う。最近では等分散かどうかで分岐せず、最初から「ウェルチののT検定」を行うのが主流。ちなみに1群の場合は「1群のT検定」を使えばよい。

次の図の引用元：読書感想『統計学が最強の学問である』 - いっしきまさひこBLOG

f:id:misshiki:20200620151108p:plain — 統計検定の適用方法一覧（分散分析／T検定を使う場合を赤で示した）

「分散分析」関連のノートは、このエントリにまとめていく予定。

分散分析（ANOVA：ANalysis Of VAriance）とは

対象：グループが3つ以上。2つの場合は最後に書いた『補足：「平均値の差のT検定」について』を参照
分散分析とは、グループごとに、ある変数の平均値を算出し、それらに差があるかを確かめる手法
例えば、ある地区の学校ごとに、ある英語試験の平均点を算出し、それらに差があるかを確かめるなど

分散分析の結果の見方

結果の見方としては、まず平均値を見る。次に有意確率を見る
この有意確率は「分散分析のF検定」の結果（F値）
F値＝有意確率を算出するときの途中の計算の値

分散分析の「F検定」と有意確率

有意確率とは、偶然に起こってしまう確率のこと
0.05未満なら、偶然に起こる確率は非常に低い（＝つまりほぼ起こらない）ので、「統計的に有意」となる。「5%水準で有意」「有意水準5％未満で統計的に有意差がある」とも言う
例えば有意確率が0.01なら、「平均値は等しい（＝差がない）」という帰無仮説が棄却されて「各学校」と「英語の平均点」の間に関連がある（＝郡間で平均点に差がある）と言える
つまり、英語の平均点は学校ごとに差があると、ざっくり示しているに過ぎない
要するに、どの学校とどの学校に差があるかまでは分からない。ので、テューキーの多重比較を見る

テューキー（Tukey）の多重比較

各グループごとに平均値に差があるか比較して有意確率を算出する
分散分析のF検定が全体の有意確率で、テューキーの多重比較が部分の有意確率

ルビーン（Levene）の等分散性検定

対象：グループが3つ以上
ただし分散分析のF検定やテューキーの多重比較は、各グループ内の分散が等しいときにしか使えないという制約がある
分散が等しいかを調べるのが、ルビーンの等分散性検定
つまり分散分析の前に、ルビーンの等分散性検定を行っておく必要があるということ
その有意確率が0.05未満（統計的に有意）なら、「分散が等しい」という帰無仮説が棄却されて「各グループで分散に差がある」ことを意味するので、分散分析できない

ウェルチ（Welch）のT検定

等分散でもそうでなくても実施可能
各グループで分散に差がある場合は、（分散分析のF検定の代わりに）ウェルチのT検定を行う
結果の見方は同じ

ゲームス・ハウエル（Games-Howell）の多重比較

また、（テューキーの多重比較の代わりに）ゲームス・ハウエルの多重比較を行う
結果の見方は同じ

多重性の問題

以上の手法は昔の教科に載っていた手法。現在では「多重性の問題」があると言われている
多重性とは、「等分散性検定」→「分散分析のF検定など」による二段階検定によって、有意確率が設定した5％未満ではなく実質的に例えば9.7％ぐらいと緩くなってしまっていること
これは問題があるので、現在では等分散性があろうがなかろうが、全部すっ飛ばして「ウェルチのT検定」を行うべし、というのがセオリーになっている（らしい）
参考にできる「YouTube動画：...【検定の多重性問題をうまく回避する方法】」

補足：「平均値の差のT検定」について

対象：グループが2つ
平均値の差のT検定とは、2つのグループ間に、ある変数の平均値を算出し、それらに差があるかを確かめる手法
例えば、2つの学校間に、ある英語試験の平均点を算出し、それらに差があるかを確かめるなど
T値とF値は、実質的に同じものを表現しており、具体的には「T値の2乗＝F値」になる
「平均値の差のT検定」は、2つのグループ内の分散が等しい（＝等分散の）とき／等しくないとき、どちらのケースでも使ってよいとされている
非等分散性を気にするのであれば、ウェルチのT検定を使えばよい（「ウェルチの検定」は万能？! これだけ使うのが主流らしい）

補足：「T検定」について

ちなみに、ひとえに「T検定」といっても、使われ方によって3つに大別できる
2群：平均値の差のT検定（「対応のないT検定」、「スチューデントのT検定」、単に「T検定」とも呼ばれる）
1群： 1群のT検定
1群を2回使用：対応のあるT検定
「1群のT検定」と「対応のあるT検定」は以下で説明
なお、 3群以上なら上記の通り「分散分析のF検定（※T検定ではないが、下記のように同じ表現値）」を使う

補足：「1群のT検定」について

対象：グループが1つ（何も考えなくても等分散）
1群のT検定とは、1つのグループ内で、ある変数の平均値を算出し、それと指定された固定値とに差があるかを確かめる手法
例えば、1つのポテトチップス群において、内容量の平均の重さを算出し、それとパッケージにに記載された80グラム（固定値）とに差があるかを確かめるなど

補足：「対応のあるT検定」について

対象：グループは1つ、その1つを2回使う（主にビフォー＆アフターで）（何も考えなくても等分散）
対応のあるT検定（paired t-test）とは、1つのグループ内で、ある変数の平均値を2回算出し、1回目と2回目に差があるかを確かめる手法
例えば、1つのポテトチップス群において、リニューアル前と後に分けて内容量の平均の重さを算出し、その前（ビフォー）と後（アフター）に差があるかを確かめるなど

補足：正規性がない場合について

正規性とは、データの母集団が正規分布に従っていること
通常は正規分布に従っているものと仮定して、上記のようなフローで検定を行う
正規性を調べるには、「正規性の検定」を行う
正規性の検定には、シャピロ・ウィルク（Shapiro-wilk）検定、コルモゴロフ・スミルノフ（Kolmogorov-Smirnov）検定などあるが、決定打にはならない。ヒストグラムやQ-Qプロットを見て判断したりもする
正規性がない場合は、非正規分布についてはT検定よりも有効性が高い「マン・ホイットニー（Mann–Whitney）のU検定」（＝ウィルコクソン：Wilcoxonの順位和検定）を行う

参考文献

『【新版】文系でもわかる統計分析』（※「ウェルチのF検定」と書かれているけど、Web検索しても「ウェルチのT検定」しかヒットしないので、このノートでは後者を採用）
「ｔ検定の使い分けの流れとイメージをざっくりとつかむ（等分散性？F検定？正規性？対応のない2群） - YouTube」
「等分散検定から t検定，ウェルチ検定，U検定への問題点」「Welch検定が主流，単純t検定やANOVAは時代遅れ：Statwingの話題から」

2020-06-19

de:code 2020 聴講ノート（AI・機械学習関連のみ）

AI ＆機械学習

2020年6月17日～30日に開催されちえる「de:code 2020 | 開発者をはじめとする IT に携わるすべてのエンジニアのためのイベント」（AI・機械学習関連のみ）を聴講時に取った個人的なノートをそのまま公開したものです。誤字誤植や勘違いがある可能性があるのでご了承ください。

6月19日現在では、すべてのセッションが公開されているわけではないので一部だけです。→1カ月後の7月17日現在で、de:code 2020は終了しました。全部は見きれなかった。「Microsoft AI が目指す「全ての人のための AI」」「”AI パーツ” であなたは何つくる？ Azure Cognitive Services アップデート」というセッションも見て良かったけど、ノートは省いてしまった。履歴を見ると14セッションも視聴していました。

AutoML ではじめる機械学習の民主化

D07 | AutoML ではじめる機械学習の民主化 | de:code (decode) 2020

自動機械学習とは？

機械学習の民主化＝誰でも使えるようにしたい
機械学習のプロセス：特徴量エンジニアリング、アルゴリズム選択、パラメーター選択
Azure Machine Learningでは自動機械学習（Automated Machine Learning：AutoML）を提供

f:id:misshiki:20200717162802p:plain — 自動機械学習が目指すところ

f:id:misshiki:20200717162814p:plain — Azure Machine Learning

問題種別：分類、回帰、時系列の予測をサポート
開発・運用： Python、R、Azure Machine Learning Studio、Jupyter Notebook、Visual Studio Code、PyCharmをサポート
ライブラリ： PyTorch、TensorFlow、scikit-learnなど

機能詳細と最新情報

データに関する機能：
- 大規模データ（100GBまで）への対応
- Azure Open Datasets
- Data Guardrails
特徴量エンジニアリングに関する機能：
- BERTによる特徴量抽出
- 特徴量変換のカスタム指定
- 自動での特徴量変換
- 時系列データ前処理の自動化：ラグ、ローリングウィンドウなど
アルゴリズム選択に関する機能：
- Microsoft LightGBM
- 時系列予測： ARIMA、Prophet、Forecast TCN
パラメーター選択に関する機能
- 強調フィルタリング＋ベイズ最適化：「特徴量エンジニアリング」と「アルゴリズム選択」を含む全体のプロセス
機械学習プロセスの追跡（リネージ）
モデル解釈：責任ある機械学習（Understand、Protect、Control）を実現
- InterpretML：モデル解釈（モデル全体のグローバル解釈、予測値ごとのローカル解釈）に対応し、直感的なダッシュボードを提供予定

f:id:misshiki:20200717162828p:plain — 新しいダッシュボード

Azure Machine Learningのロードマップ

f:id:misshiki:20200717162846p:plain — 2020年5月末時点でのロードマップ

デモンストレーション

Azure Machine Learningの操作例

f:id:misshiki:20200717162857p:plain — Azure Machine Learningの画面

f:id:misshiki:20200717162908p:plain — 自動MLを作成しているところ

f:id:misshiki:20200717162928p:plain — 分類、回帰、時系列の予測から選択

f:id:misshiki:20200717162955p:plain — 選択された最適なモデルの精度を確認

f:id:misshiki:20200717163008p:plain — データの整合性などを確認できるデータガードレール

f:id:misshiki:20200717163019p:plain — 実行されたモデルの一覧

f:id:misshiki:20200717163032p:plain — モデル解釈として影響度の高い特徴量も分かる

f:id:misshiki:20200717163044p:plain — デプロイ機能もある

Python SDKの実行例

f:id:misshiki:20200717163111p:plain — AutoMLConfigクラスの実装コード例

参考情報

Microsoftの機械学習テクノロジー集 https://aka.ms/microsoft-ml-tech： konabuta/ML-tech: List of Microsoft Machine Learning & Deep Learning library, tool, recipes, software, sample code, workshop content and training.
Azure Machine Learning 公式サンプルコード https://aka.ms/ml-notebooks： Azure/MachineLearningNotebooks: Python notebooks with ML and deep learning examples with Azure Machine Learning | Microsoft
自然言語モデル BERT のサンプルコード https://aka.ms/azure-bert： microsoft/AzureML-BERT: End-to-End recipes for pre-training and fine-tuning BERT using Azure Machine Learning Service
LightGBM トップページ https://aka.ms/lightgbm： microsoft/LightGBM: A fast, distributed, high performance gradient boosting (GBT, GBDT, GBRT, GBM or MART) framework based on decision tree algorithms, used for ranking, classification and many other machine learning tasks.
ONNX トップページ https://aka.ms/onnx： ONNX | Home
分散深層学習サンプルコード https://aka.ms/distdl： microsoft/DistributedDeepLearning: Distributed Deep Learning using AzureML
コンピュータビジョン（Faster-RCNNなど）https://aka.ms/cv-recipes： microsoft/computervision-recipes: Best Practices, code samples, and documentation for Computer Vision.
自然言語処理系（BERTなど） https://aka.ms/bert-recipes： microsoft/nlp-recipes: Natural Language Processing Best Practices & Examples
レコメンデーション（NCFなど） https://aka.ms/reco-recipes： microsoft/recommenders: Best Practices on Recommendation Systems
時系列予測 https://aka.ms/forecast-recipes： microsoft/forecasting: Time Series Forecasting Best Practices & Examples

AI・機械学習で新たに創出されるデータとアノテーションビジネス

D01 | AI・機械学習で新たに創出されるデータとアノテーションビジネス | de:code (decode) 2020

AIとデータを取り巻く課題

時代背景：不透明さが増すAI
倫理と責任あるAIが求められる（公平性や透明性など）

AI倫理審査ボード

マイクロソフトは「AI倫理審査ボード」を設置

f:id:misshiki:20200619132403p:plain — AI倫理審査ボード

「Ethical AI Dicision Framework」を定めて推進

f:id:misshiki:20200619132423p:plain — Ethical AI Dicision Framework

「AI Data Consortium：AIデータ活用コンソーシアム」の活動を支援
AIで直面する課題のうち「知的財産」と「製造物責任」を取り上げる

AIベンダーやAIエンジニアが注意するべき法的事項

「アノテーション」「クレンジング」作業に焦点を当て、どのような権利が発生するかを示す
著作権は発生するのか？一般的に「アノテーション」「クレンジング」は著作物の創作ではない
著作権法10条1項9号「プログラムの著作物」：アイデアは著作物ではない。アイデアは特許法で保護
著作権法30条の4「著作物に表現された思想又は感情の享受を目的としない利用」：「アノテーション」「クレンジング」が著作物だったとしても、この条文によりAIの学習に無断で利用できることになっている
不正競争防止法2条7項「限定提供データとしての保護」：「アノテーション」「クレンジング」データはこれにより保護できると考えられる。よって「限定提供データ」として保管するのが大事
これ以外で保護する方法：「契約による保護」。そのために、信用できる特定プラットフォーム上でデータを流注させるのが重要
AIデータ活用コンソーシアムでこのための契約書（テンプレート？）を準備中

ソフトウェアと製造物責任（PL法）

問題があった場合に、製造物であるソフトウェアの責任を負わなければならない
通常は、原因調査により問題のあったプロセス箇所を明らかにし、そのプロセスのエンティティが責任を負う
AIの場合は、ブラックボックスであり上記のような責任所在の特定は難しい。よってデータやアノテーションにおいても製造物責任を考慮しておく必要がある
例えばアノテーションを担当した人が悪意を持ってラベリングする可能性などがある。そんため作業者の身元確認と保証も大事になってくる
データには偏りが生まれる可能性がある。例えば人種の偏りがあるデータで学習してしまった場合、人種差別を持つAIとなる。また、データは時間とともに変化し、世代により意味が変化したりする。データの偏りは無くす必要がある
AIの用途によって、データに求められる保証レベルも変わってくる
「AI利活用ガイドライン」に10の原則も参考にしてほしい

リテール AI の PoC 事例から学ぶスケールアウトへのヒント

D03 | リテール AI の PoC 事例から学ぶスケールアウトへのヒント | de:code (decode) 2020
ゴール：PoCの成功例と失敗例を知る。スケールアウトのヒントを学ぶ

リテールAI研究会とは

一般社団法人リテールAI研究会
リテールAI研究会の中で、PoCを推進するための「分科会」活動を推進
リテールAIでよくある失敗：「フルカスタマイズしようとしてPoCが終わらない」「ビジネス側とエンジニア側で意見の食い違い」

PoC事例の振り返り

何個か事例の説明があったけど割愛

リテールAI検定

リテールAI検定
Azure Databricsを活用したハンズオン

リテールAIを成功させる秘訣

「推論した後に何をするか」をあらかじめ議論すべし
そのためには、最初の段階から、ビジネス部門ユーザーを取り込むべし
ビジネス部門の初心者でも簡単にできるようなシナリオを用意すべし
部門ごとの要求を取り過ぎてしまわないようにすべし（カスタマイズしすぎるとスケールアウトしないので）

アマダの Azure への取り組みと DevOPS・MLOPS 環境の構築と運用

D05 | アマダの Azure への取り組みと DevOPS・MLOPS 環境の構築と運用 | de:code (decode) 2020
ゴール：自らMLOpsの予算を見積もったり、構築＆運用したりできる

Azure Machine Learning ＋ MLOps

ざっくりとスライドの引用で紹介します。

f:id:misshiki:20200619161642p:plain — MLOpsのイメージ

f:id:misshiki:20200619161701p:plain — なぜAzure ML＋MLOpsなのか

MLOps構築をアバナードに業務委託した

アバナードによるMLOps構築

要件と3カ月の成果について説明がありました

アーキテクチャの全体構成は図がないと分からないので、スライドを引用します。

f:id:misshiki:20200619161729p:plain — アーキテクチャの全体構成

f:id:misshiki:20200619161750p:plain — 機械学習実行アーキテクチャ

Azure MLのHyperDrive機能（ハイパーパラメーターのチューニング機能）を活用しているのがポイントらしい
これっぽい： azureml.train.hyperdrive package - Azure Machine Learning Python | Microsoft Docs

MLOps導入の効果

工数削減と品質確保
実験トレーサビリティの確保
属人化／属環境化の防止

MLOps運用での検討事項

Azureランニングコストの最適化
MLOpsを十分に理解した技術者が必要

Azure Cognitive Search で作る！一歩先を行く検索機能〜富士フイルム IMAGE WORKS 事例〜

D04 | Azure Cognitive Search で作る！一歩先を行く検索機能〜富士フイルム IMAGE WORKS 事例〜 | de:code (decode) 2020
ゴール：Azure Cognitive Serchの特長や使い所を知る
取りあえず視聴したけど、関心領域の範囲外だったため、メモなし

AI とデータサイエンスを加速する NVIDIA の最新 GPU アーキテクチャ

D32 | AI とデータサイエンスを加速する NVIDIA の最新 GPU アーキテクチャ | de:code (decode) 2020
ゴール：最新のGPU機能（モデルトレーニングと推論の高速化）について知る

アジェンダ

混合精度演算（Mixed Precision Training）
- Tensorコア
- AMP
NVIDIA A100 TensorコアGPU
- TF32による演算
- 構造化疎性（Structural Sparsity）
- Multi Instance GPU（MIG）
GPUの利用環境
- AzureのGPUインスタンス

混合精度演算（Mixed Precision Training）

f:id:misshiki:20200619173843p:plain — FP32とFP16の違い

FP16を使う利点：最近のGPUではFP16の演算スループットがFP32の2倍～8倍高い
そこでTensorコア。これを使いこなすのが鍵

f:id:misshiki:20200619173859p:plain — Tensorコア

混合精度演算でトレーニングを高速化するには、いくつかの対策が必要。それを自動的に行うのが「AMP：自動混合精度演算」
AMPは、計算グラフを解析して適切にキャストしたり、勾配のアンダーフロー（小さくなると表現できずに0になる問題）を防ぐためのロススケーリングしたりできる
AMPは現在TensorFlow／PyTorch／MXNetに対応しており、わずか数行を追加するだけで有効化できる

NVIDIA A100 TensorコアGPU

新型GPUが登場。性能は大幅に向上した

f:id:misshiki:20200619173918p:plain — NVIDIA A100 Tensorコア GPU

「TF32 Tensorコア」というF32のレンジとFP16の精度を合わせ持つ新しい数値データ型を導入

f:id:misshiki:20200619173935p:plain — TF32 Tensorコア

ここまではトレーニングの高速化。ここからは推論の高速化
構造的疎性（Sparsity）により推論を高速化する

f:id:misshiki:20200619173951p:plain — 推論の高速化

FP64（倍精度演算）にも対応
さらに「Multi Instance GPU（MIG）」という新機能により、GPUインスタンを分割して使用率を最適化できる。推論時のスループットも向上する

GPUの利用環境

NVIDIAのGPUは次のような歴史がある

f:id:misshiki:20200619174014p:plain — NVIDIA GPUの歴史

AuzreでGPUを使うときは「NVIDIA NGC Image for Deep Learning and HPC」を使うとすべて準備が整っていて便利

f:id:misshiki:20200619174033p:plain — NVIDIAが提供するVM

さくっとプチ成功する機械学習プロジェクトのコツ

D08 | さくっとプチ成功する機械学習プロジェクトのコツ | de:code (decode) 2020

4つのコツ

最初から完璧なゴールを目指さない、周囲の理解を得ながら段階的に進める

f:id:misshiki:20200717153926p:plain — 機械学習プロジェクトの成功とは？

各スキルをバランスよく補うプロジェクトチームを作る。特にビジネス理解者必須

f:id:misshiki:20200717153945p:plain — 理想的なプロジェクトチーム体制

Azure PaaSを活用して、速攻＆低コストで環境構築し、作業効率化

f:id:misshiki:20200717153958p:plain — 機械学習プロジェクトに必要な環境

機械学習モデルは誤差解析から思わぬインサイトを得られる可能性がある、可視化は大切

f:id:misshiki:20200717154013p:plain — Power BIによる可視化イメージ

2020-06-19

gacco（統計学／サイエンス／AI・機械学習）の修了証

意見と感想備忘録

gaccoの修了証を表示する場所もないので、このエントリに貼り付けていくことにしました。

ちなみに「AI／機械学習／データサイエンス関連の検定・資格の取得履歴」というページもあります。

文部科学省enPiT-Proの「スマートエスイー」シリーズ

『ga136：推論・知識処理・自然言語処理』（August 25, 2020）

『ga137：機械学習』（September 17, 2020）

日本統計学会の「統計学」シリーズ

『ga014：統計学Ⅰ：データ分析の基礎』（June 18, 2020）

『ga082：統計学Ⅲ: 多変量データ解析法』（March 11, 2020）

総務省統計局の「データサイエンス」シリーズ

『ga031：社会人のためのデータサイエンス入門』（1周回目：December 02, 2019、2周回目：July 07, 2020）

滋賀大学データサイエンス学部

『ga109：大学生のためのデータサイエンス（Ⅰ）』（September 7, 2020）

『pt010：高校生のためのデータサイエンス入門』（September 17, 2020）

「Grow with Google」シリーズ

『pt028：はじめてのAI』（November 11, 2019）

2020-06-19

クロス集計表に関する統計学ノート

統計

質的な変数同士でクロス集計表を作ると、独立変数（説明変数）と従属変数（目的変数）の関連を「独立性のカイ二乗検定」で計算できる。変数が多項目になるなら「相関係数」を使えばよい。

次の図の引用元：読書感想『統計学が最強の学問である』 - いっしきまさひこBLOG

f:id:misshiki:20200619092835p:plain — 統計検定の適用方法一覧（クロス集計表を使う場合を赤で示した）

たぶんクロス集計表を使うことなんて今後もない気がするけど、「クロス集計表」関連のノートは、このエントリにまとめていく予定。

クロス集計表における「独立性のカイ二乗検定」と有意確率

有意確率とは、偶然に起こってしまう確率のこと
0.05未満なら、「統計的に有意」となる。「5%水準で有意」とも言う
カイ二乗値＝有意確率を算出するときの途中の計算の値
クロス集計表で有意確率を算出することを「独立性のカイ二乗検定」と呼ぶ
例えば性別と喫煙者のクロス集計表で「独立性のカイ二乗検定」の有意確率が0.01なら、2つの変数は「関連がない（＝独立である）」という帰無仮説が棄却されて、「性別」と「喫煙者」には何らかの関連がある（＝独立ではない）と言える

三重クロス集計表

第3の変数として、独立変数でも従属変数でもない「統制変数」を使用する

クロス集計表のα係数

複数の独立変数を1 つの変数にまとめることを「変数の合成」と呼ぶ
よく分からない変数を作ってないか？同じモノを測定できているかをチェックするのが「信頼性分析」
信頼性分析の結果は、「クロンバッハのα」、通常は「α係数」と呼ばれる
α係数が0.65以上だったら、質問項目は同じモノを測定できていると見なせる

クロス集計表のγ（ガンマ）係数

クロス集計表における独立変数と従属変数の関連の強さ（ただし各変数は順序尺度もしくは性別のような2択の名義尺度）を評価する指標にγ（ガンマ）係数がある
γ係数の正式名称は「グッドマン・クラスカルのγ」
γ係数は、-1～1の値を取る。0が無相関。1は最大関連（「1／0｜0／1」のように完全一致でなくても「1／0.3｜0／1」でも1になる）を意味する

クロス集計表のV（ヴイ）係数

クロス集計表における独立変数と従属変数の関連の強さ（汎用的に使える）を評価する指標にV（ブイ）係数も使える
V係数の正式名称は「クラメールのV」
V係数は、0～1の値を取る。1は完全関連を意味する

クロス集計表の集計結果

記述と説明：調査用語。結果まとめ提示と、その原因考察＆解説のこと。

多項目のクロス集計表を理解するための相関係数

クロス集計表では、例えば「当てはまらない」「やや当てはまらない」～「やや当てはまる」「当てはまる」など多段階の項目も、2段階もしくは3段階の項目にまとめる
その理由は多段階のクロス集計表は非常にセル数が多くなり、逆に人間にとって全容が把握しづらくなるから
そのような多段階のクロス集計を用いたい場合は、項目同士の関連を「相関係数」で計測すればよい
単に「相関係数」と言えば、「ピアソンの積率相関係数」を指す
-1は負の相関。0は無相関。1は正の相関
有意確率は「相関係数のT検定」（解説なし）で出す

3種類の相関係数

「ピアソンの積率相関係数」：量的な（比例尺度／間隔尺度）変数同士の相関係数。r
「スピアマンの順位相関係数」：質的な（順序尺度）変数同士の相関係数。ρ（ロー）
「ケンドールの順位相関係数」：質的な（順序尺度）変数同士の相関係数。τ（タウ）
質的な変数同士の相関件数は、スピアマンとケンドールのどっちを使ってもよい（通常、スピアマン）
量的変数と質的変数の相関係数なら、ピアソンかケンドールを使う

量的変数と質的変数

量的変数：比例尺度＝0が「なし」（例：身長）
量的変数：間隔尺度＝0が「なし」ではない（例：温度）
質的変数：順序尺度＝項目間に「順序」がある（例：書道の級）
質的変数：名義尺度＝項目間に「序列」がない（例：性別）

参考文献

『【新版】文系でもわかる統計分析』

2020-06-12

Google Cloud Day: Digital 2020 3日目（機械学習）聴講ノート

AI ＆機械学習 Google Cloud ML

本稿は、下記イベントの3日目（機械学習）を視聴時に取った個人的なノートをほぼそのまま公開したレポート記事です。誤字誤植や勘違いがある可能性があるのでご了承ください。ざっくり目を通すと、機械学習関連のセッションの概要が分かると思います。視聴する際の判断材料や、内容を思い出すためのご参考に。

Google Cloud Day: Digital 2020
2020 年 6 月 9 日 (火) - 11 日 (木) ライブ配信
2020 年 6 月 9 日 (火) - 30 日 (火) 開催
2020 年 7 月 1 日 (水) - オンデマンド配信中

なお、3日目の6/11当日は人工知能学会全国大会と日程が被っており、ライブ参加はできなかったので、後日6/12にオンデマンド配信を視聴しました。あと18日間、6月30日まで視聴できます。2020/7/9現在、オンデマンド配信中です。

Cloud AI の紹介と最新情報

Google Cloud 吉川隼人氏
ノートはまとめましたが、ほぼ全部知っている情報でした。

1. Cloud AI プロダクトグループ

Google Cloud（GCP）のAI関連の構成図が提示されました。

f:id:misshiki:20200612163532p:plain — Cloud AI プロダクトの一覧

どんな人が使えるものかがざっくりと示されました。

f:id:misshiki:20200612163611p:plain — Cloud AI プロダクトを活用するための指針

2. Contact Center AI

コンタクトセンター用のソリューションです。Google Cloud Text-to-Speechなどが使えるらしいです。コンタクトセンターについては、自分にはちょっと遠い話題なので割愛します。

3. Cloud AutoML

Cloud AutoMLは、カスタムモデルを作成できる機能です。名前と違って、自動で機械学習を行ってくれる技術というわけでは必ずしもありません。次のような感じで使えます。

f:id:misshiki:20200612222528p:plain — Cloud AutoMLの活用イメージ

Cloud AutoMLには次のようなものがあります。

f:id:misshiki:20200612222549p:plain — Cloud AutoMLの機能一覧

ビジネスにとっても価値のあるデータは以下のようなものがあるそうです。構造化データや時系列データが大きな部分を占めています。

f:id:misshiki:20200612222606p:plain — ビジネス価値のあるデータ

そのうちの構造化データにAutoML Tableが使えると。自動的に特徴量を選択して、整形されていないデータを考慮してくれるなどのメリットがあります。

4. AI Platform

機械学習プロジェクトを効率的に本番環境に構築するためにAI Platformが使えます。具体的には次のようなフロー全体をAI Platformが支援します。

f:id:misshiki:20200612222623p:plain — 機械学習のフロー

このあと、それぞれのプロダクトの機能紹介がありました。超要約すると、いろんな機能があって効率的になるよ～、ってことです。

5. AI Explanations

AIの中身はブラックボックスと言われていますよね。

f:id:misshiki:20200612222641p:plain — AIはブラックボックス？！

AI Explanationsで推論結果に「説明」を付加できます。

f:id:misshiki:20200612222702p:plain — 説明を付加

TensorFlow Probability によるベイズモデリング入門

アクセンチュア株式会社須山敦志氏
TFP（TensorFlow Probability）は名前だけ知っていましたが、ベイズモデリングの概要からTFPによる実践まで説明されていて良かったです。

0. ベイズモデリングとは？

統計モデリングの一種で、データ解析を行う方法
確率計算に基づいたモデリング手法
予測を分布で表せるのが特徴（次の図を参照）

f:id:misshiki:20200612222724p:plain — ベイズモデルでできること

「機械学習とモデリングの違い＝ツールボックスアプローチとモデリングアプローチの違い」が示されました。

f:id:misshiki:20200612222745p:plain — ツールボックスアプローチとモデリングアプローチの違い

2. TensorFlow Probability によるモデリングと計算

TFP（TensorFlow Probability）＝TensorFlowをベースにした確率的プログラミング言語（PPL）

TFPでいろいろ効率的になります。より具体的にビフォーアフターが説明されました。

f:id:misshiki:20200612222801p:plain — TFP（TensorFlow Probability）

次に線形回帰で例が示されました。まず、TFPをインポートして散布図を描画。

f:id:misshiki:20200612222818p:plain — TFPの実践例1

各点にフィットする回帰直線の式を設計。

f:id:misshiki:20200612222833p:plain — TFPの実践例2

推論計算を実行。

f:id:misshiki:20200612222848p:plain — TFPの実践例3

結果を可視化。ベイズモデリングは予測を分布で表現するので多数の線が引かれたような図になります。

f:id:misshiki:20200612222904p:plain — TFPの実践例4

3. 解析事例

以下の事例が示されました。

事例1：ガウス過程回帰モデルによる予測的指標管理
事例2：潜在変数モデルによるセンサーデータ解析

4. まとめ

f:id:misshiki:20200612222919p:plain — まとめ

『ベイズ推論による機械学習入門』に今回の基本的なことは書かれている
『ベイズ深層学習』に発展的な内容が書かれている

Cloud AutoML で実践する業務システム構築と ML デザイン

Google 尾崎隆氏, Google 佐藤一憲氏
内容的にはこれも基本的だったです。

1. Cloud AutoMLとは

ML開発を支える人材が少なく、その作業も複雑で大変です。そのハードルを下げるためにグーグルが提供するのがCloud AutoML。例えばAutoML Visionでは画像認識・物体検知のカスタムモデルが作れます。ここでデモが流れました。まずはデータをインポート。

f:id:misshiki:20200612223009p:plain — データをインポート

それからトレーニング。

f:id:misshiki:20200612223028p:plain — トレーニング

結果を確認してカスタムモデルは完成。

f:id:misshiki:20200612223043p:plain — 結果を確認

あとはエクスポートして使います。ラズパイなどで画像認識するデバイスなども作れます。

f:id:misshiki:20200612223101p:plain — ラズパイを使った画像認識デバイス

AutoML Translation、AutoML Natural Languageなど他にもあります。

2. AutoML Tablesと業務システムへの適用

AutoML Tablesを使うと、構造化データ（表データ）のカスタムMLモデルを作成できます。前処理が簡単。最も良いモデルが自動的に選択されます。

f:id:misshiki:20200612223119p:plain — MLモデルカタログから自動選択

そのバックグラウンドは次のような仕組みになっているそうです。

f:id:misshiki:20200612223139p:plain — AutoML Tablesのバックグラウンド

3. AutoML TablesとMLデザイン

ここで登壇者が尾崎氏（渋谷駅前で働くデータサイエンティストとして有名な方ですね）に代わりました。機械学習の基本的なことが解説されていきます。わかりやすいです。例えば過学習について。

f:id:misshiki:20200612223153p:plain — 過学習

過学習を避けるためには必要な交差検証の話。

f:id:misshiki:20200612223215p:plain — 交差検証

これに対応する機能もAutoML Tablesには搭載されているとのことです。

f:id:misshiki:20200612223232p:plain — AutoML Tablesで交差検証

4. AutoML TablesでスケーラブルなML開発

以前は多くの人的リソースを使って開発していたものが、AutoML Tablesでより少人数で簡単にできるようになってきているそうです。

f:id:misshiki:20200612223247p:plain — AutoML Tablesを使えばチームは不要

GCP の言語・音声系機械学習 API を活用したサービス実装

ソースネクスト株式会社川竹一, Google Cloud 唐澤匠

機械翻訳：Google Cloud Translation API

BasicとAdvancedがある
Advancedは用語集を使える

f:id:misshiki:20200709203913p:plain — Translation APIのBasicとAdvanced

AutoML Translation API：文章の対を登録できる

音声認識：Google Cloud Speech to Text API

Speech to Text Adaptation（適応）： Pharase、Boost、Classesがある

f:id:misshiki:20200709203929p:plain — Speech to Text Adaptation

自然言語処理：Google Cloud Natural Language API

エンティティ抽出、感情分析、構文解析、コンテンツ分類ができる

f:id:misshiki:20200709203941p:plain — Natural Language API

AutoML Natural Language API

ポケトークでの活用事例

音声翻訳は3つのステップ

f:id:misshiki:20200709203955p:plain — 音声認識→機械翻訳→音声合成

カメラ翻訳も3つのステップ

f:id:misshiki:20200709204012p:plain — 文字認識→機械翻訳→AR

会話レッスンも3つのステップ

f:id:misshiki:20200709204130p:plain — 音声認識→チャットボット→音声合成

AI Platform で実現する ML Pipeline

株式会社プレイド春日瑛, Google Cloud 脇阪洋平
AI Platform： Training、Prediction、Notebooks、Pipelines

f:id:misshiki:20200709223253p:plain — AI Platform Training

f:id:misshiki:20200709223305p:plain — AI Platform Prediction

f:id:misshiki:20200709223318p:plain — AI Platform Pipelines

Kubeflow Pipelines：機械学習パイプラインの作成・実行・管理、そしてモジュールの再利用
KARTEにおけるML Platforの実現（株式会社プレイド）
KARTE： CX（顧客体験）プラットフォーム、非常に大規模なデータ集積＆分析基板

f:id:misshiki:20200709223339p:plain — KARTEでもAI Platform Pipelinesの活用内容（Human-in-the-loop型のソリューション）

ロイヤルカスタマー分類、需要予測、異常検知といった課題解決テンプレート

f:id:misshiki:20200709223354p:plain — 課題解決解決テンプレートの内容例

インフラ基盤

f:id:misshiki:20200709223407p:plain — 実際に構築したパイプライン

AI Platform Pipelinesをベースとしたパイプライン環境の統一：
- パイプライン実行環境の統一による管理工数が約30％削減
- パイプライン開発効率の向上
AI Platform Trainingによる学習環境のスケーラビリティ：
- インスタンスコストを約50％も削減
- 学習環境をHigh-Memory、GPUなど柔軟に選択可能に
- インフラの管理工数も削減
GCPと他社製品を組み合わせたCI（継続的インテグレーション）／CD（継続的デプロイ）の実現：
- デプロイにかかる工数を約20％削減 -安定的に最新版をデプロイ可能に
質問：販売予測や需要予測での、BigQueryとAutoMLの使い分けは？
- 回答：
- BigQueryML(BQML)は、1000レコード未満でもOK。短時間
- AutoML Tablesは、1000レコード以上必要。大容量で高い精度が必要な場合（学習に1時間以上かかる）
- 参考: Google Cloud AutoML テーブル | AutoML Tables か BigQuery ML かの選択

AI Platform を利用した「アスクル・シミュレータ」による物流シミュレーション

アスクル株式会社小池和弘
AI Platform自体の解説は少なめだったのでメモも少なめに...

現在取り組んでいること

2014年ごろから、データ分析基盤「ASUKUL EARTH」をGCPで構築してきた

f:id:misshiki:20200709230242p:plain — ASUKUL EARTHの構成図

2019年からは、さらに知財ライブラリ「アスクルシミュレーター」を（AI Platform の Notebooks と AI Hub を活用して）構築している

f:id:misshiki:20200709230256p:plain — アスクルシミュレーターの構成図

EC物流シミュレーション

構造的な問題にはメタな視点が必要

f:id:misshiki:20200709230311p:plain — 構造問題の解法

Kaggle で勝つ GCP の活用方法

アクサ生命株式会社平松雄司, Google Cloud 葛木美紀

Cloud AI NotebooksでKaggle ワークフローをポワーアップ

Kaggle：誰でも参加可能なデータサイエンスのコンペ
Kaggle ノートブック使用時の課題：計算量の多いタスクスでは不便
そこで、AI Platform Notebooks（CAIP Notebooks）

f:id:misshiki:20200710152537p:plain — AI Platform Notebooksとは

KaggleコンペをAI Platform Notebooksを経由して強力なGCPで処理

f:id:misshiki:20200710152551p:plain — AI Platform Notebooksの仕組み

ここでデモがありました。分かりやすい
AI Platform Notebooks／Kaggle／Colabでプラットフォーム間の比較

f:id:misshiki:20200710152608p:plain — プラットフォーム間の比較

KaggleでAI Platform Notebooksを利用する際のTIPS

f:id:misshiki:20200710152622p:plain — TIPS（KaggleでAI Platform Notebooks）

KaggleにおけるGCP活用事例

『Kaggleで勝つデータ分析の技術』の著者の一人
Kaggleの称号システム： Novice、Kaggler、Contributor、Expert、Master、Grand Master
GCPをKaggleで活用した事例紹介

f:id:misshiki:20200710152634p:plain — 事例紹介（KaggleでGCP）

事例1：貸し倒れの予測をするタスク。評価指標はAUC
実務では計算量の大きい巨大モデルはナンセンスだが、Kaggleでは競争なのであり

f:id:misshiki:20200710152645p:plain — 巨大なモデルを実行するためのスクリプト

事例1

ノーフリーランチ定理：全てのデータやタスクにおいて、「常に」他よりも優れているルールなどは存在しないこと
よって、参加者はKaggleに参加するたびに、より良いモデルを探ることなる。試せるだけしらみつぶしに試すだけの計算リソースが必要
特にエーブルデータのコンペで、計算量が大きくなりやすいパターンがある

f:id:misshiki:20200710152659p:plain — 計算量が大きくなるケース

そういったときにGCPが役立つ。金額はおサイフに相談になるが、GCPなら細かく調整可能

f:id:misshiki:20200710152711p:plain — Google Computer EngineのVMインスタンスを利用したりBigQueryを利用したり

事例2

最近だとモデルの推論時間に制限がある傾向がある。この事例では2時間以内だっため、より小さなモデルを作成
一方でモデルの学習時間には制限はなかった
学習時の計算量が大きい場合、その計算環境を「ローカル＋GCE」で柔軟に構築する方法を提案

f:id:misshiki:20200710152723p:plain — ローカル＋GCE

まとめ

ご利用は計画的に

f:id:misshiki:20200710152736p:plain — 知人の例：金メダルを取ったがトータル40万円で奥さんからお叱りをうける

インストール方法

handcalcsレンダラーのインポート

Python計算コードのレンダリング

レンダリング例2

直接にTeXコマンド文を取得

回帰分析（単回帰分析）

ダミー変数

重回帰分析

「偏回帰係数のT検定」で有意確率を確認

標準化回帰係数（β）

サンプルサイズ（N）

決定係数（R2）

自由度調整済み決定係数（補正R2）

「回帰式のF検定」で有意確率を確認

注意事項：多重共線性

疑問：質的変数を独立変数にするには？

参考文献

分散分析（ANOVA：ANalysis Of VAriance）とは

分散分析の結果の見方

分散分析の「F検定」と有意確率

テューキー（Tukey）の多重比較

ルビーン（Levene）の等分散性検定

ウェルチ（Welch）のT検定

ゲームス・ハウエル（Games-Howell）の多重比較

多重性の問題

補足：「平均値の差のT検定」について

補足：「T検定」について

補足：「1群のT検定」について

補足：「対応のあるT検定」について

補足：正規性がない場合について

参考文献

AutoML ではじめる機械学習の民主化

自動機械学習とは？

機能詳細と最新情報

デモンストレーション

参考情報

AI・機械学習で新たに創出されるデータとアノテーションビジネス

AIとデータを取り巻く課題

AI倫理審査ボード

AIベンダーやAIエンジニアが注意するべき法的事項

ソフトウェアと製造物責任（PL法）

リテール AI の PoC 事例から学ぶスケールアウトへのヒント

リテールAI研究会とは

PoC事例の振り返り

リテールAI検定

リテールAIを成功させる秘訣

アマダの Azure への取り組みと DevOPS・MLOPS 環境の構築と運用

Azure Machine Learning ＋ MLOps

アバナードによるMLOps構築

MLOps導入の効果

MLOps運用での検討事項

Azure Cognitive Search で作る！ 一歩先を行く検索機能 〜 富士フイルム IMAGE WORKS 事例 〜

AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ

アジェンダ

混合精度演算（Mixed Precision Training）

NVIDIA A100 TensorコアGPU

GPUの利用環境

さくっとプチ成功する機械学習プロジェクトのコツ

4つのコツ

文部科学省enPiT-Proの「スマートエスイー」シリーズ

『ga136：推論・知識処理・自然言語処理』（August 25, 2020）

『ga137：機械学習』（September 17, 2020）

日本統計学会の「統計学」シリーズ

『ga014：統計学Ⅰ：データ分析の基礎』（June 18, 2020）

『ga082：統計学Ⅲ: 多変量データ解析法』（March 11, 2020）

総務省統計局の「データサイエンス」シリーズ

『ga031：社会人のためのデータサイエンス入門』（1周回目：December 02, 2019、2周回目：July 07, 2020）

滋賀大学データサイエンス学部

『ga109：大学生のためのデータサイエンス（Ⅰ）』（September 7, 2020）

『pt010：高校生のためのデータサイエンス入門』（September 17, 2020）

「Grow with Google」シリーズ

『pt028：はじめてのAI』（November 11, 2019）

クロス集計表における「独立性のカイ二乗検定」と有意確率

三重クロス集計表

クロス集計表のα係数

クロス集計表のγ（ガンマ）係数

クロス集計表のV（ヴイ）係数

クロス集計表の集計結果

多項目のクロス集計表を理解するための相関係数

3種類の相関係数

Azure Cognitive Search で作る！一歩先を行く検索機能〜富士フイルム IMAGE WORKS 事例〜

AI とデータサイエンスを加速する NVIDIA の最新 GPU アーキテクチャ