※これはセミナー聴講時の個人的なノートをそのまま公開したものです。誤字誤植や勘違いがある可能性があるのでご了承ください。
モデル解釈の知識は浅かったので非常に良かったです。
2時間でかなり詰め込んだ感じがあったので、One-dayイベントでこのテーマで行けるのかなと思いました。
あとAutoML関連もよく知らないので、勉強会があるといいな。
(テーマに関係ないけど、DLLabって最近、運営体制変わってきたのかなって思っている。)
BlackBox モデルの説明性・解釈性技術の実装
- 表形式データ、画像データ、テキストデータに対して、種々の説明性・解釈性技術を実装し、実行してみた結果や感想について解説します。
- 小川雄太郎氏 株式会社電通国際情報サービス
- BlackBox モデルの説明性・解釈性技術の実装
- GitHub - YutaroOgawa/my_azure: MS Azure関連のプログラムのリポジトリです
表形式データ
- 局所的な説明: LIME、SHAP、Anchors
- SHAPがオススメ、Anchorsはライブラリが未整備などの欠点がある
画像データ
- Grad-CAM、LIME、SHAP
- Grad-CAMがオススメ、LIMEは使いづらい
テキストデータ(tf-idf)
- LIMEでまずまず機能する
テキストデータ(BERT)
- Attention
- influence:説明したいテストデータと最も良く似た訓練データを1つ探す手法。日本ではあまり知られていないがオススメ
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
- 本セッションでは、最も古典的かつ重要な解釈可能モデルの一つである GLM と、その応用技術である GAM について、歴史とアルゴリズムを概観します。さらに、実際に解析する場面を想定し、GLM/GAM に対するモデル解釈で気をつけるべきポイントもご紹介します。
- 山口順也氏 日本マイクロソフト株式会社
Linear Regression、GLM(Generalized Linear Regression)、GAM(Generalized Additive Model)、GA2M(Generalized Additive 2 Model)にフォーカスして話す
一般化線形モデル(GLM)
- 歴史から: 1972年にGLMを定式化、1982年に教科書…
- 誤差が指数型分布族の分布に独立に氏が従うことを仮定する統計モデル
一般化加法モデル(GAM)
- 1990年に、GLMの問題点を受けて提案された統計モデル
- GLMでは重み付けしていたスコアの計算をもっと柔軟に
一般化加法2モデル(GA2M)
PythonでのGLM/GAMの使い方
pip install pygam
- GammaGAM — pyGAM documentation
- pga-tour-analysis-by-gam | Kaggle
AutoML のモデルを Azure Machine Learning Interpret で解釈してみる
- AutoML で作成したモデルを Azure ML のモデル解釈機能で解釈します。
- 女部田啓太氏 日本マイクロソフト株式会社
- AutoML & InterpretML (2019/11/27 Deep Learning Lab 講演資料)
AutoMLとは
- 機械学習のプロセスを自動的に処理するテクノロジー
- パラメーターチューニングのところだけ自動化、アルゴリズム選択も特徴量エンジニアリングも自動化する 2種類がある
- メリット: 試行錯誤が楽になる、AIの民主化、モデルを大量に生成できる
Azureが提供するAutoML
- 自動機械学習「Automated Machine Learning」: 協調フィルタリングとベイズ最適化をメタ学習に採用
- 自動ハイパーパラメーターチューニング「Hyperdrive」
- Microsoft Researchが開発しているAutoMLツールキット「Neural Network Intelligence」: GitHub - microsoft/nni: An open source AutoML toolkit for neural architecture search and hyper-parameter tuning.
モデル解釈
- Interpretability SDK(Azure ML)
- Azure Machine Learning service におけるモデルの解釈可能性 - Azure Machine Learning | Microsoft Docs
- 提供しているExplainer: SHAP、Mimic Explainer(LightGBM、線形回帰、SGD…)、Permutation Feature Importance Explainer 、LIME Explainerなど
- 欠損値の補完がある。データの前処理が自動化されているので、予期せぬ値になっていないか注意が必要