いっしきまさひこBLOG

AI・機械学習関連、Web制作関連、プログラミング関連、旅行記録などなど。一色政彦。

AIと機械学習を成功させる「DataRobot」無料ハンズオン!! #NSStudy 15 聴講ノート

AI ＆機械学習

※これはセミナー聴講時の個人的なノートをそのまま公開したものです。誤字誤植や勘違いがある可能性があるのでご了承ください。

AIと機械学習を成功させる「DataRobot」無料ハンズオン!! #NSStudy 15 - connpass

19:05～19:35 (1) DataRobotプラットフォーム概要紹介（DataRobot Japan株式会社中山晴之氏）

データサイエンティスト不足には、AIの民主化しかない

「年25万人、政府戦略」というニュース記事が2019年3月に配信された
- 年25万人?!　4年制大学の理工系12万人しかいない。それ以外の文系42万人なども含めて、データサイエンティストという話だが非現実的
データサイエンティストってどんな人？
- ドメイン知識、IT技術、数学・統計学、といっ知識・スキルが必要
  - 例えば、Python関連、R言語の勉強など
  - どうやって出店場所を決めているかなどのドメイン知識も不可欠
- 統計学、プログラミング、アルゴリズム、ドメイン知識（実務知識や実践経験）を学ぶ必要があり、途中で脱落していく
データサイエンティストはどれくらい需要があるか？
- ありとあらゆる業種・分野でAIは使われている
- 需要は増えているのに、人材供給をすぐには伸ばせない。需給にギャップがある
だからAIの民主化しかない
- 方法1：既存のデータサイエンティストの生産性を大幅に増やす
- 方法2：普通の人がデータサイエンティスト並みの能力を発揮できるようにする
AIは「ブラックボックス」だから、怖くて使えない？！
- 政府が求める「AI原則」（説明責任）＝ブラックボックスにしないことが重要
- https://image.itmedia.co.jp/l/im/news/articles/1812/14/l_plt1812130034view_1.jpg
そこでDataRobot
- グレーボックス化技術がある
- Kaggler上位入賞者がDataRobotを開発している
- 今ではあらゆる分野で使われており事例がたくさんある
- （売れすぎてDataRobotに人が足りない）

19:45～20:30 (2) DataRobotハンズオン（DataRobot Japan株式会社中山晴之氏）

後半はとても眠くてあまりちゃんと書けてないです。

お金の貸し借りデータから、DataRobotでモデルを作り、貸し倒れ確率を算出する
★当日利用するデータセット： https://drive.google.com/open?id=10KZEIyteDTn_tggXyHyAWsY8BmQr5npj
URL： https://app.datarobot.com/　 ID：パスワード：
お金の貸し借りデータ

f:id:misshiki:20190704231806p:plain — 貸し倒れ確率

ドラッグ＆ドロップでデータを投入すると、探索的データ解析が自動的に行われ、終わると「ターゲットを選択」と表示される

f:id:misshiki:20190704231853p:plain — ドラッグ＆ドロップでデータを投入

「LCData_JP_train.xlsxを精査」をクリックするか、スクロールダウンすると、分析済みの内容一覧が表示される

f:id:misshiki:20190704231936p:plain — 「LCData_JP_train.xlsxを精査」をクリック

f:id:misshiki:20190704232025p:plain — 分析済みの内容一覧が表示される

例えば「ローン額」をクリックするとヒストグラムが表示される
「ID」や「メンバーID」には「リファレンスID」と表示されており、これは特徴として使えないことが認識されている
他には「申し込みタイプ」は「値が少ない」と表示され、これも特徴としては自動的に使われないことを示している
「ターゲットを選択」をクリックすると、「何を予測しますか？」欄に入力できるようになる。今回は「貸し倒れ（率）」を予測する

f:id:misshiki:20190704232204p:plain — 「何を予測しますか？」欄に入力

「開始」ボタンを実行すると、モデルの作成が始まる

f:id:misshiki:20190704232528p:plain — モデルの作成が始まる

DataRobotには2000ぐらいのアルゴリズムがあるが、その中から適切なものを選びだして、30～70個ぐらいのモデルを自動的に作る
30個ぐらい作るのは、事前にどれがよいか分からないので、テストで精度が最も良いものを選びだす
Kaggleで良い成績を出しているアンサンブル学習＝「Blender」と書かれているモデル。これも自動的にやってくれる
右上のワーカーを増やして処理を速めることもできる

f:id:misshiki:20190704232616p:plain — モデルの作成が完了

「モデル」タブで、作成済みのモデルが精度順に並ぶので、一番上のものを使うには、まず★（お気に入り）を付ける

f:id:misshiki:20190704232726p:plain — ★（お気に入り）をフォルターできる

モデルの説明や解釈を見る：「解釈」→「特徴量のインパクトを計算」→「特徴量ごとの作用」→「特徴量ごとの作用を計算する」

f:id:misshiki:20190704233157p:plain — 特徴量ごとの作用を計算する

f:id:misshiki:20190704233228p:plain — 特徴量ごとの作用（1）

f:id:misshiki:20190704233249p:plain — 特徴量ごとの作用（2）

f:id:misshiki:20190704233305p:plain — 特徴量ごとの作用（3）

アルゴリズムによって、必要があればOne-hotエンコーディングも自動的に行う
特徴量はいくつでも受け入れるが、特徴量を絞った方が良い結果が出ることが多い
△が出ている特徴量は削った方がいい。それには「特徴量セットを作成」を実行

f:id:misshiki:20190704233413p:plain — 特徴量のインパクトを計算

f:id:misshiki:20190704233450p:plain — 特徴量のインパクト

f:id:misshiki:20190704233505p:plain — △が出ている特徴量は削った方がいい

f:id:misshiki:20190704233528p:plain — 特徴量セットを作成

インサイト、ワードクラウド、＝どういう文字があると貸倒しやすいかなどを明示

f:id:misshiki:20190704233025p:plain — インサイト

f:id:misshiki:20190704233042p:plain — ワードクラウド

モデル、速度対精度、＝アンサンブル学習は精度がよいが時間はかかる

f:id:misshiki:20190704232901p:plain — 速度対精度

モデル、学習曲線、＝１６％ぐらいで予選、３２％ぐらいで再予選、、６４％ぐらいで決勝戦
予測タブ、LCData_JP_10rowsデータ（貸し倒れの項目が空）を投入。『予測を計算』、ダウンロード
デプロイ

f:id:misshiki:20190704233700p:plain — 新規デプロイを追加

f:id:misshiki:20190704233732p:plain — モデルをデプロイ

バッチ予測

f:id:misshiki:20190704233840p:plain — バッチ予測

予測の説明

f:id:misshiki:20190704234024p:plain — 予測の説明（1）

f:id:misshiki:20190704234040p:plain — 予測の説明（2）

説明：ブループリント

f:id:misshiki:20190704234219p:plain — 説明：ブループリント