いっしきまさひこBLOG

AI・機械学習関連、Web制作関連、プログラミング関連、旅行記録などなど。一色政彦。

AIと機械学習を成功させる「DataRobot」無料ハンズオン!! #NSStudy 15 聴講ノート

※これはセミナー聴講時の個人的なノートをそのまま公開したものです。誤字誤植や勘違いがある可能性があるのでご了承ください。

AIと機械学習を成功させる「DataRobot」無料ハンズオン!! #NSStudy 15 - connpass

19:05~19:35 (1) DataRobotプラットフォーム概要紹介(DataRobot Japan株式会社 中山 晴之 氏)

データサイエンティスト不足には、AIの民主化しかない

  • 「年25万人、政府戦略」というニュース記事が2019年3月に配信された
    • 年25万人?! 4年制大学の理工系12万人しかいない。それ以外の文系42万人なども含めて、データサイエンティストという話だが非現実的
  • データサイエンティストってどんな人?
    • ドメイン知識、IT技術、数学・統計学、といっ知識・スキルが必要
      • 例えば、Python関連、R言語の勉強など
      • どうやって出店場所を決めているかなどのドメイン知識も不可欠
    • 統計学、プログラミング、アルゴリズム、ドメイン知識(実務知識や実践経験)を学ぶ必要があり、途中で脱落していく
  • データサイエンティストはどれくらい需要があるか?
    • ありとあらゆる業種・分野でAIは使われている
    • 需要は増えているのに、人材供給をすぐには伸ばせない。需給にギャップがある
  • だからAIの民主化しかない
    • 方法1: 既存のデータサイエンティストの生産性を大幅に増やす
    • 方法2: 普通の人がデータサイエンティスト並みの能力を発揮できるようにする
  • AIは「ブラックボックス」だから、怖くて使えない?!
  • そこでDataRobot
    • グレーボックス化技術がある
    • Kaggler上位入賞者がDataRobotを開発している
    • 今ではあらゆる分野で使われており事例がたくさんある
    • (売れすぎてDataRobotに人が足りない)

19:45~20:30 (2) DataRobotハンズオン (DataRobot Japan株式会社 中山 晴之 氏)

後半はとても眠くてあまりちゃんと書けてないです。

f:id:misshiki:20190704231806p:plain
貸し倒れ確率

  • ドラッグ&ドロップでデータを投入すると、探索的データ解析が自動的に行われ、終わると「ターゲットを選択」と表示される

f:id:misshiki:20190704231853p:plain
ドラッグ&ドロップでデータを投入

  • 「LCData_JP_train.xlsxを精査」をクリックするか、スクロールダウンすると、分析済みの内容一覧が表示される

f:id:misshiki:20190704231936p:plain
「LCData_JP_train.xlsxを精査」をクリック

f:id:misshiki:20190704232025p:plain
分析済みの内容一覧が表示される

  • 例えば「ローン額」をクリックするとヒストグラムが表示される
  • 「ID」や「メンバーID」には「リファレンスID」と表示されており、これは特徴として使えないことが認識されている
  • 他には「申し込みタイプ」は「値が少ない」と表示され、これも特徴としては自動的に使われないことを示している
  • 「ターゲットを選択」をクリックすると、「何を予測しますか?」欄に入力できるようになる。今回は「貸し倒れ(率)」を予測する

f:id:misshiki:20190704232204p:plain
「何を予測しますか?」欄に入力

  • 「開始」ボタンを実行すると、モデルの作成が始まる

f:id:misshiki:20190704232528p:plain
モデルの作成が始まる

  • DataRobotには2000ぐらいのアルゴリズムがあるが、その中から適切なものを選びだして、30~70個ぐらいのモデルを自動的に作る
  • 30個ぐらい作るのは、事前にどれがよいか分からないので、テストで精度が最も良いものを選びだす
  • Kaggleで良い成績を出しているアンサンブル学習=「Blender」と書かれているモデル。これも自動的にやってくれる
  • 右上のワーカーを増やして処理を速めることもできる

f:id:misshiki:20190704232616p:plain
モデルの作成が完了

  • 「モデル」タブで、作成済みのモデルが精度順に並ぶので、一番上のものを使うには、まず★(お気に入り)を付ける

f:id:misshiki:20190704232726p:plain
★(お気に入り)をフォルターできる

  • モデルの説明や解釈を見る: 「解釈」→「特徴量のインパクトを計算」→「特徴量ごとの作用」→「特徴量ごとの作用を計算する」

f:id:misshiki:20190704233157p:plain
特徴量ごとの作用を計算する

f:id:misshiki:20190704233228p:plain
特徴量ごとの作用(1)

f:id:misshiki:20190704233249p:plain
特徴量ごとの作用(2)

f:id:misshiki:20190704233305p:plain
特徴量ごとの作用(3)

  • アルゴリズムによって、必要があればOne-hotエンコーディングも自動的に行う
  • 特徴量はいくつでも受け入れるが、特徴量を絞った方が良い結果が出ることが多い
  • △が出ている特徴量は削った方がいい。それには「特徴量セットを作成」を実行

f:id:misshiki:20190704233413p:plain
特徴量のインパクトを計算

f:id:misshiki:20190704233450p:plain
特徴量のインパクト

f:id:misshiki:20190704233505p:plain
△が出ている特徴量は削った方がいい

f:id:misshiki:20190704233528p:plain
特徴量セットを作成

  • インサイト、ワードクラウド、=どういう文字があると貸倒しやすいかなどを明示

f:id:misshiki:20190704233025p:plain
インサイト

f:id:misshiki:20190704233042p:plain
ワードクラウド

  • モデル、速度対精度、=アンサンブル学習は精度がよいが時間はかかる

f:id:misshiki:20190704232901p:plain
速度対精度

  • モデル、学習曲線、=16%ぐらいで予選、32%ぐらいで再予選、、64%ぐらいで決勝戦
  • 予測タブ、LCData_JP_10rowsデータ(貸し倒れの項目が空)を投入。『予測を計算』、ダウンロード

  • デプロイ

f:id:misshiki:20190704233700p:plain
新規デプロイを追加

f:id:misshiki:20190704233732p:plain
モデルをデプロイ

  • バッチ予測

f:id:misshiki:20190704233840p:plain
バッチ予測

  • 予測の説明

f:id:misshiki:20190704234024p:plain
予測の説明(1)

f:id:misshiki:20190704234040p:plain
予測の説明(2)

  • 説明:ブループリント

f:id:misshiki:20190704234219p:plain
説明:ブループリント