いっしきまさひこBLOG

Web制作関連、プログラミング関連、旅行記録などなど。

AIと機械学習を成功させる「DataRobot」無料ハンズオン!! #NSStudy 15 聴講ノート

※これはセミナー聴講時の個人的なノートをそのまま公開したものです。誤字誤植や勘違いがある可能性があるのでご了承ください。

AIと機械学習を成功させる「DataRobot」無料ハンズオン!! #NSStudy 15 - connpass

19:05~19:35 (1) DataRobotプラットフォーム概要紹介(DataRobot Japan株式会社 中山 晴之 氏)

データサイエンティスト不足には、AIの民主化しかない

  • 「年25万人、政府戦略」というニュース記事が2019年3月に配信された
    • 年25万人?! 4年制大学の理工系12万人しかいない。それ以外の文系42万人なども含めて、データサイエンティストという話だが非現実的
  • データサイエンティストってどんな人?
    • ドメイン知識、IT技術、数学・統計学、といっ知識・スキルが必要
      • 例えば、Python関連、R言語の勉強など
      • どうやって出店場所を決めているかなどのドメイン知識も不可欠
    • 統計学、プログラミング、アルゴリズム、ドメイン知識(実務知識や実践経験)を学ぶ必要があり、途中で脱落していく
  • データサイエンティストはどれくらい需要があるか?
    • ありとあらゆる業種・分野でAIは使われている
    • 需要は増えているのに、人材供給をすぐには伸ばせない。需給にギャップがある
  • だからAIの民主化しかない
    • 方法1: 既存のデータサイエンティストの生産性を大幅に増やす
    • 方法2: 普通の人がデータサイエンティスト並みの能力を発揮できるようにする
  • AIは「ブラックボックス」だから、怖くて使えない?!
  • そこでDataRobot
    • グレーボックス化技術がある
    • Kaggler上位入賞者がDataRobotを開発している
    • 今ではあらゆる分野で使われており事例がたくさんある
    • (売れすぎてDataRobotに人が足りない)

19:45~20:30 (2) DataRobotハンズオン (DataRobot Japan株式会社 中山 晴之 氏)

後半はとても眠くてあまりちゃんと書けてないです。スクリーンキャプチャもたくさん撮ったけど未整理なので、とりあえず非公開。

  • お金の貸し借りデータから、DataRobotでモデルを作り、貸し倒れ確率を算出する
  • ★当日利用するデータセット: https://drive.google.com/open?id=10KZEIyteDTn_tggXyHyAWsY8BmQr5npj
  • URL: https://app.datarobot.com/  ID: パスワード:
  • ドラッグ&ドロップでデータを投入すると、探索的データ解析が自動的に行われ、終わると「ターゲットを選択」と表示される
  • 「LCData_JP_train.xlsxを精査」をクリックするか、スクロールダウンすると、分析済みの内容一覧が表示される
  • 例えば「ローン額」をクリックするとヒストグラムが表示される
  • 「ID」や「メンバーID」には「リファレンスID」と表示されており、これは特徴として使えないことが認識されている
  • 他には「申し込みタイプ」は「値が少ない」と表示され、これも特徴としては自動的に使われないことを示している
  • 「ターゲットを選択」をクリックすると、「何を予測しますか?」欄に入力できるようになる。今回は「貸し倒れ(率)」を予測する
  • 「開始」ボタンを実行すると、モデルの作成が始まる
  • DataRobotには2000ぐらいのアルゴリズムがあるが、その中から適切なものを選びだして、30~70個ぐらいのモデルを自動的に作る
  • 30個ぐらい作るのは、事前にどれがよいか分からないので、テストで精度が最も良いものを選びだす
  • Kaggleで良い成績を出しているアンサンブル学習=「Blender」と書かれているモデル。これも自動的にやってくれる
  • 右上のワーカーを増やして処理を速めることもできる
  • 「モデル」タブで、作成済みのモデルが精度順に並ぶので、一番上のものを使うには、まず★(お気に入り)を付ける
  • モデルの説明や解釈を見る: 「解釈」→「特徴量のインパクトを計算」→「特徴量ごとの作用」→「特徴量ごとの作用を計算する」
  • アルゴリズムによって、必要があればOne-hotエンコーディングも自動的に行う
  • 特徴量はいくつでも受け入れるが、特徴量を絞った方が良い結果が出ることが多い
  • △が出ている特徴量は削った方がいい。それには「特徴量セットを作成」を実行
  • インサイト、ワードクラウド、=どういう文字があると貸倒しやすいかなどを明示
  • モデル、速度対精度、=アンサンブル学習は精度がよいが時間はかかる
  • モデル、学習曲線、=16%ぐらいで予選、32%ぐらいで再予選、、64%ぐらいで決勝戦
  • 予測タブ、LCData_JP_10rowsデータ(貸し倒れの項目が空)を投入。『予測を計算』、ダウンロード