※これはセミナー聴講時の個人的なノートをそのまま公開したものです。誤字誤植や勘違いがある可能性があるのでご了承ください。
AIと機械学習を成功させる「DataRobot」無料ハンズオン!! #NSStudy 15 - connpass
19:05~19:35 (1) DataRobotプラットフォーム概要紹介(DataRobot Japan株式会社 中山 晴之 氏)
データサイエンティスト不足には、AIの民主化しかない
- 「年25万人、政府戦略」というニュース記事が2019年3月に配信された
- 年25万人?! 4年制大学の理工系12万人しかいない。それ以外の文系42万人なども含めて、データサイエンティストという話だが非現実的
- データサイエンティストってどんな人?
- ドメイン知識、IT技術、数学・統計学、といっ知識・スキルが必要
- 例えば、Python関連、R言語の勉強など
- どうやって出店場所を決めているかなどのドメイン知識も不可欠
- 統計学、プログラミング、アルゴリズム、ドメイン知識(実務知識や実践経験)を学ぶ必要があり、途中で脱落していく
- ドメイン知識、IT技術、数学・統計学、といっ知識・スキルが必要
- データサイエンティストはどれくらい需要があるか?
- ありとあらゆる業種・分野でAIは使われている
- 需要は増えているのに、人材供給をすぐには伸ばせない。需給にギャップがある
- だからAIの民主化しかない
- 方法1: 既存のデータサイエンティストの生産性を大幅に増やす
- 方法2: 普通の人がデータサイエンティスト並みの能力を発揮できるようにする
- AIは「ブラックボックス」だから、怖くて使えない?!
- 政府が求める「AI原則」(説明責任)=ブラックボックスにしないことが重要
- https://image.itmedia.co.jp/l/im/news/articles/1812/14/l_plt1812130034view_1.jpg
- そこでDataRobot
- グレーボックス化技術がある
- Kaggler上位入賞者がDataRobotを開発している
- 今ではあらゆる分野で使われており事例がたくさんある
- (売れすぎてDataRobotに人が足りない)
19:45~20:30 (2) DataRobotハンズオン (DataRobot Japan株式会社 中山 晴之 氏)
後半はとても眠くてあまりちゃんと書けてないです。
- お金の貸し借りデータから、DataRobotでモデルを作り、貸し倒れ確率を算出する
- ★当日利用するデータセット: https://drive.google.com/open?id=10KZEIyteDTn_tggXyHyAWsY8BmQr5npj
- URL: https://app.datarobot.com/ ID: パスワード:
- ドラッグ&ドロップでデータを投入すると、探索的データ解析が自動的に行われ、終わると「ターゲットを選択」と表示される
- 「LCData_JP_train.xlsxを精査」をクリックするか、スクロールダウンすると、分析済みの内容一覧が表示される
- 例えば「ローン額」をクリックするとヒストグラムが表示される
- 「ID」や「メンバーID」には「リファレンスID」と表示されており、これは特徴として使えないことが認識されている
- 他には「申し込みタイプ」は「値が少ない」と表示され、これも特徴としては自動的に使われないことを示している
- 「ターゲットを選択」をクリックすると、「何を予測しますか?」欄に入力できるようになる。今回は「貸し倒れ(率)」を予測する
- 「開始」ボタンを実行すると、モデルの作成が始まる
- DataRobotには2000ぐらいのアルゴリズムがあるが、その中から適切なものを選びだして、30~70個ぐらいのモデルを自動的に作る
- 30個ぐらい作るのは、事前にどれがよいか分からないので、テストで精度が最も良いものを選びだす
- Kaggleで良い成績を出しているアンサンブル学習=「Blender」と書かれているモデル。これも自動的にやってくれる
- 右上のワーカーを増やして処理を速めることもできる
- 「モデル」タブで、作成済みのモデルが精度順に並ぶので、一番上のものを使うには、まず★(お気に入り)を付ける
- モデルの説明や解釈を見る: 「解釈」→「特徴量のインパクトを計算」→「特徴量ごとの作用」→「特徴量ごとの作用を計算する」
- アルゴリズムによって、必要があればOne-hotエンコーディングも自動的に行う
- 特徴量はいくつでも受け入れるが、特徴量を絞った方が良い結果が出ることが多い
- △が出ている特徴量は削った方がいい。それには「特徴量セットを作成」を実行
- インサイト、ワードクラウド、=どういう文字があると貸倒しやすいかなどを明示
- モデル、速度対精度、=アンサンブル学習は精度がよいが時間はかかる
- モデル、学習曲線、=16%ぐらいで予選、32%ぐらいで再予選、、64%ぐらいで決勝戦
予測タブ、LCData_JP_10rowsデータ(貸し倒れの項目が空)を投入。『予測を計算』、ダウンロード
デプロイ
- バッチ予測
- 予測の説明
- 説明:ブループリント