いっしきまさひこBLOG

AI・機械学習関連、Web制作関連、プログラミング関連、旅行記録などなど。一色政彦。

誰でも参加できるバーチャルな「ウォーキング」イベント6月3日(月)開始

ウォーキングに興味がある人向けに、スマホを使ったバーチャルイベントの紹介です。

スマホを使ったウォーキングイベント

企業が入っている健保では、(被保険者を建康にして医療保険費を削減するためだと思いますが)スマホのアプリを使ったウォーキングイベントというのがよくあると思います。例えばITS(関東ITソフトウェア健康保険組合)では「MY HEALTH WEBスマ歩ウォーク(歩Fes.)」というのがたまに開催されていて、最近だと2019年4月23日(火) ~ 2019年5月22日(水)で開催されました。わたしも参加して、GW期間中サボったので後半の巻き返しが大変だったのですが、何とか平均歩数9000歩以上(歩数達成賞=1000ポイント、つまり1000円相当)を達成しました。

f:id:misshiki:20190603101629p:plain
MY HEALTH WEB スマ歩 ウォーク(歩Fes.)

普段の生活の中で自然に実践できるので、ウォーキングイベントはほぼ趣味のように毎回参加しています。ただ、こういったイベントがあるのはたまにであったり、健保ごとであったりするので、参加機会はそれほど多くないです。

からだカルテ:歩数イベント 高知編

そこで、今回のブログ記事で紹介するのは、

というものです。ちなみに以前にも、「ウォーキングの歩数をバーチャル名所で競う「歩数イベント」 - いっしきまさひこBLOG」という紹介記事をポストしたことがあります。からだカルテの歩数イベントも開催は「たまに」なのですが、タニタが開催しており、参加費500円(税込)がかかるものの、誰でも参加できるメリットがあります。

f:id:misshiki:20190603102910p:plain
からだカルテ:歩数イベント 高知編

すでに今日(2019/06/03)から始まってしまっていますが、興味があれば上記リンク先をチェックしてみてください。参加する場合はともに頑張りましょう。

今回は高知編で、以下のようなマップの道のりをバーチャルに歩くみたいです。

f:id:misshiki:20190603103856p:plain
歩数イベント高知編の道のり

マイクロソフトリサーチアジア「自然言語処理研究の最新動向」プレスラウンドテーブル 参加ノート

※これはレポート記事にする前の個人的なノートをそのまま公開したものです。誤字誤植や勘違いがある可能性があるのでご了承ください。

NLP Innovation(自然言語処理のイノベーション)

  • Dr. Ming Zhou(周明)、ミン・ジョウ氏: Ming Zhou at Microsoft Research
    • マイクロソフトリサーチアジア(MSRA)副所長、ACL (コンピュータ言語/自然言語処理研究の国際学会)会長、中国計算机学会(CCF)中国情報技術委員会委員長、中国情報処理学会理事。
    • 1989年、中国初のCEMT-I 中英機械翻訳システム開発について中国政府先端科学技術賞。
    • 1998年、著名な中日機械翻訳ソフトウェア J-Beijing を日本にて開発。
    • MSRA にてBing、Office、Windows、Azure 等で用いられている自然言語処理技術を開発し、チャツトボットであるシャオアイス、りんな、Zo を生み出した。
    • 中国における対聯(対句)および詩の生成 Al ゲーム開発、中国語と日本語の Windows IME のリーダーであるほか、英語補助検索工ンジン Engkoo はウォールストリートジャーナル2010 アジアイノベーションリーダーズチョイス賞を受し、2011年に Bing 辞書としてBing に搭載された。
    • 2014年、Microsoft Ability アワードをCE〇サティアナデラより受賞。
    • 2018年、北京傑出労働メダル(五月一日労働メダル)受賞。
    • 周博士は、1985年、重慶大学で学士号、1991年、ハルビン工科大学で博士号を取得。
    • 1991~1993年、清華大学にてポスドクを経て、准教授に昇進。
    • 1996~1999年、サバティカルを利用し日本の高電社にて日中機械翻訳プロジェクトのリーダーを務める。
    • 1999 年よりマイクロソフトリサーチアジアに所属。
  • 自然言語処理(NLP)は大きなブレークスルーを為し遂げている
    • 例えばBing、Office、Windows IME、チャットボット(中国でシャオアイス、日本ではりんな、アメリカではZo、まど実験的なプロジェクトが多数ある)
  • Microsoft Research Asia:
    • 98年に設立してすでに20周年
    • その間、多数の国からインターンを受け付け、さまざまな業界に人材を輩出してきた
    • 今では中国、日本、シンガポールなど多くの国で、研究活動を率いている
    • 論文の数が5000以上ある
    • 学術連携やイベントなども多数進めている。日本ではCOREというのがある。またインターンも東京大学を初めとした博士課程の人が年間15人。フェローシップとして年間10人ぐらいアワードを出している。日本にラボがないので、産総研や理研などに就職していく
  • AI研究のブレークスルー:
    • 2016年にはニューラルネットワークでResNetが登場して画像認識で広く作られるようになった(96%)
    • 2108年9月、SQuAD(86.0%):The Stanford Question Answering Dataset、質問応答技術
    • 2018年3月、言語解釈(69.9%)
    • 2018年6月、OCR(50%)
    • すでに新たなステージ、黄金時代に入ったといえる
    • 事前学習モデル、転移学習、knowledge(知識)、reasoning(推論)など、機械学習の技術も進んでいる
      • 質問:自然言語処理でBERTが最近出てきており、マイクロソフトリサーチでも論文が出たはずだが、そういった最先端研究について
        • BERTは先ほど事前学習モデルと呼んでいたもの(写真撮った)。マイクロソフトではUNILM、MASS、MT-DNNなどを作っており、まもなくリリースする予定になっている
          f:id:misshiki:20190530105911j:plain
          事前訓練モデル
  • 画像認識に関するブレークスルー
    • 今現在のエラー率:3.57%、人間が5.1%なので、すでに人間を超えている
    • SQuADはExact matchが82.65%で、まだ人間が少し上回っている
    • 言語解釈においては、WMT 2019において8言語ペアでベストパフォーマンス
    • OCRのWERも良い成果を残している
  • MSRA Innovation Partnership: マイクロソフトリサーチアジア・イノベーション・パートナーシップ
    • 密に作業パートナーと連携。特にAIが使いたい(もしくはデジタルトランスフォーメーションを進めたい)という企業に、コンサルティングやテクニカルワークショップに呼ぶなどして協業している
    • マイクロソフトはフィードバックが得られて、研究開発に生かせる
    • イノベーションパートナーシップの初期メンバーは16社(写真撮った)
      f:id:misshiki:20190530101625j:plain
      イノベーションパートナーシップ16社
    • 例えばOOCLとの協業やPearsonとの協業などがある
    • NLPに関するMSRのイノベーションや貢献の例も多数(写真撮った):例えば手話と自然言語を使う人がスムーズにやりとりできるサービスなどがある。日本ではりんなも例に挙げられる
      f:id:misshiki:20190530101844j:plain
      NLPに関する貢献例
  • NLPエンジン(写真撮った): 統計機械翻訳、ニューラル機械翻訳などがあり、ニーズに応じて選択できる
    f:id:misshiki:20190530102153j:plain
    NLPエンジン
  • 機械翻訳のロードマップ(写真撮った)
    f:id:misshiki:20190530102308j:plain
    機械翻訳のロードマップ
  • ニューラル機械翻訳(NMT)
  • リソースが少ない言語の機械翻訳について
  • 日本語と英語の違いについて
    • 課題:日本語から英語に翻訳する際は法則性があるが、英語から日本語に翻訳するには語順がかなり変わるので、扱いが難しい
    • 日本語と英語の間のエラー解析をすると、語順が違うなどさまざまな種類の問題が出てくる
  • 機械リーディング解釈(Machine Reading Comprehension):
    • 推測などを加えることで解釈できる場合がある
    • 会話的な質疑応答では、回答が一つとは限らない
  • Xiaoiceフレームワークの製品群: 2014年から2017年まで毎年。シャオアイス、りんななど(写真撮った)
    f:id:misshiki:20190530103308j:plain
    Xiaoiceフレームワークの製品群
  • 手話翻訳: 動きを理解してから、自然言語の文を作成する
  • その他には、中国の古典を生成するサービス、中国の漢字を当てるサービス、画像から詩を生成するサービス
  • マイクロソフトは、どの国、どの人に対しても、自然言語処理の革新に注力したい

メディアで公開済みの記事一覧

第1回 Jetsonユーザー勉強会 聴講ノート

※これはセミナー聴講時の個人的なノートをそのまま公開したものです。誤字誤植や勘違いがある可能性があるのでご了承ください。

【増員】第1回 Jetsonユーザー勉強会(超初心者も大歓迎!) - connpass (リンク先にスライドあり)

JetBotの作り方(RYOYO ver.)

菱洋エレクトロ。JetBotを作りかたを初心者向けに説明します

NVIDIAインダストリー事業部 FAE:Chris To, SA :大串 正矢

Jetsonシリーズ 概要紹介

Jetson TIPS

DeepStreamとTensor RTの概要紹介

(10分) 株式会社GClue 佐々木 陽 JetBot Kit化の格闘記

JetBotの筐体の改造から独自基板の作成まで(深センでGWに1人合宿して開発)の苦労話をLTします。

  • ハードウェアのシリコンバレー「深セン」
  • 華強北(フアチャンベイ):深センの秋葉原
  • 10cmx10cmの基盤を起こすのがたったの220円(現地価格で80円)
  • T-962
  • NVIDIAが指定した最新3Dプリンターでないと苦戦する(それで9時間)
  • タミヤのキャスター:70144 ボールキャスター 1個 タミヤ(TAMIYA) 【通販モノタロウ】 05686503
  • キットで買えるようになる?

以降、メモなし。

(10分) LT:井上 AIoTをお手軽に実現した話

(10分) LT:大橋 Jetson活用事例 食品工場でのカメラによる衛生・安全管理システム

(10分) LT中畑 JetPackにはいっているDemoをその場で実行します

AWS DeepRacerを含む AWSの機械学習サービスに関する記者説明会 参加ノート

【AWS ジャパン】2019/5/23 強化学習の完全自走型レーシングカー「AWS DeepRacer」を含む AWSの機械学習サービスに関する記者説明会

f:id:misshiki:20190523152225j:plain

※これはレポート記事にする前の個人的なノートをそのまま公開したものです。誤字誤植や勘違いがある可能性があるのでご了承ください。当日配布の発表資料に含まれていることは基本的に省略しています。

AWSの機械学習サービスと、AWS DeepRacer

  • 機械学習に興味をもつエンジニアを増やしていけたらよいという取り組みの一つ
  • Alexaなど実ビジネスの中で取り組み、学んできた
  • AWSではさまざまなレベルで機械学習サービスを提供している
  • リーグ - AWS DeepRacer | AWS
  • 機械学習のテクノロジー(強化学習:報酬が高くなるように学習する手法)を使って自走する車のレース
  • 機械学習のモデルを作って自律運転・自動運転させる
  • 世界の各都市でSummtサーキット(大会)を開催: DeepRacer のスケジュールと順位
  • バーチャルサーキットのレースもある
  • バーチャルの中で評価してから実世界で試すことができる(最初から実世界だとぶつかるなどさまざまな問題がある)
  • 無料の学習コンテンツ: e ラーニング | AWS Training & Certification

DNPにおけるAWS DeepRacerを活用した人材育成

  • Builder: AIを活用できる人材のことを指している
  • AWSはそういった人材育成に役立つ環境と考えている
  • そこで、AWS DeepRacerの社内レースを実際に開催する(バーチャルサーキット)
  • 公式のバーチャルレースにも参加している
  • 紙でコースを作ったり、電光掲示板を電子工作で作ったりして、盛り上げている
  • 6月後半以降、定期的に「WS DeepRacer GP powered by DNP」一般開催の予定(6/12に発表予定)

質疑応答

  • DeepRacerは報酬関数などモデルの一部をカスタマイズできるが、完全に独自のモデルを持ち込むことはできないが、ダウンロードして持ち出すことはできる。
  • クラウドの利用料金については、トレーニングを回すだけなら3ドルくらいの数ドルと考えてよい
  • 実機はいつごろ手に入るか?
    • モデルを作る環境はすでに提供を開始している。バーチャルサーキットにも参加可能
    • 実機(技適取得済み:まだ取れていない)は発売日は未定。AWS Summitにはお披露目できる
  • 実機はいくらになるか?
  • 実機のスピードは分からないが、バーチャルでは5 m/秒のはず
  • 実機にはカメラが入っており、中継映像ではなく、録画映像(リプレイなど)という形で見られる

ネット上のAWS DeepRacer関連記事のリンクまとめ(より詳しい情報が出てきています)

AIと機械学習を成功させる「DataRobot」無料ハンズオン!! #NSStudy 15 聴講ノート

※これはセミナー聴講時の個人的なノートをそのまま公開したものです。誤字誤植や勘違いがある可能性があるのでご了承ください。

AIと機械学習を成功させる「DataRobot」無料ハンズオン!! #NSStudy 15 - connpass

19:05~19:35 (1) DataRobotプラットフォーム概要紹介(DataRobot Japan株式会社 中山 晴之 氏)

データサイエンティスト不足には、AIの民主化しかない

  • 「年25万人、政府戦略」というニュース記事が2019年3月に配信された
    • 年25万人?! 4年制大学の理工系12万人しかいない。それ以外の文系42万人なども含めて、データサイエンティストという話だが非現実的
  • データサイエンティストってどんな人?
    • ドメイン知識、IT技術、数学・統計学、といっ知識・スキルが必要
      • 例えば、Python関連、R言語の勉強など
      • どうやって出店場所を決めているかなどのドメイン知識も不可欠
    • 統計学、プログラミング、アルゴリズム、ドメイン知識(実務知識や実践経験)を学ぶ必要があり、途中で脱落していく
  • データサイエンティストはどれくらい需要があるか?
    • ありとあらゆる業種・分野でAIは使われている
    • 需要は増えているのに、人材供給をすぐには伸ばせない。需給にギャップがある
  • だからAIの民主化しかない
    • 方法1: 既存のデータサイエンティストの生産性を大幅に増やす
    • 方法2: 普通の人がデータサイエンティスト並みの能力を発揮できるようにする
  • AIは「ブラックボックス」だから、怖くて使えない?!
  • そこでDataRobot
    • グレーボックス化技術がある
    • Kaggler上位入賞者がDataRobotを開発している
    • 今ではあらゆる分野で使われており事例がたくさんある
    • (売れすぎてDataRobotに人が足りない)

19:45~20:30 (2) DataRobotハンズオン (DataRobot Japan株式会社 中山 晴之 氏)

後半はとても眠くてあまりちゃんと書けてないです。

f:id:misshiki:20190704231806p:plain
貸し倒れ確率

  • ドラッグ&ドロップでデータを投入すると、探索的データ解析が自動的に行われ、終わると「ターゲットを選択」と表示される

f:id:misshiki:20190704231853p:plain
ドラッグ&ドロップでデータを投入

  • 「LCData_JP_train.xlsxを精査」をクリックするか、スクロールダウンすると、分析済みの内容一覧が表示される

f:id:misshiki:20190704231936p:plain
「LCData_JP_train.xlsxを精査」をクリック

f:id:misshiki:20190704232025p:plain
分析済みの内容一覧が表示される

  • 例えば「ローン額」をクリックするとヒストグラムが表示される
  • 「ID」や「メンバーID」には「リファレンスID」と表示されており、これは特徴として使えないことが認識されている
  • 他には「申し込みタイプ」は「値が少ない」と表示され、これも特徴としては自動的に使われないことを示している
  • 「ターゲットを選択」をクリックすると、「何を予測しますか?」欄に入力できるようになる。今回は「貸し倒れ(率)」を予測する

f:id:misshiki:20190704232204p:plain
「何を予測しますか?」欄に入力

  • 「開始」ボタンを実行すると、モデルの作成が始まる

f:id:misshiki:20190704232528p:plain
モデルの作成が始まる

  • DataRobotには2000ぐらいのアルゴリズムがあるが、その中から適切なものを選びだして、30~70個ぐらいのモデルを自動的に作る
  • 30個ぐらい作るのは、事前にどれがよいか分からないので、テストで精度が最も良いものを選びだす
  • Kaggleで良い成績を出しているアンサンブル学習=「Blender」と書かれているモデル。これも自動的にやってくれる
  • 右上のワーカーを増やして処理を速めることもできる

f:id:misshiki:20190704232616p:plain
モデルの作成が完了

  • 「モデル」タブで、作成済みのモデルが精度順に並ぶので、一番上のものを使うには、まず★(お気に入り)を付ける

f:id:misshiki:20190704232726p:plain
★(お気に入り)をフォルターできる

  • モデルの説明や解釈を見る: 「解釈」→「特徴量のインパクトを計算」→「特徴量ごとの作用」→「特徴量ごとの作用を計算する」

f:id:misshiki:20190704233157p:plain
特徴量ごとの作用を計算する

f:id:misshiki:20190704233228p:plain
特徴量ごとの作用(1)

f:id:misshiki:20190704233249p:plain
特徴量ごとの作用(2)

f:id:misshiki:20190704233305p:plain
特徴量ごとの作用(3)

  • アルゴリズムによって、必要があればOne-hotエンコーディングも自動的に行う
  • 特徴量はいくつでも受け入れるが、特徴量を絞った方が良い結果が出ることが多い
  • △が出ている特徴量は削った方がいい。それには「特徴量セットを作成」を実行

f:id:misshiki:20190704233413p:plain
特徴量のインパクトを計算

f:id:misshiki:20190704233450p:plain
特徴量のインパクト

f:id:misshiki:20190704233505p:plain
△が出ている特徴量は削った方がいい

f:id:misshiki:20190704233528p:plain
特徴量セットを作成

  • インサイト、ワードクラウド、=どういう文字があると貸倒しやすいかなどを明示

f:id:misshiki:20190704233025p:plain
インサイト

f:id:misshiki:20190704233042p:plain
ワードクラウド

  • モデル、速度対精度、=アンサンブル学習は精度がよいが時間はかかる

f:id:misshiki:20190704232901p:plain
速度対精度

  • モデル、学習曲線、=16%ぐらいで予選、32%ぐらいで再予選、、64%ぐらいで決勝戦
  • 予測タブ、LCData_JP_10rowsデータ(貸し倒れの項目が空)を投入。『予測を計算』、ダウンロード

  • デプロイ

f:id:misshiki:20190704233700p:plain
新規デプロイを追加

f:id:misshiki:20190704233732p:plain
モデルをデプロイ

  • バッチ予測

f:id:misshiki:20190704233840p:plain
バッチ予測

  • 予測の説明

f:id:misshiki:20190704234024p:plain
予測の説明(1)

f:id:misshiki:20190704234040p:plain
予測の説明(2)

  • 説明:ブループリント

f:id:misshiki:20190704234219p:plain
説明:ブループリント

Amazon SageMaker 事例祭り(2019 年 4 月 17 日開催) 聴講ノート

※これはセミナー聴講時の個人的なノートをそのまま公開したものです。誤字誤植や勘違いがある可能性があるのでご了承ください。

Amazon SageMaker 事例祭り(2019 年 4 月 17 日開催)

13:45~14:30 Amazon SageMaker の基礎 (アマゾン ウェブサービス ジャパン株式会社 ソリューションアーキテクト 鮫島 正樹)

  • 典型的には「開発と学習(データサイエンティスト)」「推論(エンジニア)」というプロセスがある
  • 「開発と学習」の課題:
    • 環境構築が大変
    • 複数の学習ジョブを並列で実行するのが大変
    • 複数マシンを使った分散学習を実現するのが大変
    • 学習結果を管理するのが大変
  • 「推論」の課題:
    • 推論用のAPIサーバー構築とメンテが大変
    • エッジデバイスへのデプロイが大変
    • バッチ推論の仕組みを作るのが大変
  • そこでSageMaker:
    • 数分で開発環境を起動できる
    • 学習・推論環境は柔軟にスケール
    • 多数のAPIを提供
    • 東京を含む13リージョン
    • SDKはオープンソース
  • SageMakerのメリット:
    • 開発・学習・推論は個別に利用可能
    • 開発: ノートブックインスタンスは数分で起動できる。主要ライブラリはインストール済み
    • 学習: 開発と学習は分離。複数ジョブを同時実行。分散学習可能
    • 推論:APIを叩くだけ。オートスケーリングやA/Bテスト機能もある
    • インフラ管理を気にせずに、すぐに機械学習を始められる
    • さまざまなワークフローを加速させられる
    • オープンソースなので、オンプレミスで利用することも一部だけ利用することも可能
  • 開発: マネージドなノートブックインスタンス
    • 上記の特徴
    • 異なるインスタンスを組み合わせられる
    • 複数人の開発でもコードの管理が簡単
  • 学習: 分散学習と複数ジョブ同時実行
    • 上記の特徴
    • 学習が完了すると自動でインスタンスが止まる
  • 推論:APIエンドポイントやバッチ推論
    • 上記の特徴
    • 推論の負荷に合わせてGPUを適用できる機能「Elastic Inference」もある
  • SageMakerの事例:
    • 事例:Delyの料理レシピ動画のリコメンデーション
    • 事例;SmartNewsのニュースキュレーション
    • 事例;GE Healthcareの医師診断支援
  • SageMakerで必要なもの:
    • 学習データ:
      • 「Amazon S3」に置く
    • 機械学習のコード:
      • 「SageMeker」特有の書き方があるわけではなく通常どおりでよい
      • 気を付けるのは、S3とのファイル入出力とコンテナイメージに合わせた動作定義が必要
    • 実行環境(コンテナ):
      • 「Amazon ECR」にコンテナイメージを置く
  • インスタンスは3種類がある:
    • ノートブックインスタンス(開発用。学習データはS3から読み込む):
      • 16TBまでのディスクをアタッチ可能
      • Pandas標準インスタンス
      • EMRを呼び出すことも可能
    • 学習用インスタンス(自動的に停止して削除される。モデルはS3に格納される):
      • ビルトインアルゴリズム(画像、数値・系列解析、自然言語処理、レコメンデーション、汎用系)を使用可能
      • AWS Marketplace for Machine Learning(AWS Marketplace: Search Results
    • 推論用インスタンス(エンドポイント経由でS3にあるモデルを使う):
      • リアルタイム推論: deploy()関数を呼ぶだけでエンドポイントを構築できる
      • バッチ変換ジョブ(バッチ推論): リアルタイムではないが常時立ち上げなくてよいのでコスパがよい
  • SageMakerのデモ
  • SageMaker Example Notebooks:
  • SageMaker SDK:
  • SageMaker公式ドキュメント:

14:30~15:15 Amazon SageMaker Ground Truth の使い方(アマゾン ウェブサービス ジャパン株式会社 ソリューションアーキテクト 針原 佳貴)

  • データにラベル(Ground Truth)を付けるためのアノテーション支援ツール
  • Amazon SageMaker Ground Truth | AWS
  • 教師あり学習:
    • 予測値とラベル(Ground Truth)の比較
    • アノテーション(ラベル付け)が必要
  • ラベル付けの難しさ: 大規模データセットが必要。人間が行う。精度が必要。時間もお金もかかる。ツールの準備(ユーザーを集めて認証、UI、進捗管理)
  • そこでAmazon SageMaker Ground Truth:
    • 一般的なワークフローをサポート
      • AWS Lambdaを使うなどのカスタムラベルのワークフロー
    • 4種類のラベリングツールを提供
      • 画像分離、物体検出、セマンティックセグメンテーション、文章分類、さらにカスタムジョブも可能
    • アノテーションをするワーカー(人、以下の3種類)との連携・管理機能を提供
      • パブリックワーカー: Amazon Mechanial Turkで24時間365日、50万人の労働力(※日本人ではない)
      • プライベートワーカー: 社員などを登録。データは組織内にとどまる。ワーカー管理はCognitoを利用
      • ベンダーワーカー: AWS Marketplace登録済みのサードパーティベンダーに依頼
    • 大規模データセットに対して自動ラベリング(通常は70%のコストカットにつながる)
      • アクティブラーニングと自動データラベリング: 信頼度が低いデータは人間がアノテーションする。人がラベル付けしたデータからアクティブラーニングのモデルを作成
        • アクティブラーニング=人によりラベル付けされるべきデータと機械がラベル付けできるデータを特定する手法(機械学習のテクニック)
  • Amazon SageMaker Ground Truth の事例は多岐に渡る
  • 価格: 利用料$0.08/個
  • 提供リージョン: 東京あり
  • 4つの利用ステップ:
    • データセットの準備: S3バスケットを用意。アノテーション対象の画像やText/CSVファイルを格納。入力用のマニフェストファイル(input.manifest)で"source-ref"にS3のパスを指定(もしくは"source"に直接テキストを書くこともできる)
      • ジョブ名、入力データセットの場所(入力用のマニフェストファイルを指定)、出力データセットの場所(ディレクトリパスを指定)、IAMロールなどを設定する
        • 出力ディレクトリに生成されるマニフェストファイル(拡張マニフェストファイル:output.manifest)
    • タスクの定義: 画像分離、物体検出、セマンティックセグメンテーション、文章分類のいずれかを選択。もしくはカスタムジョブ
    • ワーカーの選択: パブリック、プライベート、ベンダーのいずれかを選択
    • ラベリングツールの設定: アノテーションの指示書を書く。良い例・悪い例を記載。ラベルを設定
  • object_detection_tutorial.ipynbファイルにAmazon SageMaker Ground Truth で鳥のラベル付けのデモがある:
  • SageMaker Ground Truth公式ドキュメント:

15:45~17:15 Amazon SageMaker 事例発表

「Diversity Insight for Retail」でのSageMaker導入と今後(GMOクラウド株式会社 プロダクトマネージャー 山下久知 様)

  • GMO Cloudには「IoTの窓口」というAI・IoT事業がある
  • SageMakerを利用したSaaSプロダクト「Diversity Insight for Retail」の紹介:
  • SageMakerを導入した理由:
    • 3つのメリット: 簡単にエンドポイントを立てられる、マネージドサービスが良い、スケーラビリティとコストのバランスが良い
  • SageMakerを導入後の課題:
    • もっとコストを下げたい: → 解決策:軽量モデル化によってコストダウン(PyTorchを使って高速化)
    • 推論コストが積み上げって、高負荷になりタイムアウト: → 解決策:インスタンスをスケールアップさせる
      • メモリ不足、コア不足、レイテンシの課題: 推論リクエスト件数の多さ(1画面あたり100万件の推論実行)
      • 見える化(グラフ描画)するコスト
      • など
    • Pythonが遅い: → 解決案:C++やJuliaなど高速な言語に対応したい
  • 軽量化・高速化:
    • バッチトランスフォーム化: バッチ推論する方式に変更
    • エッジの比重を増やす: Jetson Nanoを使うことでエッジ推論の性能や比重を上げたい
  • 非Python化:
    • Julia/C++/MKL-DNNなどで高速推論化していきたい。Pythonと比べると数十倍の差が出ている状況
  • まとめ:
    • SageMakerを利用することで、APIをスピーディに開発できるが、性能チューニングやアーキテクチャ選別などの工夫は結構な工数が必要

「えっ、なぜSageMakerなの?」(株式会社オークネット・アイビーエス ジェネラルマネージャー 黒柳 為之 様)

  • 2017年「KONPEKI」、2018「EDIS」が、書籍でケーススタディとして紹介された
  • 「AUCNET IBS」における画像認識AIの取り組み事例:
    • EDIS
    • SODAI Vision API
    • Andy Photo Book
    • KONPEKI
  • SODAI Vision API:
    • 粗大ごみかどうかを判定して返すAI(LINEで試せる)
    • AWS Lambda、SageMaker、など
      • いかに管理コストを下げ、スピードを上げるか、という理由から使った
  • Andy Photo Book:
    • 大量の写真から笑顔をピックアップするAI
    • 卒業アルバム制作大手の株式会社イシクラと連携して開発
    • AWS Lambda、SageMaker、Rekognition、など
      • SageMakerを使うことでRekognitionのコストを下げた(1/200まで下げられた)
  • サービス用プラットフォーム「Hanzo」:
    • Hanzoはサービスのゲートウェイとなっている
    • EDIS、Photo Book、KOPEKIといったサービスにアクセスできる
  • これまでのAI開発の歴史:
    • 2016年: 仮想マシン+TensorFlow
      • APIなど自前でいろんなことをする必要があり、コストと時間がかかった
    • 2017年: EC2インスタンス+TensorFlow+Keras
      • インスタンスを自前で管理していたので、大変だった(運用コスト)
    • 2018年: SageMaker+Keras
      • 自前ではなくて、利用しやすいAPIを使うだけになった。インスタンス管理も自動。コストと時間を大幅に節約できた
      • アプリケーション化が容易になった。試行回数が増えて、モデルの精度向上につながった
  • SageMakerの欠点:
    • デフォルトで用意されている組み込みアルゴリズムをより汎用的にしてほしい(例えば、画像分類用はResNetだけ、画像の増加パラメーターが指定できなかったなど)
    • インスタンスの起動やデータのダウンロード進捗状況が詳細に欲しい(いつ終わるかは時間を見るくらいしかできない)

「不適切コンテンツ検出」の機械化と安定運用(株式会社 ミクシィ Vantageスタジオ mixi事業部 岩瀬靖彦 様)

  • 「機械学習による不適切コンテンツ検出」の実装と成果 – mixi developers – Medium をベースにした話
  • 「健全性の維持」のために:
    • 不適切投稿の一例「お金ちょうだい」など: 犯罪行為など社会に大きな影響を与えかねない事例があるため、監視する必要がある
    • 機械化による負荷軽減。危険度を判定するモデルを作成する
  • 成果:
    • 監視対象の80%以上の判断を機械に任せられるようになった。残った20%は人間が目視によって判断する
  • 危険度判定モデル(言語処理の例):
    • 短文/長文/画像といった投稿種類に合わせたモデル(二値分類)を作成
    • Amazon S3、ECS、ECR、SageMakerなどを使用。SageMakerによって一元管理されている
    • 前処理: 生データとなる文章群を加工成形してS3に格納
    • 学習: S3からデータセットを取り出してモデルを作成
    • 推論: エンドポイントを生成。API GatewayとLambdaを経由させてREST APIとする
    • 運用フローへの組み込み: 既存の投壺監視フローに先ほどのAPIを導入した
  • 細かな部分のアーキテクチャ解説:
    • カスタムアルゴリズム: 例えばコンテナ内で日本語処理したい場合(N-gramならカスタマイズ不要だが形態素解析なら必要)は独自コンテナが必要になる
    • 定期実行タスク: 新しいデータを加えて定期的に更新したい需要がある。cron起動させたいが、スポット利用でよい。
      • → ECS Scheduled Task を使用。AWS Batch & CloudWatch Eventsなどの組み合わせも選択肢になる

PyData.Tokyo Meetup #19 SysML 聴講ノート

※これはセミナー聴講時の個人的なノートをそのまま公開したものです。誤字誤植や勘違いがある可能性があるのでご了承ください。

PyData.Tokyo Meetup #19 SysML - connpass

19:20 - 19:30 「PyData.Tokyoについて」 PyData.Tokyo オーガナイザー

  • Python+Dataをテーマにしたコミュニティ
  • 世界のPyDataコミュニティにつながることを目指している

19:30 - 20:10 データサイエンティストが力を発揮できるアジャイルデータ活用基盤 @suganuma-koji, @tmshn

  • 基盤を作ったり運用したりがメインの仕事
  • リクルートのビジネスモデル「リボンモデル」 =クライアントとユーザーを結び付けるマッチングプラットフォーム
  • ユーザーにリアルタイムで宿をレコメンドするデモ:
    • 閲覧しているページに基づいてレコメントする宿を表示する
  • 機械学習部分:
    • Embedding: Item Embedding by word2vecで処理
  • データプロダクトのライフサイクル:
    • 知見を溜めるため、コンパクトにイテレーションを回すことが必要
    • それには幅広い技能が必要
    • コミュニケーションコストや工数の問題でイテレーションが遅くなる
  • そこで、さまざまなデータ活用案件に柔軟に応用可能なプラットフォームを用意
    • エンジニアによる都度開発を最小限に抑えて、スムーズなイテレーションを実現する
  • APIの世界:
    • Hacci API: ユーザー行動ログをブラウザからリアルタイムに取得し連携するAPI
    • 汎用API: 任意のキーバリューを設定できるAPI。Pandasから容易に呼び出すなどの機能もある
    • cetflow API: 機械学習のオンライン予測を提供するAPI
    • 集約API: CETのAPIエコシステムはマイクロサービス的に複数のシステムを組み合わせて利用できる。PythonファイルをGitHubにpushするだけで作れる仕組みになっている
  • オブザーバビリティは基盤側で担保:
    • APIのログはStackdriver/BigQueryに連携されている、など
  • リアルタイム処理システム
  • バッチの世界:
  • SQL Farm: BigQueryのSQLとYAMLファイルを書くだけでクエリを定期実行し、汎用APIに自動でロードしてくれる仕組み
  • ジョブ基盤:
    • Airflowでスケジュール・ワークフローを管理し、GKE上でジョブを実行
    • Papermill(Jupyter Notebookをバッチ実行するためのツール)が使える
  • JupyterHub:
    • ローカルではなく、クラウド環境で実行できる(つまり強力)
    • Jupyter NotebookはPythonファイルにコンバートしたうえでプルリクしている(Diff取りやすい)
  • ポイント:
    • データサイエンティストとエンジニアの関心をうまく分離して、データサイエンティストだけで施策をどんどん実行できる環境を作ろう
  • Q:さまざまなコンポーネントがあるが、どうやって技術選択したのか?
    • 関心の分離が大事で、データサイエンティストが使っている言語やツールに合わせた。自動化も優先した

20:20 - 20:50 マシンラーニング、マイクロサービス、マネジメント Shibui Yusuke

  • iOSアプルで「写真検索」機能をリリースした
    • 写真の中から欲しいモノを選択して絞り込み、検索できる

メルカリの機械学習

  • 2017年3月頃から機械学習を導入し始めた
  • 出品検知、写真検索など

SysML

  • MLエンジニア: TensorFlowなどのツールを使ってモデルを開発する
  • SysML: MlOpsとも呼ばれる。機械学習のモデルをシステムで動かす
    • ミッション: 機械学習モデルを歩版で動かす(プラットフォーム開発とインテグレーション)
    • リュケイオン: ワークフローをカバーする独自のプラットフォーム
  • ビジネスで考える:
    • 機械学習の価値は、ビジネスへの還元だと考えている。実用化こそが、SysMLのミッション
  • システムで考える:
    • マイクロサービス化するアーキテクチャにするという結論に至った
  • 出品検知: 特定種類のものを検知する。1システムで複数の機械学習モデルを稼働
    • 第1版: モノリシックで簡単なもの。特定の検知。sk-learn
    • 第1.1版: 特定の検知を2値分類にして強化。モデル追加優先。多クラス分類+2値分類。sk-learn
    • 第1.2版: ディープラーニングとlstio(A/Bテスト)の投入。アーキテクチャ改善優先。docker。TensorFlow+sk-learn
    • 第2版: QAを入れる(ユニットテストはできないからマニュアルテストを)。Kubernetes。1リリースが10分になった

20:50 - 21:00 スポンサーLT

新設ポジション・データエンジニア@Business Intelligenceの紹介 株式会社メルカリ

  • BIエンジニア: BIチーム(仮説検証、インパクトシミュレーション、効果検証)。データ基盤。データエンジニア