いっしきまさひこBLOG

Web制作関連、プログラミング関連、旅行記録などなど。

Cloud OnBoard 東京 機械学習講座 聴講ノート

※これはセミナー聴講時の個人的なノートをそのまま公開したものです。誤字誤植や勘違いがある可能性があるのでご了承ください。

期待していた以上に内容が実践的で良かったです。ここでこう悩んでこう解決するのかが分かったので。

プレゼン資料が配られたので、細かなノートは取っていません。気になったポイントだけ箇条書きでまとめました。

  • 探索的データ分析(exploratory data analysis):

    • 「どんなデータがあるのか? そのデータはそのまま使えるか、それとも前処理が必要か?」などを検討・実施していく
  • プレゼンでデモした内容(GitHub上):

  • [操作 Tips]Jupyter Notebook上でのシェルコマンド実行:

    • 行頭に!を入れるパターン
    • セルの先頭行に%%bash(マジックコマンド)を入れるパターン
      • % : 一行を対象
      • %%: セル全体を対象
  • カテゴリー変数と数値変数の違い:

    • カテゴリー変数は、離散的なラベル値。(分類に使える値ということ?)
    • 数値変数は、数値間の差に統計的な意味がある値。(回帰に使えるということ?)
    • どちらの変数でも学習できる場合、それぞれのパターンで学習して、精度が良いものを採用すればよい(あえて一方に絞る必要はない)
  • 人工的なデータ生成:

    • 例えば性別などのデータがあって、運用時に計測不可な場合もあるが、最初の学習段階で「不明」という値を人工的に作成すること
    • 既存データをコピーして「不明」にするのでデータは2倍になる
  • データ分割で年月ハッシュ値を使う理由:

    • 常に固定的なデータ分割できるので、モデルの性能評価を(年度ごとなどで)比較したいなどのときに便利
  • tf.[contrib.]learn を利用したディープラーニング:

    • 素のTensorFlowはフススクラッチで面倒
    • 最上位レベルのKerasは痒いところ(具体的には分散学習)に手が届かない
    • よってtf.learnを使う:
      • 【私見】あれ、tf.learnは非推奨じゃなかったかなと思って調べたらやっぱり非推奨だった
      • High level API for learning (DEPRECATED). This module and all its submodules are deprecated. See contrib/learn/README.md for migration instructions.
      • contrib/learn/README.md at r1.13 · tensorflow/tensorflow · GitHub
      • 代わりにtf.estimatorを使えと書いてある。tf.learnと同様の機能を提供しているっぽい
      • なんで言及なかったんだろう。気になった
  • tf.decode_csv を使ったCSVファイル読み取り:

    • tf.io.decode_csv  |  TensorFlow
    • tf.io.decode_csvが正式で、tf.decode_csvは別名
    • 効率的にファイルを読み取れる。自分で実装しなくてよいから便利
  • train_and_evaluate メソッド:

  • Wideモデル:

    • カテゴリー変数を用いた線形モデルのこと
    • カテゴリー変数は内部的に one-hote表現 に変換される
    • つまり各カラムで 10 のフラグが付く形式になり、これはif文と同じ挙動
    • 要するに、実質的には ルールベースの処理 となる
  • Feature Cross:

    • 日本語訳は分からないとのこと
    • カテゴリー変数同士の相関(AND条件と同じ挙動)を変数として足すことで、線形モデルの精度が上げられる
    • タクシーの頭の出っ張りが「黄色」で場所が「ニューヨーク」であれば、その相関(AND条件)となる「黄色×ニューヨーク」という変数を足すということ
  • Deepモデル:

    • ニューラルネットワークモデルのこと。特に数値変数の場合に良い性能を発揮する
    • Embeddingレイヤーによりカテゴリー変数を数値に変換することもできる
    • 例えば50種類の色がある場合、RGBで表現すればたった3つの数値変数で表現できる。RGBはEmbeddingの一種
  • Feature Cross + Embeddingレイヤー:

    • Feature Crossを行うと変数の数が膨大になる
    • Embeddingレイヤーを使うと変数の数を減らせる
    • よって両方を組み合わせて、変数を増やしつつ減らすという手法
  • Wide & Deep モデル:

    • WideモデルとDeepモデルを結合させて使うこと。いわゆるアンサンブル学習の一種
  • Google Cloud ML のバージョン管理機能:

    • MLモデルのバージョン履歴が残っており、簡単な操作で切り替えられる
    • 新バージョンを全体公開する前に、一部だけに公開して問題なければ全体への公開に切り替える、といったABテストのようなことが簡単にできる

ML Study Jams : Machine Learning 初心者向けトレーニングプログラム 参加ノート

※これはセミナー聴講時の個人的なノートをそのまま公開したものです。誤字誤植や勘違いがある可能性があるのでご了承ください。

2019年2月にGoogleが実施した、

に参加しました。これはその際の内容を覚えておくための個人的なノートです。

無料の QWIKLABS 環境を使って、

  • Cloud ML API: アプリ開発者向け。クラウドAPI。AzureのCognitive Servicesと同様の機能などがある
  • BigQuery ML: データ分析者向け。CREATE MODEL ステートメントなどSQL風で機械学習が行える。SQLに慣れている人やデータ中心で作業する人には便利そう
  • Cloud TPU: TPUを使うと、GPUと同様に機械学習で処理が速くなる

が学べる。

QWIKLABS とは

  • ハンズオンラボを提供するオンライン学習プラットフォーム
  • マイペースで学習できる
  • ハンズオンラボは1つ1つ独立した演習
  • 1つのラボは早いものだと10分程度、長いものでも30分程度で完了できる
  • QWIKLABSのユーザーアカウントは、GCPアカウントとは異なるので注意
  • クーポンを利用することで無料で学べる

Cloud ML API の参考情報

BigQuery ML の参考情報

Cloud TPU の参考情報

演習項目

Cloud ML API

BigQuery ML

Cloud TPU

オフライン勉強会

ほぼ上記の演習項目の自習(もくもく会)でした。でもピザとビールが出ました。

【ML Study Jams 修了記念プレゼント】

7 つのコードラボのうち、4 つ終了された方にプレゼントがあるらしいです。3/3に終わったばかりなのでプレゼントはまだ到着していません。

ABEJA主催 SIX 2019 DAY 1 for Developers 聴講ノート

※これはセミナー聴講時の個人的なノートをそのまま公開したものです。誤字誤植や勘違いがある可能性があるのでご了承ください。

ABEJA主催 SIX 2019 | 2DAYS' AI CONFERENCE : DAY 1 for Developers

DAY 1 14:20-15:00 EngineerからTechnopreneurへ 〜AI時代における21世紀のリーダーシップ論〜

  • テクノプレナーシップ: テクノロジー、リベラルアーツ(未来を洞察するスキル教育。常識からの自由)、アントレプレナーシップ
  • ゆたかな世界を実装する
  • リーダーシップとは(誰も付いてこない状態で自分をリードしてから)フォロワーが現れて、ビジョン(自分の夢がみんなの夢になること)を目指すこと
  • リーダーシップを発揮して見えないものを見えるようにするために、リベラルアーツが必要になる
  • リベラルアーツの本質は、自分は何もので、未来はどうなるかを、自問し続ける姿勢そのもの

DAY 1 15:20-16:00 アノテーションで精度の高い教師データを作成する為に必要な仕組み

  • アノテーションとは、非構造データ(生データ)にタグ付けを行うこと(=アノテーション)で、構造データ(=学習できるデータ)にすること
  • 例えば服の傷をマーキングしたりすることがアノテーション
  • [高品質な教師データ作成サービス ABEJA Platform Annotation](https://abejainc.com/platform/ja/feature/annotation/lp/03.html
  • データセットは、データサイズが大きく、ノイズが少ないものほど、精度は良くなる
  • 精度の高いデータセットを作るには「アノテーションの要件定義」「」「」が大事
  • アノテーションの要件定義: 実ビジネスは犬猫の判断ほど簡単ではない。例えば犬種の分類やイカとエンガワの寿司など。人間でも見分けが付きにくいと、アノテーターも迷うので、精度が悪いデータセットになる
  • 解決案としては、(1)詳細なルール決め、(2)ラベル間引き(和集合は片方だけに寄せる)
  • 画像の解像度や画質、画角、輝度などがバラバラだったり、境界があいまいなものはアノテーターにより結果がぶれる
  • 解決作としては、複数人による冗長性アノテーションで、多数決・平均化・アノテーションごとの重み付けなどを行う
  • 熟練工しか判断できないものをデータセット化する場合の課題: 識別するラベルが細かいなど
  • 解決案としては、(1)画像補正(傷が目立つようにする前処理など)、(2)境界線定義(レベル123ごちにMINとMAXを定義する)、(3)チェックフロー定義
  • マニュアル改善支援: 熟練者の意見をもとにマニュアルを作り、それを初心者に展開する。それでほぼ同等の精度でできるなら、より早くアノテーションできる。それを熟練者がレビューする方が効率的
  • アノテーターの分析: ログをデータベースに蓄積してさまざまな分析を行う
  • 事前推論の機能をリリースしているが、アノテーション作業を、モデルの推論結果がフィードバックされた状態から行える。一からアノテーションするよりもはるかに効率的
  • 事前推論の留意点としては、アノテーション作業が雑になって、モデルの間違いを見逃しやすくなってしまうこと。わざとノイズをかけたダミーで雑になっていないかを定期的にチェックする
  • 自動領域抽出
  • 能動学習(アクティブラーニング): モデルが認識しづらいものを優先的にアノテーションしてもらう仕組み

DAY 1 16:20-17:00 もうブラックボックスとは呼ばせない ~機械学習を支援する情報可視化技術

  • 人はなぜ可視化するのか
  • 情報可視化の用途: 概観、解明、操作、報告
  • 折れ線グラフの見方は、注釈によって注目ポイントが変わってくる(例:Facebookのお別れ数グラフ: Facebookのデータ10000件から明らかになった「恋人達の別れの季節」5つ - DNA
  • 機械学習の運用を完成させるための可視化アプローチを紹介
  • 3つの立場: 普及型、科学的探究型、問題解決型
  • 普及型ソフトウェアの例: Google Facets
  • 機械学習の可視化の基礎研究例(1): CNNによる物体認識過程の可視化
  • 機械学習の可視化の基礎研究例(2): 訓練データのわずかな揺れによりDNNが不正確な予測を生み出す際の内部構造を詳細に可視化
  • 機械学習の可視化の基礎研究例(3): GANが実物そっくりの精巧なフェイクを作り出す過程をGenerator/Discriminatorの両面から可視化
  • 手元にある機械学習の問題を解決するための可視化: データ編集、前処理、モデル構築、学習結果の探索、それぞれのフェーズで可視化することが議論されている
  • これまでの試みについて: 電力管理システムへの異常入力して異常パターンを可視化、回帰分析結果の誤差を可視化、気象と販売との相関を可視化、訓練データのアノテーション状況の可視化

DAY 1 17:20-18:00 Deep Learningの都市伝説と現実

  • ABEJA Arts Blog
  • まことしやかに語られている情報=都市伝説について見分けられるようになるのがテーマ
  • リテール、AI運用、アノテーションなどつらいことだらけ。泥臭いことをやって解決している
  • AI=汎用人工知能? そうではない
  • AI > ML > DL。MLのことがAIとして語られることが一般的
  • 現状で最も実用的なMLは教師あり学習
  • 高度な知能 > 意思決定 > センシング。教師あり学習はセンシング~一部の意思決定まで。現在実現できているのはごく一部
  • 人間は賢い。AIはスケールできる。両者には得意分野があるのが現状
  • 賢くAIを使うのが賢い
  • ビッグデータ+ディープラーニング=勝利の方程式は本当か?
  • 収集、アノテーション、学習、評価、運用という流れにそって情報は欠落するが、できるだけ上流で欠落させないことが重要
  • ノイズのないクリーンなデータで学習した方が精度が高くなりやすく、過学習しいくい。つまりアノテーションの精度が大切
  • 例えばVGG Face Datasetはかなりクリーンなデータセット
  • ビッグ「クリーン」データ+ディープラーニング=勝利の方程式 が正しい
  • アノテーションは簡単ではない。ぶれるのが当たり前
  • タスクや人間を理解したうえでアノテーションをした方がいい
  • 半教師あり学習: 少量の教師ありデータと大量の教師なしデータから学習する。Temporal Ensemble(TE)、Mean Teacheraなどの方法がある
  • データ自体が少ない場合:転移学習、事前学習など
  • BERT: 言語理解タスクでの新しい強力な教師なし事前学習手法
  • GPT-2: クリーンで多様なデータで巨大な言語モデルを教師なし学習
  • ImageNet(画像データセット)はテクスチャー依存になっている研究論文がある。汎論として、ImageNetの事前学習は精度向上には役にたたないが、安定性いは貢献するという論文もある
  • アノテーションを先にした方がいい。事前学習をしよう
  • AIによるパラダイムチェンジ: 人間が明示的に定義できなものでさえ、実装できる
  • AIを使わない理由はない。正しい技術を正しく使って差別化しよう
  • Taskonomyという論文。タスクの分類体系。タスクの相関関係を学習することで未知のタスクにも適用できるかもしれない
  • 3B: Big Task + Big Clean Data + Big Deep Learning

Google ColaboratoryのRAM(メモリ)とディスクの残量表示

今日、Google Colabを触っていて気付いたが、RAMとディスクの表示が増えた気がします(以前はなかったよね...?)。

f:id:misshiki:20190225140604p:plain
RAMとディスク

この表示は「ホスト型ランタイムに接続」している場合だけかもしれません(※「ローカル型ランタイムに接続」は試していません)。

これによると、

  • RAM: 12.72GB
  • ディスク: 48.97GB

という容量になっています(※あくまで今回。時期や状況によって増えたり減ったりする可能性があります)。容量面での制限を意識する際の参考になりそうです。

2019年の自分戦略(機械学習 & ディープラーニング)

今回は「決意表明・所信表明」的なものを書いてみました。有言実行を頑張ろうと思います。

Deep Insider における仕事の現状

2019年も1カ月が過ぎました。わたしの今の仕事は、「Deep Insider: 機械学習エンジニアを目指す人~初中級者のための技術情報サイト」の編集長です。このサイトを2018年4月16日にオープンしてから、早くも約10カ月目です。Google検索からの流入が大きいと思うのですが、Deep Insiderの各記事のページビューも上がってきており、各記事の閲覧時間も約30分ほどでしっかりと読まれているようで、まずまずの成果が出ているのかと思います。

Deep Insiderは、当初、「デベロッパー寄り」の読者像をイメージしてコンテンツを展開していました。現在の好調はそのころの成果に寄るところが大きいと思います。9月~11月ごろには記事展開方針に調整が入り、「エンジニアの素養はある程度持つが、機械学習やディープラーニングはまったく初めて取り組む、幅広い層の人材」を読者ターゲットに、より一段優しい内容のコンテンツを作成し始めました。

それが、下記の『機械学習 & ディープラーニング入門』連載群です。

これらを4カ月ほどかけて執筆しました。若干、急いで書いて殴り書きの部分があるので、問題ないか丁寧に見直しながら、順次公開していっています。目標としては、4月になる前にすべてを公開し終わりたいと思っています。

「機械学習」や「ディープラーニング」のコンテンツで思うこと

わたし自身は、もともとデベロッパー系のWeb編集者&ライターであり、C#を中心にプログラミングを20年近くやってきました。2017年ごろから、機械学習やディープラーニングを徐々に学び始めて約2年間になります。今は、データサイエンティストや機械学習エンジニアのように、イベントに参加して情報を収集しています。

そこで感じるのは、デベロッパーは昔はJava、少し前はRuby、今はPython?など、ズブの素人から学べる雰囲気があり、実際にプログラミングやWeb制作などに手を出す人は非常に幅広いということです。だから書籍などのコンテンツも、本当に中学生や小学生でも学べるようなレベルから解説しているものが多くあるのではないかと思います。

一方、機械学習やディープラーニングは学術的な雰囲気があり、特に数学が苦手な人など、ズブの素人はあまり手を出していないという気がしています。デベロッパーから機械学習エンジニアやデータサイエンティストへの転身も、想像していたよりは多くない気がしています。そのせいか、より教科書的で、厳密にまとめられた書籍が、好まれているのかなと考えています。逆に言うと、中学生や小学生でも学べるようなレベルから解説しているものは少ないのではないでしょうか。

Deep Insider編集部の中で喧喧諤諤の議論があって、上記のような連載群をわたし自身が執筆することになりましたが、「機械学習」や「ディープラーニング」のコンテンツという観点で、かなりオリジナルな立ち位置を確保できたのではないか、と自分のことながら考えています。しかも、概要の概要から、Python、本当に初めての基礎実習までを、1人の筆者で一気通貫で執筆できたのは、個人的にも本当にラッキーだったと思っています。

「機械学習 ディープラーニング 入門」をわたしの代名詞に

冒頭でGoogle検索の話を書きましたが、上位のページ(中には1位)の記事もちらほらとあり、「機械学習 ディープラーニング 入門」を検索すると上記の連載群がヒットするようになりました。

わたし自身の経歴では、2003年からC#を扱い初めて2017年までの14年間、C#関連の記事を出し続けました。わたしを知っている人は「C#の人」と理解しているケースが多いです。その強烈にこびりついたラベルを、2019年、剥がしに掛かりたいと思っています。

つまり、これからは「『機械学習 ディープラーニング 入門』でググれ」を自己紹介に使っていこうと(※とある「C#でググれ」の人のパクリです……)。

今から、検索キーワード長すぎだけど「機械学習 ディープラーニング 入門」の人となりますので、今後ともよろしくお願いいたします。

Microsoft MVPは更新しないつもり

こちらの記事:「Microsoft MVP を12年連続受賞。Visual Studio and Development Technologies [2018-2019] カテゴリ - いっしきまさひこBLOG」にあるように、2007年からC#に関連するカテゴリでMicrosoft MVPをなんとか受賞してきました。しかし今後のわたしにとって、このラベリングは逆効果になるかなと思っています。

もちろんMicrosoft MVPにもAIカテゴリがあり、それを目指してもよいかもしれません。しかしながら、やりたいことをやって結果的に受賞したのであればよいですが、受賞を目指して何かをやるのはおかしいかなと思っています。

マイクロソフト技術で「機械学習」や「ディープラーニング」というと、確かにCNTK(Cognitive Toolkit)がありますね。しかし、TensorFlow/Keras、Chainer、PyTorchなどの有力候補がある中、CNTKになかなか触手が伸びないし、そもそもマイクロソフトはCNTKを諦めたのではないかと想像しています(※そう思った理由はありますが、ここはパブリックな場なので書くのはやめておきます)。

マイクロソフトは、CNTKよりも、C#で機械学習ができる「ML.NET | Machine Learning made for .NET」を押しているとわたしは見ています。ML.NETはわたしも試してみました。しかしまだ発展途上で、「えっ、これもできないのか」など思ったこともあり、記事にして広く紹介したい、という気持ちにはなれていません。

ML.NETもそうですが、マイクロソフトが見ているのはデベロッパーや既存のエンタープライズ向けベンダーであり、データサイエンティスト/機械学習エンジニアやデータ分析の企業ではないと感じています。今のマイクロソフトの売りはAzureであり、AIという分野ではCognitive Servicesを一番強く押していると思います。Cognitive Servicesは確かに確実に結果が出せる学習済みモデルであり、何らかのシステムに組み込むのであれば非常に便利です。でも、それこそがデベロッパー目線だと感じるゆえんです。Cognitive Servicesは他の筆者記事で展開することはあれど自分で書くことはあまりないかなと思います。

ということから、AIカテゴリでの申請もちょっと難しいかと、今のところ考えています。

わたしが一番使っているライブラリはTensorFlow(Keras)なので、同様の受賞を目指すならGoogle Developers Expertsになるのかなと思っていますが、目指すのはまだまだ先の話ですね。

『機械学習 & ディープラーニング入門』連載群の後

『機械学習 & ディープラーニング入門』連載群の後には、実はまた変化が予定されているのですがそれはまだ秘密として、例えば機械学習エンジニアやデータサイエンティストにすでになっている人が読んで楽しめる単発記事などが増える予定です。なので「単発記事を書いてもいいよ」という人をできるだけ多く、今春は探していきます。わたし自身も新しいものを書いていきたいと思います。

DEEP LEARNING LAB: AI開発を円滑に進めるための契約・法務・知財 聴講ノート

※これはセミナー聴講時の個人的なノートをそのまま公開したものです。誤字誤植や勘違いがある可能性があるのでご了承ください。

DEEP LEARNING LAB: AI開発を円滑に進めるための契約・法務・知財 - connpass

第3 AIの生成に関する法律問題

  • AIで問題となるのは「提供:第三者提供の場合には原則として本人の同意が必要」

    1. . 書面なりで第三者提供の最初から取っておくのが望ましい
    2. . 誰のモノか分からない状態(=復元できない状態)にしてしまうと規制がかからない
    3. . 以降は細かいので省略
  • 質問への回答: 著作権は著作物に対するモノ。センサーカメラの画像データは著作物ではない

  • 質問への回答: クラウドに預けているデータは貸金庫のようなもので提供しているわけではないと考える
  • 質問への回答: 個人情報保護は民間用。国や大学は違う法規制になっている

第2 AIの生成に関する法律問題

  • 著作権法上の複製と翻案をしてデータを作っている
  • 複製権、上映権、公衆送信権などの権利をまとめて「著作権」と呼んでいる
  • 著作権には一定の例外(=「権利制限規定」)をもうけている: 例えば私的複製や引用は無断にしてよい
  • その例外の1つが「著作権法30条の四」:

    • できたて1月1日から施行されている。著作権を持つ生データから営利的に学習用データセットや学習済みモデルを生成できる
    • サーバーの所在地が重要。作業を日本でしていれば、どこの国のデータを使ってもよい
    • 世界でも珍しい法律。日本はパラダイス。機械学習したかったら、日本に来た方がいい
    • 手塚治虫の漫画をデジタル化してそのまま読めてしまう状態で売れば、それは当然、この法令の適用とはならない
  • 質問への回答: ネットに転がっている画像をデータセットに使える。例えばテレビCMでも同様に利用できる

  • 質問への回答: Webサイトの管理人が「無断で使うな」と書かれている場合は、確かに適用外になる? 利用規約で制限されているなら

1 性能保証・検収・瑕疵(かし)担保

  • 1と2が大切:「1. AIと通常の開発は違うと理解してもらう」「2. 開発プロセスや契約を分割する」「3. 契約内容の工夫」
  • AIと通常の開発は違うと理解してもらう
  • 開発プロセスや契約を分割する
    • AIはやってみないと分からない。アセスメント、PoCをまずはやる。次に開発、追加学習。この4プロセスに分けてしまうなど
  • 契約内容の工夫
    • AIの場合はどこまで作れるか分からないので、準委任契約にするのが通常
    • PoC貧乏: PoCで止まって、次の開発に行ってくれなくて儲からない。というのを避けるために、移行義務を契約に盛り込むなどの対策を
    • PoCの横展開を防ぐために、レポートのみにしてソースコードは渡さない

2 権利と知財

  • AIの場合、材料や中間成果物、成果物などができ、それが価値を持つ
  • ユーザーとベンダーの権利と知財は問題になりやすい
  • 例えばセンサーデータは著作物ではない。契約がなければ法律に従うことになる
  • 一定の条件(営業秘密、限定提供データ)に該当すれば不正競争防止法
    • 具体的には、有用性、非公知性、秘密管理性という要件を満たすこと。普通のセンサーデータは満たさない
    • 契約に「本開発においてのみ使います」と書かれていれば、データはそれにしか使えない
  • 「学習済みモデル」の意味が違う場合があるので最初に意味を特定する必要がある
  • パラメーターは知的財産権の対象ではないので、契約に条項を入れる必要がある
  • ユーザーとベンダーの権利と知財: どっちが権利を持っているかではなく、どう使えるか。利用条件で「実」を取る
  • 「共有」すると後々も問題になる
  • ビジネス上の検討⇒契約条件の検討という順になる
  • 検証段階で制限なくデータを渡すのはやめた方がいい
  • 「権利帰属」と「利用条件」は分けて考えた方がいい
  • 契約の限界を知っておく

3 責任

  • AIと通常のシステム開発は違う
  • 責任の種類を知り、契約でコントロールする

質疑応答

  • 質問: ディープラーニングだけの話ではないか?

    • 回答: AIに明確な定義があるわけではない。今回の話はディープラーニングなどの機械学習に関連した話だった。
  • 質問: ガイドラインの次バージョンは?

    • 回答: 医療といった特定範囲を盛り込むなどのマイナーチェンジになるのではないかと思う。バージョンアップし続ける予定。6月ぐらいに成果物が出てくると思う。
  • 質問: ユーザーが生データを渡した場合に、ベンダーが生成したパラメーターも秘密情報となるか。

    • 回答: データについては秘密保持義務を結んでいるはず。パラメーターはベンダーが生成したものなので、ユーザーの秘密情報というのは難しい。
  • 質問: 業者が何らかの対象の写真を撮った場合に権限はどうなるか?

    • 回答: 画像データには著作権はなく写真は撮った人のものなので、自由に使ってよい。
  • 質問: 写真にアノテーションを付与したのであれば、そのデータに著作権は発生するのか? 専門家が付けたのであれば?

    • 回答: 契約による。法律上、アノテーションはラベルを付けているだけなので権利が発生するわけではない。いくら専門的なアノテーションであっても、もともとあるものを発見したものは創作ではないので、著作物ではない。
  • 質問: 日本の法律内で作った学習モデルをアメリカに持っていった場合、みなし侵害になったりしないか?

    • 回答: 確かにアメリカの法律が適法になる可能性はある。しかし通常、みなし侵害は、海賊版のようなものに適用しており、そうならならいのではないかという意見もある。学習済みモデルは、生データは残っていないので、問題ないのではないかとは思うが。