※これはレポート記事にする前の個人的なノートをそのまま公開したものです。誤字誤植や勘違いがある可能性があるのでご了承ください。
NLP Innovation(自然言語処理のイノベーション)
- Dr. Ming Zhou(周明)、ミン・ジョウ氏: Ming Zhou at Microsoft Research
- マイクロソフトリサーチアジア(MSRA)副所長、ACL (コンピュータ言語/自然言語処理研究の国際学会)会長、中国計算机学会(CCF)中国情報技術委員会委員長、中国情報処理学会理事。
- 1989年、中国初のCEMT-I 中英機械翻訳システム開発について中国政府先端科学技術賞。
- 1998年、著名な中日機械翻訳ソフトウェア J-Beijing を日本にて開発。
- MSRA にてBing、Office、Windows、Azure 等で用いられている自然言語処理技術を開発し、チャツトボットであるシャオアイス、りんな、Zo を生み出した。
- 中国における対聯(対句)および詩の生成 Al ゲーム開発、中国語と日本語の Windows IME のリーダーであるほか、英語補助検索工ンジン Engkoo はウォールストリートジャーナル2010 アジアイノベーションリーダーズチョイス賞を受し、2011年に Bing 辞書としてBing に搭載された。
- 2014年、Microsoft Ability アワードをCE〇サティアナデラより受賞。
- 2018年、北京傑出労働メダル(五月一日労働メダル)受賞。
- 周博士は、1985年、重慶大学で学士号、1991年、ハルビン工科大学で博士号を取得。
- 1991~1993年、清華大学にてポスドクを経て、准教授に昇進。
- 1996~1999年、サバティカルを利用し日本の高電社にて日中機械翻訳プロジェクトのリーダーを務める。
- 1999 年よりマイクロソフトリサーチアジアに所属。
- 自然言語処理(NLP)は大きなブレークスルーを為し遂げている
- 例えばBing、Office、Windows IME、チャットボット(中国でシャオアイス、日本ではりんな、アメリカではZo、まど実験的なプロジェクトが多数ある)
- Microsoft Research Asia:
- 98年に設立してすでに20周年
- その間、多数の国からインターンを受け付け、さまざまな業界に人材を輩出してきた
- 今では中国、日本、シンガポールなど多くの国で、研究活動を率いている
- 論文の数が5000以上ある
- 学術連携やイベントなども多数進めている。日本ではCOREというのがある。またインターンも東京大学を初めとした博士課程の人が年間15人。フェローシップとして年間10人ぐらいアワードを出している。日本にラボがないので、産総研や理研などに就職していく
- AI研究のブレークスルー:
- 2016年にはニューラルネットワークでResNetが登場して画像認識で広く作られるようになった(96%)
- 2108年9月、SQuAD(86.0%):The Stanford Question Answering Dataset、質問応答技術
- 2018年3月、言語解釈(69.9%)
- 2018年6月、OCR(50%)
- すでに新たなステージ、黄金時代に入ったといえる
- 事前学習モデル、転移学習、knowledge(知識)、reasoning(推論)など、機械学習の技術も進んでいる
- 質問:自然言語処理でBERTが最近出てきており、マイクロソフトリサーチでも論文が出たはずだが、そういった最先端研究について
- BERTは先ほど事前学習モデルと呼んでいたもの(写真撮った)。マイクロソフトではUNILM、MASS、MT-DNNなどを作っており、まもなくリリースする予定になっている
- 質問:自然言語処理でBERTが最近出てきており、マイクロソフトリサーチでも論文が出たはずだが、そういった最先端研究について
- 画像認識に関するブレークスルー
- 今現在のエラー率:3.57%、人間が5.1%なので、すでに人間を超えている
- SQuADはExact matchが82.65%で、まだ人間が少し上回っている
- 言語解釈においては、WMT 2019において8言語ペアでベストパフォーマンス
- OCRのWERも良い成果を残している
- MSRA Innovation Partnership: マイクロソフトリサーチアジア・イノベーション・パートナーシップ
- 密に作業パートナーと連携。特にAIが使いたい(もしくはデジタルトランスフォーメーションを進めたい)という企業に、コンサルティングやテクニカルワークショップに呼ぶなどして協業している
- マイクロソフトはフィードバックが得られて、研究開発に生かせる
- イノベーションパートナーシップの初期メンバーは16社(写真撮った)
- 例えばOOCLとの協業やPearsonとの協業などがある
- NLPに関するMSRのイノベーションや貢献の例も多数(写真撮った):例えば手話と自然言語を使う人がスムーズにやりとりできるサービスなどがある。日本ではりんなも例に挙げられる
- NLPエンジン(写真撮った): 統計機械翻訳、ニューラル機械翻訳などがあり、ニーズに応じて選択できる
- 機械翻訳のロードマップ(写真撮った)
- ニューラル機械翻訳(NMT)
- リソースが少ない言語の機械翻訳について
- 日本語と英語の違いについて
- 課題:日本語から英語に翻訳する際は法則性があるが、英語から日本語に翻訳するには語順がかなり変わるので、扱いが難しい
- 日本語と英語の間のエラー解析をすると、語順が違うなどさまざまな種類の問題が出てくる
- 機械リーディング解釈(Machine Reading Comprehension):
- 推測などを加えることで解釈できる場合がある
- 会話的な質疑応答では、回答が一つとは限らない
- Xiaoiceフレームワークの製品群: 2014年から2017年まで毎年。シャオアイス、りんななど(写真撮った)
- 手話翻訳: 動きを理解してから、自然言語の文を作成する
- その他には、中国の古典を生成するサービス、中国の漢字を当てるサービス、画像から詩を生成するサービス
- マイクロソフトは、どの国、どの人に対しても、自然言語処理の革新に注力したい