Amazon Web Services ブログ

【開催報告 & 資料公開】AWS AI/ML Updateと事例紹介 〜AI/ML で解決したいビジネスの課題、AI/ML サービス活用のコツについてご紹介〜

アマゾン ウェブ サービス ジャパン合同会社 シニア機械学習スペシャリスト ソリューションアーキテクトの藤川です。2022年7月21日にオンラインで開催された AWS AI/ML Update と事例紹介では、AWS の AI/ML サービスを活用いただいている日本のお客様から、実際の活用事例について講演いただきした。まずは、AWS 藤川より AWS を活用した Responsible AI についてご紹介いたしました。その後、各講演者様にご登壇いただき、AI/ML で解決したいビジネスの課題から、AI/ML サービス活用のコツまで、幅広いトピックでお話いただきました。

「AWS を活用した Responsible AI 〜機械学習のバイアス、公平性、説明可能性〜」[Slides]

アマゾン ウェブ サービスジャパン合同会社
シニア機械学習スペシャリスト ソリューションアーキテクト 藤川のぞみ

本セッションでは、近年関心が高まっている「責任ある AI、responsible AI」と呼ばれるトピックを紹介し、なぜ関心が高まっているのかやどのようなことに気をつけるべきなのかといった基本的な考え方を紹介しました。
そして、その中でも特に、機械学習のバイアス、公平性、解釈可能性、説明可能性といったキーワードについて、背景となる基本的な考え方や AWS を活用して問題に取り組むための方法についてお話ししました。

機械学習のバイアス、公平性に対処するために、AWS では Amazon SageMaker Clarify というサービスを提供しています。このサービスに関する論文 の中で触れられている重要なポイントが3つあります。
まず、バイアスや公平性の概念は、アプリケーションに大きく依存するもので、バイアスを測定する特徴量の選択やバイアスの測定基準の選択は、社会、法律、その他の非技術的考察によって導かれる必要があります。
また、何をバイアスや公平性として重視するかについて、主要なステークホルダー間(製品、政策、法律、エンジニアリング、AI/ML チーム、エンドユーザー やコミュニティ等)で合意を形成し、コラボレーションを実現することが重要です。
そして、機械学習のライフサイクルのあらゆるステップでバイアスや公平性は生じうるため、あらゆるステップで考慮する必要があります。
Amazon SageMaker Clarify は、データの準備からモデルの学習、評価、デプロイ後のモニタリングなど、ML ライフサイクル全体を通じてバイアスの検出を行うことができます。
また、バイアスを測定する特徴量の選択やバイアスの測定基準の選択はアプリケーション依存ですが、SageMaker Clarify ではテーブルデータを対象に学習前のデータに対するいくつかのバイアス指標と、モデルを学習後のいくつかのバイアス指標を提供しています。セッションでは、これらの指標を例を用いて紹介するとともに、機械学習のバイアスに取り組むにあたっての留意点なども取り上げました。

つづいて、Interpretable AI / 解釈可能なAI、Explainable AI / 説明可能な AI というトピックを取り上げました。
AI の解釈可能性と説明可能性は同じような意味で使われることもありますが、機械学習手法の内部のメカニズムに対する透明性を重視したときに解釈可能性、事後的な説明を重視したときに説明可能性という言葉が使われることがあります。この考えに基づいた説明についてはこちらをご参照ください。
透明性というのは、ブラックボックスと対比されるもので、たとえば人間が頭の中でその動きをシミュレーションできるといったような考えです。透明性があるモデルは望ましいと考えられますが、モデルの予測性能とこういった透明性がトレードオフになるというような考えもあります。たとえば線形モデルや決定木はより透明性があるモデルだと考えたときに使用する手法をそれらに限定してしまうと、選択肢は狭まるので、予測精度などの性能を実現しにくくなるということです。一方で、「人間の脳もブラックボックスだが、私たちは既に他者による事後的な説明を受け入れている」という考えがあります。そこで、学習されたモデルから有益な情報を抽出して事後的な説明を行うということも、問題に対して取りうる解決手法の選択肢を広げていく上で重要になってきます。
私たち人間が日常的に行っている説明がどういう性質を持っているものかについては、人間は「なぜ私のローン申請は拒否されたのか?」といったような質問に対する回答のように、現状とその事象が発生しなかったであろう状況を対比させる短い説明を好むという考えがあります。これを対比的と言ったりしますが、機械学習に置き換えると、なぜ他の予測ではなくこの予測がなされたかを知りたいといったことです。たとえばローンの申請が却下された場合、一般的に却下される要因よりも、自分の申請と、受理されるはずの申請との違いを知りたいと思うのではないでしょうか。融資を受けるために自分の申請では何を変更する必要があるのかといったことです。
SageMaker Clarify を使用して、説明可能性に取り組むことも可能です。SHAP という標準的な方法を用いて、個々の予測を説明することができます。また、モデル全体における特徴量の重要度も見ることができます。そして、SageMaker Clarify では、対比的な説明が可能です。つまり、ベースラインと比較してこの特徴量がこの予測に大きく影響していそうだというような分析ができます。ベースラインは与えることも自動で計算することも可能です。ベースラインとしては、たとえば、学習データの平均的なインスタンスを指定することができます。

AI の適用範囲が広がるにつれて、人間が責任を持って AI を活用していく重要性に対する認識が高まっています。責任ある AI は技術以外の様々な要素を含む多面的な問題であり、適切に取り組むには、組織のプロセスやカルチャーなども含む組織的な能力が重要になります。AWS では、AI の公平性/バイアス、説明可能性に取り組むための各種サービスを提供し、実践のためのプラクティスについても発信していますので、これらを上手く活用して AI による価値創出を更に推進いただければ幸いです。

「この令和に目視で検査とかつらくないですか?」[Slides]

株式会社モリサワ
本社システム開発部開発イノベーション課 エキスパート 外林 俊介氏

株式会社モリサワ 外林様からは、フォント開発において作業者の負担が大きかった目視による誤字チェックを機械学習を使って自動化する取り組みを発表いただきました。新たにフォントを開発する場合、誤った文字が含まれていないかを確認するために、フォントを構成する一万文字に対して目視で確認をしています。この作業は作業者にとって大きな負担であり、疲れてくるとあるべきものと異なる文字があっても気付けなくなるなどの懸念がありました。そこで外林様は、機械学習を使ってフォントに誤った文字が混入していないかを自動的に検出するしくみを開発されました。初めは Amazon EC2 や AWS Step Functions を使ってパイプラインを作成しましたが、EC2 の制御が大変など運用面に課題がありました。そこで AWS のプロトタイピングプログラムを利用して、より運用しやすく、フォント開発部門の中でも例えばデザイナーなどの非エンジニアが使いやすいパイプラインの開発を実現しました。プロトタイピングは希望通りAWS CDK でパイプラインを構築する形で提供され、運用が楽になりました。また、機械学習モデルを使った誤字検出部分は SageMaker Processing Job 利用しており、インフラ部分の制御をフルマネージドサービスに移譲することで機械学習の推論部分の実装のチューニングに集中できました。

セッションの最後は、初めから完璧を目指すと何も始まらないのでまずは導入することが重要である、これからもチャレンジし続けたい、という力強い言葉で締めくくられました。

ML の知見がないチームが PoV を実施するまでの話 [Slides]

クラウドサーカス株式会社
BowNow開発ディレクター 高松 隼人氏

クラウドサーカス株式会社 高松様からは、 AWS の MLDW (Machine Learning Discovery Workshop) やプロフェッショナルサービスを活用して、機械学習プロジェクトの PoV (Proof of Value) を実施されたお取り組みについてお話いただきました。クラウドサーカス様では当初、自社プロダクトで蓄積されてきた様々なデータを活用し機械学習でビジネス価値を創出していくことを目指され、ビジネス価値や実現可能性などの面でステークホルダーへのヒアリング、データの整備状況の確認、人材採用や協力会社との協業検討など様々な取り組みを進められていました。しかし、機械学習プロジェクトの知見がないチームで推進していく手詰まり感も感じられており、そのようなタイミングで AWS のプロフェッショナルサービスの紹介を受け、まずは無償で実施できる AWS とのワークショップ、MLDW (Machine Learning Discovery Workshop) (※ 実施条件があります。) を実施され、ビジネス課題からプロジェクトへの落とし込みを再度実施されました。最終的には、PoV としては3か月程度で、サンプルデータで有望な結果をだせるモデルの構築、運用を前提としたアーキテクチャ設計、自社エンジニアへの引き継ぎ資料を成果物として作成されました。最後に、プロジェクトを通じた学びや今後の課題についてもお話いただきました。

大和総研がデータサイエンスに取り組んできた、AWS AI/ML サービスの社内外活用事例 [Slides]

株式会社大和総研
フロンティア研究開発センター データドリブンサイエンス部 森岡 嗣人氏、及川 大志氏

株式会社大和総研 森岡様と及川様から大きく2つのテーマ、金融業界での Amazon SageMaker を利用した AI 導入事例と社内データサイエンス人材育成への利用事例についてお話いただきました。

前半の森岡様からのお話では、⾦融業界での SageMaker を利⽤した AI 導⼊事例について、グループ内外で協業が行える共同研究の分析基盤や、大和証券様における企業分析業務での活用事例、それから、複数の地方銀行様に活用いただいた金融 AI プラットフォームの事例について、AWS を活用した具体的なアーキテクチャや、ユースケース、プロジェクト推進における工夫などを交えてお話いただきました。AWS を活用して良かった点として、SageMaker などのマネージドなサービスを活用することで、セキュリティ要件を満たしつつ開発や運用の負荷を低減できる利点や、AWS CloudFormation を使ったInfrastructure as Code (IaC) により横展開が容易になる点などをお話しいただきました。一方で、サービス選定時の課題などもあり、AWS 上で AI/ML 案件に取り組むうえで⼼掛けていることについてもお話をいただきました。まずは、クラウドの恩恵を受けるためにも、新しい AI/ML 関連サービス、特に AWS が注⼒しているものの検証は積極的に進めること、それから、⾃分たちがつらいと感じている課題が、新サービスの登場、アップデートで解消されることを期待すること、そして、枯れていないサービスを使う上での留意点として、根本的な解決ではないワークアラウンドも複数用意しその時点での現実的な選択を行うことや、サービス改善、新サービス登場時に、柔軟にとりこめるような体制で進めておくことなどです。

後半の及川様からのお話では、社内におけるデータサイエンス⼈材育成への利⽤事例についてお話いただきました。大和総研様では、どの部署においてもデータを活用できる企業になることを目指して全社研修を行われているということです。この研修では、現場で働けるデータサイエンティストを段階的に増やしていくことが目的であり、そのための研修環境を SageMaker を活用して構築、運用いただいた事例について、具体的なアーキテクチャ図や、研修における運営効率化の⼯夫などを交えてお話いただきました。金融領域では閉域網での構成が必要になるなどの要件がよくありますが、マネージドサービスである SageMaker を活用することでこれらの要件を満たした構築を、AWS 未経験の状態から2ヶ月で完了されたということです。また、実際の研修において、社内での問い合わせのコスト軽減や対応速度向上のために実施された運営効率化の⼯夫についてもお話いただきました。最後に、継続的な改善と展望についてもお話いただきました。研修は数か⽉おきに定期開催されており、毎期改善サイクルを回すとともに、SageMaker Studio で閉域環境の構築実績など、実案件で利⽤する⾜掛かりにもなっており、実案件へフィードバックできる実績も蓄積されているということです。今後はモデルドリフトを考慮した機械学習モデルのモニタリング・運⽤など SageMaker Studio によってさらに実践的なテーマに取り組める可能性があるということで、更なる発展可能性についてもお話いただきました。

SageMaker を用いた日経電子版向け大規模言語モデルの構築 [Slides]

株式会社日本経済新聞社
日経イノベーション・ラボ 主任研究員 石原 祥太郎氏

株式会社日本経済新聞社 石原様からは、SageMaker を用いて、日経電子版の記事データで学習した独自の大規模言語モデルを構築された事例について、特に、事前学習・ファインチューニングをしたモデルの概要や、SageMaker 上で効率よく開発する方法などについて詳しくお話いただきました。

アジェンダとしては大きく3つ、まず、 BERT や GPT-2、GPT-3 などが例に挙げられる大規模言語モデルの基礎について、人工知能、機械学習の基本的な考え方とともにご紹介いただきました。それから、日本経済新聞社様でのお取り組みとして、2019年に日経電子版の記事を用いた BERT モデルを構築し、 ニュース記事の要約などの応用を検証された事例についてお話をいただきました。その取り組みを通じて、事前学習済みモデルは一度作れば終わりではなく、学習用データセット(日経電子版の記事)の変化への対応や、新しいアーキテクチャへの対応が求められることが課題として認識されました。そこで、可能な限り手軽かつ汎用的に、計算環境を構築できる場として AWS の利用を検討され、機械学習のマネージドサービスである SageMaker を使った開発に着手されました。SageMaker では、特定の処理のみで別インスタンスを立ち上げて実行する機能としてジョブの機能があり、これを使うことで、コスト効率良くクラウドのリソースを使って機械学習の処理を実行することができます。また、生成物やログなどもジョブ側で自動で記録されるため、実験管理も手軽に行えます。また、自然言語処理ライブラリを提供する Hugging Face との連携機能も充実しています。

実際の開発においては、AWS の機械学習の専門技術者(ソリューションアーキテクト)による支援を受け、プロジェクト特有の課題を踏まえた先行調査、サンプルソースコードの提供、 SageMaker 関連の設計の検討、学習時のハイパーパラメータの勘所の共有などにより、プロジェクトの円滑かつ迅速な推進に大きく寄与したというお話をご紹介いただきました。プロジェクトの成果としては、RoBERTa, T5, GPT-2 の日経電子版向け大規模言語モデルを構築され、ファインチューニングでさまざまなタスクを検証中とのことです。また、スペックの高いインスタンスを効率良く利用することで、高速に PDCA サイクルを回すことができ、社内で大規模言語モデルに対する知見や理解も増加し、今後はプロダクトに適用していく話も進行中ということです。

セッションの最後には、情報技術を駆使した持続可能性の高い報道機関を目指し、記事生成や個人最適化などを例に、新しい技術の可能性と課題を整理しながら挑戦を続けることや、情報技術を通じた労働生産性の向上や新規の収益構造など、今後の展望についてもお話いただきました。

まとめ

今回は「AWS AI/ML Updateと事例紹介 〜AI/ML で解決したいビジネスの課題、AI/ML サービス活用のコツについてご紹介」というテーマで、AWS の AI/ML サービスを活用いただいている日本のお客様から、SageMaker などの活用事例をご紹介いただきました。AI/ML プロジェクト推進時の注意点や、具体的なアーキテクチャ、内製化にあたっての考慮点、サービス活用のメリットや選定の基準など幅広くご紹介いただきました。

2019年に開催した「Amazon SageMaker事例祭り」、2020年からスタートした「AWS AI/ML@Tokyo」の開催報告と登壇スライドは、以下のリンクからご覧いただけます。

AWS AI/ML@Tokyo 開催報告まとめ