Amazon Web Services ブログ

【開催報告】生成 AI の価値を最大限に引き出すためのデータ基盤

2024年5月16日にオンラインセミナー「生成 AI の価値を最大限に引き出すためのデータ基盤」を開催いたしました。セミナーの開催報告として、ご紹介した内容や、当日の資料・収録動画などを公開いたします。

はじめに

生成 AI の力を最大限に引き出すためには、日頃生み出しているビジネスデータを格納した強力なデータ基盤が必要不可欠です。既存の生成 AI モデルをそのまま活用するだけでなく、組織内に蓄積された独自のデータを活用することで、他社との差別化を図り、意思決定や業務へのインサイトを深めることができます。
当セミナーでは、生成 AI での活用を見据えたデータ基盤に興味のある方、もしくは社内外向け生成 AI に取り組む企業の IT 部門の方に向けて、お客様のデータに基づいた生成 AI を効果的に実現するためのデータアーキテクチャ構築手法のご紹介を行いました 。
どうぞ皆様の事業のご参考に、各講演者の録画/資料をご活用下さい。

生成 AI 力を引き出すためのデータアーキテクチャ

登壇者: AWS シニアソリューションアーキテクト 程 家
動画 : https://youtu.be/1AP0Q4AoZeQ
資料リンク : https://pages.awscloud.com/rs/112-TZM-766/images/20240516-AWS-DATA-1-AWS_Database_Services_for_GenAI.pdf

生成AIを実現するには十分な量のデータが不可欠です。 初めのセッションでは、豊富なデータから価値を最大限に引き出すために、エンドツーエンドのデータアーキテクチャを適切に構築することの重要性を解説いたしました。

私達と一緒に仕事をしてきた多くのお客様が生成 AI の力を認めており、生成 AI に関するビジョンも持っています。多くの人が、生成 AI の基盤モデルと、より広い意味では LLM に焦点を当てていると感じています。それは重要ですが、氷山の一角にすぎません。表面下には、これらのアプリケーションが効果的、効率的、倫理的であることを保証するデータの管理、分析、統合、ガバナンスなどの複雑なエコシステムがあります。

ビジネスニーズに合った独自の 生成 AI アプリケーションを構築したい場合、組織のデータが差別化要因となります。 どの企業も同じ基盤モデルにアクセスできますが、真のビジネス価値を持つ 生成AI アプリケーションの構築に成功する企業は、自社のデータを使用して構築する企業です。 生成 AI にデータを使用するには、独自のモデルを構築する以外にも、様々な方法があります。

生成 AI の力を引き出すためのデータアーキテクチャにはソース間のデータ統合を容易にするサービスや機能、データを一元管理するデータレイク、生成 AI にコンテキストデータを提供するデータストア、目的別データベースデータのカタログ化と管理のための仕組みが必要になります。

生成 AI データ基盤としての AWS マネージドデータベースサービス

登壇者: AWS シニアソリューションアーキテクト 程 家
動画 : https://youtu.be/5S3QE4Ewm0U
資料リンク : https://pages.awscloud.com/rs/112-TZM-766/images/20240516-AWS-DATA-1-AWS_Database_Services_for_GenAI.pdf

本セッションでは、そのうちデータベースについて重点的に解説していただきました。データベースがデータアーキテクチャ全体において果たす重要な役割と、生成 AI の基盤としての位置付けなどをご説明いたしました。

生成 AI アプリケーションに重要なセマンティックコンテキストを効率よく保存し、LLM にデータ提供できるようにするには、それぞれのコンテキストにあったデータストアを用意する必要があります。AWS は、お客様が利用しているデータベースや分析のワークロードをクラウド上で利用できるよう、幅広いサービスを提供しています。
AWS が提供するマネージド型のデータベースや分析サービスを利用することで、お客様はアプリケーションの増加や急増によるパフォーマンスの変動に対応するために、インフラストラクチャを過剰に配置する必要がなく、必要に応じて適宜スケールアップやスケールダウンを行う事ができます。
また、インフラストラクチャを維持するために固定資産を管理する必要もありません。AWS を利用する事で、お客様の貴重な時間をインフラストラクチャやミドルウェアの管理ではなく、お客様のビジネスに直結する生成 AI アプリケーション開発に時間を費やせるようになります。

本セッションでは、お客様が管理している NoSQL データベースやインメモリデータベースを対応するマネージドデータベースとして MogoDB 互換の Amazon DocumentDB 、Amazon ElastiCache 、Amazon MemoryDB for Redis を、マネージド型リレーショナルデータベースのソリューションとして、Amazon RDS  や Amazon Aurora を紹介しました。特に、Aurora/RDS PostgreSQL、AmazonDocumentDB、Amazon MemoryDB for Redis は生成 AI アプリケーションにおけるベクトル検索に対応していることも説明しました。

生成 AI データ基盤としての AWS マネージドアナリティクスサービス

登壇者: AWS ソリューションアーキテクト 平井 健治
動画 : https://youtu.be/jh4Zs0MVARc
資料リンク : https://pages.awscloud.com/rs/112-TZM-766/images/20240516-AWS-DATA-2-AWS-Analytics_Services_for_GenAI.pdf

本セッションでは、生成 AI を有効に活用するためのアナリティクス環境に必要な要件と、要件を実現する AWS マネージドアナリティクスサービスについてソリューションアーキテクトの平井より紹介いたしました。

紹介にあたっては、データレイクやデータウェアハウスといった蓄積、データソースからのデータ連携、品質チェックや権限制御といったガバナンス、データの活用を促進するコラボレーションの順に、それぞれについて求められることと AWS サービスを解説いたしました。

例えばコラボレーションいついて、データ活用の促進にあたっては、組織の境界を超えたガバナンスに加えて、ビジネスデータカタログの整理と使いやすいポータル画面が求められますが、Amazon DataZone によって実現できます。セッションでは、データポータルの画面や、生成 AI によるメタデータ生成の自動化といったビジネスデータカタログの充実化に役立つ機能について解説いたしました。

セッションのまとめとして、AWS のアナリティクスサービスは、あらゆるデータワークロードやユースケースに最適な価格パフォーマンス、Zero-ETLを含む簡単かつ豊富なデータ統合の選択肢、エンドツーエンドのデータガバナンスによる迅速なデータ活用の提供を通して、生成 AI データ基盤の実現に貢献できることを紹介いたしました。

生成 AI アプリケーションでデータを活用

登壇者: AWS ソリューションアーキテクト 黒澤 蓮
動画 : https://youtu.be/YLFlbLgWUAs
資料リンク : https://pages.awscloud.com/rs/112-TZM-766/images/20240516-AWS-DATA-3-Leveraging_Data_with_GenAI_Applications.pdf

最終セッションでは、これまでに構築したデータ基盤を活用し、具体的に社内のデータを生成 AI に活用していく方法について解説いたしました。顧客のニーズや目的に合わせて、データを適切に組み入れることでどのように付加価値を生み出せるかについて、実践的な事例を交えてご紹介いたしました。

自社データを生成 AI に活用するための方法はいくつかあります。基本的には実装な簡単な手法から試していただき、より複雑なタスクや、精度が必要な場合はモデルのカスタマイズなどにチャレンジいただくことを推奨します。

終わりに

今回のイベントでは生成 AI を活用するためのデータ基盤とアプリケーションについて詳しくご説明させていただきました。今回のセッションが皆様のデータ活用のお役に立てれば幸いです。データ基盤や生成 AI 活用に関してぜひとも AWS を活用いただければ幸いです。

セミナー中に回答させていただいたご質問と回答

[ご質問]
RAG だとハルシネーションが防げる仕組みをもう少し知りたいです。
[回答]
ご質問ありがとうございます。RAG の場合、ユーザの目的にあった高い精度のセマンティックコンテキストを提供できれば、ハルシネーションを回避できます。そのため、ベクトルストアに必要なデータをベクトル埋め込みして利用できるようにすることや状況コンテキストを使ってプロンプトを補強することが大事です。

[ご質問]
データパターンの選択について教えてください。
初めて生成 AI アプリを開発する場合、どのパターンから始めるとよいでしょうか。
必要となる計算リソースの大小で比較すると、スモールスタートに適したパターンはどれでしょうか。
また、データが十分に収集蓄積できていない場合、一旦、生成 AI を利用せずにシステムをプロトタイピングしておいて、段階的に生成 AI を導入することは可能でしょうか。
[回答]
一番手軽に始められるのは RAG パターンになります。
LLM の再トレーニングは特定のドメインに関連する大量のデータがなければ、精度良よいモデルをトレーニングできません。LLM のファインチューニングでは少量のデータでも問題ないのですが、ラベル付きデータ(教師)を用意する必要があります。このラベル付きデータの準備が難しい場合があります。一方、RAG パターンは既存のデータをベクトル埋め込みするだけで利用できます。ベクトル埋め込みに必要な Embedding のための AI モデルも Amazon Bedrock 上で提供しています。

[ご質問]
FT (ファインチューニング)モデルと RAG モデルの比較が知りたいです。
ハルシネーションの頻度やコスト感など。
[回答]
コンテキストデータやトレーニングに使用するデータの精度、量、種類に依存すると思います。
LLM の再トレーニングは特定のドメインに関連する大量のデータがなければ、精度良よいモデルをトレーニングできません。LLM のファインチューニングでは少量のデータでも問題ないのですが、ラベル付きデータ(教師)を用意する必要があります。御社ですと担当チームがおりますので、更に詳細なご連絡ができるかと思います。後日ご登録いただいたご連絡先にご連絡させていただければと思います、どうぞよろしくお願いいたします。

[ご質問]
Amazon Data Zone のポータルは AWS の複数アカウントの情報などを統合することができると理解しましたが、Amazon Data Zone のサービスを動かす AWS アカウントは必要で、かつビジネスユーザー向けのカタログやこのポータルにアクセスする際は各ユーザー毎に AWS アカウントが必要になるであっていますか。
[回答]
Amazon DataZone の利用いただくためには Redshift など他のサービスと同様に AWS アカウントは必要となります。
DataZone を利用するユーザ(ユーザ管理)についてですが、AWS IAM ユーザや、AWS IAM Identity Center でユーザを作成してデータポータルにアクセスしてご利用いただけます。

[ご質問]
大量のログデータをS3に格納する場合のベストプラクティスを教えて下さい。利用頻度は 1 日 1 回程度のバッチ処理でつかう程度です。
[回答]
分析用途で使用する場合は、列指向の Parquet 形式、かつ I/O 量を少なくするための圧縮すると良いです。さらに、日付単位で S3 のディレクトリを分けて保存すると日付単位でデータをアクセスする際に、該当ディレクトリ(パーティション)のみにアクセスされるのでコストおよび性能の面でさらに効果的です。

[ご質問]
ナレッジベースを利用した品番検索ツールを作成しているのですが、検索精度をさらに高めるために、これを入力したらこれを持ってくる。といった過去の正解データを学習させたいと考えています。
その場合、ファインチューニングが必要だと思うのですが、やはりファインチューニングなしと比較してコストがかなり高額になってしまうのでしょうか?
[回答]
おそらくその場合では、モデルの精度を高めるよりも検索精度を高める必要があると思います。そのためにはより精度の高い Embedding モデルを使う、検索方法として字句一致やセマンティック検索など複数の方法を取っていただくと良いかと思います。

[ご質問]
Database Freedom Workshop とはなんでしょうか?
[回答]
Database Freedom Workshop は AWS のソリューションアーキテクトがお客様の既存のデータベースに対してアセスメントを行い、移行の難易度、パフォーマンス、コストの観点から最適な移行先を提案したり、移行方式を提案したり、お客様のデータベースの移行プロジェクトを支援する無償のプログラムになります。詳細について御社担当チームからもご案内が可能です、別途個別にご連絡させていただきますのでどうぞよろしくお願いいたします。


著者プロフィール

程 家 (Ka Tei) は AWS Japan のソリューションアーキテクトです。サービス業のお客様を中心に技術支援を行うとともに、AWSのマネージド型データベースサービス関連の技術支援を行っております。
平井 健治 (Kenji Hirai) は AWS Japan のソリューションアーキテクトです。流通小売業界のお客様を中心に技術支援を行うと共に、アナリティクス関連の技術支援も行っています。
黒澤 蓮 (Ren Kurosawa) は AWS Japan のソリューションアーキテクトで、Web 業界のお客様を中心にアーキテクチャ設計や構築をサポートしています。データアナリティクスサービスや機械学習の領域を得意としています。将来の夢は宇宙でポエムを詠むことです。