Amazon Web Services ブログ
生成系AIが拓くイノベーション − Part.3 :大規模言語モデル(LLM)を活用した製薬企業の業務改善
本記事は、製薬企業で 大規模言語モデル(LLM)の効果が大きく期待できる様々なユースケースについて業務部門毎に整理し、解説する3 部構成のシリーズの 3 つ目のブログ記事です。
パート 1 では、臨床開発でのデータクリーニング作業、メディカルライティングを始めとした文書業務の効率化について、ファーマコビジランス部門では AI アプリケーションを利用した SNS 上の有害事象を検知について説明しました。パート2 では、メディカルアフェアーズ部門での社内レビュー業務の効率改善、マーケティング部門における医療関係者向け、患者さん向けの生成系 AI チャットボットの有用性ついて説明しました。このパート 3 では、責任ある AI 開発のためのアプローチについて解説し、それを実現するための AWS が提供する生成系 AI サービスについてご紹介します。
責任ある AI 開発のためのアプローチ
生成系 AI は、企業内のデータを学習しチューニングすることで、ある特定の業務に特化した AI モデルを構築することができます。お客様はより直感的で正確な AI 体験を顧客に提供する、あるいは社内の文書業務の効率化を図ることができます。ただし、残念ながら生成系 AI も完璧ではありません。学習していない情報に関して正しい回答が行えないだけでなく、ハルシネーション(学習した情報にもとづかない回答)を提供してしまうという問題があります。
この重要な問題を低減するためには、現在、検索拡張生成 (RAG, Retrieval Augmented Generation) と呼ばれる手法を用いることができます。この RAG という手法を利用し、自社データに基づいて回答するようにクエリをチューニングすることで、モデルのハルシネーションを軽減できます。加えてエンドユーザーのコンテンツアクセス権限に応じて回答をフィルタリングする、つまり LLM 自体に特定の社内情報が追加学習されると、本来アクセス権限のない社員がその社内情報を取得してしまう可能性がありますが、RAG では社内情報へのアクセス自体を制限して問題を防ぐことができます。
RAG を使用して開発される AI アプリケーションは、エンタープライズリポジトリから、ユーザーのリクエストに最も関連する情報を取得し、それをプロンプトとしてユーザーのリクエストと共にコンテキストに含めて LLM に送信し、生成系 AI レスポンスを取得します。従って、質問のニュアンスに合った回答を生成する効果的な生成系アプリケーションの設計に重要なのは、RAG 設計の中で LLM がエンタープライズリポジトリから最も関連性が高く、簡潔なコンテキスト(質問の意図に最も合う社内情報)を受け取れるかどうかとなり、自社データベース内のコンテンツ検索が非常に重要なステップとなります。
Amazon Kendra は、機械学習を利用した検索機能を備え、ドキュメントや文章のランク付けを高精度に行うことができる完全マネージド型のエンタープライズ検索サービスです。Amazon Kendra の高精度検索を利用することで、社内のリポジトリから最も関連性の高いコンテンツとドキュメントの検索を可能にし、その結果、RAG アプローチの質を最大限に高めることで、生成系 AI アプリケーションのパフォーマンスを改善することができます。キーワードベースの検索ソリューションを使用して得られる出力よりも、はるかに包括的、インテリジェントな検索手法で、ユーザーは本来の質問意図に準じた回答を得ることができるようになります。例えば、担当者が医学論文、他リージョンの先行事例、MR の活動情報、競合情報など、様々な形式(ワード、エクセル、パワーポイント、PDF、ウェブ)、多様な表現(テキスト、テーブル、グラフ)で格納されている社内の大量のデータから欲しい情報を特定したいといった場面を想像していただければと思います。このような場面で、従来のキーワード検索に感じているもどかしさに対して、RAG の手法は非常に有用であると言えます。生成系 AI を使ったエンタープライズ検索について興味のある方は、アストラゼネカ社の日本における取り組みを紹介したブログをぜひ参考ください。
AWS が提供する生成系 AI サービス
ここでは、生成系 AI を活用するAWSのサービスとして、Amazon Bedrock、Amazon SageMaker(Amazon SageMaker JumpStart)の二つを紹介したいと思います。
Amazon Bedrock は基盤モデルを使用して最も簡単に生成系 AI アプリケーションを開発、横展開できるサービスです。生成系 AI アプリケーションの開発を加速し、各種基盤モデルを単一 API からシンプルに利用することができます。インフラ管理が不要で、Amazon 自身が開発した基盤モデルから、最先端スタートアップが提供する AI21 Labs、Anthropic、Stability AI、Cohere、Meta などの幅広い選択肢から、お客様のニーズに沿ったモデルを選択することが可能です。自社データは非公開で基盤モデルを使用でき、生成系 AI アプリケーション開発を安全にカスタマイズすることが可能です。
Amazon Titan は、Amazon 自身の経験に基づいて磨き上げられた高性能な基盤モデルです。20 年以上の Amazon の機械学習活用経験と自社事業での稼働実績を強みとし、テキスト要約、生成、分類、情報抽出などの言語に関わるタスクを自動化することができます。また、不適切・有害なコンテンツ(ヘイトスピーチ、冒涜、暴力など)の出力を制限することで「生成系 AI の責任ある利用」をサポートしています。
Amazon SageMaker JumpStart は、すぐに基盤モデルを使いたい場合に利用できるサービスです。Amazon Bedrock よりも数多くの基盤モデルを用意し、さらに幅広い選択肢の中から自社のアプリケーションに合ったモデルを組み込める環境を提供しています。ポピュラーな基盤モデルを数クリックするだけで稼働することができ、お客様が取り組まれている課題に対して、最適な基盤モデルはどれなのかを実際に試しながら選ぶことができるのが特徴です。
おわりに
今回の寄稿では、製薬企業内における生成系 AI の可能性、特に LLM の応用が大きく期待できる文書業務について事例を中心にまとめてきました。製薬企業の文書作成は、各企業の基本ルール、スタイルガイドや用語集が存在しており、その文書作成の“お作法”そのものが秘匿性の高い社内ノウハウとして保護すべき知的財産であるという側面があります。生成系 AI アプリケーションの開発には、いかにセキュアに構築された環境で社内ノウハウを最大限に利用するかが重要であり、そのアプローチの一つとして RAG は有用な手法と言えます。
さらに、生成される文章の精度に対し、社内レポジトリから最も関連性が高く簡潔なコンテキストを検索する能力を提供する Amazon Kendra は、RAG を利用した生成系 AI のアプリケーション開発には欠かせないツールと言えるでしょう。製薬企業の組織に存在する膨大な文書業務を考慮すれば、今後、生成系 AI がその業務プロセスに与える効率化の可能性は計り知れないでしょう。