学ぶ
Adaptive ML と CCS が Meta Llama と AWS で患者サポートを加速

Adaptive ML と CCS が Meta Llama と AWS で患者サポートを加速

このコンテンツはいかがでしたか?

エンタープライズ AI 向けの強化学習ソフトウェアを開発する企業である Adaptive ML は、臨床ソリューションと在宅医療用品の大手プロバイダーである CCS が、慢性疾患を管理している人々への患者サービス業務全体の応答時間と信頼性を向上させるのを支援することに着手しました。Adaptive ML チームは、 Amazon Web Services (AWS) 上の Meta の Llama モデルを使用して、内部システム全体で実際の運用タスクを実行するように設計された AI エージェントをテストしました。概念実証では、応答レイテンシーが 90% 以上短縮され、エンタープライズ AI サポートワークフローへのより迅速で効率的なアプローチが実証されました。

患者サポートの応答時間の改善

慢性疾患のある患者をサポートする医療機関は、供給、出荷、医療管理に関する要求に、ピーク時の需要が急増しているときでも、迅速かつ確実に対応する必要があります。患者が連続血糖値モニターやインスリンポンプなどの機器に頼っている場合、問題解決が遅れると治療が中断され、サポートチームの業務に負担がかかる可能性があります。CCS は、重要な医療物資の維持に必要なロジスティクスや調整など、個人が継続的な医療のニーズを管理できるよう支援する患者サポートサービスを提供しています。このようなやり取りでは、多くの場合、エージェントは複数の内部システムにアクセスして情報を取得したり、注文を確認したり、患者を次のステップに導いたりする必要があります。サポート量が変動するにつれて、応答時間を改善するうえで AI がますます重要な要素になってきています。

この課題に対処するために、CCS は AI エージェントが患者サポートワークフローの合理化にどのように役立つかを探索し始めました。目標は、サポートチームに代わってエンタープライズツールと直接やり取りしたり、内部システムから情報を取得したり、運用タスクを完了したりできる自動化システムを実現することでした。これを達成するには、会話型 AI 以上のものが必要です。エンタープライズサポートエージェントは、CRM、ナレッジベース、注文管理プラットフォームなどのシステム全体でモデルが API を呼び出すことができるように、関数呼び出しを確実に実行する必要があります。パラメータの誤りや出力の形式が正しくないためにこれらの呼び出しが失敗すると、ワークフローは停止します。その後、リクエストを人間のエージェントに渡す必要があるため、待ち時間が長くなり、運用上のオーバーヘッドが増えます。従来のアプローチでは、多くの場合、外部 API を通じてアクセスする大規模な専用モデルに頼っていました。ジェネラリストとしての能力はあるものの、このようなモデルは遅延を招き、特殊なエンタープライズワークフローのトレーニングや最適化の制御を制限する可能性があります。Adaptive ML は CCS と提携して別のアプローチを模索しました: 強化学習という最適化されたオープンモデルを使用して、現実世界の医療サポート環境で迅速かつ効率的に業務を遂行できる信頼性の高い AI エージェントを強化することです。

特殊な AI エージェントアーキテクチャのデプロイ

Adaptive ML は、企業が特殊な言語モデルをトレーニング、評価、デプロイできるように設計された強化学習運用 (RLOps) プラットフォームである Adaptive Engine を使用して概念実証を実装しました。CCS のユースケースでは、Adaptive ML は Meta Llama 3.2 3B モデルを選択しました。これは、リアルタイムのエンタープライズアプリケーションに最適なコンパクトなオープンソースモデルです。モデルが小さいほど、推論時間の短縮、インフラストラクチャ要件の低減、開発中の反復処理が迅速に行えるなど、運用ワークフローに大きなメリットがあります。「Llamaモデルをテストしたところ、レイテンシーの差は劇的でした」と、Adaptive ML の共同創設者である Olivier Cruchant 氏は述べています。「コンパクトなモデルでは、ほぼリアルタイムで応答できます。これはまさに患者サポートのやり取りに必要なものです」。

これらのエンタープライズ AIエージェントは、ビジネスシステムと確実に連携するために、高いレベルの関数呼び出し精度を必要とします。この要件を満たすために、Adaptive ML は Adaptive Engine による強化学習ベースの微調整を適用しました。このプロセスでは、エンタープライズ API やビジネスシステムとのやり取りに必要な構造化された出力確実に生成できるように、Llama モデルをトレーニングしました。このシステムは、NVIDIA H100 GPU を搭載した Amazon Elastic Compute Cloud (Amazon EC2) p5.4xlarge インスタンスにデプロイされ、モデルを効率的に実行するために必要なコンピューティングリソースが提供されました。

Adaptive ML では Amazon EC2 キャパシティブロックも使用していました。これにより、GPU リソースを特定の時間枠で予約できます。これにより、チームはプロビジョニングの柔軟性を維持しながら、ベンチマークやテストのための GPU の可用性を確保することができました。「特定の時間枠でキャパシティを予約できることは非常に助かりました」と、Olivier 氏は述べています。「これにより、インフラストラクチャが利用可能であるという確信を持って、大規模なベンチマークを実行できました」。AWS インフラストラクチャは、コンピューティングリソースとサポートデータベースの両方を同じアベイラビリティーゾーン内に配置することで、システムレイテンシーの削減にも役立ちました。CCS の観点から見ると、統合は引き続き簡単でした。Adaptive ML は AWS 上でモデル環境をホストし、HTTPS API エンドポイントを通じて公開することで、CCS アプリケーションはアーキテクチャに大きな変更を加えることなく AI エージェントを直接呼び出すことができました。

スケーラブルなヘルスケア AI パフォーマンスの実証

概念実証では、専用のコンパクトなモデルが、AI を活用した患者サポートワークフローにエンタープライズグレードのパフォーマンスを提供できることが実証されました。このシステムは約 230 ミリ秒のクライアント側推論レイテンシーを達成しました。これは、独自のモデルベースラインと比較して 90% 以上短縮されたことを示しています。このエンドツーエンドの応答時間にはリクエストサイクル全体が含まれていますが、モデル推論の待ち時間はサーバー側で平均して約 160 ミリ秒でした。つまり、AI エージェントは複数段階のワークフロー中でも迅速に応答できたということです。「リアルタイムのワークフローでは、レイテンシーがすべてです」と、Olivier 氏は述べています。「応答が数秒ではなく数百ミリ秒で返ってくると、そのエクスペリエンスは患者とサポートチームの両方にとって役立つものになります」。

レイテンシーが低いほど、自動化されたワークフローの信頼性も向上します。このモデルは正確な関数呼び出しを迅速に生成できるため、エンタープライズシステムからデータを取得し、人手を介さずにタスクを完了できます。これにより、患者とのやりとりの遅れが減り、サポートチームはより複雑なケースに集中できるようになります。このアーキテクチャは、エンタープライズ AI のデプロイにおける新しい経済モデルも実証しました。「小規模なモデルでは、CCS の独自の知識とワークフローを患者サポートに統合できる機能という強力なものが実現し、スピードと信頼性の両方が向上します」と、CCS の CTO である Richard Mackey 氏は述べています。

CCSの概念実証は、医療機関が患者向けのサービスに必要な応答性と信頼性を維持しながら、AI エージェントを業務ワークフローに統合し始める方法を浮き彫りにしています。Meta の Llama モデルを Adaptive ML の強化学習プラットフォームおよび AWS インフラストラクチャと組み合わせることにより、このコラボレーションは、実際の企業環境向けに設計されたスケーラブルな AI サポートシステムへの道筋を示しています。

このコンテンツはいかがでしたか?