Amazon Bedrock の基盤モデルでのレイテンシー最適化推論の導入

投稿日: 2024年12月2日

Amazon Bedrock の基盤モデルでレイテンシー最適化推論がパブリックプレビューとして利用可能になり、AI アプリケーションで応答時間の短縮と応答性の向上が実現します。現在、これらの新しい推論オプションは Anthropic の Claude 3.5 Haiku モデルMeta の Llama 3.1 405B および 70B モデルをサポートしており、精度を損なうことなく、レイテンシーが標準モデルより削減されます。Anthropic が検証したように、Amazon Bedrock でレイテンシー最適化推論を使用した場合、Claude 3.5 Haiku は AWS 上で他のどのサービスよりも高速に動作します。 さらに、Bedrock でレイテンシー最適化推論を使用した場合、Llama 3.1 405B と 70B は、AWS 上で他の主要なクラウドプロバイダーよりも高速に動作します。

生成 AI アプリケーションを本番環境に移行するお客様が増えるにつれ、エンドユーザーエクスペリエンスの最適化が重要になります。特に、リアルタイムのカスタマーサービスチャットボットやインタラクティブなコーディングアシスタントなど、レイテンシーの影響を受けやすいアプリケーションではそう言えます。AWS Trainium2 などの専用の AI チップと Amazon Bedrock の高度なソフトウェア最適化を併用すると、特定のユースケースに合わせて推論を最適化するためのより多くのオプションを利用できます。これらの機能に利用するために追加の設定やモデルの微調整は必要なく、既存のアプリケーションをすぐに強化し、応答時間を短縮できます。

レイテンシー最適化推論は、Anthropic の Claude 3.5 Haiku と Meta の Llama 3.1 405B および 70B で、米国東部 (オハイオ) リージョンにおいてクロスリージョン推論を介して利用できます。利用を開始するには、Amazon Bedrock コンソールにアクセスしてください。Amazon Bedrock とその機能の詳細については、Amazon Bedrock 製品ページ価格ページ、およびドキュメントをご覧ください。