リアルタイムな会話型 AI を実現する Amazon Nova 2 Sonic を発表
Amazon は本日、自然でリアルタイムな会話型 AI を実現する音声合成モデルである Amazon Nova 2 Sonic の提供を発表しました。 このモデルは、クラス最高のストリーミング音声理解と、バックグラウンドノイズおよびユーザーの話し方に対する堅牢性を備え、会話の効率的な処理、複数の言語をネイティブに話すことができる表現力豊かな音声 (多言語音声) による音声生成が可能です。また、推論、指示の実行、ツール呼び出しの精度が以前のモデルよりも向上しています。
Nova 2 Sonic には、オリジナルの Nova Sonic モデルで導入された機能をベースに、言語サポートの拡大 (ポルトガル語とヒンディー語を追加)、モデルが異なる言語を同じ音声でネイティブの表現力で話すことができる多言語音声、開発者がポーズ感度を低、中、高に設定できるターンテイキング制御などの新機能が導入されています。このモデルには、クロスモーダルインタラクション機能も追加されているため、ユーザーは同じセッション内で音声とテキストをシームレスに切り替えることができます。また、非同期のツール呼び出しにより、会話の流れを中断することなく複数ステップのタスクをサポートできるほか、100 万トークンのコンテキストウィンドウによって持続的なインタラクションが可能です。
開発者は、Amazon Bedrock の双方向ストリーミング API を使用して、Nova Sonic 2 をリアルタイム音声システムに直接統合できます。Nova Sonic 2 は、Amazon Connect やその他の主要なテレフォニープロバイダー (Vonage、Twilio、AudioCodes など)、オープンソースフレームワーク (LiveKit や Pipecat など) ともシームレスに統合できます。
Amazon Nova 2 Sonic は、米国東部 (バージニア北部)、米国西部 (オレゴン)、アジアパシフィック (東京) の AWS リージョンで、Amazon Bedrock を通じてご利用いただけます。詳細については、AWS ニュースブログと Amazon Nova Sonic ユーザーガイドをご覧ください。Amazon Bedrock で Nova Sonic 2 の使用を開始するには、Amazon Bedrock コンソールにアクセスしてください。