Amazon Web Services ブログ
Amazon Nova のご紹介: フロンティアインテリジェンスと業界をリードする料金パフォーマンス
12 月 3 日、最先端インテリジェンスと業界トップクラスの価格パフォーマンスを実現する新世代の最先端基盤モデル (FM) である Amazon Nova を発表できたことを嬉しく思います。このモデルは Amazon Bedrock でのみご利用いただけます。
Amazon Nova を使用すると、ほとんどすべての生成 AI タスクのコストとレイテンシーを削減できます。Amazon Nova をベースに構築することで、企業のワークロードに最適化されたさまざまなインテリジェンスクラスから、複雑なドキュメントやビデオの分析、チャートや図の理解、魅力的なビデオコンテンツの生成、高度な AI エージェントの構築を行うことができます。
画像やテキストを処理する必要があるドキュメント処理アプリケーションを開発する場合でも、大規模なマーケティングコンテンツを作成する場合でも、視覚情報を理解して処理できる AI アシスタントを構築する場合でも、Amazon Nova は、理解とクリエイティブコンテンツ生成という 2 つのカテゴリのモデルで必要なインテリジェンスと柔軟性を提供します。
Amazon Nova 理解モデルでは、テキスト、画像、またはビデオの入力を受け付けてテキスト出力を生成します。Amazon クリエイティブコンテンツ生成モデルでは、テキストと画像の入力を受け付けて画像またはビデオ出力を生成します。
理解モデル: テキストとビジュアルインテリジェンス
Amazon Nova モデルには、さまざまなニーズを満たすように設計された 3 つの理解モデルが含まれています(4 つ目は近日公開予定)。
Amazon Nova Micro – Amazon Nova シリーズのモデルで最もレイテンシーの低いレスポンスを非常に低コストで提供するテキストのみのモデルです。Amazon Nova Micro は、コンテキストの長さが 128,000 トークンで、速度とコストを重視して最適化されているため、テキストの要約、翻訳、コンテンツの分類、インタラクティブなチャットとブレーンストーミング、単純な数学的推論とコーディングなどのタスクに優れています。Amazon Nova Micro では、精度を向上させるための微調整とモデル蒸留による独自データのカスタマイズもサポートしています。
Amazon Nova Lite – 画像、ビデオ、テキスト入力を高速に処理してテキスト出力を生成する、非常に低コストのマルチモーダルモデルです。Amazon Nova Lite は、お客様とのリアルタイムのやり取り、ドキュメント分析、および視覚的な質問応答タスクを高精度で処理できます。このモデルは、最大 30 万トークンの長さの入力を処理し、1 回のリクエストで複数の画像または最大 30 分のビデオを分析できます。Amazon Nova Lite は、テキストとマルチモーダルの微調整もサポートしており、モデル蒸留などの手法を使用して、ユースケースに最適な品質とコストを実現するように最適化できます。
Amazon Nova Pro – 精度、スピード、コストの最適な組み合わせで、幅広いタスクに対応する高性能マルチモーダルモデルです。Amazon Nova Pro は最大 30 万個の入力トークンを処理でき、複雑なワークフローを完了するために呼び出す API とツールを必要とするマルチモーダルインテリジェンスとエージェントワークフローに新しい標準を打ち立てます。視覚的な質問応答(TextVQA)やビデオ理解(VATEX)などの主要なベンチマークで最先端のパフォーマンスを実現しています。Amazon Nova Pro は、視覚情報とテキスト情報の両方を処理する強力な機能を発揮し、財務書類の分析にも優れています。30 万トークンの入力コンテキストで、15,000 行を超えるコードを含むコードベースを処理できます。Amazon Nova Pro は、Amazon Nova Micro と Lite のカスタムバリアントを抽出するための教師モデルとしても機能します。
Amazon Nova Premier – 複雑な推論タスクや、カスタムモデルの抽出に最適な教師として使用できる、当社の最も高性能なマルチモーダルモデルです。Amazon Nova Premier はまだトレーニング中です。2025 年初頭に発売を開始することを目標としています。
Amazon Nova 理解モデルは、Retrieval-Augmented Generation (RAG)、関数呼び出し、およびエージェントアプリケーションに優れています。これは、Comprehensive RAG Benchmark (CRAG) 評価、Berkeley Function Calling Leaderboard (BFCL)、VisualWebBench、Mind2Web の Amazon Nova モデルスコアに反映されています。
Amazon Nova を企業にとって特に強力なものにしているのは、そのカスタマイズ機能です。スーツを仕立てるようなものだと考えてください。高品質のファンデーションから始めて、ニーズに合わせて調整します。テキスト、画像、ビデオを使用してモデルをファインチューニングすることで、業界の用語を理解し、ブランドボイスを理解し、特定のユースケースに合わせて最適化できます。たとえば、法律事務所では、法律用語やドキュメント構造をよりよく理解するために Amazon Nova をカスタマイズする場合があります。
これらのモデルの最新のベンチマークスコアは、Amazon Nova 製品ページで確認できます。
クリエイティブなコンテンツ生成: コンセプトに命を吹き込む
Amazon Nova モデルには、次の 2 つのクリエイティブコンテンツ生成モデルも含まれています。
Amazon Nova Canvas – インペイント、アウトペイント、背景削除などの豊富な編集機能を含む、スタイルとコンテンツを正確に制御しながらスタジオ品質の画像を生成する最先端の画像生成モデルです。Amazon Nova Canvas は、人間による評価だけでなく、質問回答によるテキストと画像の忠実度評価 (TIFA) や ImageReward などの主要なベンチマークにも優れています。
Amazon Nova Reel – 最先端のビデオ生成モデルです。Amazon Nova Reel を使用すると、テキストプロンプトや画像を使用して短いビデオを制作したり、視覚スタイルやペースを制御したり、マーケティング、広告、エンターテイメント向けのプロ品質のビデオコンテンツを生成したりできます。Amazon Nova Reel は、ビデオの品質とビデオの一貫性に関する人間による評価において、既存のモデルよりも優れています。
Amazon Nova のすべてのモデルには安全制御が組み込まれており、クリエイティブコンテンツ生成モデルには責任ある AI の使用を促進するためのウォーターマーク機能が含まれています。
いくつかのユースケースで、これらのモデルが実際にどのように機能するかを見てみましょう。
ドキュメント分析に Amazon Nova Pro を使用する
ドキュメント分析の機能を実証するために、AWS のドキュメントから PDF 形式の「生成 AI サービスの選択」決定ガイドをダウンロードしました。
まず、Amazon Bedrock コンソールのナビゲーションペインで [モデルアクセス] を選択し、新しい Amazon Nova モデルへのアクセスをリクエストします。次に、ナビゲーションペインの [プレイグラウンド] セクションで [チャット/テキスト] を選択し、 mazon Nova Pro モデルを選択します。チャットでは、意思決定ガイドの PDF をアップロードして、次のことを尋ねます。
このドキュメントの要約を 100 字で書いてください。次に、デシジョンツリーを作成します。
出力は私の指示に従い、読む前にドキュメントを垣間見ることができる構造化されたデシジョンツリーを生成します。
ビデオ分析に Amazon Nova Pro を使用する
ビデオ分析を示すために、2つの短いクリップを結合してビデオを作成しました(これについては次のセクションで詳しく説明します)。
今回は、AWS SDK for Python (Boto3) を使用して Amazon Bedrock Converse API を使用して Amazon Nova Pro モデルを呼び出し、ビデオを分析します。
import boto3
AWS_REGION = "us-east-1"
MODEL_ID = "amazon.nova-pro-v1:0"
VIDEO_FILE = "the-sea.mp4"
bedrock_runtime = boto3.client("bedrock-runtime", region_name=AWS_REGION)
with open(VIDEO_FILE, "rb") as f:
video = f.read()
user_message = "このビデオについて説明します。"
messages = [ { "role": "user", "content": [
{"video": {"format": "mp4", "source": {"bytes": video}}},
{"text": user_message}
] } ]
response = bedrock_runtime.converse(
modelId=MODEL_ID,
messages=messages,
inferenceConfig={"temperature": 0.0}
)
response_text = response["output"]["message"]["content"][0]["text"]
print(response_text)
Amazon Nova Pro は、API を使用してアップロードされたビデオ (前のコードと同様) や、Amazon Simple Storage Service (Amazon S3) バケットに保存されたビデオを分析できます。
スクリプトでは、ビデオの説明をお願いしています。コマンドラインからスクリプトを実行します。結果は次のとおりです。
ビデオは海の岩だらけの海岸の眺めから始まり、次に砂浜で休んでいる大きな貝殻のクローズアップに移ります。
より詳細なプロンプトを使用して、オブジェクトやテキストなどの特定の情報をビデオから抽出できます。Amazon Nova は現在、ビデオのオーディオを処理していないことに注意してください。
ビデオ作成に Amazon Nova を使用する
それでは、Amazon Nova Reel を使用してビデオを作成しましょう。テキストのみのプロンプトから始めて、参照画像を指定します。
ビデオの生成には数分かかるため、Amazon Bedrock API では次の 3 つの新しいオペレーションが導入されました。
StartAsyncInvoke – 非同期呼び出しを開始する
GetAsyncInvoke – 特定の非同期呼び出しの現在のステータスを取得する
ListAsyncInvokes – ステータスや日付などのオプションフィルタを使用して、すべての非同期呼び出しのステータスを一覧表示する
Amazon Nova Reel は、カメラのズームや移動などのカメラコントロールアクションをサポートしています。この Python スクリプトは、次のテキストプロンプトからビデオを作成します。
砂の中の大きな貝殻のクローズアップ。シェルの周りには穏やかな波が流れています。サンセットライト。カメラのズームインが非常に近いです。
最初の呼び出し後、スクリプトはビデオの作成が完了するまで定期的にステータスをチェックします。ランダムシードを渡すと、コードが実行されるたびに異なる結果が得られます。
import random
import time
import boto3
AWS_REGION = "us-east-1"
MODEL_ID = "amazon.nova-reel-v1:0"
SLEEP_TIME = 30
S3_DESTINATION_BUCKET = "<BUCKET>"
video_prompt = "砂の中の大きな貝殻のクローズアップ。シェルの周りには穏やかな波が流れています。サンセットライト。カメラのズームインが非常に近いです。"
bedrock_runtime = boto3.client("bedrock-runtime", region_name=AWS_REGION)
model_input = {
"taskType": "TEXT_VIDEO",
"textToVideoParams": {"text": video_prompt},
"videoGenerationConfig": {
"durationSeconds": 6,
"fps": 24,
"dimension": "1280x720",
"seed": random.randint(0, 2147483648)
}
}
invocation = bedrock_runtime.start_async_invoke(
modelId=MODEL_ID,
modelInput=model_input,
outputDataConfig={"s3OutputDataConfig": {"s3Uri": f"s3://{S3_DESTINATION_BUCKET}"}}
)
invocation_arn = invocation["invocationArn"]
s3_prefix = invocation_arn.split('/')[-1]
s3_location = f"s3://{S3_DESTINATION_BUCKET}/{s3_prefix}"
print(f"\nS3 URI: {s3_location}")
while True:
response = bedrock_runtime.get_async_invoke(
invocationArn=invocation_arn
)
status = response["status"]
print(f"Status: {status}")
if status != "InProgress":
break
time.sleep(SLEEP_TIME)
if status == "Completed":
print(f"\nVideo is ready at {s3_location}/output.mp4")
else:
print(f"\nVideo generation status: {status}")
スクリプトを実行します。
ステータス: 進行中
. . .
ステータス: 完了
s3://BUCKET/PREFIX/output.mp4
でビデオの準備ができました
数分後、スクリプトが完了し、Amazon Simple Storage Service (Amazon S3) の出力場所が出力されます。AWS コマンドラインインターフェイス (AWS CLI) を使用して出力ビデオをダウンロードします。
これが出来上がったビデオです。要求に応じて、カメラは被写体を拡大します。
Amazon Nova Reel を参考画像と共に使用する
ビデオの作成をより適切に制御できるように、Amazon Nova Reel に次のような参照画像を提供できます。
このスクリプトは、参照画像とテキストプロンプトとカメラアクション(海岸の風景の上空を飛行するドローンビュー
)を使用してビデオを作成します。
import base64
import random
import time
import boto3
S3_DESTINATION_BUCKET = "<BUCKET>"
AWS_REGION = "us-east-1"
MODEL_ID = "amazon.nova-reel-v1:0"
SLEEP_TIME = 30
input_image_path = "seascape.png"
video_prompt = "海岸沿いの風景の上空を飛行するドローンビュー"
bedrock_runtime = boto3.client("bedrock-runtime", region_name=AWS_REGION)
# 入力画像を Base64 文字列としてロードします。
with open(input_image_path, "rb") as f:
input_image_bytes = f.read()
input_image_base64 = base64.b64encode(input_image_bytes).decode("utf-8")
model_input = {
"taskType": "TEXT_VIDEO",
"textToVideoParams": {
"text": video_prompt,
"images": [{ "format": "png", "source": { "bytes": input_image_base64 } }]
},
"videoGenerationConfig": {
"durationSeconds": 6,
"fps": 24,
"dimension": "1280x720",
"seed": random.randint(0, 2147483648)
}
}
invocation = bedrock_runtime.start_async_invoke(
modelId=MODEL_ID,
modelInput=model_input,
outputDataConfig={"s3OutputDataConfig": {"s3Uri": f"s3://{S3_DESTINATION_BUCKET}"}}
)
invocation_arn = invocation["invocationArn"]
s3_prefix = invocation_arn.split('/')[-1]
s3_location = f"s3://{S3_DESTINATION_BUCKET}/{s3_prefix}"
print(f"\nS3 URI: {s3_location}")
while True:
response = bedrock_runtime.get_async_invoke(
invocationArn=invocation_arn
)
status = response["status"]
print(f"Status: {status}")
if status != "InProgress":
break
time.sleep(SLEEP_TIME)
if status == "Completed":
print(f"\nVideo is ready at {s3_location}/output.mp4")
else:
print(f"\nVideo generation status: {status}")
繰り返しますが、AWS CLI を使用して出力をダウンロードします。
これが出来上がったビデオです。カメラは参照画像から開始し、前方に移動します。
責任ある AI の構築
Amazon Nova モデルは、モデル開発段階を通じてお客様の安全、セキュリティ、信頼に重点を置いて構築されています。これにより、お客様独自のユースケースを実現するための安心感と適切なレベルの制御が可能になります。
包括的な安全機能とコンテンツ管理機能が組み込まれているため、責任を持って AI を使用するために必要な制御が可能になります。生成されたすべての画像およびビデオには、デジタル透かしが含まれています。
Amazon Nova 基盤モデルは、その強化された機能に見合った保護機能を搭載して構築されています。Amazon Nova は、誤った情報、児童の性的虐待資料 (CSAM)、化学的、生物学的、放射線的、または原子力 (CBRN) のリスクの拡散に対抗するために安全対策を拡大しています。
知っておくべきこと
Amazon Nova モデルは、米国東部 (バージニア北部) AWS リージョンの Amazon Bedrock でご利用いただけます。Amazon Nova Micro、Lite、Pro は、クロスリージョン推論により米国西部 (オレゴン) および米国東部 (オハイオ) リージョンでもご利用いただけます。Amazon Bedrock では通常どおり、価格設定は従量課金制です。詳細については、Amazon Bedrock の料金をご覧ください。
新世代の Amazon Nova 理解モデルはあなたの言語を話します。これらのモデルは 200 以上の言語でコンテンツを理解して生成し、特に英語、ドイツ語、スペイン語、フランス語、イタリア語、日本語、韓国語、アラビア語、簡体字中国語、ロシア語、ヒンディー語、ポルトガル語、オランダ語、トルコ語、ヘブライ語で強力な機能を備えています。つまり、言語の壁を気にしたり、地域ごとに別々のモデルを維持したりすることなく、真にグローバルなアプリケーションを構築できるということです。クリエイティブコンテンツ生成用の Amazon Nova モデルは英語のプロンプトをサポートします。
Amazon Nova を試してみると、ますます複雑になるタスクを処理できることに気付くでしょう。これらのモデルを使用すると、最大 30 万トークンの長いドキュメントを処理したり、1 回のリクエストで複数の画像を分析したり、最大 30 分分のビデオコンテンツを理解したり、自然言語から大規模な画像やビデオを生成したりできます。そのため、これらのモデルは、迅速なカスタマーサービスインタラクションから、企業ドキュメントの詳細な分析や広告、e コマース、ソーシャルメディアアプリケーション用のアセット作成まで、さまざまなビジネスユースケースに適しています。
Amazon Bedrock との統合により、デプロイとスケーリングが簡単になります。Amazon Bedrock ナレッジベースなどの機能を活用して、独自の情報でモデルを強化したり、Amazon Bedrock エージェントを使用して複雑なワークフローを自動化したり、Amazon Bedrock Guardrails を実装して責任ある AI の使用を促進したりできます。このプラットフォームは、インタラクティブアプリケーションのリアルタイムストリーミング、大量のワークロードのバッチ処理、およびパフォーマンスの最適化に役立つ詳細な監視をサポートしています。
Amazon Nova で構築を開始する準備はできていますか? 今すぐ Amazon Bedrock コンソールで新しいモデルを試してみて、Amazon Bedrock ドキュメントの Amazon Nova モデルセクションにアクセスして、AWS re:Post for Amazon Bedrock にフィードバックを送ってください。community.aws では、詳しい技術コンテンツを検索し、ビルダーコミュニティが Amazon Bedrock を使用する方法を見出すことができます。これらの新モデルで何を構築するのか教えてください!
– Danilo
原文はこちらです。