Amazon Bedrock で利用可能になった Meta からの Llama 3.2 モデルの紹介: 新世代のマルチモーダルビジョンモデルと軽量モデル

7 月に、AWS は Llama 3.1 モデルが Amazon Bedrock で利用可能になったことをお知らせしました。生成 AI テクノロジーが驚くべきスピードで向上している中、今日は Amazon Bedrock で利用可能になった Meta からの新しい Llama 3.2 モデルをご紹介したいと思います。

Llama 3.2 は、大規模言語モデル (LLM) における Meta の最新の進歩を象徴するマルチモーダルビジョンモデルと軽量モデルを提供し、強化された機能と、さまざまなユースケース全体へのより広範な適用性を実現します。責任あるイノベーションとシステムレベルでの安全性に重点を置くこれらの新しいモデルは、幅広い業界ベンチマークで最新鋭のパフォーマンスを実証し、新世代の AI エクスペリエンスの構築に役立つ機能を導入します。

これらのモデルは、画像推論でビルダーにインスピレーションを与えるように設計されており、エッジアプリケーションでも利用しやすいため、AI の可能性が広がります。

Llama 3.2 のモデルコレクションは、エッジデバイスに適したテキスト専用の軽量な 1B および 3B パラメータモデルから、高解像度画像のマルチモーダルサポートを含めた高度な推論タスクに対応できる小サイズと中サイズの 11B および 90B パラメータモデルまで、さまざまなサイズで提供されます。Llama 3.2 11B と 90B はビジョンタスクをサポートするための最初の Llama モデルで、画像エンコーダ表現を言語モデルに統合する新しいモデルアーキテクチャを備えています。新しいモデルは、低減されたレイテンシーと改善されたパフォーマンスで AI ワークロードをより効率的に行うように設計されているため、幅広いアプリケーションに適しています。

すべての Llama 3.2 モデルは、128,000 のコンテキスト長をサポートすることで、Llama 3.1 で導入されたトークン容量拡張を維持しています。さらに、これらのモデルは、英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、およびタイ語を含む 8 言語に対する強化された多言語サポートも提供します。

既存のテキスト対応の Llama 3.1 8B、70B、および 405B モデルに加えて、Llama 3.2 もマルチモーダルユースケースをサポートしています。今後は、Meta の 4 つの新しい Llama 3.2 モデルである 90B、11B、3B、および 1B を Amazon Bedrock で使用して、クリエイティブなアイデアを構築、実験、およびスケールできるようになります。

Llama 3.2 90B Vision (テキスト + 画像入力) – Meta の最先端モデルであり、エンタープライズレベルのアプリケーションに最適です。このモデルは、一般知識、長文テキスト生成、多言語翻訳、コーディング、数学、および高度な推論に秀でています。また、画像推論機能も導入するため、画像理解タスクやビジュアル推論タスクの実行が可能になります。このモデルは、画像キャプション生成、画像テキスト検索、ビジュアルグラウンディング、ビジュアル質問応答とビジュアル推論、およびドキュメントビジュアル質問応答などのユースケースに最適です。

Llama 3.2 11B Vision (テキスト + 画像入力) – コンテンツ作成、会話型 AI、言語理解、およびビジュアル推論を必要とするエンタープライズアプリケーションに最適です。このモデルは、テキスト要約、センチメント分析、コード生成、および指示への追随で優れたパフォーマンスを実証しており、画像について推論する追加機能もあります。このモデルのユースケースは 90B バージョンと似ており、画像キャプション生成、画像テキスト検索、ビジュアルグラウンディング、ビジュアル質問応答とビジュアル推論、およびドキュメントビジュアル質問応答などがあります。

Llama 3.2 3B (テキスト入力) – 低レイテンシーの推論を必要とし、計算リソースが限られているアプリケーション向けに設計されており、テキスト要約、分類、および言語翻訳タスクに優れています。このモデルは、AI 搭載のモバイルライティングアシスタントやカスタマーサービスアプリケーションなどのユースケースに最適です。

Llama 3.2 1B (テキスト入力) – Llama 3.2 のモデルコレクションの中で最も軽量なモデルであり、エッジデバイスやモバイルアプリケーションでの検索と要約に最適です。このモデルは、個人情報管理や多言語での知識検索などのユースケースに最適です。

また、Llama 3.2 はカノニカルなツールチェーンコンポーネントとエージェント型アプリケーションを構築するための標準化されたインターフェイスである Llama Stack 上に構築されているため、構築とデプロイがこれまでになく簡単になります。Llama Stack API アダプタとディストリビューションは、Llama モデルの機能を最も効果的に活用できるように設計されており、さまざまなベンダー全体で Llama モデルのベンチマークを行う能力をお客様に提供します。

Meta は、複数の言語にまたがる 150 を超えるベンチマークデータセットで Llama3.2 をテストし、人間による評価を大規模に実施して、他の主要基盤モデルとの競争力を備えたパフォーマンスを実証しました。では、これらのモデルが実際に機能する仕組みを見てみましょう。

Amazon Bedrock での Llama 3.2 モデルの使用
Llama 3.2 モデルの使用を開始するには、Amazon Bedrock コンソールに移動して、ナビゲーションペインで [モデルアクセス] を選択します。そこで、新しい Llama 3.2 モデルである Llama 3.2 1B、3B、11B Vision、および 90B Vision へのアクセスをリクエストします。

新しいビジョン機能をテストするため、別のブラウザタブを開いて、Our World in Data ウェブサイトから Share of electricity generated by renewables グラフを PNG 形式でダウンロードしました。グラフの解像度は非常に高いため、サイズを 1024 ピクセル幅に変更します。

Amazon Bedrock コンソールに戻り、ナビゲーションペインの [プレイグラウンド] で [チャット] を選択し、カテゴリとして [Meta] を選択してから、[Llama 3.2 90B Vision] モデルを選択します。

[ファイルを選択] を使用してサイズ変更されたグラフ画像を選択し、以下のプロンプトを使用します。

Based on this chart, which countries in Europe have the highest share?

[実行] を選択すると、モデルが画像を分析して結果を返します。

AWS コマンドラインインターフェイス (AWS CLI) や AWS SDK を使用して、プログラム的にモデルにアクセスすることもできます。Llama 3.1 モデルを使用するときと違い、今回はドキュメントの記述どおりにモデル ID を更新するだけで済みます。また、米国および EU リージョン用の新しいクロスリージョン推論エンドポイントも使用できます。これらのエンドポイントは、それぞれ米国と EU 内のどのリージョンでも機能します。例えば、Llama 3.2 90B Vision モデルのクロスリージョン推論エンドポイントは以下のようになります。

us.meta.llama3-2-90b-instruct-v1:0
eu.meta.llama3-2-90b-instruct-v1:0

以下は、Amazon Bedrock Converse API を使用した AWS CLI コマンドの例です。CLI の --query パラメータを使用して結果をフィルタリングし、出力メッセージのテキストコンテンツのみを表示します。

aws bedrock-runtime converse --messages '[{ "role": "user", "content": [ { "text": "Tell me the three largest cities in Italy." } ] }]' --model-id us.meta.llama3-2-90b-instruct-v1:0 --query 'output.message.content[*].text' --output text

出力では、"assistant" からの応答メッセージが得られます。

The three largest cities in Italy are:

1.Rome (Roma) - population: approximately 2.8 million
2.Milan (Milano) - population: approximately 1.4 million
3.Naples (Napoli) - population: approximately 970,000

AWS SDK のいずれかを使用する場合も、それほど違いはありません。例えば、以下は AWS SDK for Python (Boto3) で Python を使用して、コンソールの例と同じ画像を分析する方法です。

import boto3

MODEL_ID = "us.meta.llama3-2-90b-instruct-v1:0"
# MODEL_ID = "eu.meta.llama3-2-90b-instruct-v1:0"

IMAGE_NAME = "share-electricity-renewable-small.png"

bedrock_runtime = boto3.client("bedrock-runtime")

with open(IMAGE_NAME, "rb") as f:
    image = f.read()

user_message = "Based on this chart, which countries in Europe have the highest share?"

messages = [
    {
        "role": "user",
        "content": [
            {"image": {"format": "png", "source": {"bytes": image}}},
            {"text": user_message},
        ],
    }
]

response = bedrock_runtime.converse(
    modelId=MODEL_ID,
    messages=messages,
)
response_text = response["output"]["message"]["content"][0]["text"]
print(response_text)

Llama 3.2 モデルは、Amazon SageMaker JumpStart でも利用できます。SageMaker JumpStart は、コンソールを使用して行う、または SageMaker Python SDK 経由でプログラム的に行う事前トレーニングされたモデルのデプロイを容易にする機械学習 (ML) ハブです。SageMaker JumpStart では、責任あるイノベーションとシステムレベルでの安全性をサポートするために設計された、モデルの入力 (プロンプト) と出力 (応答) の安全性レベルの分類に役立つ新しいセーフガードモデルにアクセスしてデプロイすることも可能です。これには Llama Guard 3 11B Vision も含まれます。

また、今すぐ SageMaker JumpStart を使用して、Llama 3.2 1B および 3B モデルを簡単にファインチューニングすることもできます。ファインチューニングされたモデルは、カスタムモデルとして Amazon Bedrock にインポートできます。Amazon Bedrock と Amazon SageMaker JumpStart でのすべての Llama 3.2 モデルコレクションのファインチューニングは、近日提供される予定です。

一般公開されている Llama 3.2 モデルの重みは、カスタムニーズに合わせて調整されたソリューションの提供を容易にします。例えば、Llama 3.2 モデルを特定のユースケースに合わせてファインチューニングし、それをカスタムモデルとして Amazon Bedrock に取り込むことができるため、ドメイン固有のタスクでのパフォーマンスが他のモデルを上回る可能性があります。パフォーマンス強化のためにファインチューニングを行う分野がコンテンツ制作、言語理解、またはビジュアル推論であるかにかかわらず、Amazon Bedrock と SageMaker での Llama 3.2 の可用性は、ソリューションの差別化を可能にするユニークで高性能な AI 機能の作成に役立ちます。

Llama 3.2 モデルアーキテクチャの詳細
前バージョンの成功を土台として構築された Llama 3.2 は、最上のパフォーマンスと多用途性を実現するように設計された高度なアーキテクチャを備えています。

自己回帰言語モデル – Llama 3.2 は最適化されたトランスフォーマーアーキテクチャを中核としているため、以前のコンテキストに基づいて次のトークンを予測することによるテキストの生成が可能になります。

ファインチューニング手法 – Llama 3.2 の指示チューニング型バージョンは、2 つの主な手法を採用しています。

教師付きファインチューニング (SFT) – このプロセスは、特定の指示に従って、より関連性の高い応答を生成するようにモデルを調整します。
人間のフィードバックによる強化学習 (RLHF) – この高度な手法は、モデルの出力を人間の好みに合わせて調整し、有用性と安全性を強化します。

マルチモーダル機能 – 11B および 90B Vison モデルでは、Llama 3.2 が画像理解に対する新しいアプローチを導入しています。

個別にトレーニングされた画像推論アダプタの重みがコア LLM の重みと統合されます。
これらのアダプタは、クロスアテンションメカニズム経由でメインモデルに接続されています。クロスアテンションは、モデルのあるセクションが別のコンポーネント出力の関連する部分に注目できるようにすることで、モデルの異なるセクション間での情報フローを可能にします。
画像が入力である場合、モデルは画像推論プロセスを「tool use」操作として扱い、テキスト処理と並行して高度なビジュアル分析を実行できるようにします。この文脈での tool use とは、モデルがその機能を補強して、タスクをより効果的に完了するために、外部のリソースや関数を使用するときに使用される総称です。

最適化された推論 – すべてのモデルがグループ化されたクエリアテンション (GQA) をサポートしています。推論の速度と効率性を向上させる GQA は、特に大規模な 90B モデルに有益です。

このアーキテクチャは、さまざまなモデルサイズ全体で優れたパフォーマンスと適応性を維持すると同時に、テキストの生成と理解から複雑な推論と画像分析におよぶ幅広いタスクを Llama 3.2 が処理できるようにします。

知っておくべきこと
現在、Meta からの Llama 3.2 モデルは、以下の AWS リージョンにある Amazon Bedrock で一般提供されています。

Llama 3.2 1B および 3B モデルは米国西部 (オレゴン) および欧州 (フランクフルト) で利用でき、クロスリージョン推論では米国東部 (オハイオ、バージニア北部) および欧州 (アイルランド、パリ) リージョンで利用できます。
Llama 3.2 11B Vision および 90B Vision モデルは米国西部 (オレゴン) リージョンで利用でき、クロスリージョン推論では米国東部 (オハイオ、バージニア北部) で利用できます。

今後の更新については、完全な AWS リージョンリストを参照してください。コストの見積もりには、Amazon Bedrock の料金ページをご覧ください。

Llama 3.2 の特徴と機能の詳細については、Amazon Bedrock ドキュメントの Llama モデルセクションをご覧ください。Amazon Bedrock コンソールで Llama 3.2 を今すぐお試しいただき、AWS re:Post for Amazon Bedrock までフィードバックをお寄せください。

community.aws では、詳しい技術コンテンツを検索し、ビルダーコミュニティが Amazon Bedrock を使用する方法を見出すことができます。皆さんが Amazon Bedrock で Llama 3.2 を使用して何を構築しているのかを教えください!

– Danilo

原文はこちらです。

Amazon Web Services ブログ

Amazon Bedrock で利用可能になった Meta からの Llama 3.2 モデルの紹介: 新世代のマルチモーダルビジョンモデルと軽量モデル

お役立ちリンク

フォローお願いいたします