Amazon Bedrock 推出 Meta 的 Llama 3.2 模型：新一代多模态视觉和轻量级模型

七月，我们宣布 Llama 3.1 模型在 Amazon Bedrock 上线。生成式人工智能技术正以惊人的速度飞速发展，今天，我们非常兴奋地在 Amazon Bedrock 上推出由 Meta 提供的最新 Llama 3.2 模型。

Llama 3.2 带来了多模态视觉识别和轻量级模型，这标志着 Meta 在大型语言模型 (LLM) 领域的最新突破，它在多种应用场景中都提供了更强大的功能和更广的适用范围。这些新模型注重负责任的创新和系统级安全，展现出在多个行业标准测试中的领先性能，并引入了一系列新功能，以助力构建新一代人工智能体验。

这些模型旨在通过图像推理来激发构建者的灵感，并让边缘应用程序更加易于使用，进而借助人工智能释放更多潜能。

Llama 3.2 系列模型涵盖了不同规模，最小的是 1B 和 3B 参数的轻量级纯文本模型，适合边缘设备使用，而 11B 和 90B 参数的中小型模型则能够执行包括高分辨率图像多模态处理在内的复杂推理任务。Llama 3.2 的 11B 和 90B 模型是首批支持视觉任务的版本，它们通过新模型架构将图像编码器的表示集成到语言模型之中。新模型旨在更有效地处理人工智能工作负载，降低延迟，并增强性能，使其适用于各种应用程序。

Llama 3.2 系列的所有模型均支持 128K 的上下文长度，延续了 Llama 3.1 所具备的扩展令牌容量特性。此外，这些模型还增强了对八种语言的支持，涵盖了英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。

除了现有的支持文本的 Llama 3.1 8B、70B 和 405B 模型外，Llama 3.2 还支持多模态应用场景。现在，您可以在 Amazon Bedrock 中使用 Meta 的四款全新 Llama 3.2 模型（90B、11B、3B 和 1B），来构建、试验和扩展创意：

Llama 3.2 90B Vision（支持文本和图像输入）——Meta 最先进的模型，非常适合企业级应用程序。该模型擅长于通用知识处理、长文本生成、多语言翻译、编程、数学问题解决以及高级推理任务。该模型还引入了图像推理功能，能够执行图像理解和视觉推理任务。这款模型非常适合以下应用场景：图像标注、图像文本搜索、视觉基础任务、视觉问答、视觉推理以及文档视觉问答。

Llama 3.2 11B Vision（支持文本和图像输入）——非常适合内容创作、对话式人工智能、语言理解和需要视觉推理的企业应用程序。该模型在文本摘要、情绪分析、代码生成和指令遵循等方面表现优异，并且能够对图像进行推理分析。该模型应用场景与 90B 版本类似：图像标注、图像文本检索、视觉基础、视觉问答、视觉推理以及文档视觉问答。

Llama 3.2 3B（支持文本输入）——专为需要低延迟推理和有限计算资源的应用程序而设计。该模型擅长文本摘要、分类和语言翻译任务。该模型非常适合以下应用场景：移动人工智能驱动的写作助手和客户服务应用程序。

Llama 3.2 1B（支持文本输入）——Llama 3.2 系列模型中最轻量级的模型，非常适合边缘设备和移动应用程序的检索和摘要。该模型非常适合以下应用场景：个人信息管理和多语言知识检索。

此外，Llama 3.2 基于 Llama Stack 构建，这个标准化接口用于开发规范的工具链组件和代理应用，使得构建和部署工作变得更加简便。Llama Stack API 适配器和发行版致力于最大化地发挥 Llama 模型的效能，使用户能够轻松地对不同供应商提供的 Llama 模型进行性能基准测试。

Meta 对 Llama 3.2 进行了广泛测试，涵盖了超过 150 个多语言的基准数据集，并经过人工评估，证实其性能可与其他顶尖的基础模型相媲美。让我们看看这些模型的实际应用。

在 Amazon Bedrock 中使用 Llama 3.2 模型
要开始使用 Llama 3.2 模型，需要导航到 Amazon Bedrock 控制台，然后在导航窗格中选择模型访问。在那里，我请求访问新的 Llama 3.2 模型：Llama 3.2 1B、3B、11B Vision 和 90B Vision。

为了测试新的视觉功能，我打开了另一个浏览器选项卡，并从我们的数据世界网站下载了一张 PNG 格式的图表，其内容涉及可再生能源发电份额。该图表的分辨率非常高，我将其大小调整为 1024 像素宽。

回到 Amazon Bedrock 控制台，我在导航窗格中的 Playgrounds 下选择聊天，选择 Meta 作为类别，然后选择 Llama 3.2 90B Vision 模型。

我使用选择文件来选择已调整大小的图表图像，并使用此提示：

根据这张图表，欧洲哪些国家的份额最高？

我选择运行，模型就会分析图像并返回结果：

我还可以通过 AWS 命令行界面 (AWS CLI) 和 AWS SDK 以编程方式访问模型。与使用 Llama 3.1 模型相比，我只需要按照文档中的说明更新模型 ID。我还可以为美国和欧盟使用新的跨区域推理端点。这些端点分别适用于美国和欧盟境内的任何区域。例如，Llama 3.2 90B Vision 模型的跨区域推理端点是：

us.meta.llama3-2-90b-instruct-v1:0
eu.meta.llama3-2-90b-instruct-v1:0

下面是使用 Amazon Bedrock Converse API 的 AWS CLI 命令示例。我通过 CLI 的 --query 参数来筛选结果，仅显示输出消息的文本内容：

aws bedrock-runtime converse --messages '[{ "role": "user", "content": [ { "text": "Tell me the three largest cities in Italy." } ] }]' --model-id us.meta.llama3-2-90b-instruct-v1:0 --query 'output.message.content[*].text' --output text

在输出消息中，我收到来自“助手”的响应消息。

意大利最大的三个城市是：

1.罗马（Roma）-人口：约 280 万
2.米兰（Milano）-人口：约 140 万
3.那不勒斯（Napoli）-人口：约 97 万

即使使用 AWS SDK 之一，情况也大同小异。例如，您可以通过以下方式，使用 Python 和适用于 Python 的 Amazon SDK (Boto3) 来分析与控制台示例中相同的图像：

import boto3

MODEL_ID = "us.meta.llama3-2-90b-instruct-v1:0"
# MODEL_ID = "eu.meta.llama3-2-90b-instruct-v1:0"

IMAGE_NAME = "share-electricity-renewable-small.png"

bedrock_runtime = boto3.client("bedrock-runtime")

with open(IMAGE_NAME, "rb") as f:
    image = f.read()

user_message = "Based on this chart, which countries in Europe have the highest share?"

messages = [
    {
        "role": "user",
        "content": [
            {"image": {"format": "png", "source": {"bytes": image}}},
            {"text": user_message},
        ],
    }
]

response = bedrock_runtime.converse(
    modelId=MODEL_ID,
    messages=messages,
)
response_text = response["output"]["message"]["content"][0]["text"]
print(response_text)

Llama 3.2 模型也可在 Amazon SageMaker JumpStart 中使用，这是一个机器学习中心，可通过控制台或使用 SageMaker Python SDK 以编程方式轻松部署预训练的模型。您还能通过 SageMaker JumpStart 访问和部署最新的防护模型，这些模型有助于对模型的输入（提示）和输出（响应）进行安全分级，其中包括 Llama Guard 3 11B Vision 模型，它被专门设计用于支持负责任的创新和维护系统级的安全。

此外，您现在可以通过 SageMaker JumpStart 轻松微调 Llama 3.2 1B 和 3B 模型。然后，您可以将经过微调的模型作为自定义模型导入 Amazon Bedrock。即将对 Amazon Bedrock 和 Amazon SageMaker JumpStart 中的所有 Llama 3.2 模型进行微调。

Llama 3.2 模型公开可用的权重使我们更容易针对客户需求提供量身定制的解决方案。例如，您可以针对特定应用场景对 Llama 3.2 模型进行微调，然后将其作为自定义模型集成到 Amazon Bedrock 中，这样它在特定领域的任务上可能会比其他模型表现得更加出色。无论您是在内容创作、语言理解还是视觉推理等领域对模型进行微调以提升性能，Llama 3.2 在 Amazon Bedrock 和 SageMaker 上的应用都让您能够打造独特且高效的人工智能功能，让您的解决方案脱颖而出。

有关 Llama 3.2 模型架构的更多信息
Llama 3.2 在前辈产品成功的基础上，引入了先进的架构设计，致力于提供最优的性能和广泛的适用性：

自回归语言模型——Llama 3.2 的核心采用了优化的转换器架构，它能够基于之前的上下文预测接下来的内容，从而生成文本。

微调技术——Llama 3.2 的指令调整版本采用了两种关键技术：

监督式微调 (SFT)——该流程可调整模型，使其遵循特定指令，并生成更相关的响应。
基于人工反馈的强化学习 (RLHF)——这项先进的技术使模型的输出与人类的偏好保持一致，从而增强实用性和安全性。

多模态功能——对于 11B 和 90B Vision 模型，Llama 3.2 引入了一种新的图像理解方法：

经过单独训练的图像推理适配器权重与核心 LLM 权重相结合。
这些适配器通过交叉注意力机制连接到主模型。交叉注意力机制让模型的一部分能够关注另一部分输出中相关的信息，以此实现模型不同部分之间的信息交流。
当处理输入图像时，该模型将图像推理视为一种“工具使用”行为，这样它就能在处理文本的同时，进行深入的视觉分析。在这里，“工具使用”是一个泛称，指的是模型利用外部资源或功能来提升自己的处理能力，以便更高效地完成任务。

优化推理——所有模型均支持分组查询注意力 (GQA)，这不仅提升了推理速度和效率，尤其对规模更大的 90B 模型带来了显著好处。

这种架构设计让 Llama 3.2 能够游刃有余地处理包括文本生成与理解、复杂推理和图像分析在内的各种任务，同时确保不同规模的模型都能维持高性能和良好的适应性。

注意事项
Meta 的 Llama 3.2 模型现已在以下 AWS 区域的 Amazon Bedrock 中全面推出：

请查看完整区域列表，以了解将来的更新。要估算您的成本，请访问Amazon Bedrock 定价页面。

要了解有关 Llama 3.2 特征和功能的更多信息，请访问Amazon Bedrock 文档的 Llama 模型部分。立即在 Amazon Bedrock 控制台中试用 Llama 3.2，并将反馈发送至 AWS re:Post for Amazon Bedrock。

您可以在 community.aws 上找到深入的技术内容，了解我们的构建者社区如何使用 Amazon Bedrock。告诉我们您在 Amazon Bedrock 中用 Llama 3.2 构建了什么！

— Danilo

*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用，亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。

亚马逊AWS官方博客

Amazon Bedrock 推出 Meta 的 Llama 3.2 模型：新一代多模态视觉和轻量级模型