Amazon Bedrock 针对基础模型推出延迟优化推理功能
Amazon Bedrock 中针对基础模型的延迟优化推理功能现在推出公开预览版,为 AI 应用程序提供了更快的响应速度和更好的响应能力。目前,这些新的推理选项支持 Anthropic 的 Claude 3.5 Haiku 模型以及 Meta 的 Llama 3.1 405B 和 70B 模型,与标准模型相比,能够降低延迟而不影响准确性。经过 Anthropic 验证,在 Amazon Bedrock 中进行了延迟优化推理后,Claude 3.5 Haiku 在 AWS 上的运行速度比其他任何地方都快。 此外,借助 Bedrock 中的延迟优化推理,Llama 3.1 405B 和 70B 在 AWS 上的运行速度也比任何其他主要云提供商都要快。
随着越来越多的客户将其生成式人工智能应用程序投入到生产环境中,优化最终用户体验变得至关重要,对于实时客服聊天机器人和交互式编程助手等延迟敏感型应用程序来说尤其如此。借助 Amazon Bedrock 中的 AWS Trainium2 等专用人工智能芯片和高级软件优化功能,客户可以通过更多选项来优化针对特定使用场景的推理。使用这些功能无需进行额外的设置或模型微调,可以立即增强现有应用程序,缩短响应时间。
美国东部(俄亥俄州)区域的 Anthropic Claude 3.5 Haiku 和 Meta Llama 3.1 405B 和 70B 模型可以通过跨区域推理使用延迟优化推理功能。要开始使用,请访问 Amazon Bedrock 控制台。有关 Amazon Bedrock 及其功能的更多信息,请访问 Amazon Bedrock 产品页面、定价页面和文档。