人工智能›
AWS 上的 Hugging Face

AWS 上的 Hugging Face

使用 Amazon SageMaker、AWS Trainium 和 AWS Inferentia 在几分钟内训练和部署 Hugging Face 模型

概览

借助 AWS 上的 Hugging Face，只需单击几下，即可通过 NVIDIA GPU 上的 Amazon SageMaker 以及专门构建的人工智能芯片 AWS Trainium 和 AWS Inferentia 访问、评估、自定义和部署数百个公开发布的基础模型（FM）。Hugging Face 模型中心中最常用的基础模型均支持这些易于使用的流，因此您可以针对特定使用案例，进一步优化模型性能，同时显著降低成本。模型中心的“训练”和“部署”下拉菜单下的每个模型页面均提供 Sagemaker 的代码段。

在后台，这些体验在 Hugging Face AWS Deep Learning Containers（DLC）上构建，可提供完全托管体验，让您通过 Amazon SageMaker 构建、训练和部署最先进的基础模型。借助这些 DLC，您可省去软件包依赖关系，也无需针对目标硬件优化机器学习工作负载。例如，AWS 和 Hugging Face 合作开发了开源 Optimum Neuron 库，该库随专为 AWS 人工智能芯片构建的 DLC 打包提供，可以最小开销提供性价比优势。

优势

Hugging Face 提供各种经过预训练的基础模型，例如 Meta Llama 3、Mistral、Falcon 2 和 Starcoder，您只需点击几下即可通过 Amazon SageMaker JumpStart 在 AWS Trainium、AWS Inferentia 和 NVIDIA GPU 上安全地访问和部署这些基础模型。SageMaker 还允许您使用虚拟私有云（VPC）并在网络隔离中部署基础模型，从而增强安全性。

借助最丰富的加速 EC2 实例集获得高性能，并为 PyTorch、TensorFlow 和 JAX 等常见框架提供支持。与同类 EC2 实例相比，AWS Trainium 可以帮助您将训练成本降低多达 50%，而 AWS Inferentia2 可以将推理成本降低多达 40%。

使用 Amazon SageMaker，您可以使用高级技术自定义公开可用的模型，以提高特定任务的模型质量并支持大规模生产工作负载。您可以利用提示工程、检索增强生成（RAG）和微调等技术，包括参数高效微调（PEFT）、低秩适应（LoRA）、基于人类反馈的强化学习（RLHF）和有监督微调（SFT）。

在基础模型开发生命周期的每一个步骤都充分利用 Amazon SageMaker 的专用工具。借助 Amazon SageMaker，您可以评估、深度定制和部署性能、延迟、成本都经过优化的模型。您可以实时或异步部署基础模型，并使用多模型终端节点和其他高级部署技术来完全控制成本和性能。Hugging Face 文本生成推理（TGI）是用于部署和服务大型语言模型（LLM）的高级服务堆栈，其支持 NVIDIA GPU 以及 SageMaker 上的 Inferentia2，因此您可以进行优化，以实现更高的吞吐量和更低的延迟，同时降低成本。