SageMaker anuncia as instâncias ml.inf2 e ml.trn1 para implantação de modelos

Publicado: May 4, 2023

Temos o prazer de anunciar a disponibilidade das famílias de instâncias ml.inf2 e ml.trn1 no Amazon SageMaker para a implantação de modelos de machine learning (ML) para inferência assíncrona e em tempo real. Você pode usar essas instâncias no SageMaker para obter alta performance a baixo custo para modelos de inteligência artificial (IA) generativa, incluindo grandes modelos de linguagem (LLMs) e transformadores de visão. Além disso, você pode usar o SageMaker Inference Recommender para ajudá-lo a executar testes de carga e avaliar os benefícios de custo-benefício da implantação do seu modelo nessas instâncias.

As instâncias ml.inf2 e ml.trn1 são capacitadas pelos aceleradores AWS Inferentia2 e Trainium, respectivamente.

Você pode usar as instâncias ml.inf2 para executar suas aplicações de machine learning no SageMaker para resumo de texto, geração de código, geração de vídeo e imagem, reconhecimento de fala e muito mais. As instâncias ml.inf2 oferecem até 384 GB de memória de acelerador compartilhada para inferência de IA generativa de alta performance.
As instâncias ml.trn1 são semelhantes às instâncias ml.inf2, mas têm 512 GB de memória de acelerador compartilhada; você pode usar essas instâncias para implantar modelos ainda maiores no SageMaker. Além disso, essas instâncias têm até 8 TB de armazenamento local em unidade de estado sólido (SSD) NVMe para acesso rápido da workload a grandes conjuntos de dados e modelos.

As instâncias ml.inf2 estão disponíveis para implantação de modelos no SageMaker no Leste dos EUA (Ohio) e as instâncias ml.trn1 no Leste dos EUA (N. da Virgínia).

Você pode começar a usar facilmente os contêineres de aprendizado profundo (DLCs) da AWS compatíveis com ml.trn1 e ml.inf2 para PyTorch, Tensorflow, HuggingFace e Large Model Inference (LMI) ao implantar endpoints (detalhes). Para saber os preços, acesse nossa página de preços.

SageMaker anuncia as instâncias ml.inf2 e ml.trn1 para implantação de modelos

Encerramento do suporte para o Internet Explorer