Publicado: May 4, 2023

Temos o prazer de anunciar a disponibilidade das famílias de instâncias ml.inf2 e ml.trn1 no Amazon SageMaker para a implantação de modelos de machine learning (ML) para inferência assíncrona e em tempo real. Você pode usar essas instâncias no SageMaker para obter alta performance a baixo custo para modelos de inteligência artificial (IA) generativa, incluindo grandes modelos de linguagem (LLMs) e transformadores de visão. Além disso, você pode usar o SageMaker Inference Recommender para ajudá-lo a executar testes de carga e avaliar os benefícios de custo-benefício da implantação do seu modelo nessas instâncias.

As instâncias ml.inf2 e ml.trn1 são capacitadas pelos aceleradores AWS Inferentia2 e Trainium, respectivamente.

  • Você pode usar as instâncias ml.inf2 para executar suas aplicações de machine learning no SageMaker para resumo de texto, geração de código, geração de vídeo e imagem, reconhecimento de fala e muito mais. As instâncias ml.inf2 oferecem até 384 GB de memória de acelerador compartilhada para inferência de IA generativa de alta performance.
  • As instâncias ml.trn1 são semelhantes às instâncias ml.inf2, mas têm 512 GB de memória de acelerador compartilhada; você pode usar essas instâncias para implantar modelos ainda maiores no SageMaker. Além disso, essas instâncias têm até 8 TB de armazenamento local em unidade de estado sólido (SSD) NVMe para acesso rápido da workload a grandes conjuntos de dados e modelos.

As instâncias ml.inf2 estão disponíveis para implantação de modelos no SageMaker no Leste dos EUA (Ohio) e as instâncias ml.trn1 no Leste dos EUA (N. da Virgínia).

Você pode começar a usar facilmente os contêineres de aprendizado profundo (DLCs) da AWS compatíveis com ml.trn1 e ml.inf2 para PyTorch, Tensorflow, HuggingFace e Large Model Inference (LMI) ao implantar endpoints (detalhes). Para saber os preços, acesse nossa página de preços.