Inferência do Amazon SageMaker

Implante e gerencie facilmente modelos de machine learning (ML) para inferência

O que é o Amazon SageMaker Inference?

O Amazon SageMaker AI facilita a implantação de modelos de ML, incluindo modelos de base (FMs), para fazer solicitações de inferência com a melhor relação preço/desempenho para qualquer caso de uso. De baixa latência e alto rendimento até inferências de longa duração, você pode usar o SageMaker AI para todas as suas necessidades de inferência. O SageMaker AI é um serviço totalmente gerenciado e se integra às ferramentas de MLOps, para que você possa escalar a implantação do modelo, reduzir os custos de inferência, gerenciar modelos com mais eficiência na produção e reduzir a carga operacional.

Benefícios do SageMaker Inference

O SageMaker AI atende a uma ampla variedade de requisitos de inferência, desde cenários de baixa latência (alguns milissegundos) e alto throughput (milhões de transações por segundo) até inferências de longa duração para casos de uso como processamento de texto multilíngue, processamento de texto-imagem, compreensão multimodal, processamento de linguagem natural e visão computacional. O SageMaker AI fornece uma solução robusta e escalável para todas as suas necessidades de inferência.
O Amazon SageMaker AI oferece mais de 100 tipos de instâncias com níveis variados de computação e memória para atender às diferentes necessidades de desempenho. Para utilizar melhor os aceleradores subjacentes e reduzir o custo de implantação, você pode implantar vários modelos na mesma instância. Para otimizar ainda mais os custos, você pode usar o escalonamento automático, que ajusta automaticamente o número de instâncias com base no tráfego. Ele desliga as instâncias quando não há uso, reduzindo assim os custos de inferência.
Como um serviço totalmente gerenciado, o Amazon SageMaker AI se encarrega de configurar e gerenciar instâncias, compatibilidades de versões de software e versões de patches. Com a integração integrada com os atributos de MLOps, ele ajuda a reduzir a sobrecarga operacional de implantação, escalabilidade e gerenciamento de modelos de ML, ao mesmo tempo em que os coloca em produção mais rapidamente.

Ampla variedade de opções de inferência

Inferência em tempo real

Previsões em tempo real, interativas e de baixa latência para casos de uso com padrões de tráfego constantes. É possível implantar seu modelo em um endpoint totalmente gerenciado, com suporte para a escalabilidade automática.

Inferência Sem Servidor

Baixa latência e alto throughput para casos de uso com padrões de tráfego intermitentes. Os endpoints com tecnologia sem servidor iniciam automaticamente os recursos de computação e aumentam ou reduzem a escala horizontalmente conforme o tráfego, eliminando a necessidade de escolher tipos de instância ou gerenciar políticas de escalabilidade.

Inferência assíncrona

Baixa latência para casos de uso com grandes cargas úteis (até 1 GB) ou longos tempos de processamento (até uma hora), e requisitos de latência praticamente em tempo real. A inferência assíncrona contribui para a redução de custos ao ajustar automaticamente a quantidade de instâncias para zero quando não existem solicitações a serem processadas.

Batch Transform

Inferência offline em lotes de dados para casos de uso com grandes conjuntos de dados. Com a transformação em lote, é possível processar previamente os conjuntos de dados para remover ruídos ou vieses, além de associar os registros de entrada às inferências para facilitar a interpretação dos resultados.

Opções de inferência escaláveis e econômicas

Endpoints de modelo único

Um modelo em um contêiner hospedado em instâncias dedicadas ou sem servidor para baixa latência e alto throughput.

Saiba mais

Endpoints de modelo único

Vários modelos em um único endpoint

Hospede vários modelos na mesma instância para utilizar melhor os aceleradores subjacentes, reduzindo os custos de implantação em até 50%. Você pode controlar políticas de escalabilidade para cada FM separadamente, facilitando a adaptação aos padrões de uso do modelo e otimizando os custos de infraestrutura.

Saiba mais

Endpoints para vários modelos

Pipelines de inferência serial

Vários contêineres que compartilham as instâncias dedicadas e executam em uma sequência. Use um pipeline de inferência para combinar tarefas da ciência de dados que incluem pré-processamento, previsões e pós-processamento.

Saiba mais

Pipelines de inferência serial

Compatibilidade com a maioria dos frameworks de machine learning e servidores de modelos

A inferência do Amazon SageMaker é compatível com os algoritmos integrados e imagens pré-criadas do Docker para alguns dos frameworks de machine learning mais comuns, como TensorFlow, PyTorch, ONNX e XGBoost. Se nenhuma das imagens pré-criadas do Docker atender às suas necessidades, você poderá criar seu próprio contêiner para uso com endpoints multimodelos baseados em CPU. A inferência do SageMaker é compatível com os servidores de modelos mais populares, como TensorFlow Serving, TorchServe, NVIDIA Triton e servidor multimodelo da AWS.

O Amazon SageMaker AI oferece contêineres especializados de aprendizado profundo (DLCs), bibliotecas e ferramentas para paralelismo de modelos e inferência de grandes modelos (LMI), para ajudar você a melhorar a performance dos modelos de base. Com essas opções, você pode implantar modelos, incluindo modelos de base (FMs), rapidamente para praticamente qualquer caso de uso.


Saiba mais
 

TensorFlow
PyTorch
mxnet
Logotipo da Hugging Face
TensorFlow

Obtenha alta performance de inferência a baixo custo

Obtenha alta performance de inferência a baixo custo

O novo kit de ferramentas de otimização de inferências do Amazon SageMaker AI oferece um throughput até 2 vezes maior e reduz os custos em até 50% para modelos de IA generativa, como os modelos Llama 3, Mistral e Mixtral. Por exemplo, com um modelo Llama 3-70B, você pode atingir até 2400 tokens por segundo aproximadamente em uma instância ml.p5.48xlarge com comparação o número anterior aproximado de 1200 tokens por segundo sem nenhuma otimização. Você pode selecionar uma técnica de otimização de modelo, como Decodificação especulativa, Quantização e Compilação, ou combinar várias técnicas, aplicá-las aos seus modelos, executar um benchmark para avaliar o impacto das técnicas na qualidade da saída e na performance da inferência e implantar modelos com apenas alguns cliques.

Imagem mostrando uma visão geral das métricas de avaliação

Implemente modelos na infraestrutura de mais alta performance ou prefira a tecnologia sem servidor

O Amazon SageMaker AI oferece mais de 70 tipos de instância com níveis variados de computação e memória, incluindo instâncias Inf1 do Amazon EC2 baseadas no AWS Inferentia, chips de inferência de ML de alta performance projetados e criados pela AWS e instâncias de GPU, como a G4dn do Amazon EC2. Ou escolha a Inferência Sem Servidor do Amazon SageMaker para escalar facilmente para milhares de modelos por endpoint, throughput de milhões de transações por segundo (TPS) e latências de sobrecarga abaixo de 10 milissegundos.

Uma imagem mostrando os atributos dos chips de inferência de ML

Teste de validação por comparação para validar a performance dos modelos de ML

O Amazon SageMaker AI ajuda você a avaliar um novo modelo, fazendo o teste de validação da performance por comparação, em relação ao modelo atualmente implantado pelo SageMaker, usando solicitações de inferência em tempo real. O teste de validação por comparação pode ajudar a detectar possíveis erros de configuração e problemas de performance antes que eles afetem os usuários finais. Com o SageMaker AI, você não precisa investir semanas criando sua própria infraestrutura de testes de validação por comparação. Basta selecionar um modelo de produção com o qual você deseja testar e o SageMaker AI automaticamente implantará o novo modelo no modo paralelo e encaminhará uma cópia das solicitações de inferência recebidas pelo modelo de produção para o novo modelo em tempo real.

Uma imagem ilustrando o processo de teste de validação por comparação

Ajuste de escala automático para elasticidade

Você pode usar políticas de escalabilidade para escalar automaticamente os recursos computacionais subjacentes, visando acomodar as flutuações nas solicitações de inferência. Controle as políticas de escalabilidade para cada modelo de ML separadamente para lidar com as mudanças no uso do modelo com facilidade e, ao mesmo tempo, otimizar os custos de infraestrutura.

Imagem mostrando grupos de ajuste de escala automático

Melhoria da latência e encaminhamento inteligente

Você pode reduzir a latência de inferência para modelos de ML encaminhando de forma inteligente novas solicitações de inferência para instâncias que estão disponíveis, em vez de encaminhar aleatoriamente solicitações para instâncias que já estão ocupadas atendendo solicitações de inferência. Dessa forma, você obtém uma latência de inferência 20% menor, em média.

Reduza a carga operacional e acelere o tempo para obtenção de valor

Hospedagem e gerenciamento de modelos totalmente gerenciados

Como um serviço totalmente gerenciado, o Amazon SageMaker AI se encarrega de configurar e gerenciar instâncias, compatibilidades de versões de software e versões de patches. Ele também fornece métricas e logs integrados para endpoints que você pode usar para monitorar e receber alertas.

Uma imagem mostrando o fluxo do gerenciamento de modelos

Integração incorporada com atributos de MLOps

Os atributos de implantação de modelos do Amazon SageMaker AI são integrados de maneira nativa a recursos de MLOps, incluindo SageMaker Pipelines (automação e orquestração de fluxo de trabalho), SageMaker Projects (CI/CD para ML), SageMaker Feature Store (gerenciamento de atributos), SageMaker Model Registry (catálogo de modelos e artefatos para rastrear linhagens e dar suporte a fluxos de trabalho de aprovação automatizados), SageMaker Clarify (detecção de tendências) e SageMaker Model Monitor (detecção de desvio de modelo e conceito). Assim, independentemente do volume de modelos que você implantar, o SageMaker AI ajudará a reduzir a sobrecarga operacional da implantação, escalabilidade e gerenciamento de modelos de ML, ao mesmo tempo em que os coloca em produção mais rapidamente.

Imagem mostrando o fluxograma do modelo Train