O que é o Amazon SageMaker Inference?
O Amazon SageMaker AI facilita a implantação de modelos de ML, incluindo modelos de base (FMs), para fazer solicitações de inferência com a melhor relação preço/desempenho para qualquer caso de uso. De baixa latência e alto rendimento até inferências de longa duração, você pode usar o SageMaker AI para todas as suas necessidades de inferência. O SageMaker AI é um serviço totalmente gerenciado e se integra às ferramentas de MLOps, para que você possa escalar a implantação do modelo, reduzir os custos de inferência, gerenciar modelos com mais eficiência na produção e reduzir a carga operacional.
Benefícios do SageMaker Inference
Ampla variedade de opções de inferência
Inferência em tempo real
Inferência Sem Servidor
Inferência assíncrona
Batch Transform
Opções de inferência escaláveis e econômicas
Endpoints de modelo único
Um modelo em um contêiner hospedado em instâncias dedicadas ou sem servidor para baixa latência e alto throughput.

Vários modelos em um único endpoint
Hospede vários modelos na mesma instância para utilizar melhor os aceleradores subjacentes, reduzindo os custos de implantação em até 50%. Você pode controlar políticas de escalabilidade para cada FM separadamente, facilitando a adaptação aos padrões de uso do modelo e otimizando os custos de infraestrutura.

Pipelines de inferência serial
Vários contêineres que compartilham as instâncias dedicadas e executam em uma sequência. Use um pipeline de inferência para combinar tarefas da ciência de dados que incluem pré-processamento, previsões e pós-processamento.

Compatibilidade com a maioria dos frameworks de machine learning e servidores de modelos
A inferência do Amazon SageMaker é compatível com os algoritmos integrados e imagens pré-criadas do Docker para alguns dos frameworks de machine learning mais comuns, como TensorFlow, PyTorch, ONNX e XGBoost. Se nenhuma das imagens pré-criadas do Docker atender às suas necessidades, você poderá criar seu próprio contêiner para uso com endpoints multimodelos baseados em CPU. A inferência do SageMaker é compatível com os servidores de modelos mais populares, como TensorFlow Serving, TorchServe, NVIDIA Triton e servidor multimodelo da AWS.
O Amazon SageMaker AI oferece contêineres especializados de aprendizado profundo (DLCs), bibliotecas e ferramentas para paralelismo de modelos e inferência de grandes modelos (LMI), para ajudar você a melhorar a performance dos modelos de base. Com essas opções, você pode implantar modelos, incluindo modelos de base (FMs), rapidamente para praticamente qualquer caso de uso.





Obtenha alta performance de inferência a baixo custo
Obtenha alta performance de inferência a baixo custo
O novo kit de ferramentas de otimização de inferências do Amazon SageMaker AI oferece um throughput até 2 vezes maior e reduz os custos em até 50% para modelos de IA generativa, como os modelos Llama 3, Mistral e Mixtral. Por exemplo, com um modelo Llama 3-70B, você pode atingir até 2400 tokens por segundo aproximadamente em uma instância ml.p5.48xlarge com comparação o número anterior aproximado de 1200 tokens por segundo sem nenhuma otimização. Você pode selecionar uma técnica de otimização de modelo, como Decodificação especulativa, Quantização e Compilação, ou combinar várias técnicas, aplicá-las aos seus modelos, executar um benchmark para avaliar o impacto das técnicas na qualidade da saída e na performance da inferência e implantar modelos com apenas alguns cliques.

Implemente modelos na infraestrutura de mais alta performance ou prefira a tecnologia sem servidor
O Amazon SageMaker AI oferece mais de 70 tipos de instância com níveis variados de computação e memória, incluindo instâncias Inf1 do Amazon EC2 baseadas no AWS Inferentia, chips de inferência de ML de alta performance projetados e criados pela AWS e instâncias de GPU, como a G4dn do Amazon EC2. Ou escolha a Inferência Sem Servidor do Amazon SageMaker para escalar facilmente para milhares de modelos por endpoint, throughput de milhões de transações por segundo (TPS) e latências de sobrecarga abaixo de 10 milissegundos.

Teste de validação por comparação para validar a performance dos modelos de ML
O Amazon SageMaker AI ajuda você a avaliar um novo modelo, fazendo o teste de validação da performance por comparação, em relação ao modelo atualmente implantado pelo SageMaker, usando solicitações de inferência em tempo real. O teste de validação por comparação pode ajudar a detectar possíveis erros de configuração e problemas de performance antes que eles afetem os usuários finais. Com o SageMaker AI, você não precisa investir semanas criando sua própria infraestrutura de testes de validação por comparação. Basta selecionar um modelo de produção com o qual você deseja testar e o SageMaker AI automaticamente implantará o novo modelo no modo paralelo e encaminhará uma cópia das solicitações de inferência recebidas pelo modelo de produção para o novo modelo em tempo real.

Ajuste de escala automático para elasticidade
Você pode usar políticas de escalabilidade para escalar automaticamente os recursos computacionais subjacentes, visando acomodar as flutuações nas solicitações de inferência. Controle as políticas de escalabilidade para cada modelo de ML separadamente para lidar com as mudanças no uso do modelo com facilidade e, ao mesmo tempo, otimizar os custos de infraestrutura.

Melhoria da latência e encaminhamento inteligente
Você pode reduzir a latência de inferência para modelos de ML encaminhando de forma inteligente novas solicitações de inferência para instâncias que estão disponíveis, em vez de encaminhar aleatoriamente solicitações para instâncias que já estão ocupadas atendendo solicitações de inferência. Dessa forma, você obtém uma latência de inferência 20% menor, em média.
Reduza a carga operacional e acelere o tempo para obtenção de valor
Hospedagem e gerenciamento de modelos totalmente gerenciados
Como um serviço totalmente gerenciado, o Amazon SageMaker AI se encarrega de configurar e gerenciar instâncias, compatibilidades de versões de software e versões de patches. Ele também fornece métricas e logs integrados para endpoints que você pode usar para monitorar e receber alertas.

Integração incorporada com atributos de MLOps
Os atributos de implantação de modelos do Amazon SageMaker AI são integrados de maneira nativa a recursos de MLOps, incluindo SageMaker Pipelines (automação e orquestração de fluxo de trabalho), SageMaker Projects (CI/CD para ML), SageMaker Feature Store (gerenciamento de atributos), SageMaker Model Registry (catálogo de modelos e artefatos para rastrear linhagens e dar suporte a fluxos de trabalho de aprovação automatizados), SageMaker Clarify (detecção de tendências) e SageMaker Model Monitor (detecção de desvio de modelo e conceito). Assim, independentemente do volume de modelos que você implantar, o SageMaker AI ajudará a reduzir a sobrecarga operacional da implantação, escalabilidade e gerenciamento de modelos de ML, ao mesmo tempo em que os coloca em produção mais rapidamente.

Recursos para o SageMaker Inference
Novidades
Total results: 402
- Data (do mais recente ao mais antigo)
-
30/01/2025
-
11/12/2024
-
06/12/2024
-
06/12/2024
-
04/12/2024