Amazon SageMaker AI lança recomendações otimizadas de inferência de IA generativa
Agora, o Amazon SageMaker AI oferece recomendações de inferência, um novo recurso que elimina a otimização manual e os testes comparativos para oferecer um desempenho de inferência ideal. Ao oferecer configurações de implantação otimizadas e validadas com métricas de desempenho, o SageMaker AI acelera o caminho para a produção e mantém o foco dos desenvolvedores de modelos na criação de modelos precisos, em vez do gerenciamento da infraestrutura.
Os clientes trazem seus próprios modelos de IA generativa, definem os padrões de tráfego esperados e especificam uma meta de desempenho (otimizar o custo, minimizar a latência ou maximizar o throughput). Em seguida, o SageMaker AI analisa a arquitetura do modelo e aplica otimizações alinhadas a essa meta em vários tipos de instância, comparando cada configuração na infraestrutura real de GPUs usando o NVIDIA AIPerf. Ao avaliar vários tipos de instância, os clientes podem selecionar a opção com melhor relação custo-benefício para as workloads. O resultado são configurações prontas para implantação com métricas validadas, incluindo tempo até o primeiro token, latência entre tokens, percentis de latência de solicitações, throughput e projeções de custo.
O recurso está disponível atualmente em sete regiões da AWS: Leste dos EUA (Norte da Virgínia), Oeste dos EUA (Oregon), Leste dos EUA (Ohio), Ásia-Pacífico (Tóquio), Europa (Irlanda), Ásia-Pacífico (Singapura) e Europa (Frankfurt). Para saber mais, acesse a documentação do SageMaker AI.