Amazon SageMaker apresenta um novo recurso de otimização de inferências por IA generativa
Hoje, o Amazon SageMaker anunciou a disponibilidade geral de um novo recurso de inferência que oferece um throughput até duas vezes maior e reduz os custos em até 50% para modelos de IA generativa, como Llama 3, Mistral e Mixtral. Por exemplo, com um modelo Llama 3-70B, você pode atingir até 2400 tokens por segundo aproximadamente em uma instância ml.p5.48xlarge com comparação o número anterior aproximado de 1200 tokens por segundo sem nenhuma otimização.
Com esse novo recurso, os clientes podem escolher entre um menu das mais recentes técnicas de otimização de modelos, como decodificação especulativa, quantização e compilação, e aplicá-las a modelos de IA generativa. O SageMaker assume o trabalho pesado de provisionar o hardware necessário para executar a fórmula de otimização, além de estruturas e bibliotecas de aprendizado profundo. Os clientes recebem suporte imediato para uma solução de decodificação especulativa do SageMaker com performance comprovada com vários modelos populares de código aberto em grande escala. Como alternativa, podem usar sua própria solução de decodificação especulativa. Na quantização, o SageMaker garante compatibilidade e suporte para tipos de precisão em diferentes arquiteturas de modelos. Para compilação, a infraestrutura de runtime do SageMaker garante a eficiência no carregamento e armazenamento em cache de modelos otimizados para acelerar o ajuste de escala automático.
Os clientes podem aproveitar esse novo recurso no AWS SDK para Python (Boto3), no SDK do SageMaker para Python ou na AWS Command Line Interface (AWS CLI). Esse recurso já está disponível ao público em geral nas regiões Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Oregon), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Tóquio), Canadá (Central), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Estocolmo) e América do Sul (São Paulo).
Saiba mais acessando a página de documentação e o blog de ML da AWS.