Amazon SageMaker AI agora oferece suporte à decodificação especulativa EAGLE

Publicado: 25 de nov de 2025

Agora, o Amazon SageMaker AI oferece suporte à decodificação especulativa EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency) para melhorar o throughput de inferência de grandes modelos de linguagem em até 2,5 vezes. Esse recurso permite que os modelos prevejam e validem vários tokens simultaneamente, em vez de um por vez, melhorando os tempos de resposta para aplicações de IA.

À medida que os clientes implantam aplicações de IA na produção, eles precisam de recursos para atender modelos com baixa latência e alto throughput para oferecer experiências de usuário responsivas. Os cientistas de dados e engenheiros de ML não têm métodos eficientes para acelerar a geração de tokens sem sacrificar a qualidade da saída ou exigir uma rearquitetura complexa do modelo, o que dificulta atender às expectativas de performance em tráfego real. As equipes gastam um tempo significativo otimizando a infraestrutura em vez de aprimorar suas aplicações de IA. Com a decodificação especulativa EAGLE, o SageMaker AI permite que os clientes acelerem o throughput da inferência, permitindo que os modelos gerem e verifiquem vários tokens em paralelo, em vez de um por vez, mantendo a mesma qualidade de saída e aumentando drasticamente o throughput. O SageMaker AI seleciona automaticamente entre o EAGLE 2 e o EAGLE 3 com base na arquitetura do seu modelo e fornece trabalhos de otimização integrados que usam conjuntos de dados selecionados ou dados da sua própria aplicação para treinar chefes de previsão especializados. Em seguida, você pode implantar modelos otimizados por meio de seu fluxo de trabalho de inferência existente do SageMaker IA sem alterações na infraestrutura, permitindo fornecer aplicações de IA mais rápidas com performance previsível.

Você pode usar a decodificação especulativa EAGLE nas seguintes regiões da AWS: Leste dos EUA (Norte da Virgínia), Oeste dos EUA (Oregon), Leste dos EUA (Ohio), Ásia-Pacífico (Tóquio), Europa (Irlanda), Ásia-Pacífico (Singapura) e Europa (Frankfurt)


Para saber mais sobre a decodificação especulativa EAGLE, acesse o blog de notícias da AWS aqui e a documentação do SageMaker AI aqui.