Amazon SageMaker HyperPod agora oferece suporte à captura de dados para workloads de inferência

Publicado: 20 de mai de 2026

O Amazon SageMaker HyperPod agora oferece suporte à captura de dados para workloads de inferência, um novo recurso que registra as cargas úteis de solicitação e resposta de inferência dos endpoints de produção para o Amazon S3. Os clientes que implantam modelos de IA generativa no HyperPod precisam de visibilidade sobre entradas e saídas do modelo para detectar desvios, solucionar problemas em produção, criar conjuntos de dados de avaliação e melhorar continuamente seus modelos implantados. No entanto, anteriormente, era necessário criar canais de registro em log personalizados fora do serviço para obter essa visibilidade.

Com a captura de dados, os clientes podem treinar modelos de rascunho de decodificação especulativa usando seu tráfego real de produção, para obter uma melhor performance do que modelos de rascunho genéricos, criar pipelines de avaliação a partir de dados de produção, alimentar trabalhos de ajuste fino com entradas reais e manter trilhas de auditoria para verificar a conformidade. Os clientes escolhem onde capturar o tráfego de inferência em cada endpoint, no endpoint do SageMaker, no balanceador de carga ou no pod do modelo. Os dados capturados são entregues de forma assíncrona ao bucket do Amazon S3 sem bloquear a inferência e oferecem suporte à amostragem configurável e à criptografia do AWS KMS gerenciada pelo cliente. Você pode habilitar a captura de dados ao implantar modelos por meio do HyperPod Inference Operator e usar os dados capturados com o Amazon SageMaker Model Monitor e seus fluxos de trabalho existentes de avaliação, ajuste fino e treinamento de modelos de rascunho.

Esse recurso está disponível para clusters do SageMaker HyperPod que usam o orquestrador do EKS em todas as regiões da AWS que oferecem suporte ao Amazon SageMaker HyperPod. Para saber mais, consulte Data capture for inference on HyperPod.

Amazon SageMaker HyperPod agora oferece suporte à captura de dados para workloads de inferência

Aprenda

Recursos

Desenvolvedores

Ajuda