Anúncio do roteamento de sessões persistentes para o Amazon SageMaker Inference

Publicado: 12 de set de 2024

Hoje, estamos anunciando a disponibilidade do roteamento de sessões persistentes no Amazon SageMaker Inference, que ajuda os clientes a melhorar a performance e a experiência do usuário de suas aplicações de IA generativa, aproveitando suas informações processadas anteriormente. O Amazon SageMaker facilita a implantação de modelos de ML, incluindo modelos de base (FMs), para fazer solicitações de inferência com o melhor custo-benefício para qualquer caso de uso.

Ao ativar sessões persistentes, todas as solicitações da mesma sessão serão roteadas para a mesma instância, permitindo que sua aplicação de machine learning reutilize as informações processadas anteriormente para reduzir a latência e melhorar a experiência do usuário. Isso é particularmente valioso quando os clientes desejam usar grandes cargas de dados ou precisam de experiências interativas perfeitas. Ao aproveitar suas solicitações de inferência anteriores, os clientes agora podem aproveitar esse atributo para criar aplicações inovadoras de IA com reconhecimento de estado no SageMaker. Para fazer isso, os clientes precisarão criar um ID de sessão com sua primeira solicitação e, em seguida, usar esse ID de sessão para indicar que o SageMaker deve rotear todas as solicitações subsequentes para a mesma instância. As sessões também podem ser excluídas quando concluídas para liberar recursos para novas sessões.

Esse atributo está disponível em todas as regiões que oferecem o SageMaker. Você pode saber mais sobre a implantação de modelos no SageMaker aqui e mais sobre esse atributo em nossa documentação.