Publicado: Apr 10, 2023
O Amazon SageMaker Inference Recommender (IR) ajuda os clientes a selecionar o melhor tipo e configuração de instância (como número de instâncias, parâmetros de contêiner e otimizações de modelo) para implantar modelos de ML no SageMaker. Hoje, estamos anunciando uma integração mais profunda com o Amazon CloudWatch para logs e métricas; suporte ao SDK do Python para executar trabalhos de IR, permitindo que os clientes executem trabalhos de IR em uma sub-rede de VPC de sua escolha; suporte para execução de testes de carga em endpoints existentes usando uma nova API; e várias melhorias de usabilidade para começar a usar facilmente o IR.
A integração do CloudWatch gera logs de IR em um novo grupo de logs para identificar eventuais erros na execução do IR. Agora, o IR também publica métricas importantes, como usuários simultâneos, utilização de CPU e memória na latência P99, além de throughput e latência. O suporte ao SDK do Python permite que os clientes acionem um trabalho de IR em cadernos Jupyter para obter recomendações de tipo de instância. Também lançamos novas APIs que fornecem visibilidade detalhada de todas as etapas de execução de trabalhos de IR e uma opção para realizar testes de carga de um modelo em um endpoint existente. Para melhorar a usabilidade, tornamos opcionais vários parâmetros de entrada obrigatórios e os clientes não precisam mais registrar um modelo ou fornecer entradas, como domínio etc., para executar um trabalho de IR.
Para obter mais informações sobre todas as regiões da AWS em que o SageMaker Inference está disponível, consulte a tabela de regiões da AWS.
Para saber mais, acesse a documentação do Inference Recommender. O Amazon SageMaker Inference Recommender cobra apenas pelos recursos subjacentes usados. Para obter mais informações sobre como implantar modelos com o SageMaker, consulte a documentação.