Publicado: Mar 16, 2021

O Amazon SageMaker agora oferece suporte à implantação de vários contêineres em endpoints em tempo real para inferências de baixa latência e invocá-los independentemente para cada solicitação. Esse novo recurso permite que você execute até cinco modelos e estruturas de trabalho de machine learning (ML) diferentes em um único endpoint e economize até 80% em custos. Essa opção é ideal quando você tem vários modelos de ML com necessidades de recursos semelhantes e quando os modelos individuais não têm tráfego suficiente para utilizar a capacidade total das instâncias de endpoint. Por exemplo, se você tiver um conjunto de modelos de ML que são invocados com pouca frequência ou em momentos diferentes ou se você tiver endpoints de desenvolvimento/teste.

Para usar este recurso, você precisa especificar a lista de contêineres junto com os modelos treinados que devem ser implantados em um endpoint e selecionar o modo de execução de inferência “Direct” que instrui o SageMaker que os modelos serão acessados ​​independentemente. Para fazer uma inferência em relação a um modelo específico, invoque o endpoint e especifique o nome do contêiner no cabeçalho da solicitação. Você pode proteger as solicitações de inferência para cada contêiner no modo de invocação direta, especificando as chaves de condição, e também obter métricas por contêiner no Amazon CloudWatch.

Você também pode executar os contêineres em endpoints de vários contêineres sequencialmente (ou seja, pipelines de inferência) para cada inferência, se quiser pré/pós-processar solicitações ao fazer inferências ou se quiser executar um conjunto de modelos de ML sequencialmente. Esse recurso já é aceito como o comportamento padrão dos endpoints de vários contêineres ou pode ser ativado definindo o modo de execução de inferência como “Serial”.

Os endpoints de vários contêineres estão disponíveis em todas as regiões AWS na América do Norte, América do Sul, Europa, Ásia-Pacífico, África do Sul e Oriente Médio, onde o Amazon SageMaker já está disponível. Consulte a documentação para obter informações adicionais.