Publicado: Sep 9, 2022

O Amazon SageMaker permite que os clientes implantem modelos de ML para fazer previsões (também conhecidas como inferência) em qualquer caso de uso. Agora você pode implantar modelos grandes (até 500 GB) para inferência nas opções de inferência assíncrona e em tempo real do Amazon SageMaker configurando o tamanho máximo do volume do EBS e as cotas de tempo limite. Esse lançamento permite que os clientes aproveitem os recursos de inferência assíncrona e em tempo real totalmente gerenciados do SageMaker para implantar e gerenciar grandes modelos de ML, como variantes de GPT e OPT.

Anteriormente, o SageMaker anexava volumes do EBS de até 30 GB a um endpoint do SageMaker, o que limitava o tamanho máximo do modelo que você pode implantar. Agora, o tamanho do volume do EBS é configurável em até 500 GB, permitindo usar modelos maiores e empacotar mais recursos para suas necessidades de inferência. Além disso, a verificação de integridade do contêiner e as cotas de tempo limite de download também podem ser configuradas em até 60 minutos, o que concede mais tempo para fazer download e carregar seu modelo e recursos associados. Juntas, essas alterações permitem usar o SageMaker para implantar modelos de aprendizado profundo mais avançados que tendem a ser maiores. Por exemplo, com as instâncias ml.p4d e ml.g5 lançadas recentemente, você pode usar essa alteração para implantar modelos grandes que podem aproveitar a memória em várias GPUs para inferência de alto desempenho.

Essas novas opções de configuração estão disponíveis em todas as regiões comerciais nas quais o SageMaker está disponível.

Para começar a usar, leia nossa documentação aqui. Para um exemplo de caso de uso, leia nossa publicação no blog sobre como você pode aproveitar essa mudança junto com o DeepSpeed no SageMaker para distribuir modelos grandes em vários dispositivos de GPU para inferência de alto desempenho.