Publicado: Nov 12, 2021
Hoje, temos o prazer de anunciar o NVIDIA Triton™ Inference Server no Amazon SageMaker, permitindo que os clientes que escolherem o NVIDIA Triton como servidor de modelos tragam seus contêineres e implantem-nos em escala no SageMaker.
O NVIDIA Triton é um servidor de modelos de código aberto que executa modelos de ML treinados para várias frameworks, incluindo PyTorch, TensorFlow, XGBoost e ONNX. O Triton é um servidor extensível ao qual os desenvolvedores podem adicionar novos frontends, que podem receber solicitações em formatos específicos, e novos backends, que podem lidar com tempos de execução de modelos adicionais. A AWS trabalhou em estreita colaboração com a NVIDIA para adicionar um novo frontend Triton que é compatível com os contêineres hospedados no SageMaker e um novo backend que é compatível com modelos do SageMaker Neo. Com isso, os clientes podem desenvolver facilmente um contêiner personalizado que inclua o seu modelo e trazê-lo para o SageMaker com o Triton. O SageMaker Inference lida com as solicitações e escala automaticamente o contêiner à medida que o uso aumenta, facilitando a implantação de modelos com o Triton na AWS.
O suporte para o NVIDIA Triton™ Inference Server no Amazon SageMaker está disponível em todas as regiões onde o Amazon SageMaker está disponível, sem custos adicionais para o contêiner do Triton Inference Server. Leia o blog e a documentação para saber mais.