Publicado: Nov 30, 2022
Hoje, temos o prazer de anunciar o suporte à implantação de fluxos de preparação de dados criados no Data Wrangler para pipelines de inferência serial em tempo real e em lotes, bem como configurações adicionais para trabalhos de processamento no Amazon SageMaker Data Wrangler.
O Amazon SageMaker Data Wrangler reduz o tempo da prototipagem e implantação rápidas de workloads de processamento de dados em produção e se integra facilmente a pipelines de CI/CD e ambientes de produção de MLOps por meio da APIs de processamento do SageMaker. Quando executam e programam workloads de processamento de dados com o Data Wrangler para preparar dados de treinamento de modelos de ML, os clientes solicitam a personalização das configurações de memória e partição de saída do Spark para workloads de preparação de dados em grande escala. Em seguida, depois de processar os dados e treinar um modelo de ML, os clientes precisam implantar o pipeline de transformação de dados e o modelo do ML por trás de um endpoint do SageMaker para casos de uso de inferência em tempo real e em lotes. Como próximo passo, os clientes precisam criar scripts de processamento de dados do zero para executar as mesmas etapas de processamento de dados para inferência aplicados durante o treinamento do modelo. Depois da implantação do modelo, eles precisam garantir que os scripts de treinamento e implantação fiquem sincronizados.
Com esta versão, você já pode definir facilmente configurações de memória e formato da partição de saída do Spark durante a execução de um trabalho de processamento do Data Wrangler para processar dados em grande escala. Depois de preparar os dados e treinar o modelo de ML, você já pode implantar facilmente o pipeline de transformação de dados (também chamado de um “fluxo de dados”) e um modelo de ML como parte de um pipeline de inferência serial para aplicações de inferência em lotes e em tempo real. Também é possível registrar fluxos de dados do Data Wrangler no SageMaker Model Registry. Você pode começar a implantar um fluxo do Data Wrangler para inferência em tempo real clicando em “Exportar para > Pipeline de inferência (via caderno Jupyter)” na visualização de fluxo de dados do Data Wrangler. As configurações de memória do Spark podem ser ajustadas como parte do fluxo de trabalho de criação de trabalho e as partições podem ser ajustadas como parte das configurações do nó de destino.
Esse recurso está disponível sem custo adicional em todas as regiões da AWS com suporte do Data Wrangler. Para começar a usar o SageMaker Data Wrangler, leia o blog e a documentação da AWS.