O Amazon SageMaker Pipelines agora oferece integração nativa de EMR para processamento de dados em grande escala

Publicado: Jan 21, 2022

O Amazon SageMaker Pipelines é um serviço totalmente gerenciado que permite que os clientes definam e orquestrem suas etapas de criação de modelos como fluxos de trabalho. Hoje, temos o prazer de apresentar um novo tipo de etapa que permite aos engenheiros de machine learning executar aplicações de processamento de dados usando frameworks de código aberto, como Apache Spark, Presto e Hive em clusters do Amazon EMR.

O SageMaker Pipelines já fornece várias etapas (por exemplo, processamento, treinamento, modelo de registro, retorno de chamada etc.). Essas etapas permitem que os clientes definam com flexibilidade seu fluxo de trabalho de construção de modelos. Muitas vezes, os clientes desejam usar frameworks de código aberto como Spark, Hive e Presto em execução no EMR para executar tarefas de processamento de dados (engenharia de recursos) no cluster do EMR no processo de construção do modelo. Usando o recém-lançado SageMaker Pipelines, os clientes da etapa do EMR podem enviar essas tarefas como trabalhos do EMR em um cluster do EMR. A etapa do EMR do SageMaker Pipeline exige que os clientes forneçam o ID do cluster do EMR e a propriedade de execução para o trabalho do EMR que precisa ser executado no cluster. Os pipelines do Sagemaker cuidam do estabelecimento de uma conexão segura, enviando workloads do EMR e rastreando-os ativamente até a conclusão. Depois de criada, a etapa do EMR do SageMaker Pipelines pode ser integrada ao fluxo de trabalho de criação de modelos de ML junto com outras etapas do SageMaker Pipelines.

Esse recurso está disponível em todas as regiões da AWS nas quais o Amazon SageMaker está disponível. Para começar, crie um novo SageMaker Pipeline no SageMaker Studio ou na interface de linha de comando usando a Etapa do EMR. Para saber mais, acesse nossa página de documentação.

O Amazon SageMaker Pipelines agora oferece integração nativa de EMR para processamento de dados em grande escala

Encerramento do suporte para o Internet Explorer