Publicado: Dec 1, 2021
O Amazon SageMaker Studio é o primeiro ambiente de desenvolvimento totalmente integrado (IDE) para machine learning (ML). Ele fornece uma única interface visual baseada na Web em que você pode realizar todas as etapas de desenvolvimento de ML necessárias para preparar dados e criar, treinar e implantar modelos. Recentemente, introduzimos a capacidade de navegar visualmente e conectar-se a clusters do Amazon EMR diretamente do notebook do SageMaker Studio. A partir de hoje, você pode monitorar e depurar seus trabalhos do Apache Spark em execução no EMR direto dos notebooks do SageMaker Studio com apenas um clique. Além disso, agora você pode descobrir, conectar, criar, encerrar e gerenciar clusters do EMR diretamente do SageMaker Studio. A integração embutida com EMR, portanto, permite que você faça preparação de dados interativos e machine learning em escala de petabytes diretamente dentro de um único notebook universal do SageMaker Studio.
Analisar, transformar e preparar grandes quantidades de dados é uma etapa fundamental de qualquer ciência de dados e fluxo de trabalho de ML. Operadores de dados, como cientistas e engenheiros de dados, aproveitam o Apache Spark, Hive e Presto em execução em EMR para preparação rápida de dados. Até hoje, esses profissionais de dados podiam se conectar facilmente a clusters do EMR a partir de notebooks do Studio na mesma conta. No entanto, eles tiveram que configurar regras de segurança complexas e proxies da Web para se conectar entre contas ou para monitorar e depurar seus trabalhos do Apache Spark em execução no EMR. Além disso, quando esses profissionais de dados precisaram criar clusters do EMR sob medida para suas workloads específicas, eles tiveram que solicitar ao administrador para criá-los ou alternar para o uso de outras ferramentas e usar conhecimento técnico detalhado de rede, computação e configuração de cluster para criar clusters por si próprios. Esse processo não foi apenas desafiador e perturbador para o fluxo de trabalho, mas também os desviou do foco nas tarefas de preparação de dados. Consequentemente, embora não seja econômico, muitos clientes mantiveram clusters persistentes em execução na expectativa da workload recebida, independentemente do uso ativo.
A partir de hoje, os profissionais de dados podem facilmente descobrir e se conectar a clusters do EMR em configurações de conta única e entre contas diretamente do SageMaker Studio. Além disso, os operadores de dados agora podem ter acesso com um clique à IU do Apache Spark para monitorar e depurar trabalhos do Apache Spark em execução no EMR direto dos notebooks do SageMaker Studio, simplificando muito seu fluxo de trabalho de depuração. Os clientes também podem usar o AWS Service Catalog para definir e distribuir modelos pré-configurados para trabalhadores de dados selecionados para habilitá-los a criar clusters do EMR direto do SageMaker Studio. Os clientes podem controlar totalmente as proteções organizacionais, de segurança, de computação e de rede quando os profissionais de dados usam esses modelos. Os profissionais de dados podem navegar visualmente por um conjunto de modelos disponibilizados para eles, personalizá-los para suas workloads específicas, criar clusters do EMR sob demanda e encerrá-los com apenas alguns cliques direto do SageMaker Studio. Os clientes podem usar esses recursos para simplificar o fluxo de trabalho de preparação de dados e usar clusters do EMR de maneira mais otimizada para workloads interativas do SageMaker Studio.
Esses recursos estão em disponibilidade geral nas seguintes regiões da AWS sem custos adicionais para usar esse recurso: Leste dos EUA (Norte da Virginia e Ohio), Oeste dos EUA (Norte da Califórnia e Oregon), Canadá (Central), Europa (Frankfurt), Europa (Irlanda), Europa (Estocolmo), Europa (Paris), Europa (Londres), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Seul), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Tóquio) e América do Sul (São Paulo). Para saber mais, consulte esta publicação do blog e o guia do usuário de Notebooks do SageMaker Studio.