Publicado: Oct 1, 2021
Agora, você pode usar estruturas de código aberto, como Apache Spark, Apache Hive e Presto, em execução em clusters do Amazon EMR diretamente dos blocos de anotações do Amazon SageMaker Studio para executar análises de dados em escala de petabytes e machine learning. O Amazon EMR instala e configura automaticamente frameworks de código aberto e fornece um tempo de execução otimizado para performance compatível e mais rápido que o código aberto padrão. Por exemplo, o Spark 3.0 no Amazon EMR é 1,7 vezes mais rápido que o equivalente de código aberto. O Amazon SageMaker Studio fornece uma única interface visual baseada na Web em que você pode realizar todas as etapas de desenvolvimento de ML necessárias para preparar dados e também para criar, treinar e implantar modelos. Analisar, transformar e preparar grandes quantidades de dados é uma etapa fundamental de qualquer ciência de dados e fluxo de trabalho de ML. Essa versão simplifica o uso de frameworks populares, como Apache Spark, Hive e Presto em execução em clusters do EMR diretamente do Sagemaker Studio para ajudar a simplificar a ciência de dados e os fluxos de trabalho de ML.
Com esta versão, agora você pode navegar visualmente por uma lista de clusters do EMR diretamente do SageMaker Studio e conectar-se a eles com apenas alguns cliques. Depois de se conectar a um cluster do EMR, você pode usar o Spark SQL, o Scala, o Python e o HiveQL para consultar interativamente, explorar e visualizar dados e executar trabalhos do Apache Spark, do Hive e do Presto para processar dados. Os trabalhos são executados rapidamente, pois usam as versões otimizadas para performance do EMR do Spark, Hive e Presto. Além disso, os clusters podem aumentar ou diminuir a escala na vertical automaticamente com base nas workloads e integrar-se a instâncias Spot e processadores baseados em Graviton2 para reduzir custos. Por fim, os usuários do Sagemaker Studio podem se autenticar quando se conectam a clusters do Amazon EMR usando credenciais baseadas em LDAP ou Kerberos.
Esses recursos são compatíveis com o EMR 5.9.0 e posteriores e geralmente estão disponíveis em todas as Regiões da AWS em que o SageMaker Studio está disponível. Para saber mais, assista à demonstração Interactive data processing on Amazon EMR from Amazon SageMaker, leia o blog Perform interactive data engineering and data science workflows from Amazon SageMaker Studio notebooks ou a documentação do SageMaker Studio aqui.