Use Apache Spark no Amazon EMR Sem Servidor diretamente do Amazon Sagemaker Studio

Publicado: 4 de set de 2024

Agora, você pode executar data analytics e machine learning na escala de petabytes no Amazon EMR Sem Servidor diretamente dos cadernos do Amazon SageMaker Studio. O EMR Sem Servidor provisiona e escala automaticamente os recursos necessários, permitindo que você mantenha o foco nos dados e modelos, sem precisar configurar, otimizar, ajustar ou gerenciar clusters. O EMR Sem Servidor instala e configura automaticamente frameworks de código aberto e oferece um runtime otimizado para performance compatível e mais rápido que o de código aberto padrão.

Com esta versão, você já criar e navegar por aplicações do EMR Sem Servidor diretamente do SageMaker Studio e conectar-se a eles com apenas alguns cliques. Uma vez conectado a uma aplicação do EMR Sem Servidor, você pode usar o Spark SQL, o Scala e Python para consultar, explorar e visualizar dados de forma interativa e executar trabalhos do Apache Spark para processar dados diretamente de cadernos do Studio. Os trabalhos são executados rapidamente, pois usam as versões otimizadas para performance do Spark. Por exemplo, o Spark no EMR 7.1 é 4,5x mais rápido do que seu equivalente de código aberto. O EMR Sem Servidor oferece ajuste de escala automático e detalhado, provisionando e escalando rapidamente recursos de computação e memória para atender aos requisitos das aplicações. Você paga apenas pelo que usar.

Esses recursos têm suporte no SageMaker Distribution 1.10 e posteriores e estão disponíveis ao público em geral em todas as regiões da AWS que oferecem o SageMaker Studio. Para saber mais, leia o blog Use LangChain with PySpark for Processing documents at massive scale with Amazon SageMaker Studio and EMR Serverless ou a documentação do SageMaker Studio aqui.