Utilice Apache Spark en Amazon EMR sin servidor directamente desde Amazon Sagemaker Studio

Publicado en: 4 de sep de 2024

Ahora puede ejecutar análisis de datos y machine learning a escala de petabytes en Amazon EMR sin servidor directamente desde los cuadernos de Amazon SageMaker Studio. EMR sin servidor aprovisiona y escala automáticamente los recursos necesarios, lo que le permite centrarse en sus datos y modelos sin tener que configurar, optimizar, ajustar o administrar clústeres. EMR sin servidor instala y configura automáticamente los marcos de código abierto y brinda una versión ejecutable optimizada para el rendimiento, la cual es compatible y más rápida que el código abierto estándar.

Con esta versión, ahora puede crear y explorar visualmente aplicaciones de EMR sin servidor directamente desde SageMaker Studio y conectarse a ellas con unos pocos clics. Una vez conectado a una aplicación de EMR sin servidor, puede usar Spark SQL, Scala y Python para consultar, explorar y visualizar datos de forma interactiva, y también ejecutar trabajos de Apache Spark para procesar datos directamente desde los cuadernos de Studio. Los trabajos se ejecutan con rapidez, ya que utilizan versiones optimizadas para el rendimiento de EMR de Spark. Por ejemplo, Spark en EMR 7.1 es 4,5 veces más rápido que su equivalente de código abierto. EMR sin servidor ofrece un escalado automático detallado, que aprovisiona y escala rápidamente los recursos de computación y memoria para que coincidan con los requisitos de su aplicación y solo paga por lo que usa.

Estas características son compatibles con SageMaker Distribution 1.10 y versiones posteriores y, por lo general, están disponibles en todas las regiones de AWS en las que está disponible SageMaker Studio. Para obtener más información, lea al entrada del blog Use LangChain with PySpark for Processing documents at massive scale with Amazon SageMaker Studio and EMR Serverless, o consulte la documentación de SageMaker Studio aquí.