Ponga en marcha cargas de trabajo interactivas en Amazon EMR sin servidor con Spark Connect
Amazon EMR sin servidor ahora admite sesiones interactivas con Spark Connect, lo que le permite desarrollar y poner en marcha aplicaciones Apache Spark desde cuadernos administrados en Amazon SageMaker Unified Studio, así como sus entornos de cuadernos e IDE favoritos, como Jupyter y Visual Studio Code. También puede supervisar y depurar las sesiones activas y finalizadas en la consola de EMR y obtener una visibilidad detallada del coste y el uso de las sesiones individuales.
Una sesión interactiva proporciona un contexto de Spark persistente que se extiende sin problemas a través de celdas y scripts, lo que le permite combinar la ejecución local de código Python con las operaciones remotas de Spark dentro de un entorno unificado. Esto es gracias a la arquitectura cliente-servidor de Spark Connect, que desacopla el cliente de la aplicación del controlador de Spark y te permite mantener tu entorno de desarrollo y tus herramientas preferidos mientras la infraestructura de Spark se ejecuta de forma independiente en EMR sin servidor. Esta arquitectura desbloquea los flujos de trabajo, incluida la exploración de datos ad hoc, la depuración iterativa paso a paso y el desarrollo incremental de trabajos de PySpark antes de la implementación en producción. Para la observabilidad, puedes monitorear las sesiones en tiempo real a través de la interfaz de usuario de Spark, rastrear el historial a través del servidor de historial de Spark y administrar las sesiones desde la consola EMR o API/CLI/SDK.
Spark Connect en Amazon EMR sin servidor está disponible con la versión 7.13 de EMR en todas las regiones de AWS en las que Amazon EMR sin servidor está disponible. La experiencia de SageMaker Unified Studio está disponible en regiones compatibles. Para empezar, consulte la Guía del usuario de las sesiones interactivas sin servidor de EMR o la guía de introducción a Amazon SageMaker Unified Studio.