Publicado en: Nov 29, 2022
La integración de Amazon Redshift para Apache Spark ayuda a los desarrolladores a crear y ejecutar sin problemas aplicaciones de Apache Spark con datos de Amazon Redshift. Si utiliza servicios de análisis y machine learning (ML) de AWS, como Amazon EMR, AWS Glue y Amazon SageMaker, ahora puede crear aplicaciones de Apache Spark que lean y escriban en su almacenamiento de datos Amazon Redshift sin afectar el rendimiento de sus aplicaciones ni la coherencia transaccional de sus datos. La integración de Amazon Redshift para Apache Spark se basa en un proyecto de conector de código abierto existente e introduce mejoras de rendimiento y seguridad, para que las aplicaciones de los clientes sean hasta 10 veces más rápidas. Les agradecemos a los colaboradores originales del proyecto que trabajaron con nosotros para alcanzar este objetivo. A medida que implementemos más mejoras, seguiremos colaborando con el proyecto de código abierto.
La integración de Amazon Redshift para Apache Spark simplifica el engorroso proceso manual de configuración de un conector de código abierto Spark-Redshift y reduce el tiempo de preparación necesario para tareas de análisis y ML. Solo debe especificar la conexión en su almacenamiento de datos y, en segundos, puede comenzar a trabajar con datos de Amazon Redshift desde sus aplicaciones basadas en Apache Spark. Utilice las diferentes capacidades de inserción para operaciones como ordenar, agregar, limitar, unir y escalar funciones, de manera que solo se trasladen los datos relevantes desde su almacenamiento de datos Amazon Redshift a la aplicación Spark anidada. Esto le permite mejorar el rendimiento de sus aplicaciones. Además, si se conecta a Amazon Redshift con credenciales de AWS Identity and Access Management (AWS IAM), puede aumentar la seguridad de sus aplicaciones.
Para comenzar, vaya a Amazon EMR 6.9, EMR sin servidor o AWS Glue 4.0, utilice una estructura de datos o código Spark SQL en un trabajo o cuaderno de Apache Spark para conectarse al almacenamiento de datos Amazon Redshift y empiece a ejecutar consultas en minutos. Para obtener más información, consulte Amazon Redshift o la integración de Amazon Redshift para Apache Spark.