Publicado en: Jan 21, 2022

Nos complace anunciar que Amazon EMR 6.5.0 ahora incluye la versión 0.12 de Apache Iceberg. Apache Iceberg es un formato de tabla abierta para conjuntos de datos grandes en Simple Storage Service (Amazon S3) y ofrece un rápido rendimiento de las consultas en tablas grandes, confirmaciones atómicas, escrituras concurrentes y evoluciones de tablas compatibles con SQL. Con la nueva versión, puede usar Apache Spark 3.1.2 en clústeres de EMR con el formato de tabla de Iceberg.

Apache Iceberg ofrece un formato de tabla de código abierto para datos almacenados en lagos de datos que ayuda a los ingenieros de datos a administrar desafíos complejos, como la administración de conjuntos de datos en continua evolución, mientras se mantiene el rendimiento de las consultas. Iceberg le permite hacer lo siguiente:

  • Conservar la consistencia transaccional de las tablas entre múltiples aplicaciones, donde los archivos se pueden añadir, eliminar o modificar de manera atómica con total aislamiento de lectura y múltiples escrituras concurrentes
  • Implementar la evolución completa del esquema para seguir los cambios de una tabla a lo largo del tiempo
  • Realizar consultas de desplazamiento en el tiempo para consultar los datos históricos y verificar los cambios entre las actualizaciones
  • Organizar las tablas en formatos de partición flexibles con la evolución de las particiones, lo que permite actualizar los esquemas de partición a medida que cambian las consultas y los volúmenes de datos sin depender de los directorios físicos
  • Revertir las tablas para recuperar versiones anteriores a fin de corregir rápidamente los problemas y devolver las tablas a un estado correcto conocido
  • Realizar una planificación y un filtrado avanzados en consultas de alto rendimiento sobre grandes conjuntos de datos, etc.

La versión 6.5.0 de Amazon EMR con Apache Iceberg ya está disponible al Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Oregón), América del Sur (São Paulo), Europa (Irlanda), Europa (Estocolmo), AWS GovCloud (EE. UU.), Amazon Web Services en China (región de Pekín) a cargo de Sinnet y región de Amazon Web Services en China (Ningxia) a cargo de NWCD, pero se agregarán más regiones en las próximas semanas.

Para más información sobre el uso de Apache Iceberg en Amazon EMR, consulte la página de documentación de Amazon EMR aquí.