Publicado en: Dec 9, 2020
Amazon Redshift, un almacén de datos en la nube totalmente administrado, anuncia una previsualización del soporte nativo para JSON y datos semiestructurados. Se basa en el nuevo tipo de datos “SUPER” que permite almacenar los datos semiestructurados en tablas de Redshift. Redshift también añade un soporte para el lenguaje de consulta PartiQL a fin de consultar y procesar sin problemas los datos semiestructurados. Esta función permite lograr una analítica avanzada que combina los datos SQL estructurados clásicos (como cadenas, números y marcas de tiempo) con los datos SUPER semiestructurados con un rendimiento, flexibilidad y facilidad de uso superiores.
El tipo de datos genéricos SUPER es de naturaleza esquemática y permite el almacenamiento de valores anidados que podrían consistir en valores escalares de Redshift, matrices anidadas u otras estructuras anidadas. Amazon Redshift admite el análisis sintáctico de los datos JSON en SUPER y una inserción hasta 5 veces más rápida de los datos JSON o SUPER en comparación con la inserción de datos similares en las columnas escalares clásicas. PartiQL es una extensión de SQL que se adopta a través de múltiples servicios AWS. PartiQL permite el acceso a datos SUPER sin esquema y anidados a través de una eficiente navegación por objetos y matrices, que deshace anidaciones y compone de forma flexible consultas con operaciones analíticas clásicas, como JOINs y agregados. Esto permite nuevos análisis avanzados a través de consultas ad hoc que descubren combinaciones de datos estructurados y semiestructurados. Además, los ingenieros de datos pueden lograr un procesamiento ELT (Extracción, Carga, Transformación) simplificado y de baja latencia de los datos semiestructurados insertados directamente en su clúster Redshift sin integración con servicios externos. Las características de PartiQL que facilitan la ELT incluyen semántica sin esquemas, clasificaciones dinámicas y capacidades de introspección de tipos, además de la navegación y la anulación de nidos. Los datos semiestructurados se pueden destruir fácilmente mediante la creación de vistas materializadas y se pueden realizar consultas analíticas más rápidas de órdenes de magnitud, a la vez que se mantienen las vistas materializadas de forma automática e gradual.
El soporte para el procesamiento nativo de datos semiestructurados en Amazon Redshift está disponible como previsualización pública en el tema SQL_PREVIEW. Para obtener más información y comenzar, consulte nuestra documentación. Revise la tabla de la regiones de AWS para conocer la disponibilidad de Amazon Redshift.