Publié le: Dec 9, 2020
Amazon Redshift, un entrepôt de données cloud entièrement géré, annonce la version préliminaire de la prise en charge native de JSON et des données semi-structurées. Elle repose sur le nouveau type de données « SUPER » qui permet de stocker les données semi-structurées dans des tables Redshift. Redshift ajoute également la prise en charge du langage de requête PartiQL pour interroger et traiter de manière transparente les données semi-structurées. Cette fonctionnalité vous permet de réaliser des analyses avancées qui combinent des données SQL structurées classiques (telles que les chaînes de caractères, les données numériques et les horodatages) et les données SUPER semi-structurées avec des performances, une flexibilité et une facilité d'utilisation supérieures.
Le type de données générique SUPER est par essence sans schéma et permet de stocker les valeurs imbriquées qui pourraient être constituées de valeurs scalaires Redshift, de tableaux imbriqués ou d'autres structures imbriquées. Amazon Redshift prend en charge l'analyse des données JSON dans SUPER et insère cinq fois plus rapidement les données JSON/SUPER par rapport à l'insertion de données similaires dans des colonnes scalaires classiques. PartiQL est une extension de SQL qui est adoptée par de nombreux services AWS. PartiQL permet d'accéder à des données SUPER sans schéma et imbriquées grâce à une navigation dans les objets et les tableaux, en supprimant l'imbrication et en composant de manière flexible des requêtes avec des opérations analytiques classiques telles que les opérations JOIN et les agrégats. Cela permet d'exécuter de nouvelles analyses avancées via des requêtes ad hoc qui découvrent des combinaisons de données structurées et semi-structurées. De plus, les ingénieurs de données peuvent réaliser un traitement ELT (Extract, Load, Transform) simplifié et à faible latence des données semi-structurées insérées directement dans leur cluster Redshift sans intégration avec des services externes. Les fonctions PartiQL qui facilitent le traitement ELT incluent une sémantique sans schéma, des fonctionnalités de typage dynamique et d'introspection de type en plus de sa navigation et de la suppression des imbrications. Vous pouvez facilement supprimer les données semi-structurées en créant des vues matérialisées et pouvez exécuter des requêtes analytiques plus rapides d'un ordre de grandeur, tout en conservant les vues matérialisées automatiquement et de manière incrémentielle.
La prise en charge du traitement des données semi-structurées natives dans Amazon Redshift est disponible en version préliminaire publique dans la rubrique SQL_PREVIEW. Pour démarrer et en savoir plus, consultez notre documentation. Consultez le tableau des régions AWS pour connaître la disponibilité d'Amazon Redshift.