Publié le: Jun 8, 2023
Amazon Athena pour Apache Spark prend désormais en charge trois frameworks de stockage de lacs de données open source : Apache Hudi 0.13, Apache Iceberg 1.2.1 et Linux Foundation Delta Lake 2.0.2. Ces frameworks simplifient le traitement incrémentiel de grands jeux de données à l'aide de transactions ACID (atomicité, cohérence, isolation, durabilité), et simplifient le stockage et le traitement de grands jeux de données dans vos lacs de données.
Amazon Athena pour Apache Spark est une fonctionnalité d'Amazon Athena qui vous permet d'exécuter des analyses interactives sur Apache Spark en moins d'une seconde pour analyser des pétaoctets de données. À mesure que la taille des lacs de données augmente, il peut être difficile d'ajouter des données incrémentielles à votre lac de données et de garantir la cohérence transactionnelle de vos données pour tous vos utilisateurs de données. Ces frameworks de lacs de données simplifient le traitement incrémentiel des données dans les lacs de données S3 à l'aide de transactions, de modifications et de suppressions ACID afin de créer des fichiers cohérents sur le plan transactionnel. Avec le lancement d'aujourd'hui, les ingénieurs de données peuvent désormais créer et gérer efficacement des tables de lacs de données grâce à des fonctionnalités telles que l'évolution des schémas. L'évolution des schémas facilite l'adaptation de vos données aux changements métier, car elle permet de modifier la structure des données de vos tables de données existantes sans avoir à réécrire vos données existantes pour les rendre conformes à votre nouvelle structure.
La prise en charge d’Apache Iceberg, d’Apache Hudi et de Delta Lake est disponible dans 9 régions AWS où Amazon Athena pour Apache Spark est disponible : USA Est (Ohio), USA Est (Virginie du Nord), USA Ouest (Oregon), Europe (Irlande), Europe (Francfort), Asie-Pacifique (Tokyo), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney) et Asie-Pacifique (Mumbai). Pour en savoir plus et vous lancer, consultez la page web d’Amazon Athena pour Apache Spark.