投稿日: Jun 8, 2023
Amazon Athena for Apache Spark が、オープンソースのデータレイクストレージフレームワークである Apache Hudi 0.13、Apache Iceberg 1.2.1、Linux Foundation Delta Lake 2.0.2 のサポートを開始しました。これらのフレームワークによって、ACID (原子性、一貫性、分離性、耐久性) トランザクションを使用した大規模なデータセットの増分データの処理を簡素化でき、データレイクでの大規模なデータセットの保存と処理をより簡単に行えるようになります。
Amazon Athena for Apache Spark は、Apache Spark で 1 秒以内にインタラクティブ分析を実行し、ペタバイトのデータを分析できるようにする Amazon Athena の機能です。データレイクのサイズが大きくなるにつれて、データレイクに増分データを追加しながら、すべてのデータユーザーに対してデータのトランザクションの一貫性を保つことが困難になる場合があります。これらのデータレイクフレームワークは、ACID トランザクション、アップサート、削除を使用して S3 データレイクでの増分データ処理を簡素化し、トランザクションに一貫性のあるファイルを作成します。本日のリリースにより、データエンジニアはスキーマ進化などの機能を使用して、データレイクテーブルを効率的に作成および管理できるようになりました。スキーマ進化により、既存のデータを新しい構造に合わせて書き直すことなく既存のデータテーブルのデータ構造を変更できるため、データをビジネスの変化に簡単に適応させることができます。
Apache Iceberg、Apache Hudi、Delta Lake のサポートは、Amazon Athena for Apache Spark が利用可能な次の 9 つの AWS リージョンでご利用いただけます。米国東部 (オハイオ)、米国東部 (バージニア北部)、米国西部 (オレゴン)、欧州 (アイルランド)、欧州 (フランクフルト)、アジアパシフィック (東京)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (ムンバイ)。詳細と開始方法については、Amazon Athena for Apache Spark のウェブページをご覧ください。