Amazon Web Services ブログ

Amazon SageMaker Studio と Apache Spark を用いた Delta Lake からのデータのロードと変換

AWS Lake Formation をはじめ、複数のベンダーがデータレイクアーキテクチャを作成しています。また、オープンソースのソリューションにより、企業は簡単にデータにアクセスし、ロードし、共有することができます。AWS クラウドにデータを保存するためのオプションの1つが Delta Lake です。Delta Lake ライブラリは、オープンソースの Apache Parquet ファイルフォーマットでの読み込みと書き込みを可能にし、ACID トランザクション、スケーラブルなメタデータ処理、統一されたストリーミングおよびバッチデータ処理といった機能を提供します。Delta Lake は、Amazon Simple Storage Service (Amazon S3) のようなオブジェクトレイヤーのストレージの上にデータを格納するために使用できるストレージレイヤー API を提供しています。