Amazon EMR Serverless が Apache Spark 4.0.1 をサポート (プレビュー)
Amazon EMR Serverless は Apache Spark 4.0.1 (プレビュー) をサポートするようになりました。Spark 4.0.1 では、ANSI SQL および VARIANT データ型を使用してデータパイプラインをより簡単に構築および保守でき、Apache Iceberg v3 テーブル形式でコンプライアンスとガバナンスのフレームワークを強化し、ストリーミング機能の強化により新しいリアルタイムアプリケーションをより迅速にデプロイできます。これにより、チームはデータの正確性と一貫性を確保しながら、技術的負債を減らし、より迅速にイテレーションを行うことができます。
Spark 4.0.1 では、標準の ANSI SQL を使用してデータパイプラインを構築できるため、Python や Scala などのプログラミング言語を知らない多くのユーザーでも利用できます。Spark 4.0.1 は、VARIANT データ型を通じて JSON および半構造化データをネイティブにサポートしているため、さまざまなデータ形式を柔軟に処理できます。Apache Iceberg v3 テーブル形式を使うと、コンプライアンスとガバナンスを強化できます。テーブル形式ではトランザクションが保証され、時間の経過とともにデータがどのように変化したかが追跡されるため、規制要件に対して必要な監査証跡を作成できます。ストリーミング制御が強化され、複雑なステートフル操作の管理とストリーミングジョブの監視がより簡単になり、リアルタイムアプリケーションをより迅速にデプロイできます。この機能により、不正検出やリアルタイムのパーソナライゼーションなどのユースケースをサポートできます。
Apache Spark 4.0.1 は、中国と AWS GovCloud (米国) リージョンを除き、EMR Serverless が利用可能なすべてのリージョンでプレビュー版として提供されています。Amazon EMR での Apache Spark 4.0.1 の詳細については、Amazon EMR Serverless リリースノートを参照してください。利用を開始するには、AWS マネジメントコンソールから Spark 4.0.1 を使用して EMR アプリケーションを作成してください。