Amazon EMR が Apache Spark 4.0.2 の一般提供でのサポートを開始
Amazon EMR は、3 つのデプロイモデルすべてで Apache Spark 4.0.2 をサポートするようになりました。Spark 4.0.2 では、ANSI SQL および VARIANT データ型を使用してデータパイプラインをより簡単に構築および保守したり、行レベルまたは列レベルできめ細かなアクセス制御 (FGAC) を実施したり、Apache Iceberg v3 テーブル形式でコンプライアンスとガバナンスのフレームワークを強化したり、ストリーミング機能の強化により新しいリアルタイムアプリケーションをより迅速にデプロイしたりできます。
Spark 4.0.2 では、データパイプラインを構築できるため、標準の ANSI SQL サポートを通じて幅広いユーザーがデータエンジニアリングにアクセスできるようになりました。これにより、Spark 固有の構文を学ぶ必要がなくなりました。Spark 4.0.2 は、VARIANT データ型を通じて JSON および半構造化データをネイティブにサポートしているため、さまざまなデータ形式を柔軟に処理できます。Apache Spark ジョブ内で AWS Lake Formation 登録済みテーブルの読み取り操作と書き込み操作の両方について、きめ細かなアクセス制御 (FGAC) を適用できます。これらのセキュリティ機能を基盤とする Apache Iceberg v3 のテーブル形式は、より強力なトランザクション保証を提供し、データリネージュを追跡することで、規制コンプライアンスに必要な監査証跡を作成します。ストリーミング制御の強化により、複雑なステートフルオペレーションの管理が簡素化され、監視機能が向上するため、不正の検出、パーソナライゼーション、その他の時間的制約のあるユースケースのためのリアルタイムアプリケーションをより迅速にデプロイできます。
Apache Spark 4.0.2 は、EMR を利用できるすべてのリージョンでご利用いただけます。既存の EMR アプリケーションをアップグレードする場合、Apache Spark アップグレードエージェントを使用してアップグレードを迅速に行うことができます。Amazon EMR での Apache Spark 4.0.2 の詳細については、Amazon EMR リリースノートを参照してください。利用を開始するには、AWS マネジメントコンソールから Spark 4.0.2 を使用して EMR アプリケーションを作成してください。