投稿日: Nov 22, 2022
Amazon EMR Serverless では、Spark ワークフローと Hive ワークフローを使用して Amazon DynamoDB でデータを読み書きできるようになりました。EMR Serverless の Spark アプリケーションまたは Hive アプリケーションから直接、Amazon DynamoDB のテーブルのエクスポート、インポート、クエリ、結合を実行できます。Amazon DynamoDB はフルマネージド NoSQL データベースで、1 桁台のミリ秒のレイテンシー、予測可能なパフォーマンス、シームレスなスループット、ストレージのスケーラビリティを提供することで、要件の厳しいアプリケーションのレイテンシーとスループットの要件を満たします。
AWS のユーザーは、ダウンストリームでの分析のために、Amazon DynamoDB に保存されているデータを効率的かつ大規模に処理する必要があることが多くあります。Amazon EMR チームは emr-dynamodb-connector を構築してオープンソースとして公開し、お客様が Apache Spark アプリケーションと Apache Hive アプリケーションを使用して Amazon DynamoDB に簡単にアクセスし、設定できるようにしました。このコネクタでは複数の分析ユースケースに対応しており、Amazon DynamoDB のデータを効率的に処理したり、Amazon DynamoDB のテーブルを Amazon S3、Amazon RDS、Amazon EMR Serverless からアクセスできるその他のデータストアに保存されている外部のテーブルと結合したりできます。Amazon EMR リリース 6.9 では、Amazon EMR Serverless アプリケーションを使用して Amazon DynamoDB コネクタのすべての利点を利用できます。クロスリージョンアクセスとクロスアカウントアクセス両方の Amazon DynamoDB テーブルを使用できます。
また、EMR Serverless では、Spark アプリケーションと Hive アプリケーションからデータを処理するために他の AWS アカウントから特定の Amazon S3 バケットにアクセスできるようになりました。AWS のお客様は複数の AWS アカウントを使用して、異なるプロジェクトや事業部門を適切に分離できます。クロスアカウント機能により、複数のアカウントに分散しているデータレイクを一元化されたアプローチで簡単に保護し、管理できるようになります。Amazon S3 へのクロスアカウントアクセスにより、EMR Serverless の Spark アプリケーションまたは Hive アプリケーションをある AWS アカウントで使用して、特定のバケットに保存されているデータに他の AWS アカウントからアクセスして処理できます。
これらの機能は、EMR Serverless が提供されているすべてのリージョンでご利用いただけます。詳細については、Amazon EMR Serverless のドキュメントをご覧ください。