投稿日: Nov 28, 2023
Amazon EMR と Amazon S3 Express One Zone ストレージクラスを使用して、Apache Spark アプリケーションでのデータ処理と分析を S3 Standard よりも最大 4 倍高速に実行できるようになりました。 S3 Express One Zoneは、アクセス頻度が最も高いデータやレイテンシーの影響を受けやすいアプリケーションに対して 1 桁ミリ秒単位の一貫したデータアクセスを提供するために構築された、高性能な単一アベイラビリティーゾーンストレージクラスです。
Amazon EMR は、AWS のペタバイト規模に対応できるように最適化されたオープンソースフレームワークでデータ処理、インタラクティブ分析、機械学習を行える、業界をリードするクラウドビッグデータソリューションです。サービスレベルアグリーメント (SLA) が設定されたパフォーマンス重視のワークロードがある場合 (データレイク更新のジョブ完了時間に関する要件があるなど) や、BI ダッシュボードレポートの応答時間を短縮する必要がある場合は、EC2 クラスターで EMR Spark アプリケーションを実行する際に S3 Express One Zone をご利用ください。
S3 Express One Zone は、現在 S3 Express One Zone が利用可能な AWS リージョンの Amazon EMR リリース 6.15.0 でご利用いただけます。利用を開始するには、データを S3 Express One Zone ストレージに移動し、Spark コードで S3a コネクタを使用してデータの読み取りと書き込みを行ってください。S3a は S3 オブジェクトを処理するために EMR で使用されるコネクタであり、S3 Express One Zone バケットに必須です。詳細については、Amazon EMR ドキュメントの「Using EMR with data in S3 Express One Zone」をご参照ください。