投稿日: Dec 9, 2020

Amazon EKS 上の Amazon EMR は、Amazon Elastic Kubernetes Service (Amazon EKS) で Apache Spark を実行できるようにする Amazon EMR の新しいデプロイオプションを提供します。すでに Amazon EMR を使用している場合は、同じ Amazon EKS クラスター上で他のタイプのアプリケーションとともに Amazon EMR ベースのアプリケーションを実行して、リソースの使用率を向上させ、複数の AWS アベイラビリティーゾーンにわたるインフラストラクチャ管理を簡素化できます。すでに Amazon EKS でビッグデータフレームワークを実行している場合は、Amazon EMR を使用してプロビジョニングと管理を自動化し、Apache Spark を最大 3 倍高速に実行できるようになりました。このデプロイメントオプションを使用すれば、Amazon EKS 上の Amazon EMR がコンテナを構築、構成、および管理している間、分析ワークロードの実行に集中できます。

EKS クラスターを Amazon EMR に登録して、開始します。次に、EMR リリースバージョン、Spark パラメータ、およびアプリケーションの依存関係を含むジョブを定義します。Amazon EKS 上の Amazon EMR は、ポッド、コンテナ、およびリソースを Amazon EKS クラスターにスケジュールします。サーバーレス体験が必要な場合は、Amazon EC2 インスタンス、または Amazon Fargate で実行するようにジョブを設定できます。Apache Airflow または Apache Airflow の Amazon マネージドワークフローを使用してワークフローを作成し、Amazon S3 または Amazon CloudWatch に保存されているジョブごとのログを使用して出力を分析できます。

ノートブックを使用してジョブを送信するために、EMR Studio は、データサイエンティストとデータエンジニアが R、Python、Scala、および PySpark で記述されたデータエンジニアリングおよびデータサイエンスアプリケーションを簡単に開発、視覚化、およびデバッグできるようにする統合開発環境 (IDE) を提供します。

EKS での Amazon EMR の料金は、Amazon EKS ポッドがスケジュールされてから Amazon EKS ポッドが終了するまでに使用された vCPU とメモリリソースに基づいて計算されます。最小値は 1 分で、最も近い秒単位に切り上げられます。料金は、タスク または Pod のために要求された vCPU およびメモリリソースに基づきます。

Amazon EKS 上の Amazon EMR は、米国西部 (オレゴン)、米国東部 (バージニア北部)、および欧州 (アイルランド) の AWS リージョンで利用できます。

詳細については、Amazon EKS 詳細ページの Amazon EMR および AWS ニュースのブログ記事をご覧ください。