メインコンテンツに移動

Amazon EMR

Amazon EMR

Apache Spark、Trino、および他のビッグデータワークロードを簡単に実行してスケール

Amazon EMR を使用すべき理由

Amazon EMR は、比類のない柔軟性とスケールにより、分析ワークロードを加速するビッグデータ処理サービスです。EMR は、Apache Spark、Trino、Apache Flink、Apache Hive 向けにパフォーマンス最適化ランタイムを備えており、コストと処理時間を大幅に削減します。このサービスは AWS とシームレスに統合し、データレイクワークフローとエンタープライズ規模のアーキテクチャを簡素化します。組み込みの自動スケーリング、インテリジェントモニタリング、マネージドインフラストラクチャを備えた EMR を利用することで、クラスターの管理ではなくインサイトの抽出に注力でき、従来のソリューションの運用上のオーバーヘッドなしに、ペタバイト規模の分析が効率的に提供されます。

Missing alt text value

柔軟なデプロイオプション

EMR Serverless を使用すべき理由

Amazon EMR Serverless は、データアナリストやエンジニアが、Apache Spark などのオープンソースのビッグデータ分析フレームワークを簡単に実行できるようにします。クラスターやサーバーを設定、管理、スケールする必要はありません。  EMR Serverless は、エキスパートによるクラスターの計画と管理なしで、Amazon EMR のすべての機能と利点の活用を始めるための極めて迅速な方法です。 

EMR Serverless

Amazon EC2 での Amazon EMR を使用すべき理由

Amazon EC2 での Amazon EMR は、クラスター設定を制御し、長時間稼働のクラスターをサポートするため、特定のハードウェア設定を必要とする継続的なデータ処理タスクに最適です。Apache Spark や Trino などの一般的なフレームワークと並行してカスタムアプリケーションをインストールできます。また、コストとパフォーマンスの両方を最適化できるよう幅広い EC2 インスタンスタイプが提供されます。他の AWS サービスとの統合と、スポットインスタンスを使用できることにより、ビッグデータの運用をきめ細かく制御する必要がある組織にとって、EMR Serverless はコスト効率の高いソリューションとなります。

Amazon EKS での Amazon EMR を使用すべき理由

Amazon Elastic Kubernetes Service (EKS) での Amazon EMR を使用すると、EMR クラスターをプロビジョニングすることなく、EKS で Apache Spark ジョブをオンデマンドで送信できます。EKS での EMR を使用すると、他の Kubernetes ベースのアプリケーションと同じ Amazon EKS クラスターで分析ワークロードを実行できるため、リソースの利用率を高め、インフラストラクチャ管理を簡素化できます。 

Amazon EKS での Amazon EMR

次世代の Amazon SageMaker で Amazon EMR を使用してデータを処理する

Amazon EMR は次世代の Amazon SageMaker で利用可能です。これにより、Apache Spark、Trino、および他のオープンソース分析フレームワークを統合されたデータおよび AI 開発環境で簡単に実行できます。

詳細をご覧ください。

Missing alt text value

メリット

Amazon EMR は、高速かつコスト効率の高い処理を実現するためのパフォーマンス最適化 Apache Spark に、スポットインスタンスを含むインスタンスタイプを選択できる柔軟性と、クラスターを動的に適切なサイズに設定するフルマネージド自動スケーリングを組み合わせることで、過剰なプロビジョニングをなくし、全体的な支出を削減します。

Amazon EMR は、API 互換性を維持しながら、オープンソースの Apache Spark と比較して最大 3.9 倍のパフォーマンスを提供します。これにより、お客様は、Apache Spark、Trino、Apache Flink、Apache Hive など、任意のオープンソースフレームワークをデプロイできます。EMR は、Iceberg、Hudi、Delta などの人気のオープンテーブル形式をサポートし、インサイトを得るまでの時間を短縮します。

EMR は、インフラストラクチャを必要としないフルマネージド型の EMR Serverless、きめ細かなクラスター制御を実現する EC2 での EMR、Kubernetes ネイティブのビッグデータワークロードを実現する EKS での EMR など、デプロイの選択肢を提供します。オンデマンドジョブのために短期クラスターを実行する場合でも、永続的なタスクのために長期クラスターを実行する場合でも、EMR は、柔軟なリソース割り当てと効率的なスケーリングを通じてコストを最適化しながら、運用ニーズに適応します。

次世代の Amazon SageMaker における Amazon EMR は、Apache Spark、Trino、Apache Flink などのオープンソースフレームワークの実行を可能にします。これにより、インフラストラクチャのプロビジョニングや管理なしで、分析ワークロードを簡単にスケールできます。Amazon SageMaker における EMR の機能を使用することで、データ処理とモデル開発を統合し、生データ変換から AI デプロイまでのエンドツーエンドのワークフローを単一のコラボレーション環境で実現できます。

ユースケース

統計アルゴリズムと予測モデルを使用して大規模なデータ処理と what-if 分析を実行し、隠されたパターン、相関関係、市場動向、および顧客の好みを明確にします。
さまざまなソースからデータを抽出し、大規模に処理して、アプリケーションとユーザーが利用できるようにします。
ストリーミングデータソースされるイベントをリアルタイムで分析する、高い可用性、耐障害性を備えた長時間の実行に対応するストリーミングデータパイプラインを構築できます。
Apache Spark MLlib、TensorFlow、Apache MXNet などのオープンソースの機械学習フレームワークを使用してデータを分析します。Amazon SageMaker Studio に接続して、大規模なモデルトレーニング、分析、およびレポートを作成します。