ビッグデータプラットフォーム – Amazon EMR

Amazon EMR

Apache Spark、Trino、および他のビッグデータワークロードを簡単に実行してスケール

Amazon EMR を使用すべき理由

Amazon EMR は、比類のない柔軟性とスケールにより、分析ワークロードを加速するビッグデータ処理サービスです。EMR は、Apache Spark、Trino、Apache Flink、Apache Hive 向けにパフォーマンス最適化ランタイムを備えており、コストと処理時間を大幅に削減します。このサービスは AWS とシームレスに統合し、データレイクワークフローとエンタープライズ規模のアーキテクチャを簡素化します。組み込みの自動スケーリング、インテリジェントモニタリング、マネージドインフラストラクチャを備えた EMR を利用することで、クラスターの管理ではなくインサイトの抽出に注力でき、従来のソリューションの運用上のオーバーヘッドなしに、ペタバイト規模の分析が効率的に提供されます。

柔軟なデプロイオプション

EMR Serverless を使用すべき理由

Amazon EMR Serverless は、データアナリストやエンジニアが、Apache Spark などのオープンソースのビッグデータ分析フレームワークを簡単に実行できるようにします。クラスターやサーバーを設定、管理、スケールする必要はありません。 EMR Serverless は、エキスパートによるクラスターの計画と管理なしで、Amazon EMR のすべての機能と利点の活用を始めるための極めて迅速な方法です。

EMR Serverless

Amazon EMR on Amazon EC2 を使用すべき理由

Amazon EMR on Amazon EC2 は、クラスター設定を制御し、長時間稼働のクラスターをサポートするため、特定のハードウェア設定を必要とする継続的なデータ処理タスクに最適です。Apache Spark や Trino などの一般的なフレームワークと並行してカスタムアプリケーションをインストールできます。また、コストとパフォーマンスの両方を最適化できるよう幅広い EC2 インスタンスタイプが提供されます。他の AWS サービスとの統合と、スポットインスタンスを使用できることにより、ビッグデータの運用をきめ細かく制御する必要がある組織にとって、EMR Serverless はコスト効率の高いソリューションとなります。

Amazon EMR on Amazon EKS を使用すべき理由

Amazon EMR on Amazon Elastic Kubernetes Service (EKS) を使用すると、EMR クラスターをプロビジョニングすることなく、EKS で Apache Spark ジョブをオンデマンドで送信できます。EMR on EKS を使用すると、他の Kubernetes ベースのアプリケーションと同じ Amazon EKS クラスターで分析ワークロードを実行できるため、リソースの利用率を高め、インフラストラクチャ管理を簡素化できます。

Amazon EMR on Amazon EKS

次世代の Amazon SageMaker で Amazon EMR を使用してデータを処理する

Amazon EMR は次世代の Amazon SageMaker で利用可能です。これにより、Apache Spark、Trino、および他のオープンソース分析フレームワークを統合されたデータおよび AI 開発環境で簡単に実行できます。

詳細をご覧ください。

特徴

Amazon EMR は、オープンソースの Spark と Iceberg よりも 4.5 倍速く Apache Spark と Iceberg の読み取りジョブを実行します

詳細

Amazon EMR は、オープンソースの Spark と Iceberg よりも 2 倍速く Apache Spark と Apache Iceberg の書き込みジョブを実行します

詳細

メリット

Amazon EMR は、高速かつコスト効率の高い処理を実現するためのパフォーマンス最適化 Apache Spark に、スポットインスタンスを含むインスタンスタイプを選択できる柔軟性と、クラスターを動的に適切なサイズに設定するフルマネージド自動スケーリングを組み合わせることで、過剰なプロビジョニングをなくし、全体的な支出を削減します。

Amazon EMR は API との互換性を維持しつつ、オープンソースの Apache Spark よりも 5.4 倍速く動作しています。これにより、お客様は、Apache Spark、Trino、Apache Flink、Apache Hive など、任意のオープンソースフレームワークをデプロイできます。EMR は、Iceberg、Hudi、Delta などの人気のオープンテーブル形式をサポートし、インサイトを得るまでの時間を短縮します。

EMR は、インフラストラクチャを必要としないフルマネージド型の EMR Serverless、きめ細かなクラスター制御を実現する EMR on EC2、Kubernetes ネイティブのビッグデータワークロードを実現する EMR on EKS など、デプロイの選択肢を提供します。オンデマンドジョブのために短期クラスターを実行する場合でも、永続的なタスクのために長期クラスターを実行する場合でも、EMR は、柔軟なリソース割り当てと効率的なスケーリングを通じてコストを最適化しながら、運用ニーズに適応します。

次世代の Amazon SageMaker における Amazon EMR は、Apache Spark、Trino、Apache Flink などのオープンソースフレームワークの実行を可能にします。これにより、インフラストラクチャのプロビジョニングや管理なしで、分析ワークロードを簡単にスケールできます。Amazon SageMaker における EMR の機能を使用することで、データ処理とモデル開発を統合し、生データ変換から AI デプロイまでのエンドツーエンドのワークフローを単一のコラボレーション環境で実現できます。

インテリジェントな自動化により、数か月にわたるApache Sparkのアップグレードを、1週間にわたる効率的なプロジェクトに変換できます。Spark アップグレードエージェントは、コードベース全体にわたる API の変更を自動的に分析して検証することで、エンタープライズ規模の移行を効率化し、コストと複雑さの両方を大幅に軽減します。

ユースケース

統計アルゴリズムと予測モデルを使用して大規模なデータ処理と what-if 分析を実行し、隠されたパターン、相関関係、市場動向、および顧客の好みを明確にします。

さまざまなソースからデータを抽出し、大規模に処理して、アプリケーションとユーザーが利用できるようにします。

ストリーミングデータソースされるイベントをリアルタイムで分析する、高い可用性、耐障害性を備えた長時間の実行に対応するストリーミングデータパイプラインを構築できます。

Apache Spark MLlib、TensorFlow、Apache MXNet などのオープンソースの機械学習フレームワークを使用してデータを分析します。Amazon SageMaker Studio に接続して、大規模なモデルトレーニング、分析、およびレポートを作成します。

Amazon EMR の使用を開始する

特徴ページ

Amazon EMR の仕組みを確認する

Amazon EMR の特徴を詳しく見る

料金

Amazon EMR の料金を詳しく見る

Amazon EMR 料金の詳細

Amazon EMR

Amazon EMR を使用すべき理由

柔軟なデプロイオプション

EMR Serverless を使用すべき理由

Amazon EMR on Amazon EC2 を使用すべき理由

Amazon EMR on Amazon EKS を使用すべき理由

次世代の Amazon SageMaker で Amazon EMR を使用してデータを処理する

特徴

Amazon EMR は、オープンソースの Spark と Iceberg よりも 4.5 倍速く Apache Spark と Iceberg の読み取りジョブを実行します

Amazon EMR は、オープンソースの Spark と Iceberg よりも 2 倍速く Apache Spark と Apache Iceberg の書き込みジョブを実行します

メリット

ユースケース

Amazon EMR の使用を開始する

Amazon EMR の仕組みを確認する

Amazon EMR の料金を詳しく見る

学ぶ

リソース

デベロッパー

ヘルプ

Amazon EMR

Amazon EMR を使用すべき理由

柔軟なデプロイオプション

EMR Serverless を使用すべき理由

Amazon EMR on Amazon EC2 を使用すべき理由

Amazon EMR on Amazon EKS を使用すべき理由

次世代の Amazon SageMaker で Amazon EMR を使用してデータを処理する

特徴

Amazon EMR は、オープンソースの Spark と Iceberg よりも 4.5 倍速く Apache Spark と Iceberg の読み取りジョブを実行します

Amazon EMR は、オープンソースの Spark と Iceberg よりも 2 倍速く Apache Spark と Apache Iceberg の書き込みジョブを実行します

メリット

費用対効果の高いビッグデータ処理

インサイトを得るまでの時間を短縮し、パフォーマンスを最適化する

比類のないデプロイの柔軟性

Amazon SageMaker でデータ処理を最適化する

AI アシスタンスで Spark のアップグレードを加速

ユースケース

ビッグデータ分析を実行する

スケーラブルなデータパイプラインを構築する

リアルタイムデータストリームを処理する

データサイエンスと機械学習の採用を加速する

Amazon EMR の使用を開始する

Amazon EMR の仕組みを確認する

Amazon EMR の料金を詳しく見る

学ぶ

リソース

デベロッパー

ヘルプ