- 分析›
- Amazon EMR›
- EMR Serverless
Amazon EMR Serverless
クラスターやサーバーを管理することなくオープンソースフレームワークを使用してビッグデータアプリケーションを実行
EMR Serverless を使用する理由
Amazon EMR Serverless は、データアナリストとエンジニアがクラスターやサーバーを設定、管理、スケールせずにオープンソースのビッグデータ分析フレームワークを簡単に実行できるようにする Amazon EMR のサーバーレスオプションです。エキスパートによるクラスターの計画と管理を必要とすることなく、Amazon EMR のすべての機能と利点を活用できます。
メリット
Apache Spark アップグレードエージェントは、インテリジェントオートメーションを使用することで、数か月間に及ぶ Apache Spark アップグレードを効率的な 1 週間のプロジェクトに変換します。Spark アップグレードエージェントは、コードベース全体での複雑な API 変更を自動的に処理することでエンタープライズ移行を効率化し、コストと労力を大幅に削減します。
Amazon EMR Serverless は Apache Spark ワークロード向けのローカルストレージプロビジョニングを不要にすることで、データ処理コストを最大 20% 削減し、ディスク容量の制約によるジョブの失敗を防ぎます。EMR Serverless はシャッフルなどの中間データオペレーションを自動的に処理し、ストレージ料金がかかりません。お支払いはコンピューティングリソースとメモリリソースの料金のみです。
仕組み
1
アプリケーションを作成
使用するオープンソースのフレームワークとバージョンを選択します。
2
ジョブを送信
API または EMR Studio 経由でアプリケーションにジョブを送信します。Apache Airflow や Amazon Managed Workflows for Apache Airflow などのワークフローオーケストレーションサービスを利用してジョブを送信することも可能です。
3
ジョブをデバッグ
Spark UI や Tez UI などの使い慣れたオープンソースツールを使用して、ジョブのモニタリングとデバッグを実行します。