メインコンテンツに移動

Amazon EMR を用いた分散処理基盤のアーキテクチャを構築したい

⽇々⽣成される⼤量のデータを蓄積し、分析するための Hadoop 分散処理基盤アーキテクチャを作成する AWS のマネージドサービス Amazon Elastic MapReduce (Amazon EMR) の構成例とその概算料金をご紹介します

構成概要

この構成例のクラウドレベル:

基礎編

入門編:該当するユースケースの知識が全くない方が対象
基礎編:該当するユースケースの入門知識がある方が対象
応用編:該当するユースケースにある程度精通している方が対象

この構成例で解決できる課題・困りごと:

  • ⽇々の業務の中で⼤量のデータ⽣成されており、それを蓄積・分析するための⼤規模な分散処理基盤 が必要と感じている

  • ⼤規模な分散処理基盤を構築・運⽤する際に、AWS のマネージドサービスを有効活⽤して⼿間を減らし、本来の業務に集中出来る環境を作り、Total Cost of Ownership (TCO) の観点でコスト削減もすすめたい

この構成例の概算料金:

1592.36 ドル (月額)

この構成例のメリット:

  • Amazon EMR で取得するデータ、もしくはデータを処理した結果を保存する先として HDFS の代わりに Amazon S3 を EMR ファイルシステム (EMRFS) という形で利⽤することで、Amazon S3 のメリットである「⾼い耐久性、可⽤性、パフォーマンス、セキュリティ、および事実上無制限のスケーラビリティ性能」を低いコストで享受することができます

  • Hadoop の各エコシステムで⽤いるテーブルメタデータを保存する先として、AWS Glue (Data Catalog) を⽤いることで、これらのデータを Amazon EMR クラスター外のサーバレスサービスの配下で保存することができ、クラスターを作成し直した際にも参照できるようになります

  • Amazon EMR クラスター内の EMR Task Nodes はオートスケーリングが設定されており、データ処理量の需要に合わせて EC2 インスタンスの数が⾃動的に増減します

Architecture diagram in Japanese showing integration between Amazon Kinesis Data Firehose, Amazon S3, AWS Glue Data Catalog, and an EMR cluster within a Virtual Private Cloud (VPC), including master, core, and task EC2 nodes.

月額合計料金:1,592.36 (USD)

この構成例で使用したサービスと概算料金内訳

サービス
項目
数量
単価
料金 (USD)
Amazon EC2 (Master Node)

インスタンス
(m7g.xlarge)

EBS (汎用 SSD)
[gp3 ボリューム]

3
※ vCPU : 4, メモリ : 16 GiB

79 GB * 3 = 237 GB
※ 3000 IOPS, 125 MB/秒 スループット

0.2108 USD/時間
(1 ヶ月間常時起動 : 730時間分)

0.096 USD/GB

461.652

22.752

Amazon EC2 (Core & Task Node)

インスタンス
(m7g.xlarge)

EBS (汎用 SSD)
[gp3 ボリューム]

4
※ vCPU : 4, メモリ : 16 GiB

79 GB * 4 = 316 GB
※ 3,000 IOPS, 125 MB/秒 スループット

0.2108 USD/時間
(1 ヶ月間常時起動 : 730時間分)

0.096 USD/GB

615.536

30.34

Amazon EMR

(m7g.xlarge)

7
※ EMR の利用コストは使用するインスタンスのタイプによって異なります

0.0408 USD/時間

208.49

Amazon S3

スレージの料金
(スタンダード)

10,000 GB

0.025 USD/GB

250

AWS Glue

Data Catalog
(ストレージ)

Data Catalog
(リクエスト)

※毎月 100 万オブジェクトまでは無料 (以降は 1 USD/10万オブジェクト) なので本ケースではこの無料枠に収まるものとする。

※毎月 100 万リクエストまでは無料 (以降は 1 USD/100万リクエスト)なので本ケースではこの無料枠に収まるものとする。

-

-

0

0

Amazon Kinesis Data Firehose

データ取り込み

100 GB

0.036USD/GB

3.6

  • 東京リージョンでのご利用を想定しています。

  • 1 ヶ月を 730 時間として計算しています。

  • EMR Cluster の環境については下記の想定で試算を行っています。

    • EMR Master Nodes は冗長化構成にするために常に 3 台を立ち上げている構成です。

    • 1 ヶ月継続的に、何かしらのワークロードが実行し続けられており、起動している Core Node と Task Node の EC2 インスタンスの台数は平均で 2 台ずつで合計 4 台となります。

    • Amazon EMR が処理を行うために Amazon S3 には 10,000 GB のデータが保存されている。

    • Kinesis Data Firehose には外部から日々データが送り込まれてきており、100 GB のデータを処理している。

    • こちらの見積もりでは EC2 インスタンスは全てオンデマンド料金での計算となるため、リザーブドインスタンス、Savings Plans、Spot Instances 等の割引オプションを有効的に活用することで、より最適化された価格での利用が可能です。

※ 2024 年 10 月 18 日時点での試算です

この AWS サービスに関する参考情報