投稿日: Nov 30, 2021
Amazon EMR の新しいサーバーレスオプションである Amazon EMR Serverless のプレビューを発表いたします。これにより、データエンジニアやアナリストは、クラウドでペタバイト規模のデータ分析を簡単かつ費用対効果の高い方法で実行できます。Amazon EMR はクラウドのビッグデータプラットフォームです。お客様は Apache Spark、Apache Hive、Presto などのオープンソース分析フレームワークを使用して、大規模な分散データ処理ジョブ、インタラクティブ SQL クエリ、機械学習アプリケーションを実行するために使用しています。EMR Serverless を使用すれば、これらのフレームワークを使用して構築されたアプリケーションを数回のクリックだけで実行できます。クラスターを構成、最適化、または保護する必要はありません。EMR Serverless は、アプリケーションに必要なコンピューティングリソースとメモリリソースを自動的にプロビジョニングしてスケーリングし、お客様には使用したリソースに対してのみ料金をお支払いいただきます。
EMR Serverless でやるべきことは、アプリケーションに使用するオープンソースフレームワークとバージョンを指定し、API、EMR Studio、または JDBC/ODBC クライアントを使用してジョブを送信するだけです。EMR Serverless は、リクエストの処理に必要なコンピューティングリソースとメモリリソースを自動的に決定してプロビジョニングし、要件の変化に基づいてさまざまな処理段階でリソースをスケールアップおよびスケールダウンします。たとえば、Spark ジョブでは、データを処理するために最初の 5 分間に 2 個のエグゼキューター、次の 10 分間に 10 個のエグゼキューター、最後の 20 分間に 5 個のエグゼキューターが必要になる場合があります。 EMR Serverless は、必要に応じてリソースを自動的にプロビジョニングして調整するため、データ量が時間の経過とともに変化する場合であっても心配する必要はありません。また、使用したリソースに対してのみ料金をお支払いいただくため、ペタバイト規模の分析を実行するうえで EMR Serverless は費用対効果が優れています。お客様は、実行中のジョブのステータスを確認したり、ジョブ履歴を確認したり、使い慣れたオープンソースツールを使用して EMR Studio でジョブをデバッグしたりできます。
Amazon EMR Serverless は、米国東部 (バージニア北部) リージョンのプレビューでご利用いただけます。ここをクリックしてプレビューにサインアップし、ブログをお読みになったら、ドキュメントを参照して詳細をご確認ください。