投稿日: Jan 6, 2023
Amazon EMR Serverless は Amazon EMR のサーバーレスオプションで、データエンジニアやデータサイエンティストが、クラスターやサーバーを構成、管理、スケーリングすることなく、オープンソースのビッグデータ分析フレームワークを簡単に実行できるようにします。本日、EMR Serverless で Apache Spark と Hive 用のイメージをカスタマイズできるようになったことを発表いたします。このことにより、アプリケーションの依存関係やカスタムコードをイメージにパッケージ化できるようになり、Spark と Hive のワークロードの実行が簡単になります。
カスタムイメージを実行すると、ビッグデータ分析の多くのユースケースが簡素化されます。例えば、データエンジニアはデフォルトのリリースイメージをカスタマイズして、一般的な依存関係、カスタムコード、特定の Java または Python バージョン、またはワークロードに必要な SSL 証明書をパッケージ化できます。そして、そのカスタマイズされたイメージを Amazon Elastic Container Repository (ECR) に保存することで、カスタム依存関係を持つ Spark ワークロードを簡単に実行できます。セキュリティエンジニアは、組織の基準に従ってこれらのイメージをスキャンできます。また、データサイエンティストは、独自のライブラリや特定の Python パッケージを含むようにランタイムイメージをカスタマイズできます。さらに、EMR Serverless のリリースを組織の Docker ビルド、テスト、デプロイプロセスと直接統合できるため、アプリケーションの継続的インテグレーションと継続的デリバリー (CI/CD) が簡単になります。
EMR ランタイムを特定のリリース用にカスタマイズして、アプリケーションの依存関係を含める方法の詳細については、AWS のドキュメントをご覧ください。