投稿日: Nov 15, 2019
Amazon EMR リリース 5.28.0 が、Apache Hudi (Incubating) をサポートするようになりました。データパイプラインの開発とデータ処理に Amazon EMR を使用するデータエンジニアは、Apache Hudi を使用して、レコードレベルの挿入、更新、削除操作を必要とする増分データ管理とデータプライバシーのユースケースを簡素化できるようになりました。Apache Hudi を使用すると、Amazon S3 ベースのデータレイクは、データプライバシー法を順守し、リアルタイムストリームを消費し、データキャプチャログを変更し、到着データの回復と変更履歴とロールバックを追跡できます。Apache Hudi はオープンソースであり、Apache Parquet や Apache Avro などのベンダーに依存しないオープンソース形式で Amazon S3 にデータを保存できるようにサポートます。
Apache Hudi は、増分データ処理とデータパイプライン開発を簡素化するために使用されるオープンソースのデータ管理フレームワークです。Apache Hudi を使用すると、Amazon S3 のレコードレベルでデータを管理し、変更データキャプチャ (CDC) とストリーミングデータの取り込みを簡素化できます。また、レコードレベルの更新と削除が必要なデータプライバシーのユースケースを処理するフレームワークを提供します。Apache Hudi によって管理されるデータセットは、オープンストレージ形式を使用して S3 に保存され、Presto、Apache Hive、Apache Spark、AWS Glue Data Catalog との統合により、使い慣れたツールを使用して、更新されたデータにほぼリアルタイムでアクセスできます。
Apache Hudi は Amazon EMR でネイティブにサポートされており、EMR クラスターをデプロイするときに Apache Spark、Hive、または Presto を選択すると自動的にインストールされます。Apache Hudi を使用すると、読み取り重視または書き込み重視のいずれかのユースケースに最適化されたデータセットを作成できます。Apache Hudi は、データストレージに Apache Parquet と Apache Avro を使用して、S3 に保存されている基礎データを管理します。
Amazon EMR リリース 5.28.0 と Apache Hudi は、米国東部 (バージニア北部およびオハイオ)、米国西部 (オレゴン)、南米 (サンパウロ)、欧州 (アイルランドおよびストックホルム)、AWS GovCloud (米国東部および米国西部)、AWS (北京リージョン) で、Sinnet が運営しており、今後数週間でさらに多くのリージョンが追加される予定です。
Amazon EMR リリースの最新情報を得るには、EMR リリースノートのフィードにサブスクライブしてください。EMR リリースガイドの上部にあるアイコンを使って、フィードの URL をお使いのフィードリーダーに直接リンクしてください。
EMR で Apache Hudi を使用する方法を詳しく調べるには、ご参加いただくか、re:Invent セッションとワークショップをご覧ください。
その他のリンク:
AWS ニュースブログ: 新規 - Amazon EMR と Apache Hudi を使用して S3 にデータを挿入、更新、削除する