Amazon Web Services ブログ
新しい Amazon DynamoDB の Amazon SageMaker Lakehouse とのゼロ ETL 統合
サーバーレスの NoSQL データベースである Amazon DynamoDB は、100 万人を超えるお客様が低レイテンシーで大規模なアプリケーションを構築するために使用している、信頼度の高いソリューションです。データが増加するにつれて、組織は DynamoDB に保存されることが多い運用データから貴重なインサイトを引き出す方法を常に模索しています。しかし、Amazon DynamoDB のこのデータを分析と機械学習 (ML) のユースケースで最大限に活用するために、お客様はカスタムデータパイプラインを構築することがよくあります。これは時間のかかるインフラストラクチャタスクであり、コアビジネスに独自の価値をもたらすことはほとんどありません。
12 月 3 日より、Amazon DynamoDB ゼロ ETL 統合を Amazon SageMaker Lakehouse と統合することで、DynamoDB テーブルの容量を消費することなく、数回クリックするだけで分析と ML ワークロードを実行できるようになりました。Amazon SageMaker Lakehouse は、Amazon S3 データレイクと Amazon Redshift データウェアハウスにわたるすべてのデータを統合し、単一のデータコピーに基づいて強力な分析と AI/ML アプリケーションを構築するのに役立ちます。
ゼロ ETL は、ETL データパイプラインを構築する必要性を排除または最小限に抑える統合セットです。このゼロ ETL 統合により、データパイプラインの構築と維持に必要なエンジニアリング作業の複雑さが軽減されます。これは、本番環境のワークフローに影響を与えることなく、Amazon DynamoDB の運用データに対して分析および機械学習ワークロードを実行しているユーザーにとってメリットがあります。
使用を開始する
次のデモでは、Amazon SageMaker Lakehouse が管理する Amazon Simple Storage Service データレイクを使用して、Amazon DynamoDB 内のデータのゼロ ETL 統合を設定する必要があります。ゼロ ETL 統合を設定する前に、完了しておくべき前提条件があります。セットアップ方法の詳細については、この Amazon DynamoDB ドキュメントページを参照してください。
前提条件をすべて満たしたら、この統合を開始できます。AWS Glue コンソールに移動し、[データ統合と ETL] で [ゼロ ETL 統合] を選択します。次に、[ゼロ ETL 統合を作成] を選択します。
ここには、データソースを選択するオプションがあります。[Amazon DynamoDB] を選択し、[次へ] を選択します。
次に、ソースとターゲットの詳細を設定する必要があります。[ソースの詳細] セクションで、Amazon DynamoDB テーブルを選択します。[ターゲットの詳細] セクションで、AWS Glue データカタログで設定した S3 バケットを指定します。
この統合をセットアップするには、AWS Glue に必要な許可を付与する IAM ロールが必要です。IAM アクセス許可の設定に関するガイダンスについては、Amazon DynamoDB ドキュメントを参照してください。また、AWS Glue データカタログのリソースポリシーをまだ設定していない場合は、[修正する] を選択して必要なリソースポリシーを自動的に追加できます。
ここには、出力を設定するオプションがあります。[データパーティショニング] では、パーティショニングに DynamoDB テーブルキーを使用するか、カスタムパーティションキーを指定できます。設定が完了したら、[次へ] を選択します。
[修正する] チェックボックスを選択したので、次のステップに進む前に、必要な変更を確認して [続行] を選択する必要があります。
次のページでは、データ暗号化を柔軟に設定できます。AWS Key Management Service (AWS KMS) またはカスタム暗号化キーを使用できます。次に、統合に名前を割り当て、[次へ] を選択します。
最後のステップでは、設定を確認する必要があります。問題がなければ、[次へ] を選択して ゼロ ETL 統合を作成します。
最初のデータインジェストが完了すると、ゼロ ETL 統合を使用できるようになります。完了時間は、ソース DynamoDB テーブルのサイズによって異なります。
左側のナビゲーションパネルの [データカタログ] の下の [テーブル] に移動すると、[スキーマ] などの詳細が表示されます。このゼロ ETL 統合では、内部で Apache Iceberg を使用して、DynamoDB データ内のデータ形式と構造に関連するデータ形式と構造を Amazon S3 に変換します。
最後に、すべてのデータが S3 バケットで利用可能であることがわかります。
このゼロ ETL 統合により、データ移動の複雑さと運用上の負担が大幅に軽減されるため、パイプラインの管理ではなくインサイトの抽出に集中できます。
今すぐご利用いただけます
この新しいゼロ ETL 機能は、米国東部 (バージニア北部、オハイオ)、米国西部 (オレゴン)、アジアパシフィック (香港、シンガポール、シドニー、東京)、欧州 (フランクフルト、アイルランド、ストックホルム) の AWS リージョンでご利用いただけます。
Amazon SageMaker Lakehouse と Amazon DynamoDB ゼロ ETL 統合を使用してデータ分析ワークフローを合理化する方法をご覧ください。使用を開始する方法の詳細については、Amazon DynamoDB ドキュメントページを参照してください。
構築がうまくいきますように。
– Donnie
原文はこちらです。