Amazon Web Services ブログ

Amazon SageMaker Lakehouse と Amazon Redshift はアプリケーションからのゼロ ETL 統合をサポート

12 月 3 日、アプリケーションからのゼロ ETL 統合のための Amazon SageMaker LakehouseAmazon Redshift のサポートの一般提供を発表しました。 Amazon SageMaker Lakehouse は、Amazon Simple Storage Service (Amazon S3) データレイクと Amazon Redshift データウェアハウスにわたるすべてのデータを統合し、単一のデータのコピーでの強力な分析と AI/ML アプリケーションの構築を支援します。SageMaker Lakehouse では、Apache Iceberg と互換性のあるすべてのツールとエンジンを使用して、その場でデータに柔軟にアクセスし、クエリを実行できます。ゼロ ETL は、AWS によるフルマネージド型の統合のセットです。一般的な取り込みとレプリケーションのユースケース向けに ETL データパイプラインを構築する必要性を最小限に抑えます。Salesforce、SAP、Zendesk などのアプリケーションからのゼロ ETL 統合を使用すると、データパイプラインの構築にかかる時間を削減し、Amazon SageMaker Lakehouse と Amazon Redshift のすべてのデータに対して統合分析を実行することに集中できます。

組織がますます多様化するデジタルシステムに依存している今、データの断片化は重要な課題となっています。貴重な情報は、データベース、アプリケーション、その他のプラットフォームを含む複数のリポジトリに分散していることがよくあります。データの可能性を最大限に活用するには、企業はこれらのさまざまなソースへのアクセスと統合を可能にする必要があります。この課題に対応するために、ユーザーはデータパイプラインを構築し、複数のアプリケーションから一元化されたデータレイクやデータウェアハウスにデータを抽出してロード (EL) することができます。ゼロ ETL を使用すると、カスタマーサポート、関係管理、エンタープライズリソースプランニング (ERP) アプリケーションからの貴重なデータを、データレイクやデータウェアハウスに効率的にレプリケートし、分析や AI/ML に活用できるため、データパイプラインの設計、構築、テストに必要となる何週間分ものエンジニアリング作業を削減できます。

前提条件

  • AWS Glue データカタログAWS Lake Formation を通じて設定された Amazon SageMaker Lakehouse カタログ。
  • データが保存される Amazon S3 向けに設定された AWS Glue データベース。
  • データソースへの接続に使用する、AWS シークレットマネージャーのシークレット。認証情報には、アプリケーションへのサインインに使用するユーザー名とパスワードが含まれている必要があります。
  • 使用する Amazon SageMaker Lakehouse ジョブまたは Amazon Redshift ジョブ用の AWS Identity and Access Management (IAM) ロール。ロールは、Amazon S3 や AWS Secrets Manager など、ジョブによって使用されるすべてのリソースへのアクセス許可を付与する必要があります。
  • 目的のアプリケーションへの有効な AWS Glue 接続。

仕組み – Glue 接続の前提条件の作成
まず、AWS Glue コンソールを使用して接続を作成します。データソースとして Salesforce 統合を選択しました。

次に、接続に使用する Salesforce インスタンスの場所と、その他の必要な情報を指定します。必ず .force.com ではなく、.salesforce.com ドメインを使用してください。ユーザは、Salesforce アクセストークンを通じて取得される JSON Web トークン (JWT) と、ブラウザ経由の OAuth ログインの 2 つの認証方法のいずれかを選択できます。

すべての情報を確認し、[接続を作成] を選択します。

ポップアップ (ここには表示されていません) から Salesforce インスタンスにサインインすると、接続が正常に作成されます。

仕組み – ゼロ ETL 統合の作成
接続できたので、左側のナビゲーションパネルから [ゼロ ETL 統合] を選択してから、[ゼロ ETL 統合を作成] を選択します。

まず、統合のソースタイプ (この場合は Salesforce) を選択します。これにより、最近作成した接続を使用できるようになります。

次に、AWS Glue のターゲットデータベースにレプリケートするオブジェクトをデータソースから選択します。

オブジェクトを追加する過程で、データとメタデータの両方をすばやくプレビューして、正しいオブジェクトを選択していることを確認できます。

ゼロ ETL 統合はデフォルトで、60 分ごとにソースからターゲットにデータを同期します。ただし、頻繁な更新が不要な場合は、この間隔を変更してレプリケーションのコストを削減できます。

確認して、[統合を作成して起動] を選択します。

ソース (Salesforce インスタンス) のデータが、私の AWS アカウントのターゲットデータベース salesforcezeroETL にレプリケートされました。この統合には 2 つのフェーズがあります。フェーズ 1: 初期ロードでは、選択したオブジェクトのすべてのデータが取り込まれます。これらのオブジェクト内のデータのサイズによっては、15 分から数時間かかる場合があります。フェーズ 2: 増分ロードは、変更 (新しいレコード、更新されたレコード、削除されたレコードなど) を検出し、それらをターゲットに適用します。

前に選択した各オブジェクトは、データベース内のそれぞれのテーブルに格納されています。ここから、データソースからレプリケートされた各オブジェクトのテーブルデータを表示できます。

最後に、Salesforce のデータのビューを次に示します。Salesforce で新しいエンティティが作成されたり、既存のエンティティが更新または変更されたりすると、データの変更は AWS Glue のターゲットに自動的に同期されます。

今すぐご利用いただけます
アプリケーションからのゼロ ETL 統合のための Amazon SageMaker Lakehouse と Amazon Redshift のサポートは、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、アジアパシフィック (香港)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ストックホルム) の AWS リージョンでご利用いただけるようになりました。料金の情報は、AWS Glue の料金ページをご覧ください。

詳細については、「AWS Glue ユーザーガイド」をご覧ください。フィードバックは、AWS re:Post for AWS Glue に送信するか、AWS サポートの通常の連絡先を通じてお寄せください。今すぐ新しいゼロ ETL 統合を作成することから始めましょう。

– Veliswa

原文はこちらです。