Amazon SageMaker のレイクハウスアーキテクチャ
オープンかつセキュアな統合データアーキテクチャで分析と AI を簡素化
概要
次世代の Amazon SageMaker は、Apache Iceberg と完全に互換性のあるオープンレイクハウスアーキテクチャ上に構築されています。S3 Tables を含む Amazon Simple Storage Service (Amazon S3) データレイクと Amazon Redshift データウェアハウスにわたるすべてのデータを統合します。これは、データの 1 つのコピーで強力な分析と AI/機械学習アプリケーションを構築するのに役立ちます。すべての Apache Iceberg 互換のツールやエンジンを使用して、インプレースでデータに柔軟にアクセスし、クエリを実行できます。すべての分析および機械学習ツールとエンジンに適用されるきめ細かなアクセス許可を定義して、データを保護します。ゼロ ETL 統合により、運用データベースやアプリケーションからのデータをほぼリアルタイムでレイクハウスに取り込むことができます。さらに、インプレースでデータにアクセスしてクエリを実行するには、複数のサードパーティーソースにわたって保存されているデータに対してフェデレーテッドクエリを実行します。
実際の動作を確認する
オープンかつセキュアなデータレイクハウスで S3 データレイク、S3 Tables、Redshift データウェアハウスから統合データにアクセスする方法をご覧ください。

利点
すべてのデータへのアクセスを統一
Amazon S3 データレイク (S3 Tables を含む) と Amazon Redshift データウェアハウスにわたるすべてのデータを統合できます。ゼロ ETL 統合を通じて、運用データベースやアプリケーションからデータをほぼリアルタイムでレイクハウスに持ち込むことができます。何百ものコネクタを使用して、さまざまなソースからのデータを統合できます。さらに、サードパーティーのデータソース全体にわたるフェデレーテッドクエリ機能を使用して、インプレースでデータにアクセスしてクエリを実行できます。
Apache Iceberg オープンスタンダードと互換性のあるお気に入りのツールとエンジンを使用する
SQL、Apache Spark、ビジネスインテリジェンス (BI)、AI/機械学習ツールなど、Apache Iceberg と互換性のあるすべての分析ツールとエンジンを使用して、レイクハウス内の統合データにインプレースでアクセスしてクエリを実行できる柔軟性が得られます。
きめ細かなアクセス制御でデータを保護
ユースケース
データレイクとデータウェアハウスにわたるデータの単一コピーを管理
Amazon S3 データレイクと Amazon Redshift データウェアハウスにまたがるすべてのデータを 1 つのコピーで統合し、分析と AI の取り組みに役立てることができます。統合アクセスコントロールにより、きめ細かな許可を定義し、組織全体でデータの単一コピーを安全に共有できます。
ゼロ ETL 統合により、運用データをほぼリアルタイムで分析
ゼロ ETL 統合により、運用データベースとアプリケーション全体のデータにほぼリアルタイムでアクセスできます。さまざまな AWS サービス、Apache Iceberg をサポートするオープンソースおよびサードパーティーのツールやエンジンから、インプレースでデータにアクセスしたり、データをクエリしたりできます。
Amazon Redshift 上にマルチウェアハウスアーキテクチャを構築
複数の Amazon Redshift データウェアハウスから既存のデータをレイクハウスに取り込み、Amazon Redshift クラスターとワークグループに保存されているデータをクエリしたり、結合したりできます。ワークロードをスケールして、複数のデータ共有を管理することなく、抽出、変換、ロード (ETL) プロセスや BI レポートを扱い、必要に応じた分析を行えるようにしましょう。
お客様
Lennar
「当社は、費用対効果の高いクラス最高レベルのソリューションを利用するために、過去 18 か月間にわたって AWS と協力し、データ基盤を変革してきました。Amazon SageMaker Unified Studio や Amazon SageMaker Lakehouse などの進歩により、当社は、データやサービスへのシームレスなアクセスによって配信速度を加速し、エンジニア、アナリスト、サイエンティストが当社のビジネスに重要な価値をもたらすインサイトを明らかにできるようにしています」
Lennar、SVP of Data and Analytic、Lee Slezak 氏

Roche
Roche は、医薬品と診断用薬の世界的なパイオニアであり、科学の発展で人々の生活を向上するという目標を掲げている企業です。
「Amazon Redshift を利用して、すべてのデータリポジトリにわたる構造化データと半構造化データの両方からインサイトを得ています。新しい Amazon SageMaker Lakehouse は、Amazon Redshift、AWS Glue データカタログ、AWS Lake Formation などのサービスにより、データレイクやその他のデータソースへのアクセスを強化および統合できる可能性を秘めています。このイノベーションにより、データおよびエンジニアリングチームはデータアクセスを簡素化し、データ、分析、およびアプリケーションのワークロード間の相互運用性を促進できます。データコピーの減少、処理時間の 40% 削減、分析データのトランザクションシステムへの迅速な書き戻しによる意思決定の改善、およびチームがビジネス価値の創造に集中できるようになることで、データエラーが大幅に減少すると予測しています」
Roche、Global Product Strategy 部門、Head of Engineering、Yannick Misteli 氏

Idealista
Idealista は、不動産広告のオンラインプラットフォームを提供することにより、南欧の不動産業者と個人をサポートしています。
「当社の目標は、Salesforce データへのアクセスを合理化してデータレイクでの分析を強化することにあります。アプリケーション機能からのゼロ ETL 統合についての新しい Amazon SageMaker Lakehouse サポートを活用することで、データの抽出と取り込みのプロセスを簡素化できます。これにより、複数の ETL が Salesforce に直接アクセスする必要がなくなります。この一元化されたアプローチにより、複雑さが軽減され、データ管理の効率が大幅に高まります。当社では、データの抽出と取り込みの開発にかかる時間を大幅に節約できると予測しています。これにより、チームはデータ収集の管理ではなく、データから実用的なインサイトを引き出すことに注力できます」
Idealista、Data Platform Engineer Manager、Javier Monterrubio 氏

Carrier
「Carrier では、次世代の Amazon SageMaker がデータ製品の構築とスケールの方法を合理化することで、エンタープライズデータ戦略を変革しています。SageMaker Unified Studio のデータディスカバリー、処理、モデル開発へのアプローチにより、レイクハウスでの実装が大幅に高速化しました。最も印象的なのは、既存のデータカタログと組み込みのガバナンスコントロールとのシームレスな統合により、セキュリティ基準を維持しながらデータアクセスを民主化できるようになったことです。これにより、チームは企業全体に高度な分析と AI ソリューションを迅速に提供できます」

パートナー
Tableau
Tableau は、人々や組織がよりデータドリブンになるのをサポートします。
「Amazon と Salesforce Tableau のパートナーシップは、イノベーションとお客様の成功に対して共同で取り組むことを表しています。Amazon の新しいゼロ ETL 統合を通じて、Tableau の AI を活用したデータと分析機能を Amazon の強力なデータインフラストラクチャと組み合わせて、組織がデータからインサイトを得る方法を変革しています。このシームレスな統合により、お客様は Amazon SageMaker Lakehouse と Amazon Redshift の機能を活用して、構造化データと非構造化データのすべてからインサイトを得ることができ、エンジニアリングの複雑さを大幅に軽減し、デプロイ時間を大幅に削減できます。Tableau と Amazon は協力して、お客様がデジタルトランスフォーメーションを加速し、ビジネス価値を大規模に拡大できるよう支援しています」
Tableau、Advanced Analytics 部門、Senior VP、Ali Tore 氏

dbt Labs
dbt Labs は、アナリストが組織的な知識を創造および普及するのを支援することを使命としています。
「私たちは長い間、Amazon Redshift に輪をかけてトランスフォーメーション標準となってきて、柔軟性、協調性、信頼性を提供してきました。新しい Amazon SageMaker Lakehouse により、この価値をより多くのお客様と AWS 環境内のより多くのデータに広げられることを嬉しく思います。これで、お客様はデータウェアハウスやデータレイクを含む、AWS システム全体のすべてのデータにアクセスできます。当社の機能を新しい Amazon SageMaker と組み合わせることで、共通のお客様がガバナンス、カタログ作成、データ最適化を行えるようになります」
dbt Labs、VP Partnerships、Shawn Toldo 氏

Informatica
エンタープライズ AI を活用したクラウドデータ管理におけるリーダーの Informatica は、企業が最も重要なアセットの変革力を活用できるようにすることで、データと AI に命を吹き込みます。
「当社の Intelligent Data Management Cloud (IDMC) プラットフォームと Amazon SageMaker は、組織がデータの可能性を解き放ち、イノベーションを促進して効率性を高めるのに役立ちます。Amazon SageMaker Lakehouse のローンチパートナーとして、モダンなデータドリブンな組織の高い基準を満たすエンタープライズグレードのソリューションを提供できることを誇りに思います。AWS のインフラストラクチャと組み合わせることで、情報に基づいた迅速な意思決定が可能になり、業界全体で影響力のある成果を上げることができます」
Informatica、SVP Product Management、Pratik Parekh 氏
