Amazon SageMaker Lakehouse に関するよくある質問
全般
Amazon SageMaker Lakehouse とは何ですか?
Amazon SageMaker Lakehouse は、Amazon Simple Storage Service (Amazon S3) データレイクと Amazon Redshift データウェアハウスにわたるすべてのデータを統合します。これは、データの 1 つのコピーで強力な分析と AI/ML アプリケーションを構築するのに役立ちます。SageMaker Lakehouse では、Apache Iceberg と互換性のあるすべてのツールとエンジンを使用して、データに柔軟にアクセスしてクエリを実行できます。すべての分析および機械学習 (ML) ツールとエンジンに適用されるアクセス許可を定義して、レイクハウス内のデータを保護します。ゼロ ETL 統合により、運用データベースやアプリケーションからのデータをほぼリアルタイムでレイクハウスに取り込むことができます。さらに、サードパーティーのデータソース全体にわたるフェデレーテッドクエリ機能を使用して、インプレースでデータにアクセスし、クエリを実行できます。
SageMaker Lakehouse にはどのようなメリットがありますか?
SageMaker Lakehouse:
a) Amazon S3 データレイクと Amazon Redshift データウェアハウスにわたるデータへの統合アクセスを提供することで、データサイロを削減します。運用データベースやアプリケーションからのデータをほぼリアルタイムでレイクハウスに取り込み、ノーコードまたはローコードの抽出、変換、ロード (ETL) パイプラインを使用して分析や ML を実行できます。また、数百のコネクタと 13 のフェデレーテッドクエリ機能を使用して、AWS のデータや AWS 外のソースにアクセスできます。
b) Apache Iceberg と互換性のある、さまざまな AWS サービス、オープンソース、サードパーティーのツールやエンジンから、すべてのデータにインプレースで柔軟にアクセスおよびクエリできます。SQL、Apache Spark、ビジネスインテリジェンス (BI)、AI/ML ツールなど、お好みの分析ツールとエンジンを使用し、Amazon S3 または Amazon Redshift に保存されているデータの 1 つのコピーを使用して共同作業を行うことができます。
c) Amazon Redshift、Amazon Athena、Amazon EMR などの統合された AWS サービスや、サードパーティーの Apache Iceberg 互換エンジンからアクセスしたときにデータを保護する組み込みアクセスコントロールメカニズムにより、エンタープライズセキュリティを向上させます。
SageMaker Lakehouse はどのように機能しますか?
SageMaker Lakehouse には Amazon SageMaker Unified Studio (プレビュー) から直接アクセスできます。さまざまなソースからのデータは、SageMaker Lakehouse のカタログと呼ばれる論理的なコンテナにまとめられています。各カタログは、Amazon Redshift データウェアハウス、データレイク、データベースなどの既存のデータソースからのデータを表します。新しいカタログはレイクハウスに直接作成して、Amazon S3 または Amazon Redshift マネージドストレージ (RMS) にデータを保存できます。SageMaker Lakehouse のデータには、Apache Spark、Athena、Amazon EMR などの Apache Iceberg 互換エンジンからアクセスできます。さらに、これらのカタログは Amazon Redshift データウェアハウスのデータベースとして検出できるため、SQL ツールを使用してレイクハウスのデータを分析できます。
機能
SageMaker Lakehouse はどのようにしてデータへの統一されたアクセスコントロールを実現しているのでしょうか?
SageMaker Lakehouse は、データへのアクセスコントロールを次の 2 つの機能によって統合します。1) SageMaker Lakehouse では、きめ細かなアクセス許可を定義できます。この許可は、Amazon EMR、Athena、Amazon Redshift などのクエリエンジンによって強制適用されます。2) SageMaker Lakehouse では、データへのインプレースアクセスが可能になり、データのコピーを作成する必要がなくなります。SageMaker Lakehouse では、データのコピーを 1 つとアクセスコントロールポリシーを 1 つだけ管理できるため、統一されたきめ細かなアクセスコントロールのメリットを享受できます。
SageMaker Lakehouse は AWS Glue データカタログ、AWS Lake Formation、Amazon Redshift などの既存の AWS サービスとどのように連携しますか?
SageMaker Lakehouse は、AWS Glue データカタログ、Lake Formation、Amazon Redshift の複数のテクニカルカタログに基づいて構築されており、データレイクとデータウェアハウス全体にわたる統一されたデータアクセスを提供します。SageMaker Lakehouse は AWS Glue データカタログと Lake Formation を使用してテーブル定義とアクセス許可を保存します。SageMaker Lakehouse で定義されたテーブルでは、Lake Formation のきめ細かなアクセス許可を使用できます。AWS Glue データカタログでテーブル定義を管理し、テーブルレベル、列レベル、セルレベルのアクセス許可などのきめ細かなアクセス許可を定義してデータを保護できます。さらに、クロスアカウントデータ共有機能を使用すると、コピーなしのデータ共有を有効にして、データを安全なコラボレーションに利用できるようになります。
SageMaker Lakehouse が提供する Apache Iceberg API にアクセスするには、クライアントソフトウェアが必要ですか?
はい。SageMaker Lakehouse にアクセスするには、オープンソースの Apache Iceberg クライアントライブラリが必要です。Apache Spark や Trino などのサードパーティー製またはセルフマネージド型のオープンソースエンジンを使用しているお客様は、SageMaker Lakehouse にアクセスするために、クエリエンジンに Apache Iceberg クライアントライブラリを組み込む必要があります。
SageMaker Lakehouse を使用して Apache Spark により Amazon Redshift データウェアハウスにデータを書き込むことはできますか?
はい。Apache Iceberg クライアントライブラリを使用すると、Amazon EMR、AWS Glue、Athena、Amazon SageMaker などの AWS サービスやサードパーティーの Apache Spark 上の Apache Spark エンジンから既存の Amazon Redshift に対してデータの読み取りと書き込みを実行できます。ただし、テーブルにデータを書き込むには、テーブルに対する適切な書き込み許可が必要です。
SageMaker Lakehouse でデータレイクテーブルと Amazon Redshift データウェアハウステーブルを結合することはできますか?
はい。Apache Spark などの好みのエンジンを使用して、Amazon S3 のデータレイクテーブルを複数のデータベースにわたる Amazon Redshift データウェアハウス内のテーブルと結合できます。
移行
SageMaker Lakehouse を使用するにはデータを移行する必要がありますか?
いいえ。SageMaker Lakehouse を使用するためにデータを移行する必要はありません。SageMaker Lakehouse では、Apache Iceberg のオープンスタンダードを利用して、インプレースでデータにアクセスしてクエリを実行できます。Amazon S3 データレイクと Amazon Redshift データウェアハウスのデータに直接アクセスできます。運用データベースやアプリケーションからのデータは、利用可能なゼロ ETL 統合を通じて、インフラストラクチャや複雑なパイプラインを維持することなく、ほぼリアルタイムでレイクハウスに取り込むことができます。フェデレーテッドクエリ機能を使用してインプレースデータにアクセスすることもできます。これらに加えて、数百の AWS Glue コネクタを使用して既存のデータソースと統合できます。
私は現在 Amazon Redshift を使用しています。Amazon Redshift データウェアハウスを SageMaker Lakehouse に持ち込むにはどうすればよいですか?
既に Amazon Redshift のユーザーである場合は、データを移行しなくても、いくつかの簡単な手順で Amazon Redshift データウェアハウスを SageMaker Lakehouse に登録できます。デベロッパーガイドの手順に従ってください。
私は現在 Amazon S3 データレイクを使用しています。データレイクを SageMaker Lakehouse に持ち込むにはどうすればいいですか?
AWS Glue データカタログを使用して Amazon S3 データレイクを設定した場合は、何も変更する必要はありません。
ゼロ ETL 統合
SageMaker Lakehouse で利用できるさまざまなゼロ ETL 統合にはどのようなものがありますか?
SageMaker Lakehouse は、Amazon DynamoDB、Amazon Aurora、Amazon RDS for MySQL の他、Zoho CRM、Salesforce、Salesforce Pardot、ServiceNow、Facebook 広告、Instagram 広告、Zendesk、SAP の 8 つのアプリケーションとのゼロ ETL 統合をサポートしています。
SageMaker Lakehouse とのゼロ ETL 統合にアクセスする方法を教えてください。
AWS Glue で Amazon SageMaker Data Processing 内の AWS Glue コンソールを使用して、ゼロ ETL 統合を設定および監視できます。データが取り込まれると、Apache Iceberg 互換のクエリエンジンからデータにアクセスしてクエリを実行できます。詳細については、ゼロ ETL 統合にアクセスしてください。
ゼロ ETL の料金モデルはどのようなものですか?
料金の詳細については、SageMaker Lakehouse と AWS Glue の料金ページをご覧ください。
料金
SageMaker Lakehouse の料金について教えてください。
詳細については、SageMaker Lakehouse の料金をご覧ください。
可用性
SageMaker Lakehouse はどの AWS リージョンで利用できますか?
SageMaker Lakehouse は、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、アジアパシフィック (香港)、アジアパシフィック (ソウル)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、カナダ (中部)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ロンドン)、欧州 (ストックホルム)、南米 (サンパウロ) でご利用いただけます。
SageMaker Lakehouse は SLA を提供していますか?
はい。SageMaker Lakehouse はメタデータを AWS Glue データカタログに保存し、Amazon Glue と同じ SLA を提供します。
開始方法
SageMaker Lakehouse を使い始めるにはどうすればいいですか?
使用を開始するには、SageMaker Unified Studio で企業 (Okta など) の認証情報を使用して SageMaker ドメインにログインできます。SageMaker Unified Studio のいくつかの簡単なステップで、管理者は特定のプロジェクトプロファイルを選択してプロジェクトを作成できます。その後、SageMaker Lakehouse で作業するプロジェクトを選択できます。プロジェクトを選択すると、データ、クエリエンジン、デベロッパーツールが 1 か所にまとめられます。その後、データエンジニアやデータアナリストなどのユーザーは、お好みのツールを使用してデータをクエリできます。例えば、データエンジニアがノートブックを使用し、Spark コマンドを実行してテーブルを一覧表示すると、アクセスできるすべてのデータウェアハウステーブルとデータレイクテーブルが検出されます。その後、コマンドを実行して、Amazon S3 データレイクまたは Amazon Redshift データウェアハウスに物理的に保存されているテーブルにデータの読み取りと書き込みを行えます。同様に、データアナリストが SQL エディタから Amazon Redshift SQL コマンドを実行すると、データの同じ統合ビューが表示され、これらのテーブルに対してデータの読み取りと書き込みを実行できます。お好みのツール (SQL エディタまたはノートブック) から、Amazon S3 または Amazon Redshift で新しいテーブルを作成できます。Amazon Redshift マテリアライズドビューをクエリすると、データレイクテーブルのパフォーマンスが向上します。SageMaker Unified Studio に加えて、SageMaker Lakehouse には AWS マネジメントコンソール、AWS Glue API、AWS コマンドラインインターフェイス (AWS CLI)、または AWS SDK からもアクセスできます。詳細については、「ドキュメント」ページをご覧ください。