- 分析›
- Amazon SageMaker›
- データ処理
Amazon SageMaker Data Processing
あらゆるスケールの分析と AI のためににデータを分析、準備、統合する
SageMaker Data Processing を利用すべき理由
Amazon Athena、Amazon EMR、AWS Glue、および Apache Airflow (Amazon MWAA) 向けアマゾンマネージドワークフロー (Amazon MWAA) のデータ処理機能を使用して、データを準備、統合、オーケストレーションできます。何百ものデータソースにすばやく簡単に接続できるため、どこにあってもデータを処理して統合できます。
Apache Spark、Trino、Apache Flink などのオープンソースのデータ処理フレームワークを使用できます。インフラストラクチャを管理することなく Trino を使用してデータを大規模に分析し、Apache Flink と Apache Spark を使用してリアルタイムの分析をシームレスに構築します。
データ品質、機密データの識別、リネージトラッキングを自動化し、きめ細かなアクセス制御を実施することで、データが正確で安全であることを信頼できます。
メリット
Amazon SageMaker Data Processing は、データおよびストリーム処理フレームワークやオープンソースの分散 SQL クエリエンジンに加えて、ノートブック、クエリエディタ、ビジュアル ETL (抽出、変換、ロード) などの最も一般的なツールへの包括的なアクセスを提供します。
Apache Spark などの最も一般的なフレームワークにアクセスして、あらゆる規模でデータを準備および統合できます。Apache Flink や Apache Spark Streaming によるストリーム処理でリアルタイムのビジネスニーズに応え、Trino などの主要オープンソース SQL フレームワークでデータを分析します。Amazon MWAA とのネイティブ統合により、インフラストラクチャを管理することなくワークフローオーケストレーションを簡素化します。
SageMaker データ処理は Amazon SageMaker のレイクハウスにあるデータにアクセスするため、分析、アドホッククエリ、機械学習 (ML)、ジェネレーティブ AI を含むすべてのユースケースで、1 つのデータコピーを使用して処理および統合できます。
Amazon SageMaker オープンレイクハウスアーキテクチャは、Amazon シンプルストレージサービス (Amazon S3) データレイクと Amazon Redshift データウェアハウス全体のデータを統合し、データへの統一されたアクセスを提供します。レイクハウスで統合されたデータは何百ものコネクタ、ゼロ ETL 統合、フェデレーションデータソースを使用して検出および分析できるため、ビジネスの全体像を把握することが可能になります。SageMakerは、特定のストレージ形式やクエリエンジンの選択に制約されることなく、既存のデータアーキテクチャとすぐに連携します。
Apache Iceberg テーブルよりも高速なクエリパフォーマンスにより、効率を向上させられます。Apache Spark、Apache Airflow、Apache Flink、Trino などの高性能でオープンソースの API 互換バージョンを使用すると、従来のオープンソースシステムの最大 2 倍の速さでインサイトを得ることができます。
SageMaker Data Processing を使用すると、コンピューティング能力やオープンソースアプリケーションを管理することなく、データの変換と分析に集中できるため、時間を節約し、コストを削減できます。Amazon Elastic Compute Cloud (Amazon EC2) の Amazon EMR または Amazon Elastic Kubernetes Service (Amazon EKS) の Amazon EMR でキャパシティを自動的にプロビジョニングできます。スケーリングルールは、コンピューティング需要の変化を管理して、パフォーマンスとランタイムを最適化します。
Amazon SageMaker Catalog との統合により、自動化されたデータ品質レポート、機密データの検出、データと AI モデルのリネージトラッキングにより、信頼と透明性を高めます。データ品質ルールの自動測定、監視、レコメンデーションにより、データの品質に対する信頼性を高めます。
レイクハウス内のデータセットに定義されているきめ細かなアクセス制御を順守して実施することで、データを安全に処理および分析できます。これにより、権限を一度定義するだけで、組織全体の権限を持つユーザーがデータにアクセスできるようになります。レイクハウスは AWS Glue Data Quality と統合されており、サーバーレスのデータ統合、データ品質管理、高度な ML 機能を統合環境に統合しています。
AWS のサービス数
簡素化されたデータ統合
AWS SageMaker はサーバーレスのデータ統合を提供し、複数のソースからのデータ調査、準備、統合を簡素化します。さまざまなデータソースに接続し、一元化されたデータカタログでデータを管理し、データをレイクハウスにロードするためのETLパイプラインとジョブを視覚的に作成、実行、調整、監視できます。 Apache Spark ジョブが失敗した場合は、ジェネレーティブ AI トラブルシューティングを使用して根本原因を特定し、問題を迅速に解決できます。Amazon SageMaker は必要に応じて自動的にスケーリングするため、インフラストラクチャを管理しなくてもデータから洞察を得ることに集中できます。
Apache Spark、Apache Hive、Trino、その他のワークロードを実行してスケール
Amazon EMR により、Apache Spark、Apache Airflow、Apache Flink、Trino などのデータ処理ワークロードをより簡単かつ費用対効果の高い方法で実行できます。データ処理パイプラインを構築して実行し、オンプレミスソリューションよりも迅速に自動スケーリングを行います。
コストの追跡
Athena は、データを大規模に分析するためのシンプルで柔軟な方法を提供します。Athena は、標準 SQL を使用して Amazon S3 でのデータ分析を簡素化するインタラクティブなクエリサービスです。Athena はサーバーレスなので、インフラストラクチャをセットアップしたり管理したりする必要がなく、実行するクエリやクエリに必要なコンピューティングリソースに基づいて料金を支払うことができます。Athena を使用して、ログを処理し、データ分析やインタラクティブなクエリを実行します。Athena は自動的にスケールし、並列して複数のクエリが実行されるため、データセットの容量が大きく、クエリが複雑でも、短時間で結果が表示されます。
Apache Airflow 向けのセキュリティ重視で可用性の高いマネージドワークフローオーケストレーション
Amazon MWAA は Apache Airflow 向けのマネージド型サービスで、現在使い慣れた Apache Airflow プラットフォームを使用してデータ処理ジョブを調整できます。基盤となるインフラストラクチャを管理するための運用負荷をかけずに、スケーラビリティ、可用性、セキュリティを向上させることができます。Amazon MWAA は、Python またはビジュアルワークフロースタジオで記述された有向非巡回グラフ (DAG) を使用してワークフローを調整します。お客様は DAG、プラグイン、Python の要件が保存されている S3 バケットを Amazon MWAA に提供します。Apache Airflow を大規模に展開することで、インフラストラクチャの管理に伴う運用負荷を軽減します。
ユースケース
AWS、オンプレミス、その他のクラウドにわたる統合データをすばやく識別してアクセスし、クエリや変換にすぐに利用できるようにします。クエリフェデレーションと Zero-ETL を使用して、AWS データベースサービス上のデータやサードパーティアプリケーションからのデータへのアクセスを簡素化します。
Apache Spark、Apache Flink、Trino などのフレームワークや、バッチ、マイクロバッチ、ストリーミングなどのさまざまなワークロードを使用してデータを処理します。
統計アルゴリズムと予測モデルを使用して大規模なデータ処理と what-if 分析を実行し、隠されたパターン、相関関係、市場動向、および顧客の好みを明確にします。