Amazon SageMaker 数据处理利用 Amazon Athena、Amazon EMR、AWS Glue 和 Amazon Managed Workflows for Apache Airflow(MWAA)的处理功能,以分析、准备、集成和协调您的数据。您可以利用 Apache Spark 等开源数据处理框架,通过 Trino 大规模分析数据,并使用 Apache Flink 和 Apache Spark 无缝构建实时分析。
Amazon SageMaker 数据处理汇集了 Amazon EMR、Amazon Athena、AWS Glue 和 Amazon Managed Workflows for Apache Airflow。
SageMaker 数据处理可帮助您探索数据、构建数据转换任务、编排和大规模部署数据管道。相比传统开源系统,它使用经济高效且兼容开源 API 的 Apache Spark、Apache Airflow、Apache Flink、Trino 等版本,以提高性能,并更快速地获得见解。数据处理可通过零 ETL 集成、联合查询功能和连接器,访问您在 Amazon SageMaker Lakehouse 中的数据来源。
不,您不需要迁移到 Amazon SageMaker。您可以像现在一样继续使用 Amazon EMR、Amazon Athena、AWS Glue 和 Amazon Managed Workflows for Apache Airflow。但是,我们建议您开始使用 Amazon SageMaker,以利用统一的工具、内置的数据治理和简化的 Amazon SageMaker Lakehouse 架构。
您已经通过 Amazon EMR、Amazon Athena 或 AWS Glue 创建并使用的当前代码、查询、作业和其他资源不会受到任何影响。如果您愿意,可以继续将这些服务用于新的工作负载。在这些服务中创建的资源(如 EC2 集群上的 Amazon EMR)在 Amazon SageMaker 中可见,以简化分析和人工智能应用程序的开发。除 Amazon SageMaker 中的新开发体验以外,在 Amazon EMR、AWS Glue 和 Amazon Athena 中构建的现有开发体验将继续存在。
AWS Glue 的最新版本 Glue 5.0 已在 Amazon SageMaker 上线。Glue 5.0 可加速数据处理工作负载,并提供最新的性能优化型 Apache Spark 3.5.2 运行时,助您进行开发、运行和扩展,以更快地获得见解。要了解更多信息,请访问 AWS Glue。
您通过 Amazon SageMaker 使用的每项 AWS 服务均受其各自的定价限制。如需了解更多信息,请查阅 Amazon Athena、Amazon EMR、AWS Glue 和 Amazon Managed Workflow Apache Airflow 的 AWS 定价页面。