Amazon SageMaker 数据处理常见问题
一般性问题
什么是 Amazon SageMaker 数据处理?
SageMaker 数据处理利用 Amazon Athena、Amazon EMR、AWS Glue 和 Amazon Managed Workflows for Apache Airflow(Amazon MWAA)的处理功能,以分析、准备、集成和协调您的数据。您可以利用 Apache Spark 等开源数据处理框架,通过 Trino 大规模分析数据,并使用 Apache Flink 和 Apache Spark 无缝构建实时分析。
SageMaker 数据处理包含哪些服务?
SageMaker 数据处理汇集了 Amazon EMR、Athena、AWS Glue 和 Amazon MWAA 等服务。
为什么要使用 SageMaker 数据处理?
SageMaker 数据处理可帮助您探索数据、构建数据转换任务、编排和大规模部署数据管道。相比传统开源系统,它使用经济高效且兼容开源 API 的 Apache Spark、Apache Airflow、Apache Flink、Trino 等版本,以提高性能,并更快速地获得见解。SageMaker 数据处理可通过零 ETL 集成、联合查询功能和连接器,访问您在 Amazon SageMaker Lakehouse 中的数据来源。
迁移和访问
是否需要迁移到 SageMaker 才能使用 Amazon EMR、Athena 或 AWS Glue 等现有服务?
不,不需要迁移到 SageMaker。您可以继续像现在一样使用 Amazon EMR、Athena、AWS Glue 和 Amazon MWAA。但是,我们建议您从 SageMaker 开始使用统一的工具、内置的数据治理和简化的 SageMaker Lakehouse 架构。
我已在 Amazon EMR、Athena 或 AWS Glue 中创建或计划创建的作业、查询、代码和资源会发生什么变化?
您已经通过 Amazon EMR、Athena 或 AWS Glue 创建并使用的当前代码、查询、作业和其他资源不会受到任何影响。如果您愿意,可以继续将这些服务用于新的工作负载。在这些服务中创建的资源 [如 Amazon Elastic Compute Cloud(Amazon EC2)集群上的 Amazon EMR] 在 SageMaker 中可见,以简化分析和人工智能应用程序的开发。除 SageMaker 中的新开发体验以外,在 Amazon EMR、AWS Glue 和 Athena 中构建的现有开发体验将继续存在。
SageMaker 中提供哪个版本的 AWS Glue?
AWS Glue 的最新版本 AWS Glue 5.0 已在 SageMaker 中上线。AWS Glue 5.0 可加速数据处理工作负载,并提供最新的性能优化型 Apache Spark 3.5.2 运行时,助您进行开发、运行和扩展,以更快地获得见解。要了解更多信息,请访问 AWS Glue。
定价
SageMaker 数据处理的定价模式是什么?
您通过 SageMaker 使用的每项 AWS 服务均受其各自的定价限制。如需了解更多信息,请查阅 Athena、Amazon EMR、AWS Glue 和 Amazon MWAA 的 AWS 定价页面。