发布于: Apr 1, 2022
Amazon SageMaker Data Wrangler 可将 Amazon SageMaker Studio 中的机器学习(ML)所需数据的聚合和准备时间从数周减少至几分钟。Amazon SageMaker Studio 是首个适用于 ML 的完全集成式开发环境(IDE)。借助 SageMaker Data Wrangler,您可以简化数据准备和特征工程的过程,并从单个直观的界面完成数据准备工作流程的每个步骤,包括数据选择、清洗、探索和可视化等。您可以导入来自多个数据源的数据,例如 Amazon Simple Storage Service(Amazon S3)、Amazon Athena、Amazon Redshift 和 Snowflake。从今天起,您可以将 Databricks 作为 SageMaker Data Wrangler 中的数据源,从而轻松在 Databricks 中准备机器学习数据。Databricks 是一家 AWS 合作伙伴,可帮助企业准备数据以用于分析,支持整个组织的数据科学以及数据驱动型决策,以及快速采用 ML。
通过将 Databricks 作为 SageMaker Data Wrangler 的数据源,您现在可以轻松快速地连接到 Databricks,使用 SQL 以交互式的方式查询存储在 Databricks 中的数据,以及在导入之前预览数据。此外,您现在还可求 Databricks 中数据与存储在 Amazon S3 中的数据以及通过 Amazon Athena、Amazon Redshift 和 Snowflake 查询到的数据的交集,从而为 ML 使用案例创建合适的数据集。导入数据后,您可以利用 SageMaker Data Wrangler 内置的可视化功能来探索和分析数据,从而识别潜在的错误和极值。您可以借助 300 多种内置的数据转换,无需编写任何代码,即可快速完成数据清洗和特征功能,这包括 ML 特定的转换,例如独热编码和平衡数据。您甚至还可以在训练 ML 模型以及将其部署到生产环境之前,使用 Amazon SageMaker Clarify 来检测偏见,查找目标泄露,以及利用快速模型来执行“如果就”分析,以了解特征的重要性以及其他会影响 ML 模型的数据质量问题。最后,您只需几次点击,即可将处理后的数据直接导出至 Amazon SageMaker 特征存放区或 Amazon S3 中,以使用 SageMaker Autopilot 或 SageMaker Training 来训练 ML 模型。您还可以导出数据准备工作流,以在 SageMaker Processing 任务上运行更大的数据集,或者作为 Amazon SageMaker 管道中的步骤运行。