发布于: Dec 21, 2020
Amazon SageMaker Studio 是首个适用于机器学习的完全集成式开发环境 (IDE)。只需单击一下,数据科学家和开发人员就可以快速启动 SageMaker Studio 笔记本,以探索和准备数据集,让您可以在单个管理平台上构建、训练和部署机器学习模型。Amazon EMR 是一种 Web 服务,让您能够轻松快速并经济高效地处理大量的数据。即日起,客户可以使用 Studio 笔记本轻松地以安全的方式连接到 Amazon EMR 集群,并准备大量数据以用于分析和报告、模型训练或推理。
数据准备是机器学习工作流程中的关键步骤。通过 SageMaker Studio,您可以根据自己的喜好使用各种工具进行数据准备。如果您希望使用可视界面,则可以通过 Amazon SageMaker Data Wrangler 连接到 Amazon S3、Amazon RedShift 或 Amazon Athena,以从 SageMaker Studio 访问、可视化和分析数据。如果您喜欢编写代码,则还可以通过 SageMaker Studio 笔记本使用库和开发工具包以交互的方式准备数据,或者使用 Amazon SageMaker 处理和内置 Spark 容器批量处理大量数据。但是,如果您希望将 Studio 笔记本连接到现有的 EMR 集群以访问和处理数据,则需要先手动设置环境(设置自己的 Sparkmagic 内核、配置目标集群信息、安装用于身份验证的 Kerberos 等工具),然后才能运行 Spak 作业或查询 Hive 表。
Amazon SageMaker Studio 现在带有内置工具,让您可以轻松快速地将笔记本安全地连接到 EMR 集群以处理大量数据。您可以使用带有 PySpark 内核的内置 SageMaker 映像创建 Studio 笔记本,使用内置命令连接到 EMR 集群,并且只需几个步骤即可开始查询、分析和处理数据。为了提高安全性,您可以在连接到 EMR 集群时使用 Kerberos 身份验证。目前,所有提供 Amazon SageMaker Studio 的 AWS 区域都支持此功能。有关更多信息,请参阅 Amazon SageMaker Studio 文档。