发布于: Oct 1, 2021
您现在可以直接从 Amazon SageMaker Studio 笔记本使用开源框架 (例如在 Amazon EMR 集群上运行的 Apache Spark、Apache Hive 和 Presto) 来运行 PB 级数据分析和机器学习。Amazon EMR 会自动安装和配置开源框架,并提供性能优化的运行时,该运行时与标准开源兼容且速度更快。例如,Amazon EMR 上的 Spark 3.0 比同等开源版本快 1.7 倍。Amazon SageMaker Studio 提供基于 Web 的统一可视化界面,让您可以轻松执行准备数据以及构建、训练和部署模型所需的所有机器学习开发步骤。分析、转换和准备大量数据是所有数据科学和机器学习工作流的基本步骤。借助此版本,可以轻松地直接从 Sagemaker Studio 使用在 EMR 集群上运行的流行框架 (例如 Apache Spark、Hive 和 Presto),以帮助简化数据科学和 ML 工作流。
此版本发布之后,您现在可以直接从 SageMaker Studio 直观地浏览 EMR 集群列表,只需单击几次即可连接到这些集群。连接到 EMR 集群后,您可以使用 Spark SQL、Scala、Python 和 HiveQL 以交互方式查询、探索和可视化数据,同时运行 Apache Spark、Hive 和 Presto 作业来处理数据。这些作业可快速运行,因为它们使用 EMR 的性能优化版本 Spark、Hive 和 Presto。此外,集群可以根据工作负载自动纵向扩展和缩减,并与 Spot 实例和基于 Graviton2 的处理器集成以降低成本。 最后,Sagemaker Studio 用户可以在使用基于 LDAP 的凭证或 Kerberos 连接到 Amazon EMR 集群时进行身份验证。
这些功能在 EMR 5.9.0 及更高版本中得到支持,并且在所有提供 SageMaker Studio 的 AWS 区域中全面推出。要了解更多信息,请观看 Amazon SageMaker 在 Amazon EMR 上的交互式数据处理演示,阅读博客从 Amazon SageMaker Studio 笔记本执行交互式数据工程和数据科学工作流或此处的 SageMaker Studio 文档。