现在可直接从 Amazon Sagemaker Studio 在 Amazon EMR 集群上使用 Apache Spark、Hive 和 Presto 进行大规模数据处理和机器学习

发布于: Oct 1, 2021

您现在可以直接从 Amazon SageMaker Studio 笔记本使用开源框架 (例如在 Amazon EMR 集群上运行的 Apache Spark、Apache Hive 和 Presto) 来运行 PB 级数据分析和机器学习。Amazon EMR 会自动安装和配置开源框架，并提供性能优化的运行时，该运行时与标准开源兼容且速度更快。例如，Amazon EMR 上的 Spark 3.0 比同等开源版本快 1.7 倍。Amazon SageMaker Studio 提供基于 Web 的统一可视化界面，让您可以轻松执行准备数据以及构建、训练和部署模型所需的所有机器学习开发步骤。分析、转换和准备大量数据是所有数据科学和机器学习工作流的基本步骤。借助此版本，可以轻松地直接从 Sagemaker Studio 使用在 EMR 集群上运行的流行框架 (例如 Apache Spark、Hive 和 Presto)，以帮助简化数据科学和 ML 工作流。

此版本发布之后，您现在可以直接从 SageMaker Studio 直观地浏览 EMR 集群列表，只需单击几次即可连接到这些集群。连接到 EMR 集群后，您可以使用 Spark SQL、Scala、Python 和 HiveQL 以交互方式查询、探索和可视化数据，同时运行 Apache Spark、Hive 和 Presto 作业来处理数据。这些作业可快速运行，因为它们使用 EMR 的性能优化版本 Spark、Hive 和 Presto。此外，集群可以根据工作负载自动纵向扩展和缩减，并与 Spot 实例和基于 Graviton2 的处理器集成以降低成本。最后，Sagemaker Studio 用户可以在使用基于 LDAP 的凭证或 Kerberos 连接到 Amazon EMR 集群时进行身份验证。

这些功能在 EMR 5.9.0 及更高版本中得到支持，并且在所有提供 SageMaker Studio 的 AWS 区域中全面推出。要了解更多信息，请观看 Amazon SageMaker 在 Amazon EMR 上的交互式数据处理演示，阅读博客从 Amazon SageMaker Studio 笔记本执行交互式数据工程和数据科学工作流或此处的 SageMaker Studio 文档。

现在可直接从 Amazon Sagemaker Studio 在 Amazon EMR 集群上使用 Apache Spark、Hive 和 Presto 进行大规模数据处理和机器学习

终止对 Internet Explorer 的支持