发布于: Sep 20, 2018

您现在可以在 Amazon EMR 版本 5.17.0 上使用 TensorFlow 1.9.0(常用的机器和深度学习框架)和 S3 Select with Apache Spark。Tensorflow 库可以与大数据处理引擎(如 EMR 上的 Spark)配合使用,通过并行调整训练参数来加快模型训练流程。然后,经过训练的模型可以广播到集群的所有节点,对因太大而无法在单个节点上运行的大量数据执行分布式推理。EMR 上的 TensorFlow 附带 TensorBoard,这是一种可视化工具,能够帮助您实时可视化和调试张量图的流程、了解设计选择的影响,并进一步优化模型。基于 EMR 构建的 TensorFlow 因您对集群使用的实例类型而异。

借助 EMR 版本 5.17.0,您可以使用 S3 Select with Spark。此功能允许 Spark 应用程序从 S3 中的大型对象选择性地查询部分数据。这样一来,您便可通过减少需要传输到 EMR 集群并由其处理的数据量来提高性能。此外,借助此版本,您还可以在 EMR 上配置 JupyterHub,以便将笔记本直接保存到 S3 中。您还能使用 Apache Flink 1.5.2、Apache HBase 1.4.6 和 Presto 0.206 的升级版本。

您可以通过从 AWS 管理控制台、AWS CLI 或软件开发工具包中选择版本标签“emr-5.17.0”来创建包含版本 5.17.0 的 Amazon EMR 集群。启动 EMR 集群时,您可以选择 TensorFlow、Flink、HBase 和 Presto 来安装这些应用程序。请参阅 Amazon EMR 文档,详细了解 EMR 版本 5.17.0TensorFlow 1.9.0S3 Select with SparkFlink 1.5.2HBase 1.4.6Presto 0.206

Amazon EMR 版本 5.17.0 现已在所有支持 Amazon EMR 的区域推出。

您可以订阅 EMR 发行说明的源,将 EMR 版本保持最新。请使用 EMR 版本指南顶部的 RSS 图标,将源 URL 直接链接至您最喜欢的源阅读器。