发布于: Sep 20, 2018
您现在可以在 Amazon EMR 版本 5.17.0 上使用 TensorFlow 1.9.0(常用的机器和深度学习框架)和 S3 Select with Apache Spark。Tensorflow 库可以与大数据处理引擎(如 EMR 上的 Spark)配合使用,通过并行调整训练参数来加快模型训练流程。然后,经过训练的模型可以广播到集群的所有节点,对因太大而无法在单个节点上运行的大量数据执行分布式推理。EMR 上的 TensorFlow 附带 TensorBoard,这是一种可视化工具,能够帮助您实时可视化和调试张量图的流程、了解设计选择的影响,并进一步优化模型。基于 EMR 构建的 TensorFlow 因您对集群使用的实例类型而异。
借助 EMR 版本 5.17.0,您可以使用 S3 Select with Spark。此功能允许 Spark 应用程序从 S3 中的大型对象选择性地查询部分数据。这样一来,您便可通过减少需要传输到 EMR 集群并由其处理的数据量来提高性能。此外,借助此版本,您还可以在 EMR 上配置 JupyterHub,以便将笔记本直接保存到 S3 中。您还能使用 Apache Flink 1.5.2、Apache HBase 1.4.6 和 Presto 0.206 的升级版本。
您可以通过从 AWS 管理控制台、AWS CLI 或软件开发工具包中选择版本标签“emr-5.17.0”来创建包含版本 5.17.0 的 Amazon EMR 集群。启动 EMR 集群时,您可以选择 TensorFlow、Flink、HBase 和 Presto 来安装这些应用程序。请参阅 Amazon EMR 文档,详细了解 EMR 版本 5.17.0、TensorFlow 1.9.0、S3 Select with Spark、Flink 1.5.2、HBase 1.4.6 和 Presto 0.206。
Amazon EMR 版本 5.17.0 现已在所有支持 Amazon EMR 的区域推出。
您可以订阅 EMR 发行说明的源,将 EMR 版本保持最新。请使用 EMR 版本指南顶部的 RSS 图标,将源 URL 直接链接至您最喜欢的源阅读器。