亚马逊AWS官方博客

新增功能 – 在 AWS Organizations 中使用 AWS IAM 访问分析器

今天,AWS宣布,您可以在 AWS Organizations 主账户或者某个代理成员账户中创建分析器,将整个组织作为信任区。对于每个分析器,您现在可以将特定的账户或整个组织创建为一个信任区,并设置分析器的逻辑边界以作为分析结果的依据。这将有利于您快速确定何时可以从您的 AWS 组织之外访问您组织中的资源。

通过迁移实现架构和应用的现代化

企业需要快速创建数字化服务体系,通过向云迁移,敏捷地实现创新转型,以加速业务发展和提高客户满意度。企业的IT管理人员和信息架构师的首要任务就是了解和把握信息技术的发展趋势,提升企业的技术水平,为企业发展提供一流的构建能力。

使用 Amazon SageMaker Operator 简化 Kubernetes 上的机器学习推理

创建一个可靠、高效的机器学习推理服务需要做很多的投入。拿一个基于 XGBoost 模型的服务来说,开发人员需要创建一个完善的应用程序,例如通过 Flask 来加载模型,然后运行终端节点。创建这个应用程序,开发人员需要考虑队列管理、无故障部署以及重新加载新训练的模型等等事宜。应用开发好后被打包成容器镜像,然后推送到镜像仓库。Kubernetes 从镜像仓库拉取该镜像在集群上进行部署,部署好后才可以对外提供服务。这些步骤需要您的数据科学家从事与提高模型准确性无关的任务,或引进devops工程师来做这些工作。这些过程加到开发计划中,必然会需要更多的时间进行服务迭代。

使用 Amazon SageMaker 运行分布式 TensorFlow 训练

TensorFlow 是广泛被用于开发大型深度神经网络 (DNN) 的开源机器学习 (ML) 库,此类 DNN 经常会在多个主机上使用多个 GPU进行分布式训练。Amazon SageMaker 是一项托管服务,能够简化 ML 的工作流程,包括集成了主动学习的数据标记、超参数优化、模型分布式训练、监控训练进展、部署模型并提供自动扩展的 RESTful 服务集群、以及对并发 的ML 多项实验进行集中式管理等。
本文将重点讨论如何使用 Amazon SageMaker 进行基于TensorFlow的分布式训练。