亚马逊AWS官方博客

光环新网运营的AWS中国(北京)区域HPC集群创建

在上个博客“在AWS云上快速搭建高性能计算(HPC)集群”中,我们介绍了高性能计算的使用场景,框架和如何在AWS Global创建HPC集群,但在光环新网运营的AWS中国(北京)区域并不支持使用CFNCluster直接创建HPC,因此我们需要使用CloudFormation手工创建集群,整个过程并不复杂。步骤如下: 1.进入光环新网运营的AWS中国(北京)区域的Console,然后进入CloudFormation的服务。如下图: 2.点击 “Create New Stack”后,弹出下面的界面。 3.在界面中制定CloudFormation的模板文件如下。 https://s3.cn-north-1.amazonaws.com.cn/cfncluster-cn-north-1/templates/cfncluster.cfn.json 4.在后续界面中下面参数必须定义: Stack name:要创建HPC集群的名称 AvailablityZone:指定要在那个可用区创建HPC集群 VPCId:指定需要创建集群的VPCId MasterSubnetId:指定Master节点的子网ID KeyName:指定EC2服务器访问的key Scheduler:指定高性能计算的管理框架,默认是SGE,有Openlava,Torque等可以选择。 5.可选参数定义: InitialQueueSize:HPC集群的初始节点数 ComputeInstanceType:集群计算节点的类型 MasterInstanceType:Master节点的类型 MaxQueueSize:集群最大节点数 PlacementGroup:节点的放置组 对于全部的配置参数说明,可以参考下面链接: http://cfncluster.readthedocs.io/en/latest/configuration.html 6.点击Next后,输入集群的tag。 7.点击左下方的checkbox运行AWS Cloudformation帮助创建资源,然后点击创建。 8.等待当前HPC集群的创建状态变为COMPLETE,查看下方的Outputs消息输出,找到HPC Master节点的IP。 9.使用前面Output中的Master节点的IP或去Console中的EC2里面找到刚才创建的Master节点的机器,通过ssh连接,然后运行HPC的命令。 总结 在AWS中国区,你可以使用CloudFormation快速的创建HPC集群,AWS提供了丰富的服务器类型供你选择,你可以选择基于CPU或GPU等不同类型的服务器,也可以选择SGE,OpenLava等分布式资源管理软件来调度你的程序,如果我们不配置,默认的资源管理软件是SGE。 作者介绍 蓝勇,AWS解决方案架构师,负责基于AWS的云计算方案架构的咨询和设计,同时致力于AWS云服务在国内的应用和推广,在DR解决方案、数据仓库、RDS服务、企业应用、自动化运维等方面有着广泛的设计和实践经验。在加入AWS之前,在甲骨文中国担任资深售前工程师,负责售前方案咨询和架构设计,在数据库,中间件,大数据及企业应用方面有丰富经验。

Read More

在AWS云上快速搭建高性能计算(HPC)集群

1. 高性能计算的应用场景 科学家、工程师及科研者等经常需要使用大规模高性能计算集群(HPC)来解决计算密集或存储密集型计算的问题,常见的使用高性能计算的场景包括基因处理、金融建模与仿真、计算化学、物理建模与仿真、政府及科研项目等。在这些HPC应用中,通常需要使用HPC集群来帮助我们快速完成计算,从而减少研发成本和时间。比如基因公司为了完成遗传病组学研究,通常一次需要研究上万份基因的样本,分析上百T的数据,如果用自己机房的服务器来完成计算分析,需要数年的时间,如果使用HPC集群,提交基因分析任务,我们能使用集群的分布式资源管理器来调度并最大化的利用机器资源,在数天内完成分析任务,大大的节省计算的时间。常见的高性能计算的场景还包括:视频转码与编码、流体力学、天气预测、材料仿真、汽车碰撞仿真、风险建模、分子建模、上下文搜索、物流建模、地震勘探数据处理、基因数据计算、天体物理、深度学习、动画建模、微电子验证、图像处理、地理信息系统等。 2. 什么是高性能计算 通常所说的高性能计算使用的硬件一般分为两种情况: 高性能计算机 高性能计算机通常指使用了很多处理器(作为单个机器一部分)的机器。 比如说国内的高性能计算机“天河”、“曙光”、“神威-太湖之光”等,如“神威-太湖之光”由40个运算机柜和8个网络机柜组成,一台机柜装有1024块处理器,计算速度12亿亿次浮点运算次数。 高性能计算机集群 使用某一集群中的多台计算机(作为单个计算资源操作)的计算系统和环境。 这是通过将多台计算机,通过软件的方式组成集群,由集群的分布式资源管理器来负责集群中服务器资源的监控、调度等,我们可以将集群看做单个计算资源,然后将任务提交到集群,分布式资源管理器负责将任务调度到具体服务器执行。 比如在2013年的超级计算机500强的竞赛中,AWS使用多个C3实例组建了高性能计算机集群,使用了26496个核,计算峰值速度达593.5万亿次浮点运算次数,当年排名世界第64位。 当我们需要高性能计算的时候,通常由于机房的资源比较固定,很难有很多服务器给我们来组建集群,而借用高性能计算机如“曙光“,”神威“的成本非常高,也不太现实。这时在云上搭建高性能计算集群就非常方便,因为云上有无限量的计算及存储的资源,资源更弹性,计算过程中可以根据业务压力,调整集群服务器数量;在完成计算后,我们可以释放所有计算资源,大大降低了计算成本。 3. 如何使用AWS云搭建HPC集群 通过 AWS,您能在数分钟内完成高性能计算集群的创建,并将并行 HPC 任务的数量增加到大多数本地 HPC 环境都无法支持的规模,从而提高研究速度并缩短获得成效的时间。AWS 可按需提供针对特定应用程序进行优化的 CPU、GPU 和 FPGA 服务器,有众多的服务器类型选择,无需巨额资金投入,从而帮助降低成本。您有权限访问面向紧密耦合、IO 密集型和存储密集型工作负载的完全等分的高带宽网络,这使您能够在数千个核心之间横向扩展,从而更快获得成效。 4. 集群管理软件CFNCluster 您的HPC集群可能拥有成百上千台机器,手工搭建HPC集群意味着你需要创建所有服务器,配置所有软件,这个过程太复杂。为了简化这个操作,AWS提供了CFNCluster集群管理软件,它是由AWS开发和维护的高性能计算集群的框架,能帮助你在数分钟内完成集群的创建和生产部署,CFNCluster创建的集群支持SGE,OpenLava,Torque等高性能计算框架。下图是CFNCluster和HPC集群的关系图: 通过上图可知,通常我们需要在一台服务器上安装CFNCluster软件,然后通过CFNCluster创建和管理多个HPC的集群,HPC集群中的服务器安装了SGE, OpenLava等分布式资源管理器,你可以根据需要配置分布式资源管理器的类型 ,你也可以使用Cloudwatch监控服务,根据业务压力动态调整(AutoScaling)HPC集群计算节点的数量。当HPC集群创建完成后,你可以像以往使用HPC集群一样通过Master节点访问你的HPC集群。下面示例详细介绍了安装CFNCluster和创建HPC集群的详细过程: (1) 在AWS云中创建一台EC2服务器(使用Amazon Linux的AMI),并运行sudo pip install cfncluster安装CFNCluster,示例如下: sudo pip install cfncluster You are using pip version 6.1.1, however version 9.0.1 is available. […]

Read More

使用“运行命令”管理一组实例

Emily Freebairn,亚马逊AWS软件开发工程师 翻译 Ye Zhou | 原文链接 通常,工程师希望在一组实例中执行操作任务。 但是,这些任务中的许多任务需要以受控的速度进行,并在出现问题时获得反馈。 此外,管理员还通常希望确保工程师只能执行指定的操作。 “运行命令”是Amazon EC2系统管理器(SSM)的一部分,旨在让您远程和安全地管理实例。 “运行命令”提供了一种简单的方法来自动执行常见的管理任务,如运行shell脚本、安装软件或修补程序等等。 “运行命令”允许您在多个实例上执行命令,并提供对结果的可见性。通过与AWS身份和访问管理(IAM)的集成,您可以精确控制用户可以在实例上执行的操作权限。 “运行命令”执行的所有操作均由AWS CloudTrail记录,允许您审核对系统的更改。 在本文中,演示了如何执行命令来收集实例的诊断信息。 由于系统容量是按需添加,系统的容量会随时变化。为了减少实例出现意外的可能性,命令可以以受控的速度运行。 如果出现失败,您将收到通知以进行事后分析。 要确保您不会意外运行其他命令,请使用具有锁定权限的自定义操作来执行指定任务。 演练 在本节中,我将向您展示如何使用Auto Scaling设置实例,创建自定义SSM文档,然后在Auto Scaling组中的所有实例上运行命令。 同时展示了如何设置Amazon CloudWatch事件,以便在遇到问题时收到通知。 步骤1:使用Auto Scaling组启动实例 要使用“运行命令”,实例需要以下内容: 安装并运行Amazon SSM代理 出站互联网连接 附加适当的IAM角色 SSM代理与“运行命令”服务通信以接收命令并发送输出,并使用IAM角色授予调用服务的权限。 对于这篇文章,使用Auto Scaling组来创建一组正确配置的实例。 有关分步说明,请参阅Auto Scaling入门。 这里是一个使用了五个实例的Auto Scaling组的示例。 步骤2:创建自定义文档 “运行命令”使用文档来指定要在实例上执行的操作。文档是由JSON定义的AWS资源,它们包括您指定的步骤和参数。 AWS提供了一组执行常见任务的文档,例如运行shell脚本,配置CloudWatch,安装应用程序等。 此外,您可以为自己的文档编写特定任务。 因为IAM策略允许您控制用户被授权使用哪些文档,因此可以通过将一个指定用户限制到某个文档子集来锁定该用户可以执行的操作。 这里是一个文档的例子,它找出最消耗内存的进程。 { “schemaVersion”: “2.0”, “description”: “Instance Diagnostics”, “parameters”: { }, […]

Read More

在 AWS Twitch 频道上推出 GameDay Essentials 节目

假设您在 Unicorn.Rentals 得到一个新的职位,这是一家专注于传奇动物租赁市场 (LARM) 的公司。如果有机会的话,哪个孩子不愿意用任何东西来交换与独角兽的亲密接触?哪个父母会拒绝让孩子开心的机会?让我们估计这一年就是 2017 年,而 Unicorn.Rentals 继续在动物租赁市场占主导地位。 您即将进入另一个维度,一个像太空一样广袤无垠、永恒无限的维度 。它是光与影、科学与迷信的中间地带,在人类了解云之前就已经存在。这是进入一个充满想象力的土地、一个由影子和物质组成的土地的奇妙之旅。您正在进入 GameDay Essentials 地带。 好吧,也许不是另一个维度,但差不多一样酷。有点像不是吗?总之,我很高兴在 AWS Twitch 频道上推出名为 GameDay Essentials 的全新节目。GameDay Essentials 节目是针对前面提到的 Unicorn.Rentals 公司场景的“新员工培训计划”。您将作为一名新员工入职并接受有关云计算的培训,以便在使用 Amazon Web Services 的公司顺利开展工作。 通过 GameDay Essentials 节目,您将获得实践计算经验,以帮助 Unicorn.Rentals 这家初创公司不断发展。第一集重建于 7 月 25 日首播,提供了有关 CloudTrail 和 Cloudwatch 的日志记录服务,以及如何评估 AWS 账户中的配置并识别账户中的现有库存资源的信息。您可以在这里观看第 1 集 – 重建的录像。该剧集共分六部分,第一季其余部分的播出时间是太平洋时间星期二上午 11:30,接下来的三集将讨论以下主题: 第 2 集 – 扩展:了解如何通过深入研究实施缩放技术和 […]

Read More

使用 AWS CloudFormation StackSets 跨多个 AWS 账户和区域配置资源

AWS CloudFormation 可帮助 AWS 客户实施基础设施即代码模型。客户现在无需手动设置自己的环境和应用程序,他们可以生成一个模板,然后使用它来创建所有必需的资源 (统称为 CloudFormation 堆栈)。此模型彻底消除了人工错误的可能,提高了效率,能够确保始终一致的配置。 今天,我准备为大家介绍一个让 CloudFormation 变得更加有用的新功能。此功能可帮助您应对在包含多个 AWS 账户和/或 AWS 区域的情况下使用基础架构即代码时的挑战。快速回顾: 账户 – 正如前面提到的那样,很多组织使用大量的 AWS 账户,通常用 AWS Organizations 将这些账户组织为分层结构,分组为不同的组织部门 (OU) (阅读 AWS Organizations – 基于策略的多 AWS 账户管理了解更多信息)。我们的客户使用多个账户满足业务部门、应用程序和开发人员所需。他们通常为每一个应用程序的开发、测试、生产前调试及生产阶段创建不同的账户。 区域 – 客户也可以充分利用数量众多 (一直在增长) 的 AWS 区域。他们构建跨越两个或更多区域的全球应用程序,实施精巧的多区域灾难恢复模型,实时复制 S3、Aurora、PostgreSQL 和 MySQL 数据,为依据国家和地区法规存储和处理敏感数据选择位置。 多账户和多区域的扩展对管理和一致性带来了新的挑战。客户告诉我们,他们希望确保每一个新账户都按照其内部标准进行设置。首先他们需要一致、可靠地设置 IAM 用户和角色、VPC 和 VPC 子网、安全组、配置规则、日志记录和 AWS Lambda 函数。 介绍 StackSet 为了满足这些重要的客户需求,我们今天推出 CloudFormation […]

Read More

新增 – GPU 支持的 Amazon AppStream 2.0 流式处理实例

我们在 re:Invent 2016 发布了 Amazon AppStream 2.0。利用此应用程序流式处理服务可将 Windows 应用程序交付到桌面浏览器。 AppStream 2.0 是完全托管的,并通过运行一般用途的应用程序提供一致的可扩展性能,提供经过优化的计算、内存优化的流式处理实例,并通过 NICE DCV (安全的高保真流式传输协议) 交付。我们的企业和公共部门客户已经开始使用 AppStream 2.0,代替安装在内部的旧应用程序流式处理环境。他们使用 AppStream 2.0 将商业和业务线应用程序交付到桌面浏览器。我们的 ISV 客户使用 AppStream 2.0 将其应用程序原样迁移到云中,不对其代码做任何更改。这些客户专注于演示、研讨会和商业 SaaS 订阅。 我们收到有关 AppStream 2.0 的良好反馈,并且在非常快速地 (即使按照 AWS 标准来看也是很快的) 增加新的功能。到目前为止,今年我们增加了映像生成器、基于 SAML 2.0 的联合访问、CloudWatch 监控、队列 Auto Scaling、简单网络设置、用户文件永久存储 (Amazon S3 提供支持)、VPC 安全组支持以及内置的用户管理,包括用户 Web 门户。 全新 GPU 驱动流式处理实例 很多客户告诉我们,他们需要使用 AppStream 2.0 向其用户交付专业的设计、工程、HPC […]

Read More

全新 – Amazon CloudWatch 高精度自定义指标和警报

Amazon CloudWatch 自 2009 年年初以来一直是 AWS 的重要组成部分。CloudWatch 与 Auto Scaling 和 Elastic Load Balancing 三个产品包组合在一起发布,它已发展成为功能极强、面向 AWS 云中运行的 AWS 资源和应用程序的监控服务。CloudWatch 自定义指标 (早在 2011 年发布) 可用在 CloudWatch 中存储业务和应用程序指标、以图形方式查看这些指标,并基于 CloudWatch 警报启动操作。不用说,这些年来,我们的 CloudWatch 增强了很多的功能!最近的一些增强功能包括延长指标保留期 (以及一项用户界面更新)、控制面板、控制面板 API/CloudFormation 支持以及控制面板上的警报。 一开始,指标是按照五分钟的时间间隔存储的;后来,在 2010 年,应客户请求缩短到一分钟 (也称为详细监控)。这是一个广受欢迎的改变,但现在我们可以做得更好。我们的客户在流式传输视频、开展限时抢购、每天上百次部署代码,并随着情况的变化非常快速地扩展和缩减应用程序。对于所有这些情况,一分钟为时间间隔还是太长了。这样有可能错过重要的瞬间高峰;分散 (然而事实上相关) 的事件难以跨越时间进行关联,并且在发生故障时的 MTTR (平均修复时间) 过高。 全新的高精度指标 今天,我们将增加对高精度自定义指标的支持,我们还计划以后逐渐增加对 AWS 服务的支持。现在您的应用程序可以以 1 秒的精度将指标发布到 CloudWatch。在发布指标数秒后您就可以在屏幕上滚动查看这些指标,您还可以设置高精度 CloudWatch 警报,可以精细到每 10 秒评估一次。 想象一下可用内存较少时发出警报。这通常是一种瞬时的情况,如果取样不够频繁,将很难捕获到。使用高精度指标,您可以在数秒内查看、检测 (通过警报) […]

Read More

现在提供:三门全新 AWS 专业培训课程

通过 AWS 培训,您可以向专家学习,从而提升知识水平和具备实用技能,更好地利用 AWS 云。今天,我很荣幸地宣布推出我们三个最受欢迎的培训训练营 (AWS re:Invent 和 AWS 全球峰会的主要内容) 将成为我们的长期讲师指导培训组合的一部分: 构建无服务器数据湖 – 指导您利用 AWS 服务设计、构建和操作无服务器数据湖解决方案。 成功云变革的秘诀 – 指导您在将工作负载迁移到云时选择正确的策略、人员、迁移计划和财务管理方法。不需要高级技术专业知识。 在 AWS 上运行支持容器的微服务 – 指导您使用 Amazon EC2 Container Service (ECS) 管理和扩展支持容器的应用程序。 这些为期一天的课程面向希望向培训专家深入学习专业主题知识的个人。 您可以浏览我们的完整课程目录,也可以在 AWS 培训和认证门户中搜索您所在位置附近的公开课程。您还可以联系我们申请为您的团队安排现场专享培训。 — Jeff;

Read More

新增 – Amazon Connect 和 Amazon Lex 集成

Amazon Connect 和 Amazon Lex 这两项我最喜欢的服务最近推出了一些增强功能,我非常高兴有机会与大家分享这些功能。Amazon Connect 是一项基于云的自助式联络中心服务,可使任何企业能够轻松地以更低成本提供更优质的客户服务。Amazon Lex 是一项使用语音和文本构建对话界面的服务。通过将这两项服务相集成,您可以利用 Lex 的自动语音识别 (ASR) 和自然语言处理 (NLU) 功能为客户打造自助式体验。为了做到这一点,Amazon Lex 团队创建了新的深度学习模型,专门用来识别 8kHz 音频样本中的呼叫中心对话,稍后我将对此进行详细介绍。如果自动程序可以处理 90% 的客户请求,则客户等待时间将会减少,从而有更多时间来使用您的产品。 如需 Amazon Connect 或 Amazon Lex 的更多背景信息,我强烈建议您阅读 Jeff 之前发布的有关这两项服务的帖子 [1][2] (尤其是在您喜欢 LEGO 的情况下)。 接下来,我将向您展示如何使用这项新集成。大家也许知道,我喜欢在自己的 Twitch 频道上试用这些服务。我会选择一款我们针对 Twitch 频道构建的应用程序,然后针对博客进行修改。在这款应用程序的核心,用户拨打 Amazon Connect 号码后,随即会出现一系列“连锁反应”:将用户连接到 Amazon Lex 自动程序,自动程序调用 AWS Lambda 函数,而函数随后执行一组操作。 我们的应用程序有什么作用呢?我想最终解决哪个代码编辑器最为出色这个问题:我钟爱 Vim,这是一款超赞的编辑器,它的代码编辑功能非常棒 (堪称最好的编辑器)。我的同事 Jeff 偏爱 Emacs,它是一款强大的 […]

Read More

AWS 热门初创公司 – 2017 年 7 月

欢迎回来,了解这个月介绍的热门初创公司!每天,世界各地的初创公司都会推出超赞的创新业务、应用程序和产品。每个月,我们都会介绍一些使用 AWS 完成酷炫工作的初创公司。 7 月份的主题是学习!此类公司主要提供对工具和资源的访问权,从而以不同方式扩大知识面和提升技能。 本月的初创公司包括: CodeHS – 为初中和高中生提供有趣、可访问的计算机科学课程。 Insight – 提供密集式助学金计划,帮助培养数据科学方面的技术人才。 iTranslate – 让世界上的任何人都能使用 90 多种语言进行读、写、说。 CodeHS (加利福尼亚州旧金山) 2012 年,当时还在就读计算机科学专业并兼任入门课程助教的斯坦福大学学生 Zach Galant 和 Jeremy Keeshin 注意到了同龄人中间存在的一种趋势。许多人都希望,自己能尽早掌握计算机科学方面的知识。在大四那年,Zach 和 Jeremy 成立了 CodeHS,以便初中和高中可随时随地为学生提供有趣、可访问的计算机科学教育。CodeHS 是基于 Web 的课程学习路径,并提供教师资源、教学计划和职业发展机会。课程还配有省时的教师工具,在教学计划、评分和审阅学生代码及管理课堂方面为教师提供帮助。 CodeHS 立志让所有学生都成为未来的有力影响者,并认为编码与阅读和写作一样会逐渐成为一项新的基本技能,学生通过此类技能可进一步发掘自身兴趣或研究领域。在 CodeHS 2012 年成立之时,美国只有 10% 的高中提供计算机科学课程。Zach 和 Jeremy 矢志改变这一现状,他们提供了一款可让各学校和地区轻松入门的解决方案。借助 CodeHS,数千名教师接受了培训,然后再将知识传授给世界各地成千上万名学生。要使用 CodeHS,只需互联网和一款 Web 浏览器即可。学生可以在线编写和运行自己的代码,随后,教师会立即看到学生所执行的操作及其操作方式。 通过 Amazon EC2、Amazon RDS、Amazon ElastiCache、Amazon CloudFront 和 […]

Read More