亚马逊AWS官方博客
如何利用 Managed Node Group 高效管理 Amazon EKS 集群
Amazon Elastic Kubernetes Service (EKS) 是AWS上托管的 Kubernetes 服务。2月28日已在由光环新网运营的AWS中国(北京)区域和由西云数据运营的AWS(宁夏)区域上线。
Amazon EKS在Kubernetes用户中收到了极大的欢迎。据第三方统计机构 nuclearsearch 的统计( https://nucleusresearch.com/research/single/guidebook-containers-and-kubernetes-on-aws/),全球公有云上的容器数量,有80% 运行在AWS上。如果只统计Kubernetes的应用,那么在AmazonEKS上运行的应用数量更是占到了总数的82%。
Glue – “连接“功能介绍& Glue 通过连接对 Redshift 写入数据
手把手教你使用Glue连接功能连入Redshift。
“删库” 事件将引发快速构建低成本云安全灾备架构
删库”事件,不只一次发生,这次突发事件影响很大,影响的不只是6天144小时的服务暂停、10亿港币蒸发,约300万商户苦苦等待,还有SaaS信息系统重大突发事件处理经验和教训,以及企业对灾难备份重视。其实,类似事件时有发生是有原因的。按照海因里希安全法则,此类事件属于300∶29∶1法则中的1/330。这个1/330从信息系统的视角分析。这意味着:当一个企业的信息系统持续有300起安全隐患或违规问题,非常可能要发生29起轻度问题或故障事件,另外还有一起突发的重大信息系统事故。
AWS Glue 增量数据加载和优化的 Parquet 写入器
本文将介绍如何从 Amazon S3 数据湖以及JDBC连接数据库中的数据源增量加载数据,并且还会展示如何通过作业书签使 AWS Glue ETL 作业仅读取新添加的数据,以及如何通过在之前的作业运行结束时重置作业书签,让 AWS Glue ETL 作业处理晚到达的数据。本文还将回顾作业书签与复杂的AWS Glue ETL 脚本和工作负载配合使用的最佳实践。
最后,本文将介绍如何使用经过性能优化的自定义 AWS Glue Parquet 写入器,可以在运行时计算架构,避免额外的数据传输。AWS Glue Parquet 写入器还通过添加或删除列支持数据集的架构演变。
为什么使用 Docker 容器进行机器学习开发?
与其他人一样,我也喜欢在笔记本电脑上做原型开发。当我想与人协作时,我会将代码推送到 GitHub 并邀请协作者。当我想运行实验并需要更多的计算能力时,我会在云中租用 CPU 和 GPU 实例,将我的代码和依赖项复制到实例中,然后运行实验。如果您对这个过程很熟悉,那么您可能会奇怪:为什么一定要用 Docker 容器呢?在本文中,我会尝试说明为什么您应该考虑使用 Docker 容器进行机器学习开发。在本文的前半部分,我将讨论在使用复杂的开源机器学习软件时遇到的主要难题,以及采用容器将如何缓和这些问题。然后,我将介绍如何设置基于 Docker 容器的开发环境,并演示如何使用该环境来协作和扩展集群上的工作负载。
使用开源的 Crossplane 将 AWS 托管服务连接到 Argo CD 管道
云基础设施正在迅速成熟起来,使得企业能够利用新架构和服务以及运行在 Amazon Elastic Container Service (Amazon ECS) 上的应用程序。基础设施团队发现他们在使用 AWS CloudFormation 等工具管理传统云环境,同时还在管理 Amazon ECS 或 Kubernetes 等托管的容器本机系统。在本文中,我们将说明如何使用 Crossplane 和 Argo CD 来通过 Amazon Relational Database Service (Amazon RDS) 将一个简单的应用程序部署到两个 AWS 区域。
Bottlerocket – 容器主机的开源操作系统
今天,我想为大家介绍 Bottlerocket,这是一款基于 Linux 的全新开源操作系统,我们专门针对容器主机用途对其进行了设计和优化。
Verizon Media Group 如何将本地的 Apache Hadoop 和 Spark 迁移到 Amazon EMR
在 VMG,我们依赖诸如 Apache Hadoop 和 Apache Spark 之类的技术来运行我们的数据处理管道。我们之前使用 Cloudera Manager 管理我们的集群,但它的发布周期较慢。因此,我们运行较旧的可用开放源版本,但却无法从 Apache 项目的最新错误修复和性能改进中获得好处。基于上述原因,再加上我们对 AWS 的现有投资,使我们探索将我们的分布式计算管道迁移到 Amazon EMR。
动态扩展 Amazon EMR 集群上的存储
在托管的 Apache Hadoop 环境(如 Amazon EMR 集群)中,当集群中的存储容量用满时,没有方便的办法处理该问题。出现这种情况的原因是,您设置了 Amazon Elastic Block Store (Amazon EBS) 卷,并在启动集群时配置了挂载点,因此很难在集群运行后修改存储容量。可行的解决方案通常有:向集群添加更多节点,将数据备份到数据湖,然后启动具有更高存储容量的新集群。如果占用存储的数据可舍弃,也可删除多余的数据。
基于 ZFS 搭建 EDA 场景的共享存储系统架构与实践
本文针对大并发多任务 EDA 场景下对于存储的高性能、高吞吐需求,提供了结合 Amazon I3实例以及开源文件系统 ZFS 搭建一个可扩展的、安全的、低成本、高性能的共享文件系统的架构设计和操作实践。希望通过本文,可以为那些高性能、高吞吐存储需求的业务场景,不仅仅限于 EDA 领域,提供一个不同于云原生的一些存储服务的设计思路,从而在性能和成本上可以实现更多的选择。
本文的架构设计和实践部分假定你对 AWS 的计算和存储服务有一定的了解,能够基于控制台或者 CLI 命令行创建虚拟机、EBS 卷等常见操作,并且对 Linux 操作系统和开源 ZFS 文件系统常见命令有一定的了解。









