亚马逊AWS官方博客

AWS Glue 扩展 Apache Spark 作业以及数据分区的最佳实践

本博文讨论管理数据处理作业扩展的两项关键的 AWS Glue 功能,还将介绍在 AWS Glue中,针对采用 Amazon Kinesis Data Firehose 的流应用程序中提取的大量小文件,如何来扩展 Apache Spark 应用程序。此外,文章将介绍对 AWS Glue 作业如何利用在 Amazon S3 上大型数据集的分区结构,来缩短 Apache Spark 应用程序的执行时间。

使用 Amazon EC2 Spot 实例和 Amazon EMR 运行 Apache Spark 应用程序的最佳实践

在本博客中,我们将重点讨论如何通过使用 Spot 实例在 Amazon EMR 上实现成本优化并高效运行 Spark 应用程序。我们提供了几个最佳实践建议,用于在使用Spot实例过程中提高Spark应用程序的容错能力。实施这些最佳实践不会对Spark应用程序的可用性,性能和执行时间产生大的影响。

Amazon EMR 迁移指南

世界各地的企业逐渐认识到新型大数据处理和分析框架(如 Apache Hadoop 和 Apache Spark)的强大功能,但同时也发现在本地数据湖环境中运行这些技术面临着挑战。他们也对当前供应商的未来表示担忧。
为了解决这个问题,我们推出了 Amazon EMR 迁移指南(注:英文版首次出版于 2019 年 6 月,这是我们首次推出中文版)。 本文是一份全面的指南,旨在提供合理的技术建议,帮助客户规划如何从本地大数据部署迁移到 EMR。

利用 Slurm + ParallelCluster 多集群解决方案,助力云端高性能计算

一些HPC客户要求ParallelCluster支持多种实例类型,而ParallelCluster在单个集群中仅支持一种实例类型。 该解决方案在具有不同实例类型的多个ParallelCluster群集之前添加了一个额外的管理节点。 然后可以将作业从管理节点登顶到任何群集。 该解决方案可以满足客户的多实例类型需求,同时保留ParallelCluster的优势。

AWS Security JAM 服务之启动篇

AWS Security JAM服务是由AWS Professional Service 团队开发并向参与者提供的一项专业服务。AWS Security JAM能帮助众多AWS使用者,客户,参与者 通过JAM平台中的挑战,来学习100+家企业的实践经验。每个挑战可以理解为一个案例题目,深入体会每个挑战案例如何通过最小权限,最安全的方式完成挑战案例。