Amazon EMR | 亚马逊AWS官方博客

使用 AWS Cloudformation 在 Amazon EMR 中一分钟配置 JuiceFS

这是一篇使用 JuiceFS 作为 Amazon EMR 存储后端的快速入门文章，JuiceFS 是一个专门为在云端工作而设计的 POSIX 兼容的共享文件系统并且兼容 HDFS。JuiceFS 与自建的 HDFS 相比，可以节省 50% ~ 70% 的成本，同时达到与自建 HDFS接近的性能。

Amazon EMR 的 Graviton2 初体验

Amazon EMR 现在支持 EC2 M6g 实例，以便为云工作负载提供最佳性价比。EC2 M6g 实例由 AWS Graviton2 处理器提供支持，此类处理器由 AWS 设计定制设计并配备 64 位 Arm Neoverse N1内核。与前一代实例相比，对于基于 Graviton2 的实例上的 Spark 工作负载，EMR 可实现高达 35% 的成本降低和 15% 的性能改进。

使用 Amazon Kinesis 和 Amazon EMR 构建数据批处理分析架构

使用Amazon Kinesis和Amazon EMR构建数据批处理分析架构，并和流式处理汇总到Redshift做集中数仓查询.

探索和体验 Graviton2 高性价比

在这篇博客文章中，为您简述AWS Graviton2高性能比优势，并针对日常使用中最常见的开发工具和redis应用安装做Amazon linux2和Ubuntu18.04下的简单展示，方便大家可以快速体验到Graviton2。

新增 – Amazon Elastic Kubernetes Service (EKS) 上的 Amazon EMR

今天，我们宣布正式推出 Amazon EKS 上的 Amazon EMR，这是 EMR 中的一项新部署选项，可让客户在 EKS 上自动预置和管理开源大数据框架。借助 EKS 上的 EMR，客户现在可以在同一 EKS 集群上与其他类型的应用程序一起运行 Spark 应用程序，以提高资源利用率并简化基础设施管理。

在 AWS 上构建自动驾驶和 ADAS 数据湖

本博客介绍了如何使用此参考架构构建自动驾驶数据湖。我们讨论的工作流范围从如何提取数据、为机器学习准备数据、将 ADAS 系统和车辆传感器的输出进行编目、对其进行标注、自动检测场景，到管理那些将其移动到有组织的数据湖构造所需的各种工作流。开发 AWS 自动驾驶和 ADAS 数据湖参考架构之前，我们曾与众多客户合作应对实现这一目标所面临的挑战。

使用 Prometheus 与 Grafana 对 Amazon EMR上的分析类工作负载进行监控与优化

本文介绍了如何使用Prometheus与Grafana设置监控系统，借此监控目标EMR集群；以及如何使用Grafana仪表板查看关键指标以优化各类性能问题。大家也可以在Prometheus中设置警报，保证系统在发生严重问题时发出通知，并参考仪表板以缩小故障排查范围。您还可以根据需求扩展这套监控系统，利用它监控多个EMR集群及其他应用程序，打造出一套完整的、覆盖整体基础设施与应用程序的一站式指标监控系统。

使用 AWS Lake Formation 配合 Amazon EMR 控制数据访问与权限

数据的使用在数据格式和规模两个方面已经取得了快速的发展。对不同技术（关系数据库、NoSQL、图数据库、明文文件等）进行管理则会显著增加运营开销。随着竞争烈度的提升，数据规模也将随业务推进而飞速发展，带来更大的计算与存储资源压力。这一切，都迫使组织需求通往更高敏捷性与速度水平的道路。

使用运行在 Amazon EC2 G4 实例上的 Amazon EMR，提升 RAPIDS XGBoost 性能并降低运营成本

数据的使用在数据格式和规模两个方面已经取得了快速的发展。对不同技术（关系数据库、NoSQL、图数据库、明文文件等）进行管理则会显著增加运营开销。随着竞争烈度的提升，数据规模也将随业务推进而飞速发展，带来更大的计算与存储资源压力。这一切，都迫使组织需求通往更高敏捷性与速度水平的道路。

Verizon Media Group 如何从本地 Apache Hadoop 与 Spark 迁移至 Amazon EMR

我们的大数据管道已经在Amazon EMR上运行超过一年，且所有数据都存储在S3当中。在特定时段中，我们实时处理管道的峰值速率高达每秒200多万个事件，而从事件出现到汇总结果更新，总体处理延迟仅为1分钟。Amazon EMR为我们带来出色的灵活性，帮助我们在几分钟之内快速完成集群的清理与重新创建。我们对Amazon EMR平台的整体稳定性非常满意，也将继续与AWS一道探索EMR的进一步改善之道。

Tag: Amazon EMR