亚马逊AWS官方博客

Tag: Amazon EMR

Amazon EMR 的 Graviton2 初体验

Amazon EMR 现在支持 EC2 M6g 实例,以便为云工作负载提供最佳性价比。EC2 M6g 实例由 AWS Graviton2 处理器提供支持,此类处理器由 AWS 设计定制设计并配备 64 位 Arm Neoverse N1内核。与前一代实例相比,对于基于 Graviton2 的实例上的 Spark 工作负载,EMR 可实现高达 35% 的成本降低和 15% 的性能改进。

Read More

新增 – Amazon Elastic Kubernetes Service (EKS) 上的 Amazon EMR

今天,我们宣布正式推出 Amazon EKS 上的 Amazon EMR,这是 EMR 中的一项新部署选项,可让客户在 EKS 上自动预置和管理开源大数据框架。借助 EKS 上的 EMR,客户现在可以在同一 EKS 集群上与其他类型的应用程序一起运行 Spark 应用程序,以提高资源利用率并简化基础设施管理。

Read More

在 AWS 上构建自动驾驶和 ADAS 数据湖

本博客介绍了如何使用此参考架构构建自动驾驶数据湖。我们讨论的工作流范围从如何提取数据、为机器学习准备数据、将 ADAS 系统和车辆传感器的输出进行编目、对其进行标注、自动检测场景,到管理那些将其移动到有组织的数据湖构造所需的各种工作流。开发 AWS 自动驾驶和 ADAS 数据湖参考架构之前,我们曾与众多客户合作应对实现这一目标所面临的挑战。

Read More

使用 Prometheus 与 Grafana 对 Amazon EMR上的分析类工作负载进行监控与优化

本文介绍了如何使用Prometheus与Grafana设置监控系统,借此监控目标EMR集群;以及如何使用Grafana仪表板查看关键指标以优化各类性能问题。大家也可以在Prometheus中设置警报,保证系统在发生严重问题时发出通知,并参考仪表板以缩小故障排查范围。您还可以根据需求扩展这套监控系统,利用它监控多个EMR集群及其他应用程序,打造出一套完整的、覆盖整体基础设施与应用程序的一站式指标监控系统。

Read More

使用 AWS Lake Formation 配合 Amazon EMR 控制数据访问与权限

数据的使用在数据格式和规模两个方面已经取得了快速的发展。对不同技术(关系数据库、NoSQL、图数据库、明文文件等)进行管理则会显著增加运营开销。随着竞争烈度的提升,数据规模也将随业务推进而飞速发展,带来更大的计算与存储资源压力。这一切,都迫使组织需求通往更高敏捷性与速度水平的道路。

Read More

使用运行在 Amazon EC2 G4 实例上的 Amazon EMR,提升 RAPIDS XGBoost 性能并降低运营成本

数据的使用在数据格式和规模两个方面已经取得了快速的发展。对不同技术(关系数据库、NoSQL、图数据库、明文文件等)进行管理则会显著增加运营开销。随着竞争烈度的提升,数据规模也将随业务推进而飞速发展,带来更大的计算与存储资源压力。这一切,都迫使组织需求通往更高敏捷性与速度水平的道路。

Read More

Verizon Media Group 如何从本地 Apache Hadoop 与 Spark 迁移至 Amazon EMR

我们的大数据管道已经在Amazon EMR上运行超过一年,且所有数据都存储在S3当中。在特定时段中,我们实时处理管道的峰值速率高达每秒200多万个事件,而从事件出现到汇总结果更新,总体处理延迟仅为1分钟。Amazon EMR为我们带来出色的灵活性,帮助我们在几分钟之内快速完成集群的清理与重新创建。我们对Amazon EMR平台的整体稳定性非常满意,也将继续与AWS一道探索EMR的进一步改善之道。

Read More

在 Amazon EMR 上监控 Spark Streaming 应用程序

如何监控和调优Spark Streaming实时应用程序是一项非常挑战的工作,您需要随时应对环境中发生的种种变化。另外,还需要监控源数据流和作业的输出,从而可以了解全面的情况。Spark是一套非常灵活并且丰富的框架,它能够提供多种方式来对任务进行监控。本文主要探讨了其中一种有效的方法,使用SparkListeners并将提取到的指标与CloudWatch指标相集成,从而实现监控Spark Streaming微批处理程序的性能。

Read More