亚马逊AWS官方博客
Tag: Amazon EMR
Spark 小文件合并功能在 AWS S3 上的应用与实践
本文将基于Spark文件提交机制来介绍Spark小文件合并功能的基本原理,并进一步阐述我们在AWS S3上所进行的适配工作,以及应用Spark小文件合并功能带来的收益。
Read MoreAmazon EMR之EMR和Hadoop的前世今生
讲解Hadoop的由来,以及为何会有Amazon EMR,它们之间的异同之处
Read More通过使用 Amazon Graviton2 提升 EMR 的性价比
通过使用Graviton2实例,能更好的提升EMR集群的性能,降低总体拥有成本,提升EMR平台的性价比。
Read More2021年亚马逊云科技 re:Invent 全球大会分析专题与会者指南
re:Invent的分析专题提供各种数据分析相关演说与会议,亚马逊云科技分析专家及其客户将在这些会议上发表演讲。
Read MoreSpark SQL 任务迁移到Amazon EMR 及性能调优
介绍了如何把IDC里的ETL任务快速迁移上云,并在保证低成本的同时,提升了性能表现,降低代码改动量和运维成本。
Read MoreEMR与外部KDC集成进行身份认证
安全始终是亚马逊云科技的头号工作,也是Aamzon EMR这项托管Hadoop服务的首要原则。很多客户越来越意识到安全的重要性,尤其数据安全的重要性,在客户进行全球化业务扩展的时候,面对各国家区域的合规要求,更多采用Kerberos在EMR上进行身份验证。但是很多hadoop用户第一次尝试集成EMR和Kerberos时,尤其面对安全审计部门要求而初次使用EMR与外部Kerberos进行集成时,往往由于对Kerberos本身不熟悉,对EMR不熟悉,导致配置错误而无法集成,本文提供了步骤指南,帮助用户在亚马逊云上从头构建的关键步骤包括,创建Kerberos并集成EMR和LDAP。
Read More基于云的数据网格技术如何实现金融监管数据采集
实践证明,现代云技术可以通过汇集数据并使用数据仓库和大数据工具进行分析,以经济高效的方式实现有价值的见解。例如,使用 Amazon EMR 之类的大数据分析工具整合来自证券交易的数据,以实现增强风险管理。对监管机构来说,面临的挑战在于能够通过以受控、高度灵活且经济高效的方式分析各种大型数据集来获取见解和有价值的信息。随着市场的演变和经济风险的变化,监管机构和中央银行的需求也将发生变化,因此监管生态系统必须继续适应所有参与者并具有成本效益。
Read MoreAmazon EMR在FreeWheel的应用与实践
FreeWheel大数据团队在搭建数据仓库的过程中,在EMR的使用上积累了大量的实践和运维经验,本文将从EMR实践的角度出发,讲述FreeWheel Transformer团队在搭建ETL pipeline的过程中是如何玩转EMR的,以期抛砖引玉。
Read More使用 AWS Cloudformation 在 Amazon EMR 中一分钟配置 JuiceFS
这是一篇使用 JuiceFS 作为 Amazon EMR 存储后端的快速入门文章,JuiceFS 是一个专门为在云端工作而设计的 POSIX 兼容的共享文件系统并且兼容 HDFS。JuiceFS 与自建的 HDFS 相比,可以节省 50% ~ 70% 的成本,同时达到与自建 HDFS接近的性能。
Read MoreAmazon EMR 的 Graviton2 初体验
Amazon EMR 现在支持 EC2 M6g 实例,以便为云工作负载提供最佳性价比。EC2 M6g 实例由 AWS Graviton2 处理器提供支持,此类处理器由 AWS 设计定制设计并配备 64 位 Arm Neoverse N1内核。与前一代实例相比,对于基于 Graviton2 的实例上的 Spark 工作负载,EMR 可实现高达 35% 的成本降低和 15% 的性能改进。
Read More