Amazon EMR | 亚马逊AWS官方博客

Cynamics 如何使用 AWS 构建大规模、近乎实时的流式传输 AI 推理系统

这篇博文由Cynamics 联合创始人兼首席技术官 Yehezkel Aviv 博士和 Cynamics 工程主管 Sapir Kraus 共同撰写。在竞争激烈的网络安全市场，Cynamics 是首个基于小型网络样本的解决方案，至今学术界和行业都认为这是一项艰难且尚未解决的挑战.

使用 Amazon MSK Connect、Apache Flink 和 Apache Hudi 创建低延迟的源到数据湖管道

近年来，我们已经从整体式架构向微服务架构转变。微服务架构使应用程序更易于扩展和更快开发，从而实现创新并加快新功能的上市。但是，这种方法会导致数据存在于不同的孤岛中，这使得执行分析变得困难。为了获得更深入和更丰富的洞察，您应该将不同孤岛中的所有数据集中到一个地方。

Spark 小文件合并功能在 AWS S3 上的应用与实践

本文将基于Spark文件提交机制来介绍Spark小文件合并功能的基本原理，并进一步阐述我们在AWS S3上所进行的适配工作，以及应用Spark小文件合并功能带来的收益。

通过使用 Amazon Graviton2 提升 EMR 的性价比

通过使用Graviton2实例，能更好的提升EMR集群的性能，降低总体拥有成本，提升EMR平台的性价比。

2021年亚马逊云科技 re:Invent 全球大会分析专题与会者指南

re:Invent的分析专题提供各种数据分析相关演说与会议，亚马逊云科技分析专家及其客户将在这些会议上发表演讲。

Spark SQL 任务迁移到Amazon EMR 及性能调优

介绍了如何把IDC里的ETL任务快速迁移上云，并在保证低成本的同时，提升了性能表现，降低代码改动量和运维成本。

安全始终是亚马逊云科技的头号工作，也是Aamzon EMR这项托管Hadoop服务的首要原则。很多客户越来越意识到安全的重要性，尤其数据安全的重要性，在客户进行全球化业务扩展的时候，面对各国家区域的合规要求，更多采用Kerberos在EMR上进行身份验证。但是很多hadoop用户第一次尝试集成EMR和Kerberos时，尤其面对安全审计部门要求而初次使用EMR与外部Kerberos进行集成时，往往由于对Kerberos本身不熟悉，对EMR不熟悉，导致配置错误而无法集成，本文提供了步骤指南，帮助用户在亚马逊云上从头构建的关键步骤包括，创建Kerberos并集成EMR和LDAP。

基于云的数据网格技术如何实现金融监管数据采集

实践证明，现代云技术可以通过汇集数据并使用数据仓库和大数据工具进行分析，以经济高效的方式实现有价值的见解。例如，使用 Amazon EMR 之类的大数据分析工具整合来自证券交易的数据，以实现增强风险管理。对监管机构来说，面临的挑战在于能够通过以受控、高度灵活且经济高效的方式分析各种大型数据集来获取见解和有价值的信息。随着市场的演变和经济风险的变化，监管机构和中央银行的需求也将发生变化，因此监管生态系统必须继续适应所有参与者并具有成本效益。

Amazon EMR在FreeWheel的应用与实践

FreeWheel大数据团队在搭建数据仓库的过程中，在EMR的使用上积累了大量的实践和运维经验，本文将从EMR实践的角度出发，讲述FreeWheel Transformer团队在搭建ETL pipeline的过程中是如何玩转EMR的，以期抛砖引玉。

亚马逊AWS官方博客

Tag: Amazon EMR