亚马逊AWS官方博客
Category: Analytics
EKS上有状态服务启用存储加密
在这个博客里我们针对EKS上有状态服务的数据保护安全需求,介绍了结合KMS服务,在EKS中如何使用StatefulSet、Snapshot Controller 的方式实现有状态服务的存储加密启用,该方式通过从底层存储解决数据加密存储及迁移,无需应用层介入数据迁移,从而简单有效解决了EKS上有状态服务的存储加密需求。
在Amazon EMR上构建实时数据湖
在 Amazon EMR 集群上,通过使用Flink, Spark 等服务与Hudi 集成,配合 Airflow, Amazon MSK 等服务可以轻松实现流式数据湖的构建,从而有效的减少了数据从产生到消费的数据延迟。同时借助 Amazon EMR 和 Amazon MSK, 消除了 Flink /Spark/Kafka 等基础服务运营开销,让这些服务开箱即用,从而使我们只要关心数据湖的构建以及湖上的数据处理
Amazon EMR Hudi 性能调优——Clustering
Hudi作为Amazon EMR提供的智能湖仓的重要组件,已经得到越来越广泛的应用,Hudi在考虑到多种业务场景的同时,也对查询性能提供了很多的优化的方法,例如Index,Metadata Table, Clustering。本篇Blog介绍Hudi在查询方面做的性能优化的方法之一 —- Clustering, 通过介绍 Clustering的原理,操作,以及查询性能的对比,有助于读者理解Hudi Clustering, 并在实际开发中找到适合的场景。
在 AWS 搭建无代码可视化的数据分析和建模平台
本文以汽车行业的故障分析为例,演示如何在亚马逊云科技上构建一套无代码数据分析平台,业务人员不需要有编程能力、 SQL 或任何机器学习的先验知识,即可自行根据业务场景和具体需求,自助式的上传导入数据做出分析,从而帮助业务人员以最短的时间,最方便的使用数据。
使用Hue玩转Amazon EMR(SparkSQL, Phoenix)和Amazon Redshift
本文主要帮助使用Amazon EMR的用户,通过Hue实现统一数仓平台开发工具,一方面集中管理数仓SQL开发任务,另一方面为其它部门提供自主分析的平台,对数仓建设有一定的推动作用。
使用 Amazon Redshift 构建用于批量和实时分析的大数据 Lambda 架构
借助 Amazon Redshift,您可以使用标准 SQL 轻松分析数据仓库、运营数据库和数据湖中的所有数据类型。在这篇博文中,我们将实时收集、处理和分析数据流。通过数据共享,您可以在 Amazon Redshift 集群之间共享实时数据以进行读取,同时具有相对的安全性和开箱即用性。在这篇博文中,我们将讨论如何利用 Amazon Redshift 的数据共享功能来设置大数据 Lambda 架构,以支持批量分析和近实时分析。
利用 Amazon Glue、Amazon Kinesis Data Streams、Amazon DynamoDB 和 Amazon QuickSight 的零售无服务器运营数据湖
您想减少商店缺货情况吗? 您想改善订单配送时间表吗? 您想为客户提供精确到毫秒的产品供应吗? 零售运营数据湖可 […]
Amazon EMR Serverless 现全面推出 — 无需管理服务器即可运行大数据应用程序
今天,我们宣布正式全面推出 Amazon EMR Serverless,这是一种无服务器部署选项,客户可以使用 Apache Spark 和 Hive 等开源框架运行大数据分析应用程序,而无需配置、管理和扩展集群或服务器。
借助EventBridge及Lambda 实现EMR 自动调整集群大小
EMR on EC2 Spot Instance 是大数据分析常用的成本优化的工具,借助此方案可以增加Spot申请成功概率,且在集群运维中减少人工干预,提升效率。
Amazon Redshift UDF实现对比
这篇博客主要介绍了Amazon Redshift UDF不同实现方式及其效果,并对比各种实现,帮助客户在不同场景下选择合适的UDF实现方式。