亚马逊AWS官方博客
Category: Analytics
使用 Amazon Redshift 构建用于批量和实时分析的大数据 Lambda 架构
借助 Amazon Redshift,您可以使用标准 SQL 轻松分析数据仓库、运营数据库和数据湖中的所有数据类型。在这篇博文中,我们将实时收集、处理和分析数据流。通过数据共享,您可以在 Amazon Redshift 集群之间共享实时数据以进行读取,同时具有相对的安全性和开箱即用性。在这篇博文中,我们将讨论如何利用 Amazon Redshift 的数据共享功能来设置大数据 Lambda 架构,以支持批量分析和近实时分析。
利用 Amazon Glue、Amazon Kinesis Data Streams、Amazon DynamoDB 和 Amazon QuickSight 的零售无服务器运营数据湖
您想减少商店缺货情况吗? 您想改善订单配送时间表吗? 您想为客户提供精确到毫秒的产品供应吗? 零售运营数据湖可 […]
Amazon EMR Serverless 现全面推出 — 无需管理服务器即可运行大数据应用程序
今天,我们宣布正式全面推出 Amazon EMR Serverless,这是一种无服务器部署选项,客户可以使用 Apache Spark 和 Hive 等开源框架运行大数据分析应用程序,而无需配置、管理和扩展集群或服务器。
借助EventBridge及Lambda 实现EMR 自动调整集群大小
EMR on EC2 Spot Instance 是大数据分析常用的成本优化的工具,借助此方案可以增加Spot申请成功概率,且在集群运维中减少人工干预,提升效率。
Amazon Redshift UDF实现对比
这篇博客主要介绍了Amazon Redshift UDF不同实现方式及其效果,并对比各种实现,帮助客户在不同场景下选择合适的UDF实现方式。
Kinesis Data Analytics Studio 和Python交互式开发自定义聚合查询
使用Kinesis Data Analytics Studio 和 Python 开发自定义聚合查询
Amazon Glue集成Delta Lake构建事务型数据湖上的流式处理
本篇博客会使用开源Delta Lake结合Amazon Glue, 简化构建数据湖的方式去解决上述问题。会带您一步一步地在Amazon上部署近实时的流式数据入湖的方案,最终在数据湖上实现海量数据upsert以及事务的管理能力,即事务型的数据湖。
将数据仓库迁移到 Amazon Redshift 时的考虑事项
在这篇文章中,您将了解初创企业指定IT架构时,专门构建数据库可以赋能的场景。我们首先讨论一下大数据的形势、现代化数据架构的含义,以及在构建现代化数据架构时需要考虑数据仓库迁移项目中的哪些事项。
Amazon EMR 上 Apache Hudi 0.9.0 提供的新功能
本博文介绍了Amazon EMR 支持新的Apache Hudi 0.9.0
使用 Amazon Glue、Amazon Neptune 和 Spline 为数据湖构建数据沿袭
随着数据环境复杂性的增加,客户在以经济高效且一致的方式捕获沿袭时,面临着巨大的可管理性挑战。在这篇文章中,我们将向您介绍为数据湖构建端到端的自动化数据沿袭解决方案的三个步骤:沿袭捕获、建模和存储,最后是可视化。