Analytics | 亚马逊AWS官方博客

Amazon EMR Serverless 现全面推出 — 无需管理服务器即可运行大数据应用程序

今天，我们宣布正式全面推出 Amazon EMR Serverless，这是一种无服务器部署选项，客户可以使用 Apache Spark 和 Hive 等开源框架运行大数据分析应用程序，而无需配置、管理和扩展集群或服务器。

借助EventBridge及Lambda 实现EMR 自动调整集群大小

EMR on EC2 Spot Instance 是大数据分析常用的成本优化的工具，借助此方案可以增加Spot申请成功概率，且在集群运维中减少人工干预，提升效率。

Amazon Redshift UDF实现对比

这篇博客主要介绍了Amazon Redshift UDF不同实现方式及其效果，并对比各种实现，帮助客户在不同场景下选择合适的UDF实现方式。

Kinesis Data Analytics Studio 和Python交互式开发自定义聚合查询

使用Kinesis Data Analytics Studio 和 Python 开发自定义聚合查询

Amazon Glue集成Delta Lake构建事务型数据湖上的流式处理

本篇博客会使用开源Delta Lake结合Amazon Glue, 简化构建数据湖的方式去解决上述问题。会带您一步一步地在Amazon上部署近实时的流式数据入湖的方案，最终在数据湖上实现海量数据upsert以及事务的管理能力，即事务型的数据湖。

将数据仓库迁移到 Amazon Redshift 时的考虑事项

在这篇文章中，您将了解初创企业指定IT架构时，专门构建数据库可以赋能的场景。我们首先讨论一下大数据的形势、现代化数据架构的含义，以及在构建现代化数据架构时需要考虑数据仓库迁移项目中的哪些事项。

Amazon EMR 上 Apache Hudi 0.9.0 提供的新功能

本博文介绍了Amazon EMR 支持新的Apache Hudi 0.9.0

使用 Amazon Glue、Amazon Neptune 和 Spline 为数据湖构建数据沿袭

随着数据环境复杂性的增加，客户在以经济高效且一致的方式捕获沿袭时，面临着巨大的可管理性挑战。在这篇文章中，我们将向您介绍为数据湖构建端到端的自动化数据沿袭解决方案的三个步骤：沿袭捕获、建模和存储，最后是可视化。

Amazon Redshift 继续保持在性价比方面的领先地位

这篇文章详细介绍了我们通过 Amazon Redshift 机群的遥测数据发现的分析工作负载趋势，我们为提高 Amazon Redshift 性价比而推出的新功能，以及通过源自 TPC-DS 和 TPC-H 的最新基准测试获得的结果，这些结果有力地支持了我们的领先地位。

IoT 数据摄入和可视化的 7 种模式 – 如何确定最适合您使用场景的模式

无论您是刚刚开始物联网（IoT）之旅，还是已经拥有数百万台互联的 IoT 设备，您可能都在寻求方法以最大限度地利用从 IoT 数据中提取的价值。IoT 设备数据所报告的遥测数据、元数据、状态以及命令和响应中包含了丰富的信息。但是，要想获得尽可能提升运营效率和交付业务成果所需的洞察，拥有正确的报告和可视化解决方案是关键所在。

亚马逊AWS官方博客

Category: Analytics