亚马逊AWS官方博客

在Amazon EMR上构建实时数据湖

在 Amazon EMR 集群上，通过使用Flink, Spark 等服务与Hudi 集成，配合 Airflow, Amazon MSK 等服务可以轻松实现流式数据湖的构建，从而有效的减少了数据从产生到消费的数据延迟。同时借助 Amazon EMR 和 Amazon MSK, 消除了 Flink /Spark/Kafka 等基础服务运营开销，让这些服务开箱即用，从而使我们只要关心数据湖的构建以及湖上的数据处理

在Amazon DocumentDB里处理Decimal128类型数据的解决方案

DocumentDB数据库Decimal128的替代解决方案

Amazon Aurora Serverless v2 正式发布：针对要求苛刻的工作负载的即时扩展

我们非常兴奋地宣布，Amazon Aurora Serverless v2 现已面向 Aurora Postg […]

使用Amazon ECS Anywhere在边缘部署AWS IoT Greengrass

本文将提出一种基于Amazon ECS Anywhere构建容器化云边统一管理的IoT平台参考架构，介绍了如何利用ECS Anywhere在边缘设备上容器化部署AWS IoT Greengrass，并在Greengrass上部署组件，帮助用户简化IoT设备管理，从云端到边缘确保 IoT 应用的安全，使客户可以专注于业务应用的开发，通过统一的容器管理平台以容器形式在云上和边缘侧快速部署应用，从而构建基于云边一体的IoT平台。

条条大路通罗马系列—— 使用Hiredis-cluster连接Amazon ElastiCache for Redis集群

本博客为大家展示如何使用Hiredis-cluster连接Amazon ElastiCache for Redis集群

全新 – Amazon EC2 M1 Mac 实例

去年，在 re: Invent 2021 大会期间，我写了一篇博客文章，宣布推出 EC2 M1 Mac 实例的 […]

使用 Amazon MemoryDB for Redis 作为 JuiceFS 的元数据引擎

本篇文章以 Redis 为例，介绍它作为 JuiceFS 的元数据引擎的优缺点，以及在实践中遇到的问题与挑战，并进一步介绍如何使用 Redis Cluster 以及 Amazon MemoryDB for Redis 来解决这些问题。

AWS 一周回顾 – 2022 年 7 月 4 日

本文是“一周回顾”系列中的一篇。请关注每周的“一周回顾”文章，快速总览来自 AWS 的重要新闻和公告！芬兰已 […]

Amazon EMR Hudi 性能调优——Clustering

Hudi作为Amazon EMR提供的智能湖仓的重要组件，已经得到越来越广泛的应用，Hudi在考虑到多种业务场景的同时，也对查询性能提供了很多的优化的方法，例如Index，Metadata Table, Clustering。本篇Blog介绍Hudi在查询方面做的性能优化的方法之一 —- Clustering, 通过介绍 Clustering的原理，操作，以及查询性能的对比，有助于读者理解Hudi Clustering, 并在实际开发中找到适合的场景。

使用Terraform与事件驱动的AWS CodeBuild提升云上数据应用运维效率

通过AWS CodeBuild为引擎的CI/CD流水线，自动化云上数据应用运维关键步骤，减轻数据开发团队与云运维团队在管理云上数据应用时的额外工作压力