AWS Big Data | 亚马逊AWS官方博客

S3 Tables 实战：两种方案，把 MySQL 数据实时”搬”进 S3 Tables

这篇博客介绍了将 MySQL 变更数据实时同步到 Amazon S3 Tables（一种专为 Apache Iceberg 优化的全托管存储方案）的两种方法：一是基于 MSK Connect + Iceberg Kafka Connect 的全托管方案，二是基于 Flink CDC + Flink SQL 的流处理方案。文章重点展示了 S3 Tables 如何通过内置的自动表维护功能（小文件合并、快照清理等）解决传统 Iceberg 数据湖的运维难题，让用户专注于数据写入而无需操心底层维护。

使用 Kiro AI IDE 开发基于Amazon EMR 的Flink 智能监控系统实践

本文介绍如何使用 Kiro AI IDE 开发 Amazon EMR Flink 智能监控系统，重点分享基于 Strands Agents MCP 和 AWS Data Processing MCP 的开发实践，以及 Spec 驱动开发的完整流程。

使用 Kiro AI IDE 开发 AWS CDK 部署架构：从模糊需求到三层堆栈的协作实战

本文记录了一次真实的 AI 辅助开发过程：如何使用 **Kiro AI** 从一个模糊的部署需求开始，通过人机协作，逐步设计出三层堆栈架构，并完成 Amazon EMR Flink 智能监控系统的 AWS CDK 部署代码。

基于 Strands Agents 的 Amazon EMR Flink 智能监控系统

本文将介绍一个基于 **Strands Agents** 和 **Amazon Bedrock** 构建的智能 Flink 监控系统，该系统采用多 Agent 协作架构，能够自动收集指标、智能分析问题、提供优化建议，并通过自然语言对话的方式与用户交互。

EMR和S3的跨区域应急备份恢复方案之二：亿级数据文件批量筛选恢复

在本文中，我们将展示如何利用 S3 Batch Operations 搭配 manifest generator 来构建一种真正符合“应急恢复”定义的跨区域 S3 恢复方法

基于Amazon Glue优化Iceberg表的合并功能在亚马逊云科技中国区域的实现

本篇博客旨在提供一个解决方案，在亚马逊云科技中国区域实现Amazon Glue的Iceberg表合并（Compaction）相同的功能，并利用Amazon Cloudformation的模板功能，提供方便快捷的一键式部署方案。

通过 Okta 集成 IAM Identity Center 实现对 Amazon QuickSight 的统一身份认证

本文介绍了如何使用 Okta 作为身份提供商（IdP），通过亚马逊云科技IAM Identity Center实现对 Amazon QuickSight 的统一身份认证访问。

通过ODCR和Prioritized Allocation Strategy 构建高效、经济的EMR集群（二）

本篇Blog就重点介绍如何在EMR集群中 Prioritized 新特性的使用场景和具体用法。

EMR和S3的跨区域应急备份恢复方案之一：在存储成本与恢复时效之间取得平衡

本文结合典型的电商数据处理场景，对 EMR 与 S3 的跨区域应急备份与恢复方案进行了系统分析与量化评估。通过比较多种主流方案在成本、恢复时效与可运维性方面的差异，提出了一种在“成本—时效”之间取得最优平衡的技术路径，旨在为构建更具韧性的数据基础设施提供可操作的参考。

在Apache DataHub中整合Amazon Glue任务的数据血缘

本文将介绍如何在Apache DataHub中整合Amazon Glue任务的数据血缘，包括导入Glue Catalog的元数据信息，Glue Spark任务中表和字段级别的血缘关系，通过DataHub来统一管理和查询大数据目录。

亚马逊AWS官方博客

Category: AWS Big Data