亚马逊AWS官方博客

Category: AWS Big Data

【Agentic AI for Data系列】开发新范式：AI驱动的数据革命（先导篇）

本文深入探讨了从”Data for AI”到”AI for Data”的范式转变，详细阐述了Agentic AI在数据开发全生命周期中的革命性应用。文章通过电商用户行为分析的实际场景，对比传统开发模式与Agentic AI驱动模式的差异，展示核心能力。同时提供了AWS AI Stack完整生态的技术选型指南。

【Agentic AI for Data系列】Kiro实战：DuckDB vs Spark技术选型全流程

本文探讨Agentic AI在数据工程技术选型中的应用实践。针对DuckDB与Apache Spark在小文件场景下的性能差异问题，我们采用AI开发助手Kiro构建了一套系统化的性能评估框架。该框架基于AWS Glue环境，通过双重监控体系收集22+个维度的量化指标，确保测试的公平性和可重复性。

异构 ETL 环境的 AI 驱动数据血缘管理系统

介绍了一种AI驱动的数据血缘管理系统，旨在解决异构 ETL 环境下数据管道碎片化导致的数据治理和调试难题。该系统通过集成 OpenLineage 等工具，实现跨平台、端到端的数据血缘可视化和追踪，帮助用户快速定位数据问题、评估字段修改影响、识别废弃资产，并监控异常节点（如孤儿节点和僵尸节点），从而将数据资产转化为可信赖的商业智能。

使用 Amazon S3，AWS Glue 和 BladePipe 五分钟实现数据实时入湖

介绍 Apache Iceberg 是一种开放的数据表格式，解决了在数据湖管理方面的诸多痛点，如元数据混乱、文 […]

通过 ODCR 和 Prioritized Allocation Strategy 构建高效、经济的 EMR 集群（一）

本文通过实际场景，详细介绍了 EMR 集群创建与扩缩容时的两种策略：为普通集群使用 Open ODCR 实现成本与资源的平衡，为核心任务集群应用 Targeted ODCR 确保效率与可靠性。文中提供了完整配置示例供您参考。

基于 Apache Kafka 和 AWS 构建端到端的无服务器流式 ETL 管道

使用 Apache Kafka、Amazon Redshift Serverless 和 Amazon EMR Serverless 构建端到端无服务器流式 ETL 管道

利用 Serverless 方式自动化设置 EMR 集群时区

在 EMR 使用场景中，数据分析需要对 EMR on EC2 集群节点进行自动化设置指定正确的时区。

亚马逊云科技异常流量监控告警

本文将介绍一种出口流量监控方案，它融合了亚马逊云科技原生服务和第三方监控工具 Grafana，为您呈现一种全新的流量监控体验。

从 AWS DynamoDB 迁移数据到 AWS Aurora MySQL

一、概述虽然 AWS DynamoDB 提供了高性能、可扩展的 NoSQL 解决方案，但在某些业务场景下存在 […]

Amazon OpenSearch Service 宣布 Elasticsearch 和 OpenSearch 版本的标准支持和扩展支持日期

Amazon OpenSearch Service 支持 19 个版本的 Elasticsearch 和 11 个版本的 OpenSearch

← Older posts

Newer posts →