亚马逊AWS官方博客
Category: AWS Big Data
【Agentic AI for Data系列】Kiro实战:DuckDB vs Spark技术选型全流程
本文探讨Agentic AI在数据工程技术选型中的应用实践。针对DuckDB与Apache Spark在小文件场景下的性能差异问题,我们采用AI开发助手Kiro构建了一套系统化的性能评估框架。该框架基于AWS Glue环境,通过双重监控体系收集22+个维度的量化指标,确保测试的公平性和可重复性。
异构 ETL 环境的 AI 驱动数据血缘管理系统
介绍了一种AI驱动的数据血缘管理系统,旨在解决异构 ETL 环境下数据管道碎片化导致的数据治理和调试难题。该系统通过集成 OpenLineage 等工具,实现跨平台、端到端的数据血缘可视化和追踪,帮助用户快速定位数据问题、评估字段修改影响、识别废弃资产,并监控异常节点(如孤儿节点和僵尸节点),从而将数据资产转化为可信赖的商业智能。
使用 Amazon S3,AWS Glue 和 BladePipe 五分钟实现数据实时入湖
介绍 Apache Iceberg 是一种开放的数据表格式,解决了在数据湖管理方面的诸多痛点,如元数据混乱、文 […]
通过 ODCR 和 Prioritized Allocation Strategy 构建高效、经济的 EMR 集群(一)
本文通过实际场景,详细介绍了 EMR 集群创建与扩缩容时的两种策略:为普通集群使用 Open ODCR 实现成本与资源的平衡,为核心任务集群应用 Targeted ODCR 确保效率与可靠性。文中提供了完整配置示例供您参考。
基于 Apache Kafka 和 AWS 构建端到端的无服务器流式 ETL 管道
使用 Apache Kafka、Amazon Redshift Serverless 和 Amazon EMR Serverless 构建端到端无服务器流式 ETL 管道
利用 Serverless 方式自动化设置 EMR 集群时区
在 EMR 使用场景中,数据分析需要对 EMR on EC2 集群节点进行自动化设置指定正确的时区。
亚马逊云科技异常流量监控告警
本文将介绍一种出口流量监控方案,它融合了亚马逊云科技原生服务和第三方监控工具 Grafana,为您呈现一种全新的流量监控体验。
从 AWS DynamoDB 迁移数据到 AWS Aurora MySQL
一、概述 虽然 AWS DynamoDB 提供了高性能、可扩展的 NoSQL 解决方案,但在某些业务场景下存在 […]
Amazon OpenSearch Service 宣布 Elasticsearch 和 OpenSearch 版本的标准支持和扩展支持日期
Amazon OpenSearch Service 支持 19 个版本的 Elasticsearch 和 11 个版本的 OpenSearch
使用 Serverless 架构快速构建基于 Iceberg 的事务型实时数据湖
目前大部分使用数据湖技术的场景,需要托管大规模的大数据集群,例如 Kafka 集群,Hadoop 集群等等,但是,由于集群的运维复杂度和资源弹性管理需要投入大量的人力。并且如果需要实现从数据库到数据湖的实时同步,需要对数据库事务性的数据变更进行单独的处理,才能够使得数据库与数据湖之间数据保持一致性。因此,本文提出基于 AWS 中相关的 Serverless 服务来构建数据湖,该方案主要利用 AWS 中 MSK Connect,MSK Serverless,Glue,Athena 来构建无服务的数据湖方案。
