亚马逊AWS官方博客
Category: AWS Big Data
基于Amazon Glue优化Iceberg表的合并功能在亚马逊云科技中国区域的实现
1.概述 目前,单一、通用的数据处理引擎已经不能满足客户不断变化的业务需求,因此,为了构建现代化的、为特定目的 […]
通过 Okta 集成 IAM Identity Center 实现对 Amazon QuickSight 的统一身份认证
1.概述 在企业环境中,一般会使用统一身份认证来访问各个内部应用,以便提供良好的登录体验。本文介绍了如何使用 […]
Blog — 通过ODCR和Prioritized Allocation Strategy 构建高效、经济的EMR集群(二)
在之前的 blog 中,我们介绍了在⿊五等促销季来临时,怎么使⽤ ODCR 来保留资源,并在 EMR 中如何使 […]
EMR和S3的跨区域应急备份恢复方案 之一:在存储成本与恢复时效之间取得平衡
序言 近年来,随着数据和算法对企业核心业务的影响日益加深,数据处理系统的可用性与韧性已成为保障业务连续性的关键 […]
在Apache DataHub中整合Amazon Glue任务的数据血缘
1. 概述 Apache DataHub (下面简称DataHub)是一个开源的元数据平台,旨在解决现代 […]
【Agentic AI for Data系列】开发新范式:AI驱动的数据革命(先导篇)
引言 长期以来,业界专注于Data for AI,即为人工智能提供高质量数据。正如吴恩达教授的Data-Cen […]
【Agentic AI for Data系列】Kiro实战:DuckDB vs Spark技术选型全流程
1. 引言:技术选型的新挑战 当面临DuckDB与Spark的技术选型时,你是否也曾困惑:新兴的DuckDB真 […]
异构 ETL 环境的 AI 驱动数据血缘管理系统
背景介绍 随着企业的不断发展和数字化转型,数据已经成为最宝贵的资产。在这个过程中,企业构建并运行着海量的数据管 […]
使用 Amazon S3,AWS Glue 和 BladePipe 五分钟实现数据实时入湖
介绍 Apache Iceberg 是一种开放的数据表格式,解决了在数据湖管理方面的诸多痛点,如元数据混乱、文 […]
通过 ODCR 和 Prioritized Allocation Strategy 构建高效、经济的 EMR 集群(一)
本文通过实际场景,详细介绍了 EMR 集群创建与扩缩容时的两种策略:为普通集群使用 Open ODCR 实现成本与资源的平衡,为核心任务集群应用 Targeted ODCR 确保效率与可靠性。文中提供了完整配置示例供您参考。