Analytics | 亚马逊AWS官方博客

使用 Amazon MSK Connect 与 Iceberg Kafka Connect 轻松构建数据实时入湖

本文将介绍如何利用 Iceberg kafka connect ，通过 Amazon MSK Connect（托管 Kafka connect）来加速构建数据实时入湖的流程，简化从数据库到数据湖繁杂的同步过程。

AWS 一周综述：AWS Pi Day、Amazon Bedrock 多 Agents 协作、Amazon SageMaker Unified Studio、Amazon S3 表类数据存储服务等

感谢所有在 3 月 14 日参加我们第五届年度 AWS Pi Day 活动的朋友们。AWS Pi Day 在 […]

AWS Pi Day 2025：分析和人工智能的数据基础

每年的 3 月 14 日，AWS Pi Day 都会重点展示 AWS 在数据管理和处理方面的创新。该活动始于 […]

Amazon SageMaker Unified Studio 现已正式可用

现在，我们宣布 Amazon SageMaker Unified Studio 正式发布。这是一个集成的数据与 […]

Amazon S3 表类数据存储服务与 Amazon SageMaker 智能湖仓的集成现已正式发布

在 re:Invent 2024 上，我们推出了 Amazon S3 表类数据存储服务和 Amazon Sag […]

Amazon EMR 集群的成本优化实践

本文详细介绍了一个针对 AWS EMR 集群定时启停并保持 IP 地址固定的解决方案。该方案巧妙地结合了弹性网卡（ENI）技术和自动化脚本，有效解决了企业在使用 EMR 时面临的两大挑战：资源使用效率与 IP 地址变化问题。

基于 IoT 数据平台案例看 EMR HBase BucketCache 调优

我们提到，当 HBase 使用 Amazon S3 作为底层存储时，可以通过预热 BucketCache 来提升读取性能。随着 BucketCache 大小的增加，内存占用也呈正比上升。那么，BucketCache 对于性能的提升有多少？这些提升能否弥补 cache 带来的额外内存与算力成本呢？这篇 blog 将讨论这一问题。

基于 Datahub +Redshift 自动生成字段级血缘

这篇文章介绍了一个基于 DataHub 和 SQLLineage 实现 Redshift 字段级血缘的轻量级解决方案。这个方案为数据团队提供了一个实用的数据血缘追踪工具，有助于数据治理、影响分析、问题排查和性能优化等工作。同时其轻量级和可扩展的特点，也使其非常适合中小型数据团队使用。

Snowflake on AWS 使用指南 – 通过 AWS PrivateLink 实现 Snowflake 数据仓库私有连接

全托管云原生数据云服务平台 Snowflake 现已进入亚马逊云科技中国区域。通过与 AWS PrivateLink 的集成，Snowflake 能够为客户提供安全的私有连接，实现 VPC 内应用程序与 Snowflake 环境的直接通信，增强了数据安全性和运维效率。

数据架构的云原生迭代：从 Snowflake 到 AWS Data Lake

随着企业数据规模的不断扩大和分析任务的日益增加，单一的数据仓库架构逐渐无法满足多样化的业务需求。因此，许多企业开始考虑将其数据仓库体系扩展到数据湖，以便更好地管理海量数据并灵活地增加不同的分析服务。本文将通过一个用户案例来阐述这一转变过程，探讨如何在 AWS 环境中实现数据湖与 Snowflake 之间的集成，以支持更复杂的数据分析需求。

亚马逊AWS官方博客

Category: Analytics