亚马逊AWS官方博客

Category: Analytics

解密数据编织的核心技术 – 数据虚拟化

数据编织与传统数据平台的核心差异就在于“数据虚拟化(Data Virtualization)”,几乎无需搬移或复制物理数据,即可通过逻辑层快速实现元数据的实时连接、整合、消费,赋能数据服务,真正实现“数据不动,价值动”!本文将为您详细剖析数据编织架构的核心技术——数据虚拟化。

基于 Redshift 和 Grafana 搭建实时大屏应用

本篇博客会基于Kinesis和Redshift stream ingestion以及Amazon托管的Grafana来实现实时大屏,具体业务场景可以满足比如运维实时监控,物联网,APP埋点实时分析,黑五,双11, 618等电商平台的实时数据可视化展示等。以下是构建实时大屏应用的架构流程。

使用 Kafka Connect 简化数据采集管道

Kafka Connect是一种在Apache Kafka和其他数据系统之间实现可靠地流式传输数据的工具。快速定义将大型数据集进出kafka的连接器变得简单。Kafka Connect可以摄入整个数据库或从所有应用程序服务器中收集指标,使其成为Kafka主题数据,从而使数据可用于低延迟的流处理。本文将介绍如何使用Kafka connect 简化数据采集管道架构。

AWS 部署无服务器 DolphinScheduler

Apache DolphinScheduler旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS编排中的关系。解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。 为引入Apache DolphinScheduler,同时考虑生产的健壮性及维护简易性,本文提供了在AWS平台上使用完全无服务器的AWS EKS on Fargate容器服务及Amazon Aurora Serverless PostgreSQL数据库进行部署,并给出详细的部署步骤及维护指南。

使用 AWS CloudFormation 和 AWS CLI 自动管理 Amazon Redshift Serverless 数据仓库

借助 Amazon Redshift Serverless,可以轻松运行和扩展分析,而无需管理实例类型、实例大小、生命周期管理、暂停、恢复等。它可以自动预置和智能扩展数据仓库的计算容量,即使面临最苛刻和最不可预测的工作负载,也能提供高速性能,而且您只需按实际用量付费。