亚马逊AWS官方博客
Category: Analytics
解密数据编织的核心技术 – 数据虚拟化
数据编织与传统数据平台的核心差异就在于“数据虚拟化(Data Virtualization)”,几乎无需搬移或复制物理数据,即可通过逻辑层快速实现元数据的实时连接、整合、消费,赋能数据服务,真正实现“数据不动,价值动”!本文将为您详细剖析数据编织架构的核心技术——数据虚拟化。
基于 Redshift 和 Grafana 搭建实时大屏应用
本篇博客会基于Kinesis和Redshift stream ingestion以及Amazon托管的Grafana来实现实时大屏,具体业务场景可以满足比如运维实时监控,物联网,APP埋点实时分析,黑五,双11, 618等电商平台的实时数据可视化展示等。以下是构建实时大屏应用的架构流程。
使用 Kafka Connect 简化数据采集管道
Kafka Connect是一种在Apache Kafka和其他数据系统之间实现可靠地流式传输数据的工具。快速定义将大型数据集进出kafka的连接器变得简单。Kafka Connect可以摄入整个数据库或从所有应用程序服务器中收集指标,使其成为Kafka主题数据,从而使数据可用于低延迟的流处理。本文将介绍如何使用Kafka connect 简化数据采集管道架构。
AWS 部署无服务器 DolphinScheduler
Apache DolphinScheduler旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS编排中的关系。解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。 为引入Apache DolphinScheduler,同时考虑生产的健壮性及维护简易性,本文提供了在AWS平台上使用完全无服务器的AWS EKS on Fargate容器服务及Amazon Aurora Serverless PostgreSQL数据库进行部署,并给出详细的部署步骤及维护指南。
使用 Amazon MSK Serverless 拆分整体式 Apache Kafka 集群
如今,许多公司都在构建实时应用程序,用于改善其客户体验,并即时从数据中获得见解,以防数据失去价值。因此,各公司面临着需求的增长,需要为开发人员提供 Apache Kafka 等数据流式传输服务。
使用 AWS Glue DataBrew 和 Amazon QuickSight 简化半结构化嵌套 JSON 数据分析
随着行业的发展,数据量越来越大,大数据分析正在成为数据分析和机器学习(ML, Machine Learning)使用案例中的常见需求。数据来自许多不同的来源,并采用结构化、半结构化和非结构化格式。
使用 AWS Glue 蓝图将数据库中的数据大规模登陆到数据湖
要在 AWS 上构建数据湖,常见的数据摄取模式是使用 AWS Glue 作业将数据从关系数据库提取、转换、加载(ETL)到 Amazon Simple Storage Service(Amazon S3)。一个项目通常涉及将数百张表从源数据库提取到数据湖原始层。
AWS Data Lab 如何帮助 BMW Financial Services 设计和构建多账户的现代化数据架构
BMW Group 和 AWS 于 2020 年宣布达成全面战略合作。本次合作的目标是通过将数据和分析置于决策中心,进一步加快 BMW Group 的创新步伐。
使用 AWS CloudFormation 和 AWS CLI 自动管理 Amazon Redshift Serverless 数据仓库
借助 Amazon Redshift Serverless,可以轻松运行和扩展分析,而无需管理实例类型、实例大小、生命周期管理、暂停、恢复等。它可以自动预置和智能扩展数据仓库的计算容量,即使面临最苛刻和最不可预测的工作负载,也能提供高速性能,而且您只需按实际用量付费。
基于Amazon Lambda 和 DuckDB 构建轻量 OLAP 引擎
基于AWS Lambda 和DuckDB构建轻量OLAP引擎