亚马逊AWS官方博客
Category: Analytics
PB 级 HDFS 格式数据迁移到 Amazon S3 数据湖最佳实践
随着数据源和数据量的增加,存储新连接数据的需求也在增长。企业客户使用 Hadoop 分布式文件系统 (HDFS) 作为本地 Hadoop 应用程序的数据湖存储库。客户正在将他们的PB级数据迁移到 AWS,以获得更安全、可扩展、敏捷且经济高效的解决方案。
基于无服务器架构和事件驱动的 Data Lake 数据移动
本文探讨一种基于亚马逊云科技无服务器架构和事件驱动的数据移动方案(Replication Kit, Replikit),以满足数据在数据湖上特定场景下的数据发布需求。Replikit可以帮助实现:数据文件的多路定向输出、可跨AWS Partition分区的数据移动、数据移动同时的数据格式转换、多种网络环境以及长期或短期凭证授权下的数据移动。
使用Amazon Web Services CDK,在云上构建DataOPS 平台
这是系列文章的第二篇,在第一篇文章“另辟蹊径: 在云端使用SQL语言实现数据转化,测试和文档维护” 中介绍了做数据准备的ELT模式,以及如何利用DBT来帮助Data Analysts通过SQL做数据转化,测试和文档维护。 在这篇文章中,将以上一篇为基础,使用Amazon Web Services CDK构建一个Data OPS方案。
另辟蹊径: 在云端使用SQL语言实现数据转化,测试和文档维护
本篇文章将为读者介绍一新的开源工具: DBT(Data Build Tool), 并详细演示,如何使用DBT,基于Amazon Redshift 使用SQL语言来做数据转换,测试用例编写 和文档维护。
使用AWS VPC, KMS, Lambda和ElasticSearch 实现安全和加密的数据搜索
安全性是您应用程序的首要任务。安全几乎贯穿了产品研发的每一个环节,作为产品架构设计人员,开发,运维人员,使用系统级别的安全防护手段,可以有效的提高产品的安全性。在本文中,我们将向您介绍如何使用 Amazon VPC,Amazon KMS,Amazon Lambda 以及Amazon OpenSearch(Amazon ElasticSearch) 保护您的数据。
Amazon Redshift数据实时摄入最佳实践
本文将针对在Amazon Redshift的使用场景下,探讨如何准实时或实时的摄入数据到Redshift,以使得数据立即可用,并可以依此来构建实时数仓架构。
构建在Amazon EMR之上的Apache Atlas展现数据目录和数据血缘
在数据驱动业务的时代,各行各业中不同体量的客户都意识到数据的重要性,但是面对日 益增加的各式各样的数据,如何知晓这些数据是什么,什么时间,什么地方发生了变化, 这个数据的拥有者又是谁,等等。只有清楚的知晓这些内容,才能做到数据驱动业务。这 个时候,数据的元数据管理与数据治理成为企业级数据湖的重要部分。本文聚焦于构建在 Amazon EMR 之上的 Apache Atlas 展现数据目录和数据血缘。
Amazon CloudSearch的全托管式搜索解决方案
Amazon Elasticsearch 和 Amazon CloudSearch都是亚马逊基于云的搜索解决方案。Amazon Elasticsearch 是一个基于开源的解决方案,而Amazon CloudSearch 则是一个完全托管的搜索服务。CloudSearch设置起来非常简单,易于使用,它可让您轻松且经济高效地为您的网站或应用程序设置、管理和扩展搜索解决方案
使用 Amazon Athena 做漏斗分析
本文介绍了如何使用 Amazon Athena 做漏斗分析,并给出了完整 SQL 设计方案和思路。
AppSync调试方法
GraphQL是一种新的API规范及查询语言,它按照客户的查询需求“不多不少”准确返回查询结果。它通过简明的类型系统描述查询及返回结果。GraphQL 通常通过单入口来提供 HTTP 服务的完整功能,这一实现方式与暴露一组 URL 且每个 URL 只暴露一个资源的 REST API 不同。GraphQL可以通过 GraphQL schema 的持续演进来避免版本控制。