亚马逊AWS官方博客
Category: Analytics
2021年亚马逊云科技 re:Invent 全球大会分析专题与会者指南
re:Invent的分析专题提供各种数据分析相关演说与会议,亚马逊云科技分析专家及其客户将在这些会议上发表演讲。
使用 Amazon Redshift 构建分层数据仓库分析 OLTP 数据
Instruct how to build a hierarchical data warehouse in Redshift
Spark SQL 任务迁移到Amazon EMR 及性能调优
介绍了如何把IDC里的ETL任务快速迁移上云,并在保证低成本的同时,提升了性能表现,降低代码改动量和运维成本。
使用 Athena Federated Query 为 Tableau Server 提供多种数据源的统一管理和联合查询能力
本文以 CentOS 版本的 Tableau Server 为例,主要介绍如何通过 Athena 集成 Tableau 并不支持的数据源 (如 ElasticSearch,DynamoDB),并且利用 Athena单一数据来源,实现多数据库跨表读取与查询。
使用 JDBC 访问 Amazon Athena 的参数调优实践
本文给出了 Athena JDBC 特殊的工作机制以及如何根据实际情况对 JDBC 的性能进行适当的调优。
PB 级 HDFS 格式数据迁移到 Amazon S3 数据湖最佳实践
随着数据源和数据量的增加,存储新连接数据的需求也在增长。企业客户使用 Hadoop 分布式文件系统 (HDFS) 作为本地 Hadoop 应用程序的数据湖存储库。客户正在将他们的PB级数据迁移到 AWS,以获得更安全、可扩展、敏捷且经济高效的解决方案。
基于无服务器架构和事件驱动的 Data Lake 数据移动
本文探讨一种基于亚马逊云科技无服务器架构和事件驱动的数据移动方案(Replication Kit, Replikit),以满足数据在数据湖上特定场景下的数据发布需求。Replikit可以帮助实现:数据文件的多路定向输出、可跨AWS Partition分区的数据移动、数据移动同时的数据格式转换、多种网络环境以及长期或短期凭证授权下的数据移动。
使用Amazon Web Services CDK,在云上构建DataOPS 平台
这是系列文章的第二篇,在第一篇文章“另辟蹊径: 在云端使用SQL语言实现数据转化,测试和文档维护” 中介绍了做数据准备的ELT模式,以及如何利用DBT来帮助Data Analysts通过SQL做数据转化,测试和文档维护。 在这篇文章中,将以上一篇为基础,使用Amazon Web Services CDK构建一个Data OPS方案。
另辟蹊径: 在云端使用SQL语言实现数据转化,测试和文档维护
本篇文章将为读者介绍一新的开源工具: DBT(Data Build Tool), 并详细演示,如何使用DBT,基于Amazon Redshift 使用SQL语言来做数据转换,测试用例编写 和文档维护。
使用AWS VPC, KMS, Lambda和ElasticSearch 实现安全和加密的数据搜索
安全性是您应用程序的首要任务。安全几乎贯穿了产品研发的每一个环节,作为产品架构设计人员,开发,运维人员,使用系统级别的安全防护手段,可以有效的提高产品的安全性。在本文中,我们将向您介绍如何使用 Amazon VPC,Amazon KMS,Amazon Lambda 以及Amazon OpenSearch(Amazon ElasticSearch) 保护您的数据。