AWS Big Data | 亚马逊AWS官方博客

使用 Simple Replay 实用程序简化 Amazon Redshift RA3 迁移评估

我们将介绍有关通过 Amazon Redshift Simple Replay 实用程序自动评估 Amazon Redshift RA3 实例的步骤。如果您使用旧一代 DS2 和 DC2 节点类型在 Amazon Redshift 中运行生产工作负载，则可以使用此解决方案自动从源生产集群中提取工作负载日志并在隔离的环境中重播这些日志，以便您直接无缝地对比这两个 Amazon Redshift 集群。

使用 AWS Lake Formation 和 AWS Glue 设计数据网格架构

在本文中，我们描述一种使用亚马逊云科技原生服务（Amazon Lake Formation和Amazon Glue）实现数据网格的方法。这种方法使业务线 (LOB) 和组织单位能够端到端自主运营其数据产品，同时为整个组织提供集中数据发现、治理和审计，以确保数据隐私和合规性。

EMR与外部KDC集成进行身份认证

安全始终是亚马逊云科技的头号工作，也是Aamzon EMR这项托管Hadoop服务的首要原则。很多客户越来越意识到安全的重要性，尤其数据安全的重要性，在客户进行全球化业务扩展的时候，面对各国家区域的合规要求，更多采用Kerberos在EMR上进行身份验证。但是很多hadoop用户第一次尝试集成EMR和Kerberos时，尤其面对安全审计部门要求而初次使用EMR与外部Kerberos进行集成时，往往由于对Kerberos本身不熟悉，对EMR不熟悉，导致配置错误而无法集成，本文提供了步骤指南，帮助用户在亚马逊云上从头构建的关键步骤包括，创建Kerberos并集成EMR和LDAP。

Apache Atlas数据血缘

Atlas 是一套可伸缩且可扩展的数据治理服务，使企业能够有效和高效地满足其在 Hadoop 生态中的合规要求，并允许与整个企业数据生态系统集成。

基于rclone构建Cross Border Data Transfer服务

基于rclone构建Cross Border Data Transfer服务，简化Cross Border Data Transfer任务管理。

Amazon Glue ETL作业调度工具选型初探

Amazon Glue是一项完全托管，无服务器架构的ETL服务。客户无需预置基础设置，只需要专注开发ETL代码，并且使用Amazon Glue时，只需为ETL作业运行时间付费。在迁移现有ETL任务到Glue的过程中，有可能面临编排选型的问题。本文就编排选型，如何实现自动化迁移工作流，减少开发人员适配工作上做一定的探索。

Redshift表设计优化 – 优化已有数据表中的列大小

本文中介绍了如何通过SQL脚本的方式来对一张Redshift表中的varchar数据列进行优化。

使用 AWS Cloudformation 在 Amazon EMR 中一分钟配置 JuiceFS

这是一篇使用 JuiceFS 作为 Amazon EMR 存储后端的快速入门文章，JuiceFS 是一个专门为在云端工作而设计的 POSIX 兼容的共享文件系统并且兼容 HDFS。JuiceFS 与自建的 HDFS 相比，可以节省 50% ~ 70% 的成本，同时达到与自建 HDFS接近的性能。

Amazon Redshift Spectrum – EB 级的 S3 数据就地查询

Amazon Redshift 允许 AWS 客户构建 PB 级的数据仓库，使来自各种内部和外部源的数据得以整合。由于 Redshift 针对大型表上的复杂查询（通常涉及多个join）进行了优化，因此它可以毫不费力地处理大量零售、库存和财务数据。加载数据后，我们的客户可以使用由 Redshift 合作伙伴提供的大量企业报告和商业智能工具。

AWS 教您手把手玩转 Apache Superset 可视化 Amazon S3 里的数据

本篇博客会带您一步一步地在AWS上部署Apache Superset并在Superset上创建一个展示新冠肺炎情况的Dashboard（示例如下）。新冠肺炎数据存储于Amazon S3上并通过Amazon Athena来直接查询。

亚马逊AWS官方博客

Category: AWS Big Data