亚马逊AWS官方博客
Category: AWS Big Data
使用Amazon Glue构建无服务器流式ETL作业
在本文中,我们将深入探讨Amazon Glue中的流式ETL,介绍此功能如何帮助您在流式数据上构建持续的ETL应用程序。Amazon Glue中的流式ETL基于Apache Spark的结构化流引擎,该引擎提供一种高容错、可扩展且易于实现的方法,能够实现端到端的流处理。本文向大家展示使用Amazon Glue构建流处理管道的示例,其中包括从 Amazon Kinesis Data Streams当中读取流式数据、发现schema、运行流式ETL并将结果写入至接收端。
Amazon Redshift 跨数据库查询入门指南(预览版)
Amazon Redshift是一套快速、可扩展且安全的全托管云数据仓库,能够以简单、经济、高效的方式,使用标准SQL以及现有ETL、商务智能(BI)和报告工具对你的数据进行分析。每一天,成千上万的客户使用Amazon Redshift处理EB级别的数据,并为商务智能、预测分析与实时流分析等强大的分析工作负载提供支持。
使用 Simple Replay 实用程序简化 Amazon Redshift RA3 迁移评估
我们将介绍有关通过 Amazon Redshift Simple Replay 实用程序自动评估 Amazon Redshift RA3 实例的步骤。如果您使用旧一代 DS2 和 DC2 节点类型在 Amazon Redshift 中运行生产工作负载,则可以使用此解决方案自动从源生产集群中提取工作负载日志并在隔离的环境中重播这些日志,以便您直接无缝地对比这两个 Amazon Redshift 集群。
使用 AWS Lake Formation 和 AWS Glue 设计数据网格架构
在本文中,我们描述一种使用亚马逊云科技原生服务(Amazon Lake Formation和Amazon Glue)实现数据网格的方法。这种方法使业务线 (LOB) 和组织单位能够端到端自主运营其数据产品,同时为整个组织提供集中数据发现、治理和审计,以确保数据隐私和合规性。
EMR与外部KDC集成进行身份认证
安全始终是亚马逊云科技的头号工作,也是Aamzon EMR这项托管Hadoop服务的首要原则。很多客户越来越意识到安全的重要性,尤其数据安全的重要性,在客户进行全球化业务扩展的时候,面对各国家区域的合规要求,更多采用Kerberos在EMR上进行身份验证。但是很多hadoop用户第一次尝试集成EMR和Kerberos时,尤其面对安全审计部门要求而初次使用EMR与外部Kerberos进行集成时,往往由于对Kerberos本身不熟悉,对EMR不熟悉,导致配置错误而无法集成,本文提供了步骤指南,帮助用户在亚马逊云上从头构建的关键步骤包括,创建Kerberos并集成EMR和LDAP。
Apache Atlas数据血缘
Atlas 是一套可伸缩且可扩展的数据治理服务,使企业能够有效和高效地满足其在 Hadoop 生态中的合规要求,并允许与整个企业数据生态系统集成。
基于rclone构建Cross Border Data Transfer服务
基于rclone构建Cross Border Data Transfer服务,简化Cross Border Data Transfer任务管理。
Amazon Glue ETL作业调度工具选型初探
Amazon Glue是一项完全托管,无服务器架构的ETL服务。客户无需预置基础设置,只需要专注开发ETL代码,并且使用Amazon Glue时,只需为ETL作业运行时间付费。 在迁移现有ETL任务到Glue的过程中,有可能面临编排选型的问题。本文就编排选型,如何实现自动化迁移工作流,减少开发人员适配工作上做一定的探索。
Redshift表设计优化 – 优化已有数据表中的列大小
本文中介绍了如何通过SQL脚本的方式来对一张Redshift表中的varchar数据列进行优化。
使用 AWS Cloudformation 在 Amazon EMR 中一分钟配置 JuiceFS
这是一篇使用 JuiceFS 作为 Amazon EMR 存储后端的快速入门文章,JuiceFS 是一个专门为在云端工作而设计的 POSIX 兼容的共享文件系统并且兼容 HDFS。JuiceFS 与自建的 HDFS 相比,可以节省 50% ~ 70% 的成本,同时达到与自建 HDFS接近的性能。