AWS Big Data | 亚马逊AWS官方博客

Kylin 4 集成 Amazon Glue Catalog！

Kylin 4 集成 Amazon Glue Catalog

借助 Amazon Redshift 为具有强大抗风险能力的使用案例提供支持

Amazon Redshift 是最受欢迎、最快的云数据仓库，提供与您的数据湖和其他数据源的无缝集成，性能出色，本文探讨了将 Amazon Redshift 作为核心数据仓库平台来最大限度地提高数据可用性的不同架构和使用案例。

构建现代化数据架构-使用 Amazon AppFlow、AmazonLake Formation 和 Amazon Redshift

这篇博文中的步骤可帮助您计划使用托管服务构建类似的现代数据策略，以便从 Salesforce 等来源提取数据，自动创建元数据目录并在数据湖和数据仓库之间无缝共享数据，以及在出现编排数据工作流程失败时创建警报。

新使用体验 — Amazon SageMaker Studio 创建和管理 EMR 集群与 Spark 作业

Amazon SageMaker Studio 的用户可以直接创建、终止、管理Amazon EMR 集群

使用 Amazon Lake Formation 为数据网格构建数据共享工作流

允许不同的业务部门（LOB, Lines of Business）和企业部门独立运营，并将其数据作为产品提供。使用亚马逊云科技数据管理工具可以实现这样的共享模式

宣布推出 Amazon EMR Serverless（预览版）：无需管理服务器即可运行大数据应用程序

我们很高兴地宣布推出 Amazon EMR Serverless，这是 Amazon EMR 中的一个新选项，借助它，数据工程师和分析师能够轻松、经济高效地在云中运行 PB 级数据分析。

Apache Hudi 0.7.0 和 0.8.0 新功能已在 Amazon EMR 中可用

Amazon Redshift 的新功能 — 2021 年回顾

使用Amazon Glue构建无服务器流式ETL作业

在本文中，我们将深入探讨Amazon Glue中的流式ETL，介绍此功能如何帮助您在流式数据上构建持续的ETL应用程序。Amazon Glue中的流式ETL基于Apache Spark的结构化流引擎，该引擎提供一种高容错、可扩展且易于实现的方法，能够实现端到端的流处理。本文向大家展示使用Amazon Glue构建流处理管道的示例，其中包括从 Amazon Kinesis Data Streams当中读取流式数据、发现schema、运行流式ETL并将结果写入至接收端。

Amazon Redshift 跨数据库查询入门指南（预览版）

Amazon Redshift是一套快速、可扩展且安全的全托管云数据仓库，能够以简单、经济、高效的方式，使用标准SQL以及现有ETL、商务智能（BI）和报告工具对你的数据进行分析。每一天，成千上万的客户使用Amazon Redshift处理EB级别的数据，并为商务智能、预测分析与实时流分析等强大的分析工作负载提供支持。

亚马逊AWS官方博客

Category: AWS Big Data