Big data | 亚马逊AWS官方博客

使用 AWS Glue、Apache Hudi 和 Amazon S3 构建无服务器管道以分析串流数据

企业通常会积累海量数据，并继续生成越来越多的数据量，从 TB 级到 PB 级，有时甚至会生成 EB 级的数据。此类数据通常在不同的系统中生成，需要聚合到一个位置进行分析和生成洞察。借助数据湖架构，您可以聚合各个孤岛中的数据，将其存储在一个集中式存储库中，实施数据治理，并支持基于这些存储的数据进行分析和机器学习（ML）。

利用Amazon Redshift的流式摄取构建实时数仓

可将数据流摄取到云数据仓库中。流式摄取可以帮助用户以极低延迟，在几秒钟内将数百MB数据摄取到Amazon Redshift云数据仓库集群

使用 Amazon MSK Connect、Apache Flink 和 Apache Hudi 创建低延迟的源到数据湖管道

近年来，我们已经从整体式架构向微服务架构转变。微服务架构使应用程序更易于扩展和更快开发，从而实现创新并加快新功能的上市。但是，这种方法会导致数据存在于不同的孤岛中，这使得执行分析变得困难。为了获得更深入和更丰富的洞察，您应该将不同孤岛中的所有数据集中到一个地方。

深度探索通过数据共享（data sharing）优化Amazon Redshift工作负载分解

近年来，随着互联网产生数据量的显著增长，一些客户开始询问他们应该如何更高效地使用 Amazon Redshift 。在本篇博客中，我们将通过一个案例探讨如何使用 Amazon Redshift RA3 节点、数据共享（data sharing）以及暂停和恢复（pause/resume）集群在本案例的业务场景下来大幅提升Amazon Redshift 集群的性价比。

Spark SQL 任务迁移到Amazon EMR 及性能调优

介绍了如何把IDC里的ETL任务快速迁移上云，并在保证低成本的同时，提升了性能表现，降低代码改动量和运维成本。

使用 AWS Cloudformation 在 Amazon EMR 中一分钟配置 JuiceFS

这是一篇使用 JuiceFS 作为 Amazon EMR 存储后端的快速入门文章，JuiceFS 是一个专门为在云端工作而设计的 POSIX 兼容的共享文件系统并且兼容 HDFS。JuiceFS 与自建的 HDFS 相比，可以节省 50% ~ 70% 的成本，同时达到与自建 HDFS接近的性能。

使用 Amazon Athena 的联合查询和由用户定义的函数简化 ETL 数据管道

Amazon Athena 最近在预览版中增加了对联合查询及由用户定义的函数 (UDF) 的支持。请参阅使用 Amazon Athena 的全新联合查询对任何数据源进行查询，以了解更多详细信息。Jornaya 帮助营销人员智能的与市场中购买大型生活用品（如房屋、抵押贷款、汽车、保险和教育等）的消费者建立联结。

使用 Amazon EMR、Amazon SageMaker 和 AWS Service Catalog 设置 Intuit 数据湖

我们将讨论在较高层面构建 Intuit 数据湖所包含的技术和过程，包括设置账户和资源所使用的整体结构与自动化等。请关注我们这个空间的未来动态，阅读由其他合作构建 Intuit 数据湖的团队和工程师发布的关于该系统特定方面的更详细博文。

亚马逊AWS官方博客

Tag: Big data