亚马逊AWS官方博客

Tag: Big data

使用 AWS Glue、Apache Hudi 和 Amazon S3 构建无服务器管道以分析串流数据

企业通常会积累海量数据,并继续生成越来越多的数据量,从 TB 级到 PB 级,有时甚至会生成 EB 级的数据。此类数据通常在不同的系统中生成,需要聚合到一个位置进行分析和生成洞察。借助数据湖架构,您可以聚合各个孤岛中的数据,将其存储在一个集中式存储库中,实施数据治理,并支持基于这些存储的数据进行分析和机器学习(ML)。

使用 Amazon MSK Connect、Apache Flink 和 Apache Hudi 创建低延迟的源到数据湖管道

近年来,我们已经从整体式架构向微服务架构转变。微服务架构使应用程序更易于扩展和更快开发,从而实现创新并加快新功能的上市。但是,这种方法会导致数据存在于不同的孤岛中,这使得执行分析变得困难。为了获得更深入和更丰富的洞察,您应该将不同孤岛中的所有数据集中到一个地方。

深度探索通过数据共享(data sharing)优化Amazon Redshift工作负载分解

近年来,随着互联网产生数据量的显著增长,一些客户开始询问他们应该如何更高效地使用 Amazon Redshift 。在本篇博客中,我们将通过一个案例探讨如何使用 Amazon Redshift RA3 节点、数据共享(data sharing)以及暂停和恢复(pause/resume)集群在本案例的业务场景下来大幅提升Amazon Redshift 集群的性价比。

使用 Amazon Athena 的联合查询和由用户定义的函数简化 ETL 数据管道

Amazon Athena 最近在预览版中增加了对联合查询及由用户定义的函数 (UDF) 的支持。请参阅使用 Amazon Athena 的全新联合查询对任何数据源进行查询,以了解更多详细信息。Jornaya 帮助营销人员智能的与市场中购买大型生活用品(如房屋、抵押贷款、汽车、保险和教育等)的消费者建立联结。