亚马逊AWS官方博客
Category: Analytics
使用 Amazon MSK Connect、Apache Flink 和 Apache Hudi 创建低延迟的源到数据湖管道
近年来,我们已经从整体式架构向微服务架构转变。微服务架构使应用程序更易于扩展和更快开发,从而实现创新并加快新功能的上市。但是,这种方法会导致数据存在于不同的孤岛中,这使得执行分析变得困难。为了获得更深入和更丰富的洞察,您应该将不同孤岛中的所有数据集中到一个地方。
Spark 小文件合并功能在 AWS S3 上的应用与实践
本文将基于Spark文件提交机制来介绍Spark小文件合并功能的基本原理,并进一步阐述我们在AWS S3上所进行的适配工作,以及应用Spark小文件合并功能带来的收益。
Amazon EMR之EMR和Hadoop的前世今生
讲解Hadoop的由来,以及为何会有Amazon EMR,它们之间的异同之处
自动驾驶数据湖(三):图像处理流程管道
云上自动驾驶数据湖参考架构和落地实践。
自动驾驶数据湖(二):图像处理和模型训练
云上自动驾驶数据湖参考架构和落地实践。
自动驾驶数据湖(一):场景检测
云上自动驾驶数据湖参考架构和落地实践。
通过AWS DMS与Amazon MSK来实时收集Amazon DocumentDB中的流数据
目前市场上对实时数据进行分析的场景越来越多,本文将尝试从DocumentDB中抽取实时数据流,并打入消息队列Kafka,方便后端进行Consume和分析。基于篇幅原因,我们会在之后的文章里使用Flink来实时消费Kafka的数据,方便做特征工程以及实时分析,拿到实时数据中的Insight。
一种低成本的数据访问行为分析方法
一种低成本的数据访问行为分析方法
如何通过互联网安全地访问Amazon Managed Streaming for Apache Kafka (Amazon MSK) 集群(一)
本文首先介绍了需要公开访问Amazon MSK集群的应用场景,并手把手地说明了如何配置Amazon MSK集群的Public Access选项,以及通过IAM访问认证的方式来安全地访问集群。之后,我们会通过另外的博客来介绍公开访问Amazon MSK集群的其他两种模式:SASL/SCRAM 和mTLS 身份验证,敬请期待!
深度探索通过数据共享(data sharing)优化Amazon Redshift工作负载分解
近年来,随着互联网产生数据量的显著增长,一些客户开始询问他们应该如何更高效地使用 Amazon Redshift 。在本篇博客中,我们将通过一个案例探讨如何使用 Amazon Redshift RA3 节点、数据共享(data sharing)以及暂停和恢复(pause/resume)集群在本案例的业务场景下来大幅提升Amazon Redshift 集群的性价比。