亚马逊AWS官方博客
Tag: Datalake
使用AWS Glue在Amazon S3上构建数据湖实战
此文整体采用无服务器的架构,利用AWS Glue加载并转换应用日志和JDBC数据源,并以目标格式写到以S3构建的数据湖中,该技术可以有效的打通因为不同摄入/获取数据方式形成的数据孤岛,以数据为基石更好的帮助业务部门做业务决策。
利用Apache Iceberg在亚马逊云上构建准实时数仓
大数据处理技术现今已广泛应用于各个行业,为业务解决海量存储和海量分析的需求,在构建数据湖的过程中遇到的 1.T+0 的数据落地和处理问题 2.数据修正的成本问题,aws 的emr s3+iceberg能够很好解决。
Amazon EMR之EMR和Hadoop的前世今生
讲解Hadoop的由来,以及为何会有Amazon EMR,它们之间的异同之处
数据分析的技术源流
对于数据仓库、大数据、数据湖等技术源流的回顾与思考,厘清技术发展的脉络
构建数据湖的一款开源利器 – AWS Data Wrangler
How build Datalake with AWS Data Wrangler