Datalake | 亚马逊AWS官方博客

使用AWS Glue在Amazon S3上构建数据湖实战

此文整体采用无服务器的架构，利用AWS Glue加载并转换应用日志和JDBC数据源，并以目标格式写到以S3构建的数据湖中，该技术可以有效的打通因为不同摄入/获取数据方式形成的数据孤岛，以数据为基石更好的帮助业务部门做业务决策。

大数据处理技术现今已广泛应用于各个行业，为业务解决海量存储和海量分析的需求,在构建数据湖的过程中遇到的 1.T+0 的数据落地和处理问题 2.数据修正的成本问题，aws 的emr s3+iceberg能够很好解决。

讲解Hadoop的由来，以及为何会有Amazon EMR，它们之间的异同之处

对于数据仓库、大数据、数据湖等技术源流的回顾与思考，厘清技术发展的脉络

How build Datalake with AWS Data Wrangler