亚马逊AWS官方博客

Tag: Apache Hudi

在Amazon EMR上构建实时数据湖

在 Amazon EMR 集群上,通过使用Flink, Spark 等服务与Hudi 集成,配合 Airflow, Amazon MSK 等服务可以轻松实现流式数据湖的构建,从而有效的减少了数据从产生到消费的数据延迟。同时借助 Amazon EMR 和 Amazon MSK, 消除了 Flink /Spark/Kafka 等基础服务运营开销,让这些服务开箱即用,从而使我们只要关心数据湖的构建以及湖上的数据处理