亚马逊AWS官方博客

Tag: 翟羽翔

用 Airflow 实现 EMR 集群的动态启停并通过 Livy 远程提交任务

互联网行业每天都有大量的日志生成,需要在固定时间段对数据进行ETL工作。用户常规的做法是启动一组长期运行的EMR集群,配置远程提交任务的服务器,结合自身的任务调度系统定期提交任务,但集群执行完成任务之后会闲置,造成不必要的开销。另一种方法是在需要执行任务的时候启动集群,任务完成之后关闭集群,但因为每次启动集群后,主节点与核心节点的IP都会发生分变化,导致每次都需要重新配置提交任务的服务器,造成额外的工作负担。本文介绍了一种通过Apache Airflow任务调度系统动态启停Amazon EMR集群的方法,并通过EMR内置的Livy远程提交作业,这样可以节省大量的成本并且无需进行过多的额外配置。