Amazon Web Services 한국 블로그
AWS Glue 버전 2.0 정식 출시 – Spark ETL 작업 시간 1/10로 단축 가능 (서울 리전 포함)
AWS Glue는 분석을 위한 데이터를 준비하고 로드할 때 사용할 수 있는 완전관리형 ETL(추출, 변환 및 로드) 서비스입니다. Glue는 “서버리스”이므로 리소스를 프로비저닝하거나 관리할 필요 없이 Glue가 실행될 때의 리소스 요금만 지불하면 됩니다.
이제, Spark ETL 작업을 10배 더 빠르게 시작할 수 있는 AWS Glue 버전 2.0이 정식 출시되었습니다. 시작 지연 시간이 감소함에 따라 전체 작업 완료 시간이 단축되고, 시간이 중요한 마이크로배치 워크로드가 지원되며, 대화형 스크립트 개발 및 데이터 탐색을 통해 비즈니스 생산성이 개선됩니다.
Glue 버전 2.0을 사용하면 작업 시작 지연 시간을 더 정확하게 예측하고 오버헤드를 줄일 수 있습니다. 또한 AWS Glue 버전 2.0 Spark 작업은 1초 단위로 요금이 청구됩니다. 최소 10분에서 1분으로 최소 청구 시간이 10배 줄었습니다. 따라서 기한 내에 처리해야 하는 마이크로배치 대화형 워크로드를 보다 경제적으로 실행할 수 있습니다. 고객은 마이크로배치 작업을 실행하여 데이터 레이크, 데이터 웨어하우스 및 데이터베이스를 빠르게 로드하고 실시간 분석을 지원할 수 있습니다. 작업 시작 시간이 단축되므로 SLA 기반 데이터 파이프라인을 더 안정적으로 실행할 수 있습니다. 작업 시작 시간이 단축되면 대화형 데이터 탐색 및 실험도 가능해집니다. Glue 버전 2.0은 휠 파일 또는 리포지토리의 Python 모듈을 설치하는 새로운 기능도 제공합니다.
사용 방법
AWS Management Console에서 작동 방법을 알아봅시다. 이 새로운 기능은 사용이 쉽습니다. 아래에 나온 것처럼 새 Glue Spark ETL 작업을 생성하거나 기존 Glue Spark ETL 작업을 Glue 버전 2.0으로 이동하면 됩니다.
저는 여러 Amazon S3 버킷에 .csv 파일을 복사하는 단순한 Glue 작업을 생성했습니다.
Glue 버전 1.0
Glue 버전 2.0
Glue 버전 2.0의 시작 시간이 10배 더 빠른 것을 알 수 있습니다.
정식 출시
이제 미국 동부(버지니아 북부, 오하이오, 캘리포니아 북부 및 오레곤), EU(프랑크푸르트, 아일랜드, 런던, 파리 및 스톡홀름), 아시아 태평양(홍콩, 뭄바이, 서울, 싱가포르, 시드니 및 도쿄), 캐나다(중부), 중동(바레인) 및 남아메리카(상파울루)에서 이 기능을 사용할 수 있습니다. 최신 설명서 및 요금 페이지에서 자세한 내용을 확인하십시오.
– Kame;