Amazon Web Services 한국 블로그

AWS Glue 4.0 – 새롭고 업데이트된 엔진, 더 많은 데이터 형식 제공 등

AWS Glue는 데이터 통합 및 ETL 워크로드의 개발과 실행 속도를 높이는 데 도움이 되는 확장 가능한 서버리스 도구입니다. 오늘 AWS는 업데이트된 엔진, 추가 데이터 형식 지원, Ray 지원 등의 다양한 새로운 기능을 제공하는 Glue 4.0을 출시합니다.

자세히 살펴보기 전에, 먼저 버전 관리에 대해 간단히 말씀드리겠습니다. 서비스 팀이 API를 소유하고 완전히 제어하는 대부분의 AWS 서비스와 달리, Glue에는 오픈 소스 커뮤니티에서 개발한 라이브러리, 엔진 및 도구 모음이 포함되어 있습니다. 이러한 구성 요소 중 일부는 주로 효율성을 높이기 위해서 이전 버전과의 호환성을 엄격하게 유지하지 않습니다. 구성 요소 변경이 Glue 작업에 영향을 주지 않게 하려면, 작업을 만들 때 특정 Glue 버전을 선택해야 합니다.

Glue의 각 버전은 추가된 기능은 물론 성능 및 안정성에도 이점을 제공하며, Glue가 제공하는 모든 기능을 활용하려면 시간 경과에 따른 업그레이드를 계획해야 합니다.

Glue 심층 탐색
Glue 4.0의 새로운 기능을 자세히 살펴보겠습니다.

업데이트된 엔진 – 이 버전의 Glue에는 Python 3.10Apache Spark 3.3.0이 포함되어 있습니다. 두 엔진 모두 버그 수정 및 성능 개선이 적용되었습니다. Spark에는 행 수준 런타임 필터링, 개선된 오류 메시지, 추가내장 함수 등의 새로운 기능이 포함되어 있습니다. Glue와 Amazon EMR은 모두 최적화된 Spark 런타임을 사용합니다. 이 런타임은 AWS 클라우드에서의 실행에 최적화되어 기본 오픈 소스 버전보다 2~3배 빠를 수 있습니다.

새로운 엔진 플러그인 – Glue 4.0는 디스크 사용량을 확장하는 데 도움이 되는 Spark용 Cloud Shuffle Service 플러그인을 기본적으로 지원하며, 적응형 쿼리 실행은 쿼리가 실행될 때 쿼리를 동적으로 최적화합니다.

Pandas 지원 Pandas는 Python을 기반으로 구축된 오픈 소스 데이터 분석 및 조작 도구입니다. 이 도구는 쉽게 배울 수 있으며, 흥미롭고 유용한 여러 데이터 조작 함수가 포함되어 있습니다.

새로운 데이터 형식 – 데이터 레이크를 구축할 때나 데이터 웨어하우스를 구축할 때도, Glue 4.0은 이제 Apache Hudi, Apache IcebergDelta Lake 지원을 바탕으로 소스 및 타겟에 대한 새로운 오픈 소스 데이터 형식을 처리합니다. 이러한 새로운 옵션과 형식에 대해 자세히 알고 싶다면 주요 설계 개념을 구현하여 AWS Glue를 이용해 Apache Hudi 시작하기를 참조하세요.

기타 기능 – 위의 항목 외에, Glue 4.0에는 추가 데이터 유형 및 인코딩을 지원하는 Parquet 벡터화 리더도 포함되어 있습니다. Glue 4.0은 log4j 2를 사용하도록 업그레이드되었고 log4j 1을 사용하지 않아도 됩니다.

지금 이용 가능
Glue 4.0은 현재 미국 동부(오하이오, 버지니아 북부), 미국 서부(캘리포니아 북부, 오레곤), 아프리카(케이프타운), 아시아 태평양(홍콩, 자카르타, 뭄바이, 오사카, 서울, 싱가포르, 시드니, 도쿄), 캐나다(중부), 유럽(프랑크푸르트, 아일랜드, 런던, 밀라노, 파리, 스톡홀름), 중동(바레인) 및 남아메리카(상파울루) AWS 리전에서 사용할 수 있습니다.

Jeff;