게시된 날짜: Aug 19, 2021
오늘, AWS에서의 데이터 통합 워크로드를 가속화하는 배치와 스트리밍 작업을 위해 AWS Glue Spark의 새로운 버전인 AWS Glue 버전 3.0을 발표하게 된 것을 기쁘게 생각합니다. AWS Glue 3.0은 AWS Glue 및 Amazon EMR에서 최적화를 포함한 성능 최적화 Spark 런타임을 도입하였으며 오픈 소스 Apache Spark 3.1.1에 기반합니다. AWS Glue 3.0 런타임은 Amazon Simple Storage Service(Amazon S3)에 대한 읽기 및 쓰기 액세스 양쪽에 최적화되어 있으며, 빨라진 벡터화된 리더와 Amazon S3 최적화 출력 커미터를 사용합니다. 파티션 조건자를 사용한 AWS Glue 데이터 카탈로그에 대한 액세스도 최적화합니다. 고도로 파티션된 데이터 집합의 경우 Glue 3.0은 파티션 인덱스를 사용해 불필요한 파티션을 필터링함으로써 실행 속도를 개선합니다. 또한 AWS Glue 3.0 런타임은 AWS Lake Formation과 완전히 통합되어, 리소스 이름과 AWS Lake Formation 태그 기반 액세스 제어를 사용해 데이터베이스, 테이블, 열, 행, 셀 수준 액세스 제어와 같은 서로 다른 세부 수준으로 데이터 액세스를 보호할 수 있습니다. AWS Glue 3.0을 사용하면 Spark 애플리케이션 모니터링, 디버깅, 튜닝에 있어 사용자 경험을 개선하는 새로운 기능도 제공합니다. Spark 3.1.1에서는 AWS Glue 스트리밍 작업에 유용한 새로운 Spark 실행기 메모리 지표 및 Spark Structured Streaming 지표를 포함하여 Spark UI 환경이 개션되었습니다. AWS Glue 2.0과 마찬가지로 AWS Glue 3.0은 스타트업 대기 시간을 줄이고 전체 작업 완료 시간을 개선합니다.
AWS Glue 3.0이 AWS Glue가 제공되는 모든 AWS 리전에서 사용 가능합니다. 이 기능에 대한 자세한 내용은 블로그 및 AWS Glue 사용 설명서를 참조하세요.