AWS Glue

간편하고 유연하며 비용 효율적인 ETL

AWS Glue는 고객이 분석을 위해 손쉽게 데이터를 준비하고 로드할 수 있게 지원하는 완전관리형 ETL(추출, 변환 및 로드) 서비스입니다. AWS Management Console에서 클릭 몇 번으로 ETL 작업을 생성하고 실행할 수 있습니다. AWS Glue가 AWS에 저장된 데이터를 가리키도록 하기만 하면, AWS Glue에서 데이터를 검색하고 관련 메타데이터(예: 테이블 정의, 스키마)를 AWS Glue 데이터 카탈로그에 저장합니다. 카탈로그에 저장되면, 데이터는 즉시 검색하고 쿼리하고 ETL에서 사용할 수 있는 상태가 됩니다.

Introducing AWS Glue(1:47)

장점

줄어든 번거로움

AWS Glue는 광범위한 AWS 서비스와 통합되므로 온보딩 시 번거로움이 줄어듭니다. AWS Glue는 기본적으로 Amazon Aurora 및 다른 모든 Amazon RDS 엔진, Amazon Redshift 및 Amazon S3에 저장된 데이터와 Amazon EC2에서 실행되는 Virtual Private Cloud(Amazon VPC)의 공통 데이터베이스 엔진 및 데이터베이스를 지원합니다.

비용 효율성

AWS Glue는 서버리스입니다. 따라서, 프로비저닝하거나 관리할 인프라가 없습니다. AWS Glue는 완전관리형 스케일 아웃 Apache Spark 환경에서 ETL 작업을 실행하는 데 필요한 리소스의 프로비저닝, 구성 및 확장/축소를 처리합니다. 고객은 작업이 실행되는 동안 사용된 리소스에 대한 비용만 지불합니다.

강화된 성능

AWS Glue는 ETL 작업을 구축, 유지 관리 및 실행하는 노력의 대부분을 자동화합니다. AWS Glue는 데이터 원본을 크롤링하고, 데이터 형식을 파악하고, 스키마와 변환을 제안합니다. AWS Glue는 자동으로 코드를 생성하여 데이터 변환 및 로딩 프로세스를 실행합니다.

 

 

작동 방식

데이터 원본과 데이터 대상을 선택합니다. AWS Glue가 Scala 또는 Python으로 ETL 코드를 생성하여 원본으로부터 데이터를 추출하고 해당 데이터를 대상 스키마에 맞춰 변환하고, 이를 대상으로 로드합니다. 사용자는 콘솔, 선호하는 IDE 또는 노트북을 사용하여 해당 코드를 편집, 디버깅 및 테스트할 수 있습니다.

1단계: 데이터 카탈로그 구축
데이터 카탈로그 작성 단계

먼저, AWS Management Console을 사용하여 데이터 원본을 등록합니다. 그러면 AWS Glue가 데이터 원본을 크롤링한 후 JSON, CSV, Parquet 등 많이 사용되는 원본 형식 및 데이터 유형에 맞게 사전에 지정된 분류자를 사용하여 데이터 카탈로그를 구성합니다.

2단계: 변환 생성 및 편집
변환 생성 및 편집 단계

그다음, 데이터 원본과 데이터 대상을 선택합니다. AWS Glue가 Scala 또는 Python으로 ETL 코드를 생성하여 원본으로부터 데이터를 추출하고 해당 데이터를 대상 스키마에 맞춰 변환하고, 이를 대상으로 로드합니다. 사용자는 콘솔, 선호하는 IDE 또는 노트북을 사용하여 해당 코드를 편집, 디버깅 및 테스트할 수 있습니다.

3단계: 작업 예약 및 실행
작업 예약 및 실행 단계

AWS Glue를 사용하면 손쉽게 반복되는 ETL 작업을 예약하거나, 여러 작업을 함께 묶거나, AWS Lambda와 같은 다른 서비스에서 온디맨드로 작업을 호출할 수 있습니다. AWS Glue는 작업 간 종속성을 관리하고, 기본 리소스를 자동으로 확장/축소하며, 작업이 실패하는 경우 다시 시도합니다.

자세한 내용을 알아보려면 AWS Glue 기능 페이지를 방문하거나 제품 설명서를 참조하십시오.

사용 사례

Amazon S3 데이터 레이크에 대해 쿼리 수행

정형 및 비정형 데이터를 저장하고 분석하는 데 데이터 레이크가 점점 더 많이 사용되고 있습니다. 사용자 정의 Amazon S3 데이터 레이크를 구축하려는 경우, AWS Glue를 사용하면 데이터를 이동하지 않고도 즉시 모든 데이터를 분석에 사용할 수 있도록 만들 수 있습니다.

며칠 만에 안전한 데이터 레이크를 구축하려면 AWS Lake Formation에 대해 자세히 알아보십시오.

Amazon S3 데이터 레이크에 대해 쿼리 수행 다이어그램

데이터 웨어하우스의 로그 데이터 분석

AWS Glue를 사용하여 데이터 세트를 정리, 정규화 및 보강함으로써 분석을 위해 클릭스트림을 준비하거나 로그 데이터를 처리합니다. AWS Glue는 반복해서 반정형 데이터에 대한 스키마를 생성하고, ETL 코드를 생성하여 데이터를 변환, 평면화 및 보강하고, 데이터 웨어하우스를 로드합니다.

데이터 웨어하우스의 로그 데이터 분석 다이어그램

여러 데이터 스토어 전체에서 데이터에 대한 통합된 뷰

AWS Glue 데이터 카탈로그를 사용하면 데이터를 이동하지 않고도 여러 AWS 데이터 세트 전체에서 신속하게 데이터를 검색할 수 있습니다. 일단 데이터가 카탈로그에 저장되면, Amazon Athena, Amazon EMR 및 Amazon Redshift Spectrum에서 즉시 검색 및 쿼리에 사용할 수 있습니다.

데이터 스토어 전체의 데이터 뷰 다이어그램

이벤트 주도 ETL 파이프라인

AWS Glue는 새로운 데이터 세트 확보와 같은 이벤트를 기반으로 ETL 작업을 실행할 수 있습니다. 예를 들어 AWS Lambda 함수를 통해 ETL 작업을 트리거하여 Amazon S3에 새로운 데이터가 저장되는 대로 ETL 작업이 실행되도록 할 수 있습니다. 또한, 이 새로운 데이터 세트를 ETL 작업의 일부로 AWS Glue 데이터 카탈로그에 등록할 수도 있습니다.

이벤트 주도 ETL 파이프라인 다이어그램
웹 페이지 이미지
제품 기능 알아보기

AWS Glue의 주요 기능에 대해 자세히 알아보십시오.

자세히 알아보기 
계정 가입 이미지
무료 계정에 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다. 

가입하기 
Toolbox 이미지
콘솔에서 구축 시작

AWS Management Console에서 AWS Glue를 사용하여 구축을 시작하십시오.

로그인