AWS Glue
AWS 클라우드
AWS Glue 시작하기

AWS Glue는 고객이 분석을 위해 손쉽게 데이터를 준비하고 로드할 수 있게 지원하는 완전관리형 ETL(추출, 변환 및 로드) 서비스입니다. AWS Management Console에서 클릭 몇 번으로 ETL 작업을 생성하고 실행할 수 있습니다. AWS Glue가 AWS에 저장된 데이터를 가리키도록 하기만 하면, AWS Glue에서 데이터를 검색하고 관련 메타데이터(예: 테이블 정의, 스키마)를 AWS Glue 데이터 카탈로그에 저장합니다. 카탈로그에 저장되면, 데이터는 즉시 검색하고 쿼리하고 ETL에서 사용할 수 있는 상태가 됩니다. AWS Glue에서 코드를 생성하여 데이터 변환 및 데이터 로딩 프로세스를 실행합니다.

AWS Glue에서 사용자 지정 가능하고 재사용 가능하며 이동 가능한 Python 코드를 생성합니다. ETL 작업 준비가 완료되면, AWS Glue의 완전관리형 스케일 아웃 Apache Spark 환경에서 실행하도록 일정을 예약할 수 있습니다. AWS Glue는 종속성 확인, 작업 모니터링 및 알림 기능이 탑재된 유연한 스케줄러를 제공합니다.

AWS Glue는 서버리스이므로 구매, 설정 또는 관리할 인프라가 없습니다. 작업을 완료하는 데 필요한 환경을 자동으로 프로비저닝하며, 고객은 ETL 작업을 실행하는 동안 사용한 컴퓨팅 리소스에 대한 비용만 지불하면 됩니다. AWS Glue에서는 몇 분이면 데이터를 분석에 사용할 수 있는 상태로 만들 수 있습니다.

자세히 알아보려면 진행 예정인 테크 톡에 참가하십시오: Amazon Redshift Spectrum, AWS Glue 및 Amazon QuickSight를 사용한 서버리스 분석 지금 등록>>

AWS Glue
1:47
Serverless, Fully Managed, and Cloud-Optimized ETL Service

ETL을 시작할 준비가 되셨습니까?

AWS Glue 시작하기


간편성

간편성

AWS Glue는 ETL 작업을 구축, 유지 관리 및 실행하는 노력 대부분을 자동화합니다. AWS Glue는 데이터 원본을 크롤링하고, 데이터 형식을 파악하고, 스키마와 변환을 제안합니다. AWS Glue에서 자동으로 코드를 생성하여 데이터 변환 및 데이터 로딩 프로세스를 실행합니다.

통합

통합

AWS Glue는 다양한 AWS 서비스와 통합됩니다. AWS Glue는 기본적으로 Amazon Aurora, Amazon RDS for Oracle, MySQL용 Amazon RDS, PostgreSQL용 Amazon RDS, SQL Server용 Amazon RDS, Amazon Redshift, Amazon S3, 그리고 Amazon EC2에서 실행되는 Virtual Private Cloud(VPC)에 있는 MySQL, Oracle, Microsoft SQL Server 및 PostgreSQL 데이터베이스에 저장된 데이터를 지원합니다. AWS Glue는 Amazon Athena, Amazon EMR 및 Amazon Redshift Spectrum 및 모든 Apache Hive Metastore 호환 애플리케이션과 즉시 통합됩니다.

서버리스

서버리스

AWS Glue는 서버리스입니다. 따라서, 프로비저닝하거나 관리할 인프라가 없습니다. AWS Glue는 완전관리형 스케일 아웃 Apache Spark 환경에서 ETL 작업을 실행하는 데 필요한 리소스의 프로비저닝, 구성 및 확장/축소를 처리합니다. 고객은 작업이 실행되는 동안 사용된 리소스에 대한 비용만 지불합니다.

개발자 친화적

개발자 친화적

AWS Glue는 익숙한 기술인 Python과 Spark를 사용하여 사용자 지정 가능하고 재사용 가능하며 이동 가능한 ETL 코드를 생성합니다. 또한, 고객은 사용자 지정 리더, 라이터 및 변환 기능을 Glue ETL 코드로 가져올 수 있습니다. AWS Glue가 생성하는 코드는 개방형 프레임워크를 기반으로 하므로, 잠금 기능은 없습니다. 어디서든 사용할 수 있습니다.


1단계: 데이터 카탈로그 구축
1단계: 데이터 카탈로그 구축

확대하려면 클릭

먼저, AWS Management Console을 사용하여 데이터 원본을 등록합니다. 그러면 AWS Glue가 데이터 원본을 크롤링한 후 JSON, CSV, Parquet 등 많이 사용되는 원본 형식 및 데이터 유형에 맞게 사전에 지정된 분류자를 사용하여 데이터 카탈로그를 구성합니다.

2단계: 변환 생성 및 편집
2단계: 변환 생성 및 편집

확대하려면 클릭

그다음, 데이터 원본과 데이터 대상을 선택합니다. AWS Glue가 Python으로 ETL 코드를 생성하여 원본으로부터 데이터를 추출하고 해당 데이터를 대상 스키마에 맞춰 변환하고, 이를 대상으로 로드합니다. 사용자는 콘솔, 선호하는 IDE 또는 노트북을 사용하여 해당 코드를 편집, 디버깅 및 테스트할 수 있습니다.

3단계: 작업 예약 및 실행
3단계: 작업 예약 및 실행

확대하려면 클릭

AWS Glue를 사용하면 손쉽게 반복되는 ETL 작업을 예약하거나, 여러 작업을 함께 묶거나, AWS Lambda와 같은 다른 서비스에서 온디맨드로 작업을 호출할 수 있습니다. AWS Glue는 작업 간 종속성을 관리하고, 기본 리소스를 자동으로 확장/축소하며, 작업이 실패하는 경우 다시 시도합니다.

자세한 내용을 알아보려면 AWS Glue 제품 세부 정보 페이지를 방문하거나 제품 설명서를 참조하십시오.


AWS Glue를 사용하여 데이터 세트를 정리, 정규화 및 보강함으로써 분석을 위해 클릭스트림을 준비하거나 로그 데이터를 처리합니다. AWS Glue는 반복해서 반정형 데이터에 대한 스키마를 생성하고, ETL 코드를 생성하여 데이터를 변환, 평면화 및 보강하고, 데이터 웨어하우스를 로드합니다.

분석을 위해 데이터를 준비 및 로드

AWS Glue 데이터 카탈로그를 사용하면 데이터를 이동하지 않고도 여러 AWS 데이터 세트 전체에서 신속하게 데이터를 검색할 수 있습니다. 일단 데이터가 카탈로그에 저장되면, Amazon Athena, Amazon EMR 및 Amazon Redshift Spectrum에서 즉시 검색 및 쿼리에 사용할 수 있습니다.

데이터에 대한 통합된 뷰 구축

정형 및 비정형 데이터를 저장하고 분석하는 데 데이터 레이크가 점점 더 많이 사용되고 있습니다. Amazon S3 데이터 레이크를 사용하는 경우, AWS Glue를 사용하면 데이터를 이동하지 않고도 즉시 모든 데이터를 분석에 사용할 수 있도록 만들 수 있습니다. Glue 크롤러가 데이터 레이크를 스캔하고 Glue 데이터 카탈로그를 기본 데이터와 동기화된 상태로 유지합니다. 그런 다음 사용자가 Amazon Athena와 Amazon Redshift Spectrum을 사용하여 데이터 레이크에 대해 직접 쿼리를 수행할 수 있습니다. 또한, Glue 데이터 카탈로그를 Amazon EMR에서 실행되는 빅 데이터 애플리케이션을 위한 외부 Apache Hive Metastore로 사용할 수도 있습니다.

데이터에 대한 통합된 뷰 구축

AWS Glue는 새로운 데이터 세트 확보와 같은 이벤트를 기반으로 ETL 작업을 실행할 수 있습니다. 예를 들어 AWS Lambda 함수를 통해 ETL 작업을 트리거하여 Amazon S3에 새로운 데이터가 저장되는 대로 ETL 작업이 실행되도록 할 수 있습니다. 또한, 이 새로운 데이터 세트를 ETL 작업의 일부로 AWS Glue 데이터 카탈로그에 등록할 수도 있습니다.

새로운 데이터가 나타날 때 ETL 작업을 자동화

쉽게 AWS Glue를 시작할 수 있습니다. AWS Management Console에 로그인하여 [Analytics] 카테고리 아래의 [Glue]로 이동하기만 하면 됩니다.

ETL을 시작할 준비가 되셨습니까?

AWS Glue 시작하기