데이터 검색

모든 AWS 데이터 집합에서 검색

AWS Glue 데이터 카탈로그는 데이터의 위치와 관계없이 모든 데이터 자산을 위한 영구 메타데이터 스토어입니다. 데이터 카탈로그에는 AWS Glue 환경을 관리하는 데 도움이 되는 테이블 정의, 작업 정의, 스키마 및 기타 제어 정보가 담겨 있습니다. 데이터 카탈로그는 데이터에 대한 쿼리를 효율적이고 비용 효과적으로 수행할 수 있도록 자동으로 통계를 계산하고 파티션을 등록합니다. 또한, 종합적인 스키마 버전 내역을 유지 관리하므로 시간이 지나면서 데이터가 어떻게 변경되었는지 파악할 수 있습니다.

자동 스키마 검색

AWS Glue 크롤러는 소스 또는 대상 데이터 스토어에 연결하고, 우선순위가 지정된 분류기 목록을 거치면서 데이터의 스키마를 결정한 후, AWS Glue 데이터 카탈로그에 메타데이터를 생성합니다. 메타데이터는 데이터 카탈로그의 테이블에 저장되고 ETL 작업의 승인 프로세스에 사용됩니다. 크롤러를 일정에 따라 또는 온디맨드로 실행하거나 이벤트를 기반으로 트리거하여 메타데이터를 최신 상태로 유지할 수 있습니다.

데이터 스트림 스키마 관리 및 적용

AWS Glue의 서버리스 기능인 AWS Glue 스키마 레지스트리를 통해 추가 요금 없이 등록된 Apache Avro 스키마를 사용하여 스트리밍 데이터의 변화를 검증하고 제어할 수 있습니다. Apache 라이선스 직렬화 및 역직렬화를 통해 스키마 레지스트리는 Apache Kafka, Amazon Managed Streaming for Apache Kafka(MSK), Amazon Kinesis Data Streams, Apache Flink, Amazon Kinesis Data Analytics for Apache FlinkAWS Lambda용으로 개발된 Java 애플리케이션과 통합됩니다. 데이터 스트리밍 애플리케이션을 스키마 레지스트리와 통합하면 스키마 변화를 관리하는 호환성 확인을 사용하여 데이터 품질을 개선하고 예기치 않은 변경으로부터 보호할 수 있습니다. 또한, 레지스트리에 저장된 스키마를 사용하여 AWS Glue 테이블 및 파티션을 생성하거나 업데이트할 수 있습니다.

데이터 변환

끌어서 놓기 인터페이스로 시각적 데이터 변환

AWS Glue Studio를 사용하면 분산 처리를 위한 확장성이 뛰어난 ETL 작업을 작성할 수 있습니다. Apache Spark 전문가가 될 필요가 없습니다. 끌어서 놓기 작업 에디터에서 ETL 프로세스를 정의하면 AWS Glue가 자동으로 코드를 생성하므로 데이터를 추출, 변환 및 로드할 수 있습니다. 코드는 Scala 또는 Python에서 생성되며 Apache Spark에 맞춰 작성됩니다.

단순한 작업 스케줄링으로 복잡한 ETL 파이프라인 구축

AWS Glue 작업은 일정에 따라, 온디맨드로 또는 이벤트를 기반으로 호출할 수 있습니다. 여러 개의 작업을 병렬로 시작하거나 작업 간에 종속성을 지정하여 복잡한 ETL 파이프라인을 구축할 수 있습니다. AWS Glue는 모든 내부 작업 종속성을 처리하고, 잘못된 데이터를 필터링하며, 실패 시 작업을 다시 수행합니다. 모든 로그와 알림은 Amazon CloudWatch로 푸시되므로, 중앙 서비스에서 알림을 모니터링하고 받을 수 있습니다.

이동 중인 스트리밍 데이터 정리 및 변환

AWS Glue에서의 서버리스 스트리밍 ETL 작업은 Amazon Kinesis 및 Amazon MSK를 포함한 스트리밍 소스로부터 계속해서 데이터를 사용하며, 이동 중인 데이터를 정리 및 변환하고, 대상 데이터 스토어에서 몇 초 안에 분석에 해당 데이터를 사용할 수 있도록 지원합니다. 이 기능을 사용하여 IoT 이벤트 스트림, 클릭스트림 및 네트워크 로그와 같은 이벤트 데이터를 처리합니다. AWS Glue 스트리밍 ETL 작업은 데이터를 보강하고 집계하며, 배치 및 스트리밍 소스를 조인하고, 다양하고 복잡한 분석 및 기계 학습 작업을 실행할 수 있습니다.

데이터 복제

SQL을 사용하여 여러 데이터 스토어에서 데이터 결합 및 복제

AWS Glue Elastic Views에서는 여러 유형의 AWS 데이터 스토어에 저장된 데이터에 대한 보기를 생성하고 원하는 대상 데이터 스토어에서 보기를 구체화할 수 있습니다. AWS Glue Elastic Views를 사용하여 PartiQL에서 쿼리를 작성하면 구체화된 보기를 생성할 수 있습니다. PartiQL은 데이터가 테이블 형식인지, 아니면 유연한 문서와 같은 구조인지에 상관없이, 데이터를 쿼리하고 조작하는 데 사용할 수 있는 오픈 소스 SQL 호환 쿼리 언어입니다. AWS 관리 콘솔에서 쿼리 편집기를 사용하여 대화식으로 PartiQL 쿼리를 작성하거나 API 또는 CLI를 통해 쿼리를 실행할 수 있습니다.

AWS Glue Elastic Views에서는 소스로 Amazon DynamoDB(Amazon Aurora 및 Amazon RDS에 대한 지원이 따름), 대상으로 Amazon Redshift, Amazon OpenSearch Service(Amazon Elasticsearch Service 후속) 및 Amazon S3(Amazon Aurora, Amazon RDS 및 Amazon DynamoDB에 대한 지원이 따름)을 지원합니다. 애플리케이션에서 사용하도록 다른 사용자와 구체화된 보기를 공유하면 개발 시간을 단축할 수 있습니다. AWS Glue Elastic Views는 소스 데이터 스토어의 데이터 변경 사항을 지속적으로 모니터링하고 대상 데이터 스토어에 대한 업데이트를 자동으로 제공합니다. AWS Glue Elastic Views에 대해 자세히 알아보세요.

데이터 준비

기본 제공 기계 학습을 통해 데이터 중복 제거 및 정리

AWS Glue는 기계 학습 전문가가 아니어도 분석용 데이터를 정리 및 준비할 수 있도록 지원합니다. FindMatches 기능은 서로 불완전하게 일치하는 기록을 복제하고 찾습니다. 예를 들어, FindMatches를 사용하여 식당 데이터베이스에서 중복된 레코드를 찾습니다. 가령 한 레코드에는 "121 Main St."에 있는 "Joe's Pizza"가 나열되지만 다른 레코드에는 "121 Main"에 있는 "Joseph's Pizzeria"가 나열되는 경우가 이에 해당합니다. FindMatches는 레코드 세트에 "일치함(matching)" 또는 "일치하지 않음(not matching)"과 같은 레이블을 지정하도록 요청합니다. 그러면 시스템에서는 레코드 페어를 "일치(match)"라고 부르는 조건을 학습하고 특정 데이터베이스 내의 중복된 레코드 또는 두 데이터베이스에서 일치하는 레코드를 검색하는 데 사용할 수 있는 ETL 작업을 구축하게 됩니다.

개발자 엔드포인트에서 ETL 코드 편집, 디버깅 및 테스트

ETL 코드를 대화식으로 개발하려는 경우 AWS Glue에서는 생성된 코드를 사용자가 편집, 디버깅 및 테스트할 수 있도록 개발 엔드포인트를 제공합니다. 사용자는 선호하는 IDE 또는 노트북을 사용할 수 있습니다. 사용자 지정 리더, 라이터 또는 변환 기능을 작성한 후, 이를 AWS Glue ETL 작업에 사용자 지정 라이브러리로 가져올 수 있습니다. 또한, GitHub 리포지토리에서 다른 개발자와 함께 코드를 사용하고 공유할 수 있습니다.

시각적 인터페이스를 사용하여 코드 없이 데이터 정규화

AWS Glue DataBrew는 데이터 분석가 및 데이터 사이언티스트와 같은 사용자가 코드를 작성하지 않고도 데이터를 정리하고 정규화할 수 있도록 포인트 앤 클릭 방식의 대화식 시각적 인터페이스를 제공합니다. Amazon S3, Amazon Redshift, Amazon Aurora 및 Amazon RDS를 비롯한 데이터 레이크, 데이터 웨어하우스 및 데이터베이스에서 직접 데이터를 시각화, 정리 및 정규화할 수 있습니다. 250개가 넘는 기본 제공 변환 중에서 선택하여 데이터를 결합, 피벗 및 전치하고, 저장된 변환을 신규 수신 데이터에 직접 적용하여 데이터 준비 태스크를 자동화할 수 있습니다.

AWS Glue 요금
요금 페이지로 이동하기

AWS Glue의 요금 옵션을 살펴보십시오.

자세히 알아보기 
AWS 계정에 가입
무료 계정에 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다. 

가입하기 
콘솔에서 구축 시작
콘솔에서 구축 시작

AWS Management Console에서 AWS Glue를 사용하여 구축을 시작하십시오.

로그인