AWS Glue
AWS 클라우드
평가판 가입

AWS Glue는 데이터 스토어 사이에 데이터를 쉽게 이동시킬 수 있는 완전관리형 ETL 서비스입니다. 이 서비스는 난이도로 인해 시간이 오래 걸리는 데이터 탐색, 변환 및 맵핑을 비롯한 작업 예약을 간소화하고 자동화합니다. 또한 데이터 이동 프로세스를 진행할 수 있도록 사용이 간편한 콘솔을 제공하여 데이터 원본을 살펴보고 분석할 데이터를 준비한 후 안정적으로 데이터 원본에서 대상으로 로드하는 데 도움이 됩니다.

AWS Glue는 Amazon S3, Amazon RDSAmazon Redshift와 통합되어 모든 JDBC 호환 데이터 스토어에 연결할 수 있습니다. 이 서비스는 데이터 원본을 자동으로 크롤링하여 데이터 형식을 식별한 후 스키마와 변환을 제안하기 때문에 데이터 흐름을 직접 코딩하느라 시간을 소비할 필요가 없습니다. 이후 사용자는 필요에 따라 Python, Spark, Git 또는 즐겨 사용하는 통합 개발자 환경(IDE) 같이 이미 알고 있는 도구와 기술을 사용하여 이러한 변환을 편집하고 다른 AWS Glue 사용자와 공유할 수 있습니다. AWS Glue가 ETL 작업을 예약한 후 필요한 모든 인프라를 프로비저닝 및 확장하기 때문에 규모에 상관없이 빠르고 효율적인 ETL 작업 실행이 가능합니다. 따라서 사용자가 관리해야 할 서버가 없으며, ETL 작업에서 사용하는 리소스에 대해서만 비용을 지불하면 됩니다.

Introducing AWS Glue (2:17)

video-thumbnail-aws-glue-launch-reinvent2016
Introducing AWS Glue

서비스 가용성에 대한 최신 정보를 알고 싶다면 여기에 가입하십시오. 그러면 업데이트된 정보가 이메일을 통해 계속해서 발송됩니다.

1단계 데이터 카탈로그 작성

먼저 AWS Management Console을 사용하여 데이터 원본을 AWS Glue에 등록합니다. 그러면 AWS Glue가 데이터 원본을 크롤링한 후 JSON, CSV, Parquet 등 많이 사용되는 원본 및 데이터 형식에 맞게 사전 지정된 구분자를 사용하여 데이터 카탈로그를 작성합니다. 그 밖에도 직접 구분자를 추가하거나, AWS Glue 커뮤니티에서 구분자를 선택하여 크롤에 추가할 수도 있습니다.


1단계 데이터 카탈로그 자동 작성
1단계 데이터 카탈로그 자동 작성

클릭하면 확대된 이미지를 볼 수 있습니다


2단계 변환 생성 및 편집

2단계에서는 데이터 원본과 대상을 선택합니다. 그러면 AWS Glue가 Python 코드를 생성하여 원본에서 데이터를 추출한 후 대상 스키마와 일치하도록 데이터를 변환하고 나서 대상으로 로드합니다. 이렇게 자동 생성된 코드는 불량 데이터나 하드웨어 결함 같은 공통 오류 케이스를 처리합니다. 이 코드는 즐겨 사용하는 IDE를 사용하여 편집한 후 자체적인 샘플 데이터를 사용해 테스트할 수도 있습니다. 또한 다른 AWS Glue 사용자가 공유하고 있는 코드를 찾아서 자신의 작업으로 가져오는 것도 가능합니다.


2단계 변환 생성
2단계 변환 생성

클릭하면 확대된 이미지를 볼 수 있습니다


3단계 작업 예약 및 실행

마지막으로 AWS Glue의 유연한 스케줄러를 사용하여 트리거 또는 AWS Lambda 이벤트에 대한 응답으로 작업 흐름을 반복적으로 실행할 수 있습니다. AWS Glue가 ETL 작업을 Apache Spark 노드로 자동 분산시키기 때문에 데이터 볼륨이 늘어나더라도 ETL 실행 시간은 항상 동일한 수준을 유지합니다. 또한 작업이 올바른 순서에 따라 실행되도록 조정하고, 중단된 작업은 자동으로 다시 시도합니다. 그 밖에 작업을 늦지 않게 완료하여 비용을 최소화할 수 있도록 인프라를 탄력적으로 확장하기도 합니다.


3단계 작업 예약 및 실행
3단계 작업 예약 및 실행

클릭하면 확대된 이미지를 볼 수 있습니다


완료.

정말 간단합니다! 일단 ETL 작업이 프로덕션 단계에 이르면 스키마 정의나 데이터 형식 같은 메타데이터 변경을 추적하여 ETL 작업을 최신 상태로 유지하는 데 AWS Glue가 커다란 도움이 될 수 있습니다.

reinvent-hkt-banner-01

AWS re:Invent는 최대 규모를 자랑하는 글로벌 AWS 커뮤니티 컨퍼런스입니다. 이 컨퍼런스에서는 AWS 서비스에 대한 심층적 지식을 얻고 모범 사례를 배울 수 있습니다. re:Invent 2016에서 AWS Glue를 공개했습니다. AWS Glue와 관련 분석 서비스에 대해 자세히 알아보려면 아래 세션을 시청하거나 전체 빅 데이터 브레이크아웃 세션 목록을 확인하십시오.

AWS Glue는 손쉽게 데이터 소스를 파악하고, 분석할 수 있게 데이터를 준비하여, 데이터 스토어에 안정적으로 로드할 수 있게 해주는 완전관리형 ETL 서비스입니다. 이 세션에서는 AWS Glue를 소개하고, 구성 요소에 대한 개요를 제공하며, 이 서비스를 사용하여 ETL 프로세스를 간소화 및 자동화하는 방법을 설명합니다. 또한 이 서비스를 사용해 볼 수 있는 시점과 평가판에 가입하는 방법도 안내합니다.

여기에서 동영상 보기 »

 

빅 데이터를 빠르고 효율적으로 분석하려면 대규모 데이터 세트를 처리 및 이에 맞게 확장하는 데 최적화된 데이터 웨어하우스가 필요합니다. Amazon Redshift는 빠른 페타바이트 규모의 데이터 웨어하우스로서, 기존 데이터 웨어하우스보다 훨씬 적은 비용으로 간편하고 비용 효율적으로 모든 데이터를 분석할 수 있습니다. 이 세션에서는 빅 데이터 분석을 위해 Amazon Redshift를 사용한 데이터 웨어하우징을 심층적으로 다룹니다. Amazon Redshift의 열 형식 기술과 병렬 처리 기능을 활용하여 높은 처리량과 쿼리 성능을 제공하는 모범 사례를 다룹니다. 또한, 최적의 스키마를 설계하고, 데이터를 효율적으로 로드하며, 워크로드 관리를 사용하는 방법을 설명합니다.

여기에서 동영상 보기 »

 

전 세계에서 더 다양하고 더 많은 빅 데이터가 더 빠르게 생산되고 있습니다. 소비자와 비즈니스는 클래식 배치 처리는 물론이고 빠르게 움직이는 데이터에 대해 1초(심지어 밀리초) 이내에 분석할 것을 요구하고 있습니다. AWS에서는 빅 데이터 문제를 해결할 수 있는 다양한 기술을 제공합니다. 어떤 서비스를 왜, 언제, 어떻게 사용해야 할까요? 이 세션에서는 수집, 저장, 처리 및 시각화라는 다양한 단계로 구성된 데이터 버스로 빅 데이터 처리를 간소화합니다. 그런 다음 데이터 구조, 쿼리 지연 시간, 비용, 요청 속도, 항목 크기, 데이터 볼륨, 내구성 등의 기준에 따라 각 단계에 맞는 기술을 선택하는 방법을 설명합니다. 마지막으로 이러한 기술을 어셈블하여 적절한 비용으로 빅 데이터 문제를 해결할 수 있는 참조 아키텍처, 설계 패턴 및 모범 사례를 제공합니다.

여기에서 동영상 보기 »

 

여기에서 AWS Glue 평가판 프로그램에 가입하십시오. 승인되면 무료로 서비스를 사용해 볼 수 있습니다.

평가판 가입