일반

Q: AWS Glue란 무엇입니까?

AWS Glue는 분석을 위해 데이터를 준비하는 시간 소모적인 단계를 자동화하는 완전관리형 ETL(추출, 변환 및 로드) 서비스로서, 사용량에 따라 요금을 지불합니다. AWS Glue는 Glue 데이터 카탈로그를 통해 데이터를 자동으로 검색 및 프로파일링하고, ETL 코드를 추천 및 생성하여 소스 데이터를 대상 스키마로 변환하고, 완전관리형 스케일 아웃 Apache Spark 환경에서 ETL 작업을 실행하여 데이터를 대상에 로드합니다. 또한, 이를 사용하여 복잡한 데이터 흐름을 설정, 오케스트레이션 및 모니터링할 수 있습니다.

Q: AWS Glue를 시작하려면 어떻게 해야 합니까?

AWS Glue 사용을 시작하려면 AWS Management Console에 로그인하여 [Analytics] 카테고리 아래의 [Glue]로 이동하면 됩니다. AWS Glue의 예제 사용 사례를 설명하는 안내 자습서 중 하나를 따라 하면 됩니다. 또한, AWS Labs 아래의 GitHub 리포지토리에서 샘플 ETL 코드를 확인할 수 있습니다.

Q: AWS Glue의 주요 구성 요소는 무엇입니까?

AWS Glue는 메타데이터 중앙 리포지토리인 데이터 카탈로그, Scala 또는 Python 코드를 자동 생성할 수 있는 ETL 엔진, 그리고 종속성 확인, 작업 모니터링 및 재시도를 처리하는 유연한 스케줄러로 구성됩니다. 이러한 구성 요소가 결합되어 데이터의 검색, 분류, 정리, 보강 및 이동과 관련된 획일화된 작업 대부분을 자동화하므로 사용자는 데이터 분석에 더 많은 시간을 할애할 수 있습니다.

Q: AWS Glue는 언제 사용해야 합니까?

AWS Glue는 소유한 데이터의 속성을 검색하고, 데이터를 변환하여 분석용으로 준비하는 데 사용해야 합니다. Glue는 Amazon S3의 데이터 레이크, Amazon Redshift의 데이터 웨어하우스, AWS에서 실행되는 다양한 데이터베이스에 저장된 정형 및 반정형 데이터를 모두 자동으로 검색할 수 있습니다. 또한, ETL에서 사용할 수 있고 Amazon Athena, Amazon EMRAmazon Redshift Spectrum과 같은 서비스에서 쿼리 및 보고하는 데 사용할 수 있는 Glue 데이터 카탈로그를 통해 데이터에 대한 통합된 뷰를 제공합니다. Glue는 ETL 작업을 위한 Scala 또는 Python 코드를 자동으로 생성하며, 이미 익숙한 도구를 사용하여 ETL 작업을 추가로 사용자 지정할 수 있습니다. AWS Glue는 서버리스이므로 구성하거나 관리할 컴퓨팅 리소스가 없습니다.

Q: AWS Glue에서 지원하는 데이터 원본에는 어떤 것이 있습니까?

AWS Glue는 기본적으로 Amazon Aurora, Amazon RDS for MySQL, Amazon RDS for Oracle, Amazon RDS for PostgreSQL, Amazon RDS for SQL Server, Amazon RedshiftAmazon S3뿐만 아니라 Amazon EC2에서 실행되는 Virtual Private Cloud(VPC)에 있는 MySQL, Oracle, Microsoft SQL Server 및 PostgreSQL 데이터베이스에 저장된 데이터를 지원합니다. AWS Glue 데이터 카탈로그에 저장된 메타데이터는 Amazon Athena, Amazon EMRAmazon Redshift Spectrum에서 바로 액세스할 수 있습니다. 또한, 사용자 지정 Scala 또는 Python 코드를 작성하고 사용자 지정 라이브러리와 Jar 파일을 Glue ETL 작업으로 가져와서 AWS Glue에서 기본적으로 지원하지 않는 데이터 소스에 액세스할 수 있습니다. 사용자 지정 라이브러리를 가져오는 방법을 자세히 알아보려면 설명서를 참조하십시오.

Q: AWS Glue는 AWS Lake Formation과 어떤 관계입니까?

A: Lake Formation은 콘솔 제어, ETL 코드 생성, 작업 모니터링, 공통 데이터 카탈로그, 서버리스 아키텍처를 포함하여 AWS Glue에서 공유 인프라를 활용합니다. AWS Glue는 아직 이러한 유형의 기능에 초점을 맞추고 있는 반면, Lake Formation은 모든 AWS Glue 기능을 포함하면서, 동시에 데이터 레이크를 구축하고 보안하고 관리하는 데 유용한 추가 기능을 제공합니다. 자세한 내용은 AWS Lake Formation 페이지를 참조하십시오.

AWS Glue 데이터 카탈로그

Q: AWS Glue 데이터 카탈로그란 무엇입니까?

AWS Glue 데이터 카탈로그는 모든 데이터 자산의 정형 및 운영 메타데이터를 저장하는 중앙 리포지토리입니다. 해당 데이터 세트에 대해 테이블 정의와 물리적 위치를 저장하고, 비즈니스 관련 속성을 추가하고, 시간이 지나면서 이 데이터가 어떻게 변경되는지 추적할 수 있습니다.

AWS Glue 데이터 카탈로그는 Apache Hive Metastore와 호환되며, Amazon EMR에서 실행되는 빅 데이터 애플리케이션용 Apache Hive Metastore를 즉시 대체할 수 있습니다. AWS Glue 데이터 카탈로그를 Apache Hive Metastore로 사용하도록 EMR 클러스터를 설정하는 방법을 자세히 알아보려면 여기를 클릭하십시오.

또한, AWS Glue 데이터 카탈로그는 Amazon Athena, Amazon EMRAmazon Redshift Spectrum과 즉시 통합될 수 있습니다. 일단 Glue 데이터 카탈로그에 테이블 정의를 추가하면, 이를 ETL에 사용할 수 있고 Amazon Athena, Amazon EMR 및 Amazon Redshift Spectrum에서 쿼리하는 데 바로 사용할 수 있습니다. 따라서 이러한 서비스 간에 데이터에 대한 공통된 뷰가 제공됩니다.

Q: 내 메타데이터를 AWS Glue 데이터 카탈로그에 추가하려면 어떻게 해야 합니까?

AWS Glue는 메타데이터를 AWS Glue 데이터 카탈로그에 채우는 몇 가지 방법을 제공합니다. Glue 크롤러가 사용자가 소유한 다양한 데이터 스토어를 스캔하고, 스키마와 파티션 구조를 자동으로 추론한 후, 그에 해당하는 테이블 정의 및 통계로 Glue 데이터 카탈로그를 채웁니다. 크롤러가 정기적으로 실행되도록 일정을 예약하여 메타데이터가 항상 최신으로 유지되고 기본 데이터와 동기화되도록 할 수도 있습니다. 아니면 AWS Glue 콘솔을 사용하거나 API를 호출하여 수동으로 테이블 세부 정보를 추가 및 업데이트할 수 있습니다. 또한, Amazon Athena 콘솔을 통해 Hive DDL 문을 실행하거나 Amazon EMR 클러스터에서 Hive 클라이언트를 실행할 수도 있습니다. 마지막으로 이미 영구 Apache Hive Metastore가 있다면, AWS의 가져오기 스크립트를 사용하여 AWS Glue 데이터 카탈로그로 해당 메타데이터를 대량으로 가져오는 작업을 수행할 수 있습니다.

Q: AWS Glue 크롤러란 무엇입니까?

AWS Glue 크롤러는 데이터 스토어에 연결하고, 우선순위가 지정된 분류자 목록을 거치면서 데이터 스키마 및 기타 통계를 추출한 후, 이러한 메타데이터로 Glue 데이터 카탈로그를 채웁니다. 크롤러는 주기적으로 실행되어 새로운 데이터의 가용성과 기존 데이터에 대한 변경 사항(데이터 정의 변경 등)을 감지할 수 있습니다. 크롤러는 새로운 테이블, 기존 테이블에 새로운 파티션, 새로운 테이블 정의 버전을 자동으로 추가합니다. 자체 파일 유형을 분류하도록 Glue 크롤러를 사용자 지정할 수 있습니다.

Q: 내 기존 Apache Hive Metastore에서 AWS Glue 데이터 카탈로그로 데이터를 가져오려면 어떻게 해야 합니까?

Apache Hive Metastore에서 읽어오고, 읽어온 데이터를 Amazon S3에 중간 형식으로 내보낸 후, 해당 데이터를 AWS Glue 데이터 카탈로그로 가져오도록 ETL 작업을 실행하면 됩니다.

Q: 내 메타데이터를 AWS Glue 데이터 카탈로그에 저장하는 경우에 내 Apache Hive Metastore를 유지해야 합니까?

AWS Glue 데이터 카탈로그는 Apache Hive Metastore와 호환됩니다. Glue 데이터 카탈로그 엔드포인트를 가리키도록 하고 이를 Apache Hive Metastore 대신 사용할 수 있습니다. AWS Glue 데이터 카탈로그를 Apache Hive Metastore로 사용하도록 클러스터를 구성하는 방법에 대한 자세한 내용은 여기에서 설명서를 참조하십시오.

Q: 이미 Amazon Athena 또는 Amazon Redshift Spectrum을 사용하고 있고 Amazon Athena의 내부 데이터 카탈로그에 테이블이 있는 경우, AWS Glue 데이터 카탈로그를 내 공통 메타데이터 리포지토리로 사용하기 시작하려면 어떻게 해야 합니까?

AWS Glue 데이터 카탈로그를 Amazon Athena, Amazon Redshift Spectrum 및 AWS Glue 간 공통 메타데이터 리포지토리로 사용하기 시작하려면 먼저 Amazon Athena 데이터 카탈로그를 AWS Glue 데이터 카탈로그로 업그레이드해야 합니다. 업그레이드에 필요한 단계는 여기에 자세히 나와 있습니다.

ETL(추출, 변환 및 로드)

Q: AWS Glue에서 ETL 코드를 작성하는 데 사용할 수 있는 프로그래밍 언어에는 어떤 것이 있습니까?

Scala 또는 Python을 사용할 수 있습니다.

Q: AWS Glue에서 생성한 ETL 코드를 사용자 지정하려면 어떻게 해야 합니까?

AWS Glue의 ETL 스크립트 권장 시스템에서는 Scala 또는 Python 코드를 생성합니다. 이 시스템은 Glue의 사용자 지정 ETL 라이브러리를 활용하여 데이터 소스에 대한 액세스를 간소화하고 작업 실행을 관리합니다. 라이브러리에 관한 세부 정보는 설명서를 참조하십시오. AWS Glue의 사용자 지정 라이브러리를 사용하여 ETL 코드를 작성하거나, AWS Glue 콘솔 스크립트 편집기의 인라인 편집 기능을 사용하고, 자동 생성된 코드를 다운로드한 후, 자체 IDE에서 편집하여 Scala 또는 Python으로 임의 코드를 작성할 수 있습니다. 또한, Github 리포지토리에 호스팅된 수많은 샘플 중 하나로 시작하여 해당 코드를 사용자 지정할 수도 있습니다.

Q: ETL 스크립트의 일부로 사용자 지정 라이브러리를 가져올 수 있습니까?

예. 사용자 지정 Python 라이브러리와 Jar 파일을 AWS Glue ETL 작업으로 가져올 수 있습니다. 자세한 내용은 여기에서 설명서를 확인하십시오.

Q: 내 자체 코드를 가져올 수 있습니까?

예. AWS Glue의 ETL 라이브러리를 사용하여 자체 코드를 작성하거나, 자체 Scala 또는 Python 코드를 작성하고 이를 Glue ETL 작업에 업로드할 수 있습니다. 자세한 내용은 여기에서 설명서를 확인하십시오.

Q: 자체 IDE를 사용하여 ETL 코드를 개발하려면 어떻게 해야 합니까?

노트북과 IDE를 연결하는 방법을 제공하는 개발 엔드포인트를 생성하여 연결할 수 있습니다.

Q: AWS Glue에서 여러 개의 작업을 사용하는 엔드 투 엔드 ETL 워크플로를 구축하려면 어떻게 해야 합니까?

ETL 라이브러리 및 코드 생성 외에도 AWS Glue는 여러 개의 작업 간 종속성을 관리하여 엔드 투 엔드 ETL 워크플로를 구축할 수 있게 해주는 강력한 오케스트레이션 기능 세트를 제공합니다. AWS Glue ETL 작업은 일정에 따라 또는 작업 완료 이벤트에 따라 트리거될 수 있습니다. 여러 개의 작업을 병렬로 트리거하거나 작업 완료 이벤트에 따라 순차적으로 트리거할 수 있습니다. 또한, AWS Lambda 함수와 같은 외부 소스에서 하나 이상의 Glue 작업을 트리거할 수도 있습니다.

Q: AWS Glue에서는 종속성을 어떻게 모니터링합니까?

AWS Glue에서는 트리거를 사용하여 2개 이상의 작업 간 종속성 또는 외부 이벤트의 종속성을 관리합니다. 트리거는 하나 이상의 작업을 지켜보고 하나 이상의 작업을 호출할 수 있습니다. 주기적으로 작업을 호출하는 예정된 트리거, 온디맨드 트리거 또는 작업 완료 트리거를 사용할 수 있습니다.

Q: AWS Glue에서는 오류를 어떻게 처리합니까?

AWS Glue는 작업 이벤트 지표와 오류를 모니터링하고 모든 알림을 Amazon CloudWatch로 푸시합니다. Amazon CloudWatch에서는 AWS Glue의 특정 알림에 따라 트리거되는 호스트 작업을 구성할 수 있습니다. 예를 들어 Glue로부터 오류 또는 성공 알림을 수신하면, AWS Lambda 함수가 트리거되도록 할 수 있습니다. 또한, Glue는 기본 재시도 동작을 제공하므로 오류 알림을 전송하기 전에 모든 실패 작업을 3번 재시도하게 됩니다.

Q: AWS Glue로 기존 ETL 작업을 실행할 수 있습니까?

예. AWS Glue에서 기존 Scala 또는 Python 코드를 실행할 수 있습니다. Amazon S3로 코드를 업로드하고, 해당 코드를 사용하는 작업을 하나 이상 생성하기만 하면 됩니다. 여러 개의 작업에서 같은 코드를 재사용할 수 있습니다. 작업이 Amazon S3에 있는 같은 코드 위치를 가리키도록 하면 됩니다.

Q: AWS Glue를 사용하여 스트리밍 데이터를 ETL할 수 있습니까?

AWS Glue ETL은 배치 지향적 기능입니다. 최소 5분 간격으로 ETL 작업 일정을 예약할 수 있습니다. AWS Glue ETL이 마이크로 배치를 처리할 수 있지만, 스트리밍 데이터를 처리하지 않습니다. 사용 사례에서 데이터를 스트리밍하면서 ETL해야 하는 경우, Amazon Kinesis Data Firehose 또는 Amazon Kinesis Data Analytics를 사용하여 ETL 첫 번째 단계를 수행하고, 데이터를 Amazon S3 또는 Amazon Redshift에 저장하고, Glue ETL 작업을 트리거하여 해당 데이터 세트를 선택하고, 해당 데이터에 대한 추가 변환을 계속 적용합니다.

Q: 이 서비스를 사용하려면 AWS Glue 데이터 카탈로그와 Glue ETL을 모두 사용해야 합니까?

아니요. AWS Glue 데이터 카탈로그와 ETL을 모두 사용하면 엔드 투 엔드 ETL 환경이 제공되지만, 이 중 하나만 독립적으로 사용해도 됩니다.

데이터 정리 및 복사

어떤 종류의 문제를 FindMatches ML Transform가 해결합니까?

FindMatches는 일반적으로 레코드 링크와 데이터 복제 문제를 해결합니다. 중복 제거는 이론상 “동일”하지만 별도의 레코드가 있는 데이터베이스 내의 레코드를 식별하려고 할 때 사용해야 하는 것입니다. 복제 레코드가 고유 키(제품이 UPS 코드에 의해 고유하게 식별되는 인스턴스에 해당)에 의해 식별되는 경우에는 문제가 사소하지만 “퍼지 매치”를 실행해야 하는 경우에는 어려워집니다.

레코드 링크는 기본적으로 큐레이팅된 데이터 중복 제거와 동일한 문제이지만 이 용어는 보통 고유한 키를 공유하는 것이 아니라 단일 데이터베이스를 복제하는 두 데이터베이스의 “퍼지 조인”을 실행하고 있다는 것을 의미합니다. 예를 들어, 소비자의 라지 데이터베이스를 알려진 사기꾼의 작은 데이터베이스에 매칭하는 문제를 생각해보십시오. FindMatches는 레코드 링크와 복제 문제에 모두 사용될 수 있습니다.

에를 들어, AWS Glue의 FindMatches ML Transform는 다음과 같은 문제에 도움이 됩니다.

병원 간의 환자 레코드를 링크하여 의사가 더 많은 배경 정보를 가지고 양쪽 다 이름, 생일, 주소, 전화번호 등과 같은 일반 필드를 포함하고 있는 별도의 데이터베이스에서 FindMatches를 사용하여 환자를 더 잘 치료할 수 있습니다.

“제목’, “플롯 시노십스”, “개봉년도”, “상영 시간”, “등장인물”과 같은 열이 포함되어 있는 영화의 데이터베이스 복제 예를 들어, 동일한 영화가 “스타워즈”, “스타워즈: 새로운 희망”, “스타워즈: 에피스도 IV - 새로운 희망(특별 에디션)” 등과 같이 다양하게 식별될 수 있습니다.

의류 제품 카탈로그에서 크기와 색상의 차이를 무시하고 동일한 것을 의미하는"동등한" 항목을 정의하려고 하는 경우 해당 의류 제품 카탈로그에서 동등한 항목을 식별하여 모든 관련 제품을 상점 첫 화면에서 자동으로 그룹화합니다. 이런 이유로 “Levi 501 청바지, 34x34 사이즈”는 “Levi 501 진스 블랙, 32x31 사이즈”와 동일한 것으로 정의됩니다.

Q: AWS Glue는 내 데이터를 어떻게 복제합니까?

AWS Glue의 FindMatches ML Transform는 동일한 엔터티를 참조하지만 안전한 식별자를 공유하지 않는 링크 레코드를 쉽게 찾을 수 있도록 합니다. FindMatches 이전에는 일반적으로 개발자가 수많은 수동 조정 규칙을 작성하여 데이터 일치 문제를 결정적으로 해결했습니다. FindMatches는 배후에서 머신 학습 알고리즘을 사용하여 각 개발자의 자체 비즈니스 기준에 따라 레코드를 매칭시키는 방법을 학습합니다. FindMatches는 먼저 레코드가 매칭하는지 여부에 대해 레이블을 지정할 고객의 레코드를 식별한 다음 기계 학습을 사용하여 ML 변환을 작성합니다. 고객은 이 변환을 자신의 데이터베이스에서 실행하여 매칭 레코드를 찾거나 FindMatches에게 ML Transform에 대해 레이블을 지정할 추가 레코드를 제공하여 정확도의 레벨을 더 높일 수 있습니다.

Q: ML Transform은 무엇입니까?

ML Transform은 기계 학습 변환의 생성 및 관리를 위한 대상을 제공합니다. 생성과 교육 후 이 ML Transform은 표준 AWS Glue 스크립트에서 실행될 수 있습니다. 고객은 특정 알고리즘(예: FindMatches ML Transform)를 선택하고 데이터세트를 입력한 후 예시를 교육하고 알고리즘에 필요한 파라미터를 조정합니다. AWS Glue는 이러한 인풋을 사용하여 보통의 ETL Job 워크플로에 통합할 수 있는 ML Transform을 구축합니다.

Q: ML Transforms은 어떻게 작동합니까?

AWS Glue에는 특수 ML 기반 데이터세트 변환 알고리즘이 포함되어 있어서 고객은 자신의 ML Transform 작성에 사용할 수 있습니다. 여기에는 중복 제거와 매치 찾기가 포함되어 있습니다.

고객은 콘솔에 있는 ML Transform으로 이동하여(또는 ML Transform 서비스 엔드포인트를 이용하거나 CLI를 통해 ML Transform에 액세스하여) 자신이 첫 번째 ML Transform 모델을 작성하기 시작할 수 있습니다. ML Transform 탭은 사용자 변환의 관리를 위해 사용자 친화적인 뷰를 제공합니다. ML 변환은 다른 변환으로부터 뚜렷한 워크플로 요구 사항을 필요로 합니다. 여기에는 별도의 교육 및 파라미터 튜닝, 실행 워크플로의 필요성, 생성된 변환의 품질 지표 추산의 필요성, 교육과 활성화된 학습의 추가 진실성 레이블 관리와 수립에 대한 필요성이 포함됩니다.

콘솔을 통해 ML 변환을 만들려면 소비자는 먼저 변환 유형(Record Deduplication 및 Record Matching과 같은)을 선택하고 Data Catalog에서 이전에 발견된 적절한 데이터 소스를 제공합니다. 변환에 따라 소비자는 교육 도는 추가 파라미터에 대한 기본 진실성 레이블 데이터를 제공하라는 요청을 받을 수 있습니다. 소비자는 자신의 교육 작업 상태를 모니터링하고 각 변환의 품질 지표를 볼 수 있습니다. (품질 지표는 고객 제공 레이블 데이터의 보류 세트에 의해 보고됩니다.)

일단 성능에 만족하면 고객은 ML 변환 모델을 생산에 사용하도록 할 수 있습니다. 그런 다음 다른 AWS Glue 라이브러리에서 제공된 사전 구축된 변환과 비슷하게 서비스에 의해 자동 생성된 코드와 다른 작업과 함께 제출된 사용자 정의 스크립트에서 ML 변환을 ETL 워크플로 도중 사용할 수 있습니다.

Q: 매치를 찾고 레코드를 복사하기 위해 AWS Glue(및 AWS Lake Formation)를 사용하여 프레젠테이션을 볼 수 있습니까?

A: 예, AWS 온라인 테크 톡, "AWS Lake Formation을 위한 ML 변환으로 퍼지 매칭 및 데이터 복사"의 전체 녹화가 여기에 공개되어 있습니다.

AWS 제품 통합

Q: AWS Glue와 AWS Data Pipeline은 각각 언제 사용해야 합니까?

AWS Glue는 서버리스 Apache Spark 환경에서 실행되는 관리형 ETL 서비스를 제공합니다. 따라서 ETL 작업에 집중할 수 있고, 기본 컴퓨팅 리소스를 구성하거나 관리하는 데 신경을 쓸 필요가 없습니다. AWS Glue는 데이터 우선 접근 방식을 취하며 이를 통해 사용자는 데이터 속성과 데이터 조작에 집중하여 비즈니스 통찰력을 도출할 수 있는 형태로 데이터를 변환할 수 있습니다. 통합된 데이터 카탈로그를 제공하므로 메타데이터를 ETL에서뿐만 아니라 Amazon AthenaAmazon Redshift Spectrum을 통해 쿼리하는 데도 사용할 수 있습니다.

AWS Data Pipeline은 실행 환경, 코드를 실행하는 컴퓨팅 리소스에 대한 액세스 및 제어, 데이터 처리를 수행하는 코드 자체와 관련하여 탁월한 유연성을 지원하는 관리형 오케스트레이션 서비스를 제공합니다. AWS Data Pipeline은 사용자 계정에서 컴퓨팅 리소스를 시작하므로 Amazon EC2 인스턴스 또는 Amazon EMR 클러스터에 바로 액세스할 수 있습니다.

또한, AWS Glue ETL 작업은 Scala 또는 Python 기반입니다. 사용 사례에 따라 Apache Spark 이외의 엔진을 사용해야 하거나 Hive, Pig 등 다양한 엔진에서 실행되는 이기종 작업 세트를 실행하길 원하는 경우에는 AWS Data Pipeline을 사용하는 것이 좋습니다.

Q: AWS Glue와 AWS Data Pipeline은 각각 언제 사용해야 합니까?

AWS Glue는 Apache Spark 환경에서 작동하므로 데이터 변환 작업을 위한 스케일 아웃 실행 환경을 제공합니다. AWS Glue는 ETL 작업을 추론하고 발전시키고 모니터링하여 작업을 생성 및 유지 관리하는 프로세스를 대폭 간소화합니다. Amazon EMR은 Hadoop 환경에 대한 직접 액세스를 제공하므로 Spark 이외의 도구를 사용할 수 있는 더 뛰어난 유연성과 더 낮은 수준의 액세스를 지원합니다.

Q: AWS Glue와 AWS Database Migration Service는 각각 언제 사용해야 합니까?

AWS Database Migration Service(DMS)는 데이터베이스를 AWS로 쉽고 안전하게 마이그레이션할 수 있도록 지원합니다. 온프레미스에서 AWS로 데이터베이스를 마이그레이션해야 하거나 온프레미스 소스와 AWS 소스 간 데이터베이스 복제가 필요한 사용 사례의 경우 AWS DMS를 사용하는 것이 좋습니다. 데이터가 AWS에 있으며, AWS Glue를 사용하여 데이터 소스에서 다른 데이터베이스 또는 데이터 웨어하우스(Amazon Redshift 등)로 데이터를 이동하고 변환할 수 있습니다.

Q: AWS Glue와 AWS Batch는 각각 언제 사용해야 합니까?

AWS Batch를 사용하면 작업의 성격과 관계없이 AWS에서 어떤 배치 컴퓨팅 작업이든 쉽고 효율적으로 수행할 수 있습니다. AWS Batch는 AWS 계정에서 컴퓨팅 리소스를 생성 및 관리하므로 사용되는 리소스에 대한 완벽한 제어권 및 가시성을 사용자에게 제공합니다. AWS Glue는 ETL 작업을 실행할 수 있도록 서버리스 Apache Spark 환경을 제공하는 완전관리형 ETL 서비스입니다. ETL 사용 사례의 경우에는 AWS Glue 사용을 검토하는 것이 좋습니다. 일부 ETL 사용 사례를 비롯하여 기타 배치 지향적 사용 사례의 경우에는 AWS Batch를 사용하는 것이 더 적합할 수 있습니다.

Q: AWS Glue와 Amazon Kinesis Analytics는 각각 언제 사용해야 합니까?

Amazon Kinesis Data Analytics를 사용하면 수신 데이터 스트림에 대해 표준 SQL 쿼리를 실행할 수 있습니다. Amazon S3와 같이 결과를 작성할 대상을 지정할 수 있습니다. 대상 데이터 소스에서 데이터를 사용할 수 있게 되면, AWS Glue ETL 작업을 시작하여 추가 분석 및 보고를 위해 데이터를 추가로 변환하고 준비할 수 있습니다.

요금 및 결제

Q: AWS Glue는 요금이 어떻게 부과됩니까?

AWS Glue 데이터 카탈로그에 저장되어 액세스되는 메타데이터에 대해서는 AWS Glue 데이터 카탈로그 프리 티어를 초과하는 부분에 한해 월별 요금을 지불합니다. 이와 더불어 ETL 작업과 크롤러 실행에 대해서는 초 단위로 청구되는 시간당 요금을 지불하며 건별 기본요금은 10분입니다. 개발 엔드포인트를 사용하여 ETL 코드를 대화식으로 개발하는 경우, 개발 엔드포인트가 프로비저닝된 시간에 대해 초 단위로 청구되는 시간당 요금을 지불하며 기본요금은 10분입니다. 자세한 내용은 요금 페이지를 참조하십시오.

Q: AWS Glue 작업에 대한 청구는 언제 시작되고 언제 종료됩니까?

청구는 작업 실행 일정이 예약되는 대로 시작되고 전체 작업이 완료될 때까지 계속됩니다. AWS Glue에서는 작업이 실행된 시간에 대해서만 비용을 지불하며 환경 프로비저닝이나 가동 중단 시간에 대해서는 지불하지 않습니다.

보안 및 가용성

Q: AWS Glue에서 데이터를 안전하게 유지하려면 어떻게 합니까?

AWS에서는 저장 데이터에 대해서 서버 측 암호화를 제공하고 전송 데이터에 대해서는 SSL를 제공합니다.

Q: AWS Glue와 관련된 서비스 한도에는 어떤 것이 있습니까?

서비스 한도에 대한 자세한 내용은 설명서를 참조하십시오.

Q: 어떤 리전에서 AWS Glue를 사용할 수 있습니까?

AWS Glue 서비스의 리전별 가용성에 대한 자세한 내용은 리전별 제품 및 서비스를 참조하십시오.

Q: 개발 엔드포인트에는 몇 개의 DPU(데이터 처리 유닛)가 할당되어 있습니까?

개발 엔드포인트에는 기본적으로 5개의 DPU가 프로비저닝됩니다. 최소 2개의 DPU와 최대 5개의 DPU로 개발 엔드포인트를 구성할 수 있습니다.

Q: 내 AWS Glue ETL 작업 규모와 성능을 조정하려면 어떻게 해야 합니까?

ETL 작업에 할당하고자 하는 DPU(데이터 처리 유닛) 수를 지정하기만 하면 됩니다. Glue ETL 작업에는 최소 2개의 DPU가 필요합니다. 기본적으로 AWS Glue는 각 ETL 작업에 10개의 DPU를 할당합니다.

Q: 내 AWS Glue 작업 실행을 모니터링하려면 어떻게 해야 합니까?

AWS Glue는 각 작업 상태를 제공하며 모든 알림을 Amazon CloudWatch 이벤트로 푸시합니다. 작업 실패 또는 완료에 대해 알 수 있도록 CloudWatch 작업을 통해 SNS 알림을 설정할 수 있습니다.

서비스 수준 계약

Q: AWS Glue SLA에서 보장하는 것은 무엇입니까?

AWS Glue SLA에서는 AWS Glue에 대해 최소 99.9%의 월간 가동률을 보장합니다.

Q: SLA 서비스 크레딧을 수령할 자격이 있는지 어떻게 알 수 있습니까?

같은 리전 내에서 작업을 실행하고 있는 하나 이상의 가용 영역의 월간 가동률이 월별 청구 주기 동안 99.9%보다 낮은 경우, AWS Glue SLA에 따라 AWS Glue의 SLA 크레딧 지급 대상이 됩니다.

SLA 이용 약관과 요청 제출 방법에 대한 자세한 내용은 AWS Glue SLA 세부 정보 페이지를 참조하십시오.

Product-Page_Standard-Icons_01_Product-Features_SqInk
요금 페이지로 이동하기

AWS Glue의 요금 옵션을 살펴보십시오.

자세히 알아보기 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
무료 계정에 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다. 

가입하기 
Product-Page_Standard-Icons_03_Start-Building_SqInk
콘솔에서 구축 시작

AWS Management Console에서 AWS Glue를 사용하여 구축을 시작하십시오.

로그인