Amazon Web Services 한국 블로그
Amazon SageMaker Lakehouse와 Amazon DynamoDB 제로 ETL 통합 기능 출시
서버리스 NoSQL 데이터베이스인 Amazon DynamoDB는 100만 명 이상의 고객이 지연 시간이 짧은 대규모 애플리케이션을 구축하기 위해 사용하는 솔루션입니다. 데이터가 늘어나면서 조직은 운영 데이터에서 가치 있는 인사이트를 추출하는 방법을 끊임없이 모색하고 있으며, 이러한 데이터는 대부분 DynamoDB에 저장됩니다. 그러나 Amazon DynamoDB에 있는 해당 데이터를 분석 및 기계 학습(ML) 사용 사례에 최대한 활용하기 위해 고객이 사용자 지정 데이터 파이프라인을 구축하는 경우가 많습니다. 이는 핵심 비즈니스에 고유한 가치를 부여하지 못하는 작업일뿐만 아니라 시간이 많이 소요되는 인프라 작업입니다.
지금부터 Amazon SageMaker Lakehouse를 갖춘 Amazon DynamoDB 제로 ETL 통합을 사용하면 DynamoDB 테이블 용량을 사용하지 않고도 단 몇 번의 클릭으로 분석 및 ML 워크로드를 실행할 수 있습니다. Amazon SageMaker Lakehouse는 Amazon S3 데이터 레이크와 Amazon Redshift 데이터 웨어하우스의 모든 데이터를 통합하여 단일 데이터 사본을 대상으로 뛰어난 분석 및 AI/ML 애플리케이션을 구축할 수 있도록 지원합니다.
제로 ETL은 ETL 데이터 파이프라인을 구축할 필요성을 없애거나 최소화하는 통합 세트입니다. 이 제로 ETL 통합은 데이터 파이프라인을 구축하고 유지 관리하는 데 필요한 엔지니어링 작업의 복잡성을 완화하며, 사용자가 운영 워크플로에 영향을 주지 않고 Amazon DynamoDB의 운영 데이터에서 분석 및 ML 워크로드를 실행하는 데 도움이 됩니다.
그럼 시작해 보겠습니다.
다음 데모에서는 Amazon DynamoDB의 데이터에 대해 Amazon SageMaker Lakehouse에서 관리하는 Amazon Simple Storage Service 데이터 레이크와 제로 ETL 통합을 설정해야 합니다. 제로 ETL 통합을 설정하기 전에 완료해야 하는 사전 요구 사항이 있습니다. 설정 방법에 대해 자세히 알아보려면 이 Amazon DynamoDB 문서 페이지를 참조하십시오.
모든 사전 요구 사항을 완료했다면 통합을 시작할 수 있습니다. AWS Glue 콘솔로 이동하여 데이터 통합 및 ETL에서 제로 ETL 통합을 선택합니다. 그런 다음, 제로 ETL 통합 생성을 선택합니다.
여기에는 자신의 데이터 소스를 선택할 수 있는 옵션이 있습니다. Amazon DynamoDB를 선택하고 다음을 선택합니다.
다음으로 소스 및 대상 세부 정보를 구성해야 합니다. 소스 세부 정보 섹션에서 Amazon DynamoDB 테이블을 선택합니다. 대상 세부 정보 섹션에서 AWS Glue Data Catalog에서 설정한 S3 버킷을 지정합니다.
통합을 설정하려면 AWS Glue에 필요한 권한을 부여하는 IAM 역할이 필요합니다. IAM 권한 구성에 대한 지침은 Amazon DynamoDB 문서 페이지를 참조하십시오. 또한 AWS Glue Data Catalog에 대한 리소스 정책을 구성하지 않은 경우 Fix it for me를 선택하여 필요한 리소스 정책을 자동으로 추가할 수 있습니다.
여기에는 출력을 구성할 수 있는 옵션이 있습니다. 데이터 파티셔닝에서 DynamoDB 테이블 키를 사용하여 파티셔닝하거나 사용자 지정 파티션 키를 지정할 수 있습니다. 구성을 완료한 후, 다음을 선택합니다.
Fix it for me 확인란을 선택했으므로 필요한 변경 사항을 검토하고 계속을 선택해야 다음 단계로 넘어갈 수 있습니다.
다음 페이지에서는 데이터 암호화를 유연하게 구성할 수 있습니다. AWS Key Management Service(AWS KMS) 또는 사용자 지정 암호화 키를 사용할 수 있습니다. 그런 다음, 통합의 이름을 지정하고 다음을 선택합니다.
마지막 단계에서는 구성을 검토해야 합니다. 수정할 사항이 없다면 다음을 선택하여 제로 ETL 통합을 생성합니다.
초기 데이터 수집을 완료한 후 제로 ETL 통합을 사용할 수 있습니다. 완료 시간은 소스 DynamoDB 테이블의 크기에 따라 다릅니다.
왼쪽 탐색 패널의 데이터 카탈로그에서 테이블로 이동하는 경우 스키마를 비롯한 세부 정보를 볼 수 있습니다. 원리상 제로 ETL 통합은 Apache Iceberg를 사용하여 DynamoDB 데이터의 데이터 형식 및 구조와 관련된 데이터를 Amazon S3로 변환합니다.
마지막으로, S3 버킷에서 모든 데이터를 사용할 수 있다는 것을 알 수 있습니다.
이러한 제로 ETL 통합은 데이터 이동의 복잡성과 운영 부담을 크게 완화해 주므로 파이프라인 관리가 아닌 인사이트 추출에 집중할 수 있습니다.
지금 이용 가능
새로운 제로 ETL 기능은 현재 미국 동부(버지니아 북부, 오하이오), 미국 서부(오리건), 아시아 태평양(홍콩, 싱가포르, 시드니, 도쿄), 유럽(프랑크푸르트, 아일랜드, 스톡홀름) AWS 리전에서 사용할 수 있습니다.
Amazon SageMaker Lakehouse와 Amazon DynamoDB 제로 ETL 통합을 사용하여 데이터 분석 워크플로를 간소화하는 방법을 살펴보십시오. Amazon DynamoDB 문서 페이지에서 시작하는 방법에 대해 자세히 알아보십시오.
즐겁게 빌드해 보세요!
— Donnie