SQL-Based ETL with Apache Spark on Amazon EKS

SQL-Based ETL with Apache Spark on Amazon EKS는 선언적 데이터 처리 지원, 코드 없는 추출 변환 로드 기능, 워크플로 오케스트레이션 자동화를 제공하여 비즈니스 사용자(예: 분석가와 데이터 사이언티스트)가 수동 IT 프로세스 없이도 데이터에 액세스하고 의미있는 인사이트를 생성하도록 돕습니다.

이점

Jupyter에서 ETL 작업 구축, 테스트 및 디버깅

웹 기반 대화형 통합 개발 환경(IDE)인 JupyterHub를 사용해 ETL 애플리케이션 개발을 간소화하세요.

SQL 우선 접근법 사용
.

Spark SQL을 사용해 ETL 파이프라인 개발에 비즈니스 로직과 데이터 품질 검사를 구현합니다.

코드 없이 작업을 오케스트레이션
.

Argo 워크플로를 사용해 코드 없이도 작업을 예약하고 복잡한 작업 종속성을 관리할 수 있습니다.

자동 배포 도커 이미지
.

AWS의 지속적 개선과 개발(CI/CD) 파이프라인을 설정해 Amazon Elastic Container Registry(Amazon ECR)에서의 데이터 프레임워크 Docker 이미지를 안전하게 저장합니다.

개요

아래의 다이어그램은 GitHub의 예제 코드를 사용하여 구축할 수 있는 아키텍처를 보여줍니다.

SQL-Based ETL with Apache Spark on Amazon EKS 아키텍처

SQL-Based ETL with Apache Spark on Amazon EKS는 안전하고 내결함성을 갖춘 자동 크기 조정 환경을 배포해 다음의 구성 요소를 포함하는 ETL 워크로드를 지원합니다.

  1. 사용자 지정 가능하고 유연한 워크플로 관리 계층(다이어그램 내 Amazon Elastic Kubernetes Service(Amazon EKS) 그룹의 오케스트레이션 참조)에 Argo 워크플로 플러그인을 포함합니다. 이 플러그인은 코드 작성 없이도 ETL 작업을 오케스트레이션할 수 있는 웹기반 도구를 제공합니다. 선택 사항으로 VolcanoApache Airflow 등의 다른 워크플로 도구도 사용할 수 있습니다.
  2. 안전한 데이터 처리 WorkSpace는 동일한 Amazon EKS 클러스터 내에서 데이터 워크로드를 통합하도록 구성됩니다. 이 WorkSpace는 대화형 작업 구축 및 테스트를 위해 보조 웹 기반 도구인 JupyterHub를 포함합니다. ETL 태스크를 지정하는 선언적 접근 방식을 사용하여 Jupyter 노트북을 개발하거나, PySpark를 사용해 프로그래밍 방식으로 ETL 단계를 작성할 수 있습니다. 또한 이 Workspace는 Argo 워크플로 도구에 의해 관리되는 Spark 작업 자동화를 제공합니다.
  3. 보안 기능 세트가 솔루션에 배포됩니다. Amazon Elastic Container Registry(Amazon ECR)는 데이터 처리 프레임워크 도커 이미지를 유지 관리하고 보호합니다. Amazon EKS의 서비스 계정용 AWS Identity and Access Management(IAM) 역할(IRSA) 기능은 세분화된 액세스 제어와 함께 토큰 권한 부여 기능을 다른 AWS 서비스에 제공합니다. 예를 들어 Amazon Athena와 통합된 Amazon EKS는 연결 문자열에서 AWS 자격 증명이 노출되는 위험을 완화하기 위해 암호 방식을 사용하지 않습니다. Jupyter는 AWS Secrets Manager에서 Amazon EKS로 즉시 로그인 자격 증명을 가져옵니다. Amazon CloudWatch는 활성화된 CloudWatch Container Insights 기능을 사용해 Amazon EKS의 애플리케이션을 모니터링합니다.
  4. Amazon EKS 클러스터의 분석 워크로드는 데이터 결과를 Amazon Simple Storage Service(Amazon S3) 데이터 레이크에 출력합니다. Amazon Athena를 통해 데이터 스키마 항목(메타데이터)이AWS Glue 데이터 카탈로그에 생성됩니다.

SQL-Based ETL with Apache Spark on Amazon EKS

버전 1.0.0
릴리스 날짜: 2021년 7월
작성자: AWS

추가 리소스

이 가이드가 도움이 되었나요?
피드백 제공 
구축 아이콘
AWS 솔루션 직접 배포

AWS 솔루션 라이브러리에서 일반적인 아키텍처 문제에 대한 답을 검색해 보실 수 있습니다.

자세히 알아보기 
APN 파트너 찾기
AWS 파트너 솔루션 찾기

시작하는 데 도움이 되는 AWS 파트너를 찾아보세요.

자세히 알아보기 
살펴보기 아이콘
살펴보기 지침

일반적인 사용 사례에 대한 권장 아키텍처 다이어그램, 샘플 코드 및 기술 콘텐츠를 찾아보세요.

자세히 알아보기