이 AWS 솔루션 구현은 어떤 기능을 제공하나요?

이 솔루션은 선언적 데이터 처리 지원, 코드 없는 추출 변환 로드 기능, 워크플로 오케스트레이션 자동화를 제공하여 비즈니스 사용자(예: 분석가와 데이터 사이언티스트)가 수동 IT 프로세스 없이도 데이터에 액세스하고 의미있는 인사이트를 생성하도록 돕습니다.

장점

Jupyter에서 ETL 작업 구축, 테스트 및 디버깅

웹 기반 대화형 통합 개발 환경(IDE)인 JupyterHub를 사용해 ETL 애플리케이션 개발을 간소화하세요.

SQL 우선 접근법 사용
.

Spark SQL을 사용해 ETL 파이프라인 개발에 비즈니스 로직과 데이터 품질 검사를 구현합니다.

코드 없이 작업을 오케스트레이션
.

Argo 워크플로를 사용해 코드 없이도 작업을 예약하고 복잡한 작업 종속성을 관리할 수 있습니다.

자동 배포 도커 이미지
.

AWS의 지속적 개선과 개발(CI/CD) 파이프라인을 설정해 Amazon Elastic Container Registry(Amazon ECR)에서의 데이터 프레임워크 도커 이미지를 안전하게 저장합니다.

AWS 솔루션 구현 개요

아래 다이어그램은 솔루션의 구현 안내서와 함께 AWS CloudFormation 템플릿을 사용하여 자동으로 배포할 수 있는 아키텍처를 보여줍니다.

Amazon EKS에서 Apache Spark를 사용하는 SQL 기반 ETL | 아키텍처 다이어그램
 확대하려면 클릭

Amazon EKS에서 Apache Spark를 사용하는 SQL 기반 ETL 솔루션 구현 아키텍처

AWS CloudFormation 템플릿은 안전하고 내결함성을 갖춘 자동 크기 조정 환경을 배포해 다음의 구성 요소를 포함하는 ETL 워크로드를 지원합니다.

  1. 사용자 지정 가능하고 유연한 워크플로 관리 계층(다이어그램 내 Amazon Elastic Kubernetes Service(Amazon EKS) 그룹의 오케스트레이션 참조)에 Argo 워크플로 플러그인을 포함합니다. 이 플러그인은 코드 작성 없이도 ETL 작업을 오케스트레이션할 수 있는 웹기반 도구를 제공합니다. 선택 사항으로 VolcanoApache Airflow 등의 다른 워크플로 도구도 사용할 수 있습니다.
  2. 안전한 데이터 처리 WorkSpace는 동일한 Amazon EKS 클러스터 내에서 데이터 워크로드를 통합하도록 구성됩니다. 이 WorkSpace는 대화형 작업 구축 및 테스트를 위해 보조 웹 기반 도구인 JupyterHub를 포함합니다. ETL 태스크를 지정하는 선언적 접근 방식을 사용하여 Jupyter 노트북을 개발하거나, PySpark를 사용해 프로그래밍 방식으로 ETL 단계를 작성할 수 있습니다. 또한 이 Workspace는 Argo 워크플로 도구에 의해 관리되는 Spark 작업 자동화를 제공합니다.
  3. 보안 기능 세트가 솔루션에 배포됩니다. Amazon Elastic Container Registry(Amazon ECR)는 데이터 처리 프레임워크 도커 이미지를 유지 관리하고 보호합니다. Amazon EKS의 서비스 계정용 AWS Identity and Access Management(IAM) 역할(IRSA) 기능은 세분화된 액세스 제어와 함께 토큰 권한 부여 기능을 다른 AWS 서비스에 제공합니다. 예를 들어 Amazon Athena와 통합된 Amazon EKS는 연결 문자열에서 AWS 자격 증명이 노출되는 위험을 완화하기 위해 암호 방식을 사용하지 않습니다. Jupyter는 AWS Secrets Manager에서 Amazon EKS로 즉시 로그인 자격 증명을 가져옵니다. Amazon CloudWatch는 활성화된 CloudWatch Container Insights 기능을 사용해 Amazon EKS의 애플리케이션을 모니터링합니다.
  4. Amazon EKS 클러스터의 분석 워크로드는 데이터 결과를 Amazon Simple Storage Service(Amazon S3) 데이터 레이크에 출력합니다. Amazon Athena를 통해 데이터 스키마 항목(메타데이터)이AWS Glue 데이터 카탈로그에 생성됩니다.

Amazon EKS에서 Apache Spark를 사용하는 SQL 기반 ETL

버전 1.0.0
릴리스 날짜: 2021년 7월
작성: AWS

예상 배포 시간: 30분

예상 비용 소스 코드  CloudFormation 템플릿 
아래의 단추를 사용하여 이 솔루션 구현 업데이트를 구독하세요.
참고: RSS 업데이트에 가입하려면 사용 중인 브라우저에 대해 RSS 플러그인이 활성화되어 있어야 합니다.
이 솔루션 구현이 도움이 되었습니까?
피드백 제공 
구축 아이콘
솔루션 직접 배포

AWS 솔루션 구현 라이브러리에서 일반적인 아키텍처 문제에 대한 답을 검색해 보실 수 있습니다.

자세히 알아보기 
APN 파트너 찾기
APN 파트너 찾기

시작하는 데 도움이 되는 AWS 공인 컨설팅 및 기술 파트너를 찾으십시오.

자세히 알아보기 
살펴보기 아이콘
솔루션 컨설팅 오퍼 살펴보기

AWS의 컨설팅 오퍼 포트폴리오를 살펴보고 솔루션 배포 시 AWS의 검증된 지원을 받으세요.

자세히 알아보기