관리형 ETL(추출-변환-로드) 서비스인 AWS Data Pipeline을 사용해 온프레미스 리소스는 물론 다양한 AWS 서비스 전반에 걸쳐 데이터 이동 및 변환을 정의할 수 있습니다. Data Pipeline을 사용하여 데이터, 즉 순차적으로 실행될 EMR 작업 또는 SQL 쿼리와 같은 활동 또는 비즈니스 논리, 그리고 비즈니스 로직이 실행되는 일정을 포함하는 데이터 노드로 구성된 파이프 라인을 만들 수 있도록 종속 프로세스를 정의합니다.
예를 들어, Amazon S3에 저장된 클릭스트림 데이터를 Amazon Redshift로 이동하려는 경우, 로그 파일을 저장하는 S3DataNode, Amazon EMR 클러스터를 사용하여 로그 파일을 .csv 파일로 변환해서 다시 S3으로 저장하는 HiveActivity, S3에서 Redshift로 데이터를 복사하는 RedshiftCopyActivity 및 Redshift 클러스터에 연결할 RedshiftDataNode로 파이프라인을 정의해야 할 것입니다. 하루가 끝날 때 실행할 일정을 선택할 수 있습니다.

AWS Data Pipeline을 사용하여 클릭스트림 데이터를 Amazon S3에서 Amazon Redshift로 이동합니다.
무료로 AWS 시작하기
무료 계정 생성또는 콘솔에 로그인
AWS 프리 티어에는 AWS Data Pipeline과 함께 Low Frequency Precondition 3개 및 Low Frequency Activity 5개가 포함되어 있습니다.
특정 활동을 시작하기 전에 데이터가 사용 가능한지 확인할 수 있는 사전 조건을 정의할 수도 있습니다. 위의 예에서 HiveActivity를 시작하기 전에 로그 파일이 사용 가능한지 확인하게 하는 사전 조건을 S3DataNode에 가질 수 있습니다.
AWS Data Pipeline 처리 ..
- 작업 일정 예약, 실행 및 재시도 논리.
- 모든 종속성이 충족될 때까지 논리를 실행하지 않도록 비즈니스 논리, 데이터 소스 및 이전 처리 단계들 간의 종속성 추적.
- 필요한 실패 알림 보내기.
- 작업에 필요할 수 있는 컴퓨팅 리소스 만들기 및 관리.

Amazon Redshift로 Data ETL
RDS 또는 DynamoDB 테이블을 S3에 복사하고 데이터 구조를 변환하며 SQL 쿼리를 사용하여 분석을 실행하고 Redshift에 로드합니다.
비정형 데이터 ETL
EMR에서 Hive 또는 Pig를 사용하여 클릭스트림 로그와 같은 비정형 데이터를 분석하고 이를 RDS의 정형 데이터와 결합하여 쉽게 쿼리할 수 있도록 Redshift에 업로드합니다.
AWS 로그 데이터를 Amazon Redshift에 로드
AWS 결제 로그 또는 AWS CloudTrail, Amazon CloudFront 및 Amazon CloudWatch logs와 같은 로그 파일을 Amazon S3에서 Redshift로 로드합니다.
데이터 로드 및 추출
RDS 또는 Redshift 테이블에서 S3로 데이터를 복사하거나 그 역방향으로 복사합니다.
클라우드로 이전
MySQL 데이터베이스와 같은 온프레미스 데이터 스토어의 데이터를 손쉽게 복사하고 S3와 같은 AWS 데이터 스토어로 이동하여 Amazon EMR, Amazon Redshift 및 Amazon RDS와 같은 다양한 AWS 서비스에서 사용할 수 있도록 합니다.
Amazon DynamoDB 백업 및 복구
재해 복구 용도로 Dynamo DB 테이블을 주기적으로 S3으로 백업하십시오.
AWS Management Console, AWS Command Line Interface, 또는 서비스 API를 통해 AWS Data Pipeline의 사용을 시작하십시오.