AWS 클라우드
AWS 클라우드
AWS Data Pipeline 시작하기

AWS Data Pipeline은 온프레미스 데이터 소스뿐 아니라 여러 AWS 컴퓨팅 및 스토리지 서비스 간에 데이터를 안정적으로 처리하고 지정된 간격으로 이동할 수 있게 해 주는 웹 서비스입니다. AWS Data Pipeline을 사용하면, 저장되어 있는 데이터에 정기적으로 액세스하고, 대규모로 데이터를 변환 및 처리하며, Amazon S3, Amazon RDS, Amazon DynamoDB 및 Amazon EMR과 같은 AWS 서비스에 그 결과를 효율적으로 전송할 수 있습니다.

AWS Data Pipeline을 사용하면 내결함성이 있고, 반복 가능하며, 가용성이 높고, 복잡한 데이터 처리 워크로드를 손쉽게 생성할 수 있습니다. 리소스 가용성 보장, 작업 간 종속성 관리, 일시적 실패 및 시간 초과로 인한 개별 작업 재시도, 실패 알림 생성 시스템 등에 대해 염려하지 않아도 됩니다. 또한 AWS Data Pipeline을 사용하면 이전에는 온프레미스 데이터 사일로에서 묶여 있던 데이터를 이동하고 처리할 수 있습니다.

이 사이트에서 동영상을 보려면 Adobe Flash Player 또는 최신 브라우저가 필요합니다.

Coursera-reInvent-2


안정성

안정성

AWS Data Pipeline은 활동의 내결함성 실행을 위해 설계된 고가용성의 분산 인프라에 구축되어 있습니다. 활동 로직 또는 데이터 소스에 장애가 발생하면 AWS Data Pipeline에서 자동으로 해당 활동을 다시 시도합니다. 장애가 지속되면 AWS Data Pipeline가 Amazon Simple Notification Service(Amazon SNS)를 통해 실패 알림을 보냅니다. 실행 성공, 계획된 활동의 지연 또는 실패에 대한 알림을 구성할 수 있습니다.

사용 편의성

사용 편의성

Amazon의 드래그 앤 드롭 콘솔을 사용하여 쉽고 빠르게 파이프라인을 만들 수 있습니다. 일반적인 사전 조건은 서비스에 내장되어 있으므로, 이를 사용하기 위해 추가 논리를 작성할 필요가 없습니다. 예를 들어 Amazon S3 파일이 있는지 확인하려는 경우, Amazon S3 버킷의 이름 및 파일 경로만 제공하면 나머지는 AWS Data Pipeline에서 알아서 처리합니다. AWS Data Pipeline은 편리한 시각적 Pipeline Creator뿐만 아니라 파이프라인 템플릿 라이브러리를 제공합니다. 이러한 템플릿을 사용하면 정기적으로 로그 파일을 처리하거나, Amazon S3에 데이터를 보관하거나, 주기적으로 SQL 쿼리를 실행하는 등의 더 복잡한 사용 사례에 대한 파이프라인을 매우 간편하게 만들 수 있습니다.

유연성

유연성

AWS Data Pipeline을 사용하면 일정 예약, 종속성 추적, 오류 처리 등의 다양한 기능을 활용할 수 있습니다. AWS에서 제공하는 활동 및 사전 조건을 사용하거나 사용자 지정 활동 및 사전 조건을 작성할 수 있습니다. 따라서 AWS Data Pipeline에서 Amazon EMR 작업을 실행하거나 데이터베이스에서 직접 SQL 쿼리를 실행하거나 Amazon EC2 또는 자체 데이터센터에서 실행 중인 사용자 지정 애플리케이션을 실행하는 등의 조치를 취하도록 구성할 수 있습니다. 이렇게 하여 안정적으로 애플리케이션 논리를 예약하고 실행하는 등 복잡하게 처리하지 않고도 데이터를 분석하고 처리할 수 있는 강력한 사용자 지정 파이프라인을 만들 수 있습니다

확장 가능

확장 가능

AWS Data Pipeline은 작업을 하나 또는 여러 대의 머신에 직렬 또는 병렬 방식으로 손쉽게 디스패치할 수 있습니다. AWS Data Pipeline의 유연한 설계 덕분에 수백만 개의 파일을 하나의 파일처럼 아주 간단하게 처리할 수 있습니다.

 

저렴한 비용

저렴한 비용

AWS Data Pipeline은 저렴한 비용으로 사용할 수 있으며 월 사용료가 낮습니다. AWS 프리 티어를 통해 무료로 사용해 보실 수 있습니다. 자세히 알아보기.

투명성

투명성

사용자는 비즈니스 로직을 실행하는 컴퓨팅 리소스를 완벽하게 제어하고 쉽게 논리를 개선하거나 디버깅할 수 있습니다. 또한 전체 실행 로그가 자동적으로 Amazon S3로 전송되므로 사용자는 파이프라인의 상황에 대한 지속적이고 자세한 레코드를 받을 수 있습니다.

시작하기