데이터 파이프라인이란 무엇인가요?
데이터 파이프라인은 분석을 위해 엔터프라이즈 데이터를 준비하기 위한 일련의 처리 단계입니다. 조직은 애플리케이션, 사물 인터넷(IoT) 디바이스 및 기타 디지털 채널을 가지고 있습니다. 그러나 원시 데이터는 쓸모가 없기 때문에 비즈니스 인텔리전스를 위해서는 그 데이터를 이동, 정렬, 필터링, 리포맷팅 및 분석해야 합니다. 데이터 파이프라인에는 비즈니스 의사 결정을 내리는 데 도움이 될 수 있는 데이터의 패턴을 확인, 요약 및 검색하는 다양한 기술이 포함되어 있습니다. 잘 구성된 데이터 파이프라인은 데이터 시각화, 탐색적 데이터 분석 및 기계 학습 작업과 같은 다양한 빅 데이터 프로젝트를 지원합니다.
데이터 파이프라인의 이점은 무엇인가요?
데이터 파이프라인을 사용하면 여러 소스의 데이터를 통합하고 분석을 위해 변환할 수 있습니다. 또한 데이터 사일로를 없애고 데이터 분석의 신뢰성과 정확성을 높여줍니다. 다음은 데이터 파이프라인의 주요 이점입니다.
데이터 품질 개선
데이터 파이프라인은 원시 데이터를 정리하고 세분화하여 최종 사용자에게 있어서 데이터의 유용성을 높입니다. 입력 오류를 검사하면서 날짜, 전화번호와 같은 필드의 형식을 표준화합니다. 또한 중복을 제거하고 조직 전반에서 일정한 데이터 품질을 보장합니다.
효율적인 데이터 처리
데이터 엔지니어는 데이터를 변환하고 로드하는 동안 많은 반복 작업을 수행해야 합니다. 데이터 파이프라인을 활용하면 데이터 엔지니어가 데이터 변환 작업을 자동화하여 최상의 비즈니스 인사이트를 도출하는 데 집중할 수 있습니다. 또한 데이터 파이프라인은 데이터 엔지니어가 시간이 지날수록 가치가 떨어지는 원시 데이터를 보다 신속하게 처리할 수 있게 합니다.
포괄적인 데이터 통합
데이터 파이프라인은 다양한 소스의 데이터 세트를 통합하기 위해 데이터 변환 기능을 추상화합니다. 데이터 파이프라인은 여러 소스의 동일한 데이터 값을 교차 검사하여 불일치를 수정할 수 있습니다. 예를 들어 같은 고객이 회사의 전자 상거래 플랫폼에서도 제품을 구매하고 디지털 서비스를 통해서도 제품을 구매한다고 가정해 보겠습니다. 하지만 디지털 서비스에는 이 고객이 이름이 잘못 등록되어 있습니다. 파이프라인은 분석을 위해 데이터를 보내기 전에 이러한 불일치 문제를 수정할 수 있습니다.
데이터 파이프라인은 어떻게 작동하나요?
상수도 파이프라인이 저수지에서 수도꼭지로 물을 이동하는 것처럼, 데이터 파이프라인은 수집 지점에서 스토리지로 데이터를 이동합니다. 데이터 파이프라인은 소스에서 데이터를 추출하여 변경한 다음 특정 대상에 저장합니다. 아래에서는 데이터 파이프라인 아키텍처의 중요한 구성 요소에 대해 설명합니다.
데이터 소스
애플리케이션, 디바이스 또는 다른 데이터베이스가 데이터 소스가 될 수 있습니다. 다양한 소스에서 데이터를 파이프라인에 푸시할 수 있습니다. 또한 파이프라인은 API 호출, 웹 후크 또는 데이터 복제 프로세스를 사용하여 데이터 포인트를 추출할 수 있습니다. 실시간 처리를 위해 데이터 추출을 동기화하거나 데이터 소스에서 예약된 간격으로 데이터를 수집할 수 있습니다.
변환
파이프라인을 통과한 원시 데이터는 비즈니스 인텔리전스에 더욱 유용하게 사용할 수 있습니다. 변환은 정렬, 리포맷팅, 중복 제거, 확인, 검증 등 데이터를 변경하는 작업을 말합니다. 파이프라인은 분석 요구 사항을 충족하기 위해 데이터를 필터링, 요약 또는 처리할 수 있습니다.
종속성
순차적으로 변경이 발생할 때 파이프라인에서 데이터 이동 속도를 저해하는 특정 종속성이 존재할 수 있습니다. 종속성에는 기술과 비즈니스라는 두 가지 기본 유형이 있습니다. 예를 들어 파이프라인에서 작업을 계속 진행하려면 중앙 대기열이 가득 찰 때까지 기다려야 하는 경우, 이는 기술적 종속성에 해당합니다. 한편, 다른 사업부가 데이터를 교차 검증할 때까지 파이프라인을 일시 중지해야 하는 경우, 이는 비즈니스 종속성에 해당합니다.
대상
데이터 파이프라인의 엔드포인트는 데이터 웨어하우스, 데이터 레이크 또는 다른 비즈니스 인텔리전스 애플리케이션이나 데이터 분석 애플리케이션일 수 있습니다. 대상을 데이터 싱크라고도 합니다.
데이터 파이프라인에는 어떤 유형이 있나요?
데이터 파이프라인은 스트림 처리 파이프라인과 배치 처리 파이프라인이라는 두 가지 기본 유형이 있습니다.
스트림 처리 파이프라인
데이터 스트림은 크기가 작은 데이터 패킷의 연속적인 증분 시퀀스이며, 일반적으로 일정 기간 동안 발생하는 일련의 이벤트를 나타냅니다. 예를 들어 데이터 스트림은 최근 1시간 동안의 측정값을 포함하는 센서 데이터를 보여줄 수 있습니다. 금융 거래와 같은 단일 행위도 이벤트라고 할 수 있습니다. 스트리밍 파이프라인은 실시간 분석을 위해 일련의 이벤트를 처리합니다.
데이터를 스트리밍하기 위해서는 짧은 지연 시간과 높은 내결함성이 요구됩니다. 데이터 파이프라인은 일부 데이터 패킷이 손실되거나 정상적이지 않은 순서로 도착하더라도 데이터를 처리할 수 있어야 합니다.
배치 처리 파이프라인
배치 처리 데이터 파이프라인은 대량으로 또는 배치로 데이터를 처리하고 저장합니다. 월별 회계와 같은 간헐적인 대량 작업에 적합합니다.
데이터 파이프라인에는 일련의 시퀀싱된 명령이 포함되어 있으며, 모든 명령은 전체 데이터 배치에 대해 실행됩니다. 데이터 파이프라인은 한 명령의 출력을 다음 명령의 입력으로 제공합니다. 데이터 변환이 모두 완료되면 파이프라인은 전체 배치를 클라우드 데이터 웨어하우스 또는 다른 유사한 데이터 스토어로 로드합니다.
배치 데이터 파이프라인과 스트리밍 데이터 파이프라인의 차이점
배치 처리 파이프라인은 자주 실행되지 않으며, 일반적으로 사용량이 적은 시간에 실행됩니다. 실행 시에는 짧은 시간 동안 높은 컴퓨팅 파워를 필요로 합니다. 반대로, 스트림 처리 파이프라인은 지속적으로 실행되지만 요구되는 컴퓨팅 파워가 낮습니다. 대신 안정적이고 지연 시간이 짧은 네트워크 연결을 필요로 합니다.
데이터 파이프라인과 ETL 파이프라인의 차이점은 무엇인가요?
추출, 전환, 적재(ETL) 파이프라인은 특수한 유형의 데이터 파이프라인입니다. ETL 도구는 여러 소스에서 원시 데이터를 추출하거나 복사하여 스테이징 영역이라는 임시 위치에 저장합니다. 이 도구는 스테이징 영역의 데이터를 변환하여 데이터 레이크 또는 웨어하우스에 로드합니다.
모든 데이터 파이프라인이 ETL 시퀀스를 따르는 것은 아닙니다. 일부는 소스에서 데이터를 추출하여 변환하지 않고 다른 곳에 로드하기도 합니다. 반면 일부 데이터 파이프라인은 추출, 전환, 적재(ETL) 시퀀스에 따라 비정형 데이터를 추출하여 데이터 레이크에 직접 로드합니다. 정보를 클라우드 데이터 웨어하우스로 옮긴 후 변경을 수행합니다.
AWS는 데이터 파이프라인 요구 사항을 어떻게 지원할 수 있나요?
AWS Data Pipeline은 지정된 간격으로 데이터를 안정적으로 처리하고 이동할 수 있게 해주는 웹 서비스입니다. 데이터는 다양한 AWS 컴퓨팅 및 스토리지 서비스와 온프레미스 데이터 소스 간을 이동할 수 있습니다. Data Pipeline을 사용하면, 저장되어 있는 데이터에 정기적으로 액세스하여 대규모로 데이터를 변환 및 처리하고 효율적으로 그 결과를 다른 AWS 서비스로 전송할 수 있습니다. 이 서비스를 사용하면 실시간 데이터 분석 및 기타 유용한 데이터 관리 기능의 이점을 누릴 수 있습니다.
다음은 데이터 파이프라인으로 수행할 수 있는 몇 가지 작업입니다.
- 내결함성이 뛰어나고 반복 가능하며 가용성이 높아 복잡한 데이터를 처리할 수 있는 워크로드를 손쉽게 생성
- 리소스 가용성을 보장하고 작업 간 종속성을 효율적으로 관리
- 장애 알림 시스템을 생성하거나 일시적 장애 발생 시 자동으로 재시도
- 이전에 온프레미스 데이터 사일로에 고립되어 있던 데이터를 이동하고 처리
지금 무료 계정을 만들어 AWS에서 데이터 파이프라인을 시작하세요.