데이터 파이프라인이란 무엇인가요?
데이터 파이프라인이란 무엇인가요?
데이터 파이프라인은 분석을 위해 엔터프라이즈 데이터를 준비하기 위한 일련의 처리 단계입니다. 조직은 애플리케이션, 사물 인터넷 (IoT) 장치 및 기타 디지털 채널과 같은 다양한 소스로부터 대량의 데이터를 수집합니다. 그러나 원시 데이터는 쓸모가 없기 때문에 비즈니스 인텔리전스를 위해서는 그 데이터를 이동, 정렬, 필터링, 리포맷팅 및 분석해야 합니다. 데이터 파이프라인에는 비즈니스 의사 결정을 내리는 데 도움이 될 수 있는 데이터의 패턴을 확인, 요약 및 검색하는 다양한 기술이 포함되어 있습니다. 잘 구성된 데이터 파이프라인은 데이터 시각화, 탐색적 데이터 분석 및 기계 학습 작업과 같은 다양한 빅 데이터 프로젝트를 지원합니다.
데이터 파이프라인의 이점은 무엇인가요?
데이터 파이프라인을 사용하면 여러 소스의 데이터를 통합하고 분석을 위해 변환할 수 있습니다. 또한 데이터 사일로를 없애고 데이터 분석의 신뢰성과 정확성을 높여줍니다. 다음은 데이터 파이프라인의 주요 이점입니다.
데이터 품질 개선
데이터 파이프라인은 원시 데이터를 정리하고 세분화하여 최종 사용자에게 있어서 데이터의 유용성을 높입니다. 입력 오류를 검사하면서 날짜, 전화번호와 같은 필드의 형식을 표준화합니다. 또한 중복을 제거하고 조직 전반에서 일정한 데이터 품질을 보장합니다.
효율적인 데이터 처리
데이터 엔지니어는 데이터를 변환하고 로드하는 동안 많은 반복 작업을 수행해야 합니다. 데이터 파이프라인을 활용하면 데이터 엔지니어가 데이터 변환 작업을 자동화하여 최상의 비즈니스 인사이트를 도출하는 데 집중할 수 있습니다. 또한 데이터 파이프라인은 데이터 엔지니어가 시간이 지날수록 가치가 떨어지는 원시 데이터를 보다 신속하게 처리할 수 있게 합니다.
포괄적인 데이터 통합
데이터 파이프라인은 다양한 소스의 데이터 세트를 통합하기 위해 데이터 변환 기능을 추상화합니다. 데이터 파이프라인은 여러 소스의 동일한 데이터 값을 교차 검사하여 불일치를 수정할 수 있습니다. 예를 들어 같은 고객이 회사의 전자 상거래 플랫폼에서도 제품을 구매하고 디지털 서비스를 통해서도 제품을 구매한다고 가정해 보겠습니다. 하지만 디지털 서비스에는 이 고객이 이름이 잘못 등록되어 있습니다. 파이프라인은 분석을 위해 데이터를 보내기 전에 이러한 불일치 문제를 수정할 수 있습니다.
데이터 파이프라인은 어떻게 작동하나요?
상수도 파이프라인이 저수지에서 수도꼭지로 물을 이동하는 것처럼, 데이터 파이프라인은 수집 지점에서 스토리지로 데이터를 이동합니다. 데이터 파이프라인은 소스에서 데이터를 추출하여 변경한 다음 특정 대상에 저장합니다. 아래에서는 데이터 파이프라인 아키텍처의 중요한 구성 요소에 대해 설명합니다.
데이터 소스
애플리케이션, 디바이스 또는 다른 데이터베이스가 데이터 소스가 될 수 있습니다. 다양한 소스에서 데이터를 파이프라인에 푸시할 수 있습니다. 또한 파이프라인은 API 호출, 웹 후크 또는 데이터 복제 프로세스를 사용하여 데이터 포인트를 추출할 수 있습니다. 실시간 처리를 위해 데이터 추출을 동기화하거나 데이터 소스에서 예약된 간격으로 데이터를 수집할 수 있습니다.
변환
파이프라인을 통과한 원시 데이터는 비즈니스 인텔리전스에 더욱 유용하게 사용할 수 있습니다. 변환은 정렬, 리포맷팅, 중복 제거, 확인, 검증 등 데이터를 변경하는 작업을 말합니다. 파이프라인은 분석 요구 사항을 충족하기 위해 데이터를 필터링, 요약 또는 처리할 수 있습니다.
종속성
순차적으로 변경이 발생할 때 파이프라인에서 데이터 이동 속도를 저해하는 특정 종속성이 존재할 수 있습니다. 종속성에는 기술과 비즈니스라는 두 가지 기본 유형이 있습니다. 예를 들어 파이프라인에서 작업을 계속 진행하려면 중앙 대기열이 가득 찰 때까지 기다려야 하는 경우, 이는 기술적 종속성에 해당합니다. 한편, 다른 사업부가 데이터를 교차 검증할 때까지 파이프라인을 일시 중지해야 하는 경우, 이는 비즈니스 종속성에 해당합니다.
대상
데이터 파이프라인의 엔드포인트는 데이터 웨어하우스, 데이터 레이크 또는 다른 비즈니스 인텔리전스 애플리케이션이나 데이터 분석 애플리케이션일 수 있습니다. 대상을 데이터 싱크라고도 합니다.

데이터 파이프라인에는 어떤 유형이 있나요?
데이터 파이프라인은 스트림 처리 파이프라인과 배치 처리 파이프라인이라는 두 가지 기본 유형이 있습니다.
스트림 처리 파이프라인
데이터 스트림은 크기가 작은 데이터 패킷의 연속적인 증분 시퀀스이며, 일반적으로 일정 기간 동안 발생하는 일련의 이벤트를 나타냅니다. 예를 들어 데이터 스트림은 최근 1시간 동안의 측정값을 포함하는 센서 데이터를 보여줄 수 있습니다. 금융 거래와 같은 단일 행위도 이벤트라고 할 수 있습니다. 스트리밍 파이프라인은 실시간 분석을 위해 일련의 이벤트를 처리합니다.
데이터를 스트리밍하기 위해서는 짧은 지연 시간과 높은 내결함성이 요구됩니다. 데이터 파이프라인은 일부 데이터 패킷이 손실되거나 정상적이지 않은 순서로 도착하더라도 데이터를 처리할 수 있어야 합니다.
배치 처리 파이프라인
배치 처리 데이터 파이프라인은 대량으로 또는 배치로 데이터를 처리하고 저장합니다. 월별 회계와 같은 간헐적인 대량 작업에 적합합니다.
데이터 파이프라인에는 일련의 시퀀싱된 명령이 포함되어 있으며, 모든 명령은 전체 데이터 배치에 대해 실행됩니다. 데이터 파이프라인은 한 명령의 출력을 다음 명령의 입력으로 제공합니다. 데이터 변환이 모두 완료되면 파이프라인은 전체 배치를 클라우드 데이터 웨어하우스 또는 다른 유사한 데이터 스토어로 로드합니다.
배치 데이터 파이프라인과 스트리밍 데이터 파이프라인의 차이점
배치 처리 파이프라인은 자주 실행되지 않으며, 일반적으로 사용량이 적은 시간에 실행됩니다. 실행 시에는 짧은 시간 동안 높은 컴퓨팅 파워를 필요로 합니다. 반대로, 스트림 처리 파이프라인은 지속적으로 실행되지만 요구되는 컴퓨팅 파워가 낮습니다. 대신 안정적이고 지연 시간이 짧은 네트워크 연결을 필요로 합니다.
데이터 파이프라인과 ETL 파이프라인의 차이점은 무엇인가요?
추출, 전환, 적재(ETL) 파이프라인은 특수한 유형의 데이터 파이프라인입니다. ETL 도구는 여러 소스에서 원시 데이터를 추출하거나 복사하여 스테이징 영역이라는 임시 위치에 저장합니다. 이 도구는 스테이징 영역의 데이터를 변환하여 데이터 레이크 또는 웨어하우스에 로드합니다.
모든 데이터 파이프라인이 ETL 시퀀스를 따르는 것은 아닙니다. 일부는 소스에서 데이터를 추출하여 변환하지 않고 다른 곳에 로드하기도 합니다. 반면 일부 데이터 파이프라인은 추출, 전환, 적재(ETL) 시퀀스에 따라 비정형 데이터를 추출하여 데이터 레이크에 직접 로드합니다. 정보를 클라우드 데이터 웨어하우스로 옮긴 후 변경을 수행합니다.
AWS는 데이터 파이프라인 요구 사항을 어떻게 지원할 수 있나요?
AWS Glue는 분석 사용자가 분석, 기계 학습 및 애플리케이션 개발을 위해 여러 소스의 데이터를 더 쉽게 검색, 준비, 이동 및 통합할 수 있게 해주는 서버리스 데이터 통합 서비스입니다.
- 80여 개의 다양한 데이터 스토어를 탐색하고 연결할 수 있습니다.
- 중앙 집중식 데이터 카탈로그에서 데이터를 관리할 수 있습니다.
- 데이터 엔지니어, ETL 개발자, 데이터 분석가 및 비즈니스 사용자는 AWS Glue Studio를 사용하여 데이터를 데이터 레이크로 로드하는 ETL 파이프라인을 생성, 실행 및 모니터링할 수 있습니다.
- AWS Glue Studio는 Visual ETL, 노트북 및 코드 편집기 인터페이스를 제공하므로 사용자는 자신의 기술에 적합한 도구를 사용할 수 있습니다.
- 대화형 세션을 통해 데이터 엔지니어는 데이터를 탐색하고 선호하는 IDE 또는 노트북을 사용하여 작업을 작성하고 테스트할 수 있습니다.
- AWS Glue는 온디맨드로 자동 확장되는 서버리스 서비스이므로, 인프라를 관리할 필요 없이 페타바이트 규모의 데이터에서 인사이트를 얻는 데 집중할 수 있습니다.
AWS 계정을 생성하여 AWS Glue를 시작하십시오.