ETL과 ELT의 차이점은 무엇인가요?

추출, 전환, 적재(ETL) 및 추출, 적재, 전환(ELT)은 분석을 위한 2가지 데이터 처리 접근 방식입니다. 대규모 조직은 애플리케이션, 센서, IT 인프라 및 서드 파티 파트너와 같이 운영의 모든 측면에서 수백(또는 수천)개의 데이터 소스를 보유하고 있습니다. 분석 및 비즈니스 인텔리전스에 유용하게 활용하려면 이 대량의 데이터를 필터링, 정렬 및 정리해야 합니다. ETL 접근 방식은 일련의 비즈니스 규칙을 사용하여 여러 소스의 데이터를 처리한 후 중앙 집중식 통합을 진행합니다. ELT 접근 방식은 데이터를 있는 그대로 적재하고 사용 사례 및 분석 요구 사항에 따라 이후 단계에서 데이터를 전환합니다. ETL 프로세스에는 처음에 더 많은 정의가 필요합니다. 대상 데이터 유형, 구조 및 관계를 정의하려면 처음부터 분석이 실행되어야 합니다. 데이터 사이언티스트는 주로 ETL을 사용하여 데이터 웨어하우스 내 레거시 데이터베이스를 적재하지만 ELT가 오늘날 표준이 되었습니다.

ETL에 대해 읽어보기 »

ETL과 ELT의 유사점은 무엇인가요?

추출, 전환, 적재(ETL)와 추출, 적재, 전환(ELT)은 모두 추가 분석을 위해 데이터를 준비하는 일련의 프로세스입니다. 분석에 사용할 데이터를 3단계에 걸쳐 캡처, 처리 및 적재합니다. 

추출

추출은 ETL과 ELT의 첫 번째 단계입니다. 이 단계는 다양한 소스에서 원시 데이터를 수집하는 단계입니다. 여기에는 데이터베이스, 파일, 서비스형 소프트웨어(SaaS) 애플리케이션, 사물 인터넷(IoT) 센서 또는 애플리케이션 이벤트가 포함될 수 있습니다. 이 단계에서 반정형, 정형 또는 비정형 데이터를 수집할 수 있습니다.

변환

전환은 ETL 프로세스에서 두 번째 단계이고 ELT에서는 세 번째 단계입니다. 이 단계에서는 원시 데이터를 원래 구조에서 분석용으로 저장할 대상 시스템의 요구 사항을 충족하는 형식으로 변경하는 데 중점을 둡니다. 다음은 전환의 몇 가지 예입니다.

  • 데이터 유형 또는 형식 변경
  • 일치하지 않거나 부정확한 데이터 제거
  • 데이터 중복 제거

규칙과 함수를 적용하여 대상 시스템에서 분석할 데이터를 정리하고 준비합니다.

적재

이 단계에서는 대상 데이터베이스에 데이터를 저장합니다. ETL 프로세스는 최종 단계에서 데이터를 적재하므로 보고 도구에서 이를 직접 사용하여 실행 가능한 보고서와 인사이트를 생성할 수 있습니다. 그러나 ELT에서는 여전히 추출된 데이터를 적재한 후 전환해야 합니다.

ELT와 ETL 프로세스는 서로 어떻게 다른가요?

다음은 추출, 전환, 적재(ETL)와 추출, 추출, 전환, 적재(ETL) 프로세스의 개요입니다. 역사적 배경도 일부 나와 있습니다.

ETL 프로세스

ETL에는 3개 단계가 있습니다.

  1. 다양한 소스에서 원시 데이터 추출
  2. 보조 처리 서버를 사용하여 해당 데이터를 전환
  3. 해당 데이터를 대상 데이터베이스에 적재

전환 단계에서는 대상 데이터베이스의 구조적 요구 사항을 준수하는지 확인합니다. 데이터를 전환하고 준비한 후에 데이터를 이동해야 합니다.

 

ELT 프로세스

ELT의 3단계는 다음과 같습니다.

  1. 다양한 소스에서 원시 데이터 추출
  2. 데이터를 자연 상태로 데이터 웨어하우스 또는 데이터 레이크에 적재
  3. 대상 시스템에 있는 동안 필요에 따라 전환

ELT를 사용하면 모든 데이터 정리, 전환 및 보강이 데이터 웨어하우스 내에서 이루어집니다. 필요에 따라 원시 데이터와 상호 작용하고 전환할 수 있습니다.

ETL 및 ELT의 역사

ETL은 1970년대부터 사용되어 왔으며 특히 데이터 웨어하우스가 부상하면서 인기를 얻었습니다. 그러나 기존 데이터 웨어하우스의 각 데이터 소스에는 사용자 지정 ETL 프로세스가 필요했습니다.

클라우드 기술의 발전은 가능성의 한계를 바꿔 놓았습니다. 이제는 대규모 원시 데이터를 무제한으로 저장하고 나중에 필요에 따라 분석할 수 있습니다. ELT는 효율적인 분석을 위한 현대적인 데이터 통합 방법이 되었습니다.

주요 차이점: ETL과 ELT

추출, 전환, 적재(ETL)는 여러 가지 면에서 추출, 전환, 적재(ETL)를 개선했습니다.

전환 및 적재 위치

전환 및 적드는 서로 다른 위치에서 발생하며 별도의 프로세스를 사용합니다. ETL 프로세스는 보조 처리 서버에서 데이터를 전환합니다.

반면 ELT 프로세스는 원시 데이터를 대상 데이터 웨어하우스에 직접 적재합니다. 그런 다음 거기에서 필요할 때마다 데이터를 전환할 수 있습니다. 

데이터 호환성

ETL은 행과 열이 있는 테이블로 표현할 수 있는 정형 데이터에 가장 적합합니다. 정형 데이터 세트 하나를 정형화된 형식으로 전환한 다음 적재합니다.

반대로 ELT는 테이블 형식으로 저장할 수 없는 이미지나 문서와 같은 비정형 데이터를 비롯한 모든 유형의 데이터를 처리합니다. ELT를 사용할 때의 프로세스에서는 다양한 데이터 형식이 대상 데이터 웨어하우스에 적재됩니다. 거기에서 필요한 형식으로 추가로 전환할 수 있습니다.

속도

ELT는 ETL보다 빠릅니다. ETL은 데이터를 대상에 적재하기 전에 추가 단계를 거쳐야 하는데, 이 단계는 확장이 어렵고 데이터 크기가 커질수록 시스템 속도가 느려집니다.

반대로 ELT는 데이터를 대상 시스템에 직접 적재하고 병렬로 전환합니다. 클라우드 데이터 웨어하우스의 처리 파워와 병렬화를 사용하여 분석에 사용할 데이터를 거의 실시간 또는 실시간으로 전환합니다. 

비용 

ETL 프로세스에는 처음부터 분석 팀의 개입이 필요합니다. 생성하려는 보고서를 미리 계획하고 데이터 구조 및 형식을 정의할 분석가가 필요합니다. 설정에 필요한 시간이 늘어나고 이로 인해 비용이 증가합니다. 전환을 위한 추가 서버 인프라로 인한 비용도 늘어날 수 있습니다.

ELT는 모든 전환이 대상 데이터 웨어하우스 내에서 이루어지기 때문에 ETL보다 필요한 시스템 수가 적습니다. 시스템 수가 적을수록 유지 관리해야 할 부분이 줄어들어 데이터 스택이 단순해지고 설정 비용이 절감됩니다.

보안

개인 데이터로 작업할 때는 데이터 개인 정보 보호 규정을 준수해야 합니다. 회사에서는 개인 식별 정보(PII)를 무단 액세스로부터 보호해야 합니다.

ETL에서는 데이터를 모니터링하고 보호하기 위해 PII 마스킹과 같은 사용자 지정 솔루션을 구축해야 합니다.

반면 ELT 솔루션은 세분화된 액세스 제어 및 다중 인증과 같은 다양한 보안 기능을 데이터 웨어하우스 내에서 직접 제공합니다. 따라서 데이터 규제 요구 사항을 충족하는 시간을 줄이고 분석에 더 많은 시간을 투자할 수 있습니다.

사용 시기: ETL과 ELT

현대적인 분석의 표준은 추출, 적재, 전환(ELT)입니다. 그러나 다음 시나리오에서는 추출, 전환, 적재(ETL)를 고려할 수 있습니다.

레거시 데이터베이스

경우에 따라서는 ETL을 사용하여 레거시 데이터베이스 또는 서드 파티 데이터 소스를 미리 정해진 데이터 형식으로 통합하는 것이 더 유용할 수 있습니다. 전환 후 시스템에 한 번만 적재하면 됩니다. 전환을 완료한 후에는 향후 모든 분석에 더 효율적으로 사용할 수 있습니다.

실험

대규모 조직의 데이터 엔지니어는 분석을 위해 숨겨진 데이터 소스를 발견하고 비즈니스 쿼리에 답하기 위해 새로운 아이디어를 시도하는 등의 실험을 수행합니다. ETL은 데이터 실험을 통해 데이터베이스를 이해하고 특정 시나리오에서의 유용성을 이해하는 데 유용합니다.

복잡한 분석

다양한 소스의 여러 데이터 형식을 사용하는 복잡한 분석에서는 ETL과 ELT를 함께 사용할 수 있습니다. 일부 소스에서 ETL 파이프라인을 설정하고 나머지에는 ELT를 사용할 수 있습니다. 이렇게 하면 분석 효율성이 향상되고 경우에 따라 애플리케이션 성능이 개선됩니다.

IoT 애플리케이션

센서 데이터 스트림을 사용하는 사물 인터넷(IoT) 애플리케이션에는 ELT보다 ETL이 유리한 경우가 많습니다. 예를 들어 엣지에서 ETL을 사용하는 몇 가지 일반적인 사용 사례는 다음과 같습니다.

  • 다양한 프로토콜에서 데이터를 수신하여 클라우드 워크로드에 사용할 표준 데이터 형식으로 전환하려는 경우
  • 빈도가 높은 데이터를 필터링하고, 대규모 데이터 세트에 대해 함수 평균화를 수행한 다음, 평균화되거나 필터링된 값을 적은 비율로 적재하려는 경우
  • 로컬 디바이스에서 서로 다른 데이터 소스의 값을 계산하고 필터링된 값을 클라우드 백엔드로 보내려는 경우
  • 누락된 시계열 데이터 요소를 정리, 중복 제거 또는 채우려는 경우

차이점 요약: ETL과 ELT

범주

ETL

ELT

의미

추출, 전환, 적재

추출, 적재, 전환

처리

원시 데이터를 가져와서 미리 정해진 형식으로 전환한 다음 대상 데이터 웨어하우스에 적재합니다.

원시 데이터를 가져와 대상 데이터 웨어하우스에 적재한 다음 분석 직전에 전환합니다.

전환 및 적재 위치

보조 처리 서버에서 전환이 수행됩니다.

대상 데이터 웨어하우스에서 전환이 수행됩니다.

데이터 호환성

정형 데이터에 가장 적합합니다.

정형, 비정형 및 반정형 데이터를 처리할 수 있습니다. 

속도

ETL은 ELT보다 느립니다.

ELT는 데이터 웨어하우스의 내부 리소스를 사용할 수 있기 때문에 ETL보다 빠릅니다.

비용

사용하는 ETL 도구에 따라 설정하는 데 시간과 비용이 많이 들 수 있습니다.

사용하는 ELT 인프라에 따라 더 비용 효율적입니다.

보안

데이터 보호 요구 사항을 충족하기 위해 사용자 지정 애플리케이션을 구축해야 할 수 있습니다.

대상 데이터베이스의 기본 제공 기능을 사용하여 데이터 보호를 관리할 수 있습니다.

AWS는 ETL 및 ELT 요구 사항을 어떻게 지원하나요?

AWS 기반 분석에서 모든 데이터 분석 요구 사항에 맞는 Amazon Web Services(AWS)의 광범위한 분석 서비스에 대한 설명을 확인할 수 있습니다. AWS는 모든 규모의 조직과 산업에서 데이터로 비즈니스를 혁신할 수 있는 서비스를 제공합니다.

ETL 및 ELT 요구 사항에 사용할 수 있는 몇 가지 AWS 서비스는 다음과 같습니다.

  • Amazon AuroraAmazon Redshift와의 제로 ETL 통합을 지원합니다. 이 통합을 수행하면 Amazon Redshift를 통해 페타바이트(PB) 규모의 Aurora 트랜잭션 데이터에서 거의 실시간 분석 및 기계 학습을 처리할 수 있습니다.
  • AWS Data Pipeline은 다양한 AWS 서비스에 걸친 데이터 이동 및 전환을 정의할 수 있는 관리형 ETL 서비스입니다.
  • AWS Glue는 이벤트 기반 ETL 및 코드 없는 ETL 작업을 위한 서버리스 데이터 통합 서비스입니다.
  • AWS IoT Greengrass를 사용하면 클라우드 처리 및 로직을 로컬 엣지 디바이스로 가져와서 엣지의 ETL 사용 사례를 지원할 수 있습니다.
  • Amazon Redshift를 사용하면 모든 ELT 워크플로를 설정하고 다양한 소스의 데이터 세트를 직접 쿼리할 수 있습니다.  

지금 바로 무료 계정을 생성하여 AWS에서 ELT 및 ETL을 시작하세요.

AWS 활용 다음 단계

ETL을 사용하여 구축 시작
ELT을 사용하여 구축 시작