데이터 가상화란 무엇인가요?
데이터 가상화란 무엇인가요?
데이터 가상화는 기본 데이터 스토리지에서 데이터 작업을 추상화하는 프로세스를 의미합니다. 현대 조직은 다양한 시스템과 플랫폼에서 기존 테이블부터 실시간 메시지 및 파일에 이르기까지 여러 가지 형식으로 데이터를 저장합니다. 이러한 데이터를 단일 중앙 시스템으로 물리적으로 이동하는 것이 항상 실용적이거나 비용 효율적인 것은 아닙니다.
데이터 가상화는 데이터에 대한 데이터인 메타데이터를 사용하여 데이터 조작을 위한 가상 계층을 생성합니다. 최종 사용자는 기본 기술을 이해할 필요 없이 가상 계층 내에서 통합된 방식으로 데이터를 읽고 수정할 수 있습니다. 최종 사용자 대신 가상 계층이 기본 스토리지 계층과 상호 작용하여 필요에 따라 데이터를 푸시하거나 검색합니다.
데이터 가상화가 중요한 이유는 무엇인가요?
오늘날 조직은 종종 온프레미스 시스템, 클라우드 서비스, 기타 분리된 시스템에 걸쳐 데이터소스가 분산되어 있습니다. 물리적 데이터 병합 기능은 다음과 같은 문제로 인해 제한되고 있습니다.
- 여러 플랫폼에서 소스 데이터를 수동으로 관리하면 시간이 많이 소모되고 오류가 발생하기 쉽습니다.
- 여러 독립 소스에 대한 액세스 제어는 필수 데이터 거버넌스로 인해 복잡할 수 있습니다.
- 새 소스나 사용자가 추가되면 데이터 소스 간의 직접 연결을 유지하는 것이 어려울 수 있습니다.
기존의 다른 데이터 통합 방법으로는 데이터를 데이터 웨어하우스 또는 데이터 레이크로 이동해야 합니다. 이러한 접근 방식은 중앙 집중화를 제공하지만, 여러 복사본을 동기화하여 유지해야 하므로 실시간 보고 기능에 영향을 미칠 수 있습니다.
데이터 가상화 시스템은 이와 같은 다른 접근 방식에 비해 몇 가지 주요 이점을 제공합니다.
추상화
쿼리는 실제 소스에서 추상화되므로 사용자나 개발자가 데이터세트의 모든 기술적 세부 사항을 이해할 필요가 없으며, 복잡한 데이터세트로 작업할 수 있습니다.
통합 거버넌스
데이터 가상화는 메타데이터를 사용하여 작동하기 때문에 가상화 계층 내에서 중앙 집중식 거버넌스를 구현할 수 있습니다. 또한 신속하게 사용할 수 있고, 향후 프로젝트에 재사용할 수 있는 데이터 모델을 쉽게 구축하고 반복할 수 있습니다.
실시간 액세스
데이터 가상화를 사용하면 여러 소스를 실시간으로 쿼리할 수 있습니다. 동기화 예약을 기다릴 필요가 없습니다. 비즈니스 사용자는 각 시스템에 개별적으로 연결하는 대신 단일 애플리케이션과 상호 작용할 수 있습니다.
단일 정보 소스
다른 시스템과 동기화가 지연되어 한 시스템에서 오래된 데이터로 인해 발생하는 중복과 혼란을 없앨 수 있습니다. 또한 데이터를 중앙 집중식 데이터 웨어하우스나 레이크로 복사하지 않아도 되기 때문에 스토리지 비용을 절감할 수 있습니다.
데이터 가상화의 사용 사례는 무엇인가요?
실시간 데이터 접근을 용이하게 함으로써, 가상화는 여러 중요한 기능을 지원합니다.
분석 및 비즈니스 인텔리전스
내부 보고 또는 규정 준수 등 분석 이니셔티브는 조직 내 여러 소스에 있는 데이터를 통합해야 하는 경우가 많습니다. 가상화된 데이터 액세스를 활용하여 분석가와 BI 팀은 프로덕션 데이터 소스에 부정적인 영향을 주지 않으면서 데이터를 쉽게 탐색하는 것과 동시에 쿼리를 구체화할 수 있습니다.
클라우드 마이그레이션 지원
대규모 시스템을 클라우드로 마이그레이션하는 프로세스는 느리고 오류가 많이 발생할 수 있습니다. 데이터 가상화는 효과적인 마이그레이션 계획을 달성할 수 있는 강력한 도구입니다. 팀은 라이브 시스템을 중단하지 않고도 전환 시나리오를 테스트하고 데이터 통합 프로세스를 검증할 수 있습니다.
주요 시스템 업그레이드 간소화
전사적 자원 관리(ERP) 시스템 업그레이드와 같은 주요 프로젝트에 필요한 테스트 환경을 구축하는 데에는 시간도 많이 걸리고 여러 팀 간의 다양한 조정이 필요할 수 있습니다. 팀은 데이터 가상화 기술을 활용하여 효율적인 작업에 필요한 복잡한 데이터 구조를 신속하게 생성할 수 있습니다. 이를 통해 인프라 비용은 절감하고 배포 시간은 단축할 수 있습니다.
프로덕션 시스템 지원
프로덕션 시스템이 가지고 있는 복잡한 문제를 해결하려면 테스트를 위해 전체 데이터 서비스를 다시 생성해야 하는 경우가 있습니다. IT 팀은 데이터 가상화 기술을 활용하여 데이터를 복사하지 않고도 환경을 빠르게 구축하고 테스트할 수 있습니다. 이를 통해 수정 사항을 확인하고 의도치 않은 부작용을 식별할 수 있습니다.
DevOps 워크플로
개발자와 테스터는 출시 예정인 애플리케이션을 준비할 때 완전한 가상 데이터 환경을 활용할 수 있습니다. 대규모 데이터세트를 복제하지 않고 소프트웨어가 실제 환경에서 작동하는 방식을 모델링할 수 있습니다.
데이터 가상화 계층의 기능은 무엇인가요?
데이터 가상화 소프트웨어는 데이터 관리를 간소화하는 여러 핵심 기능을 제공합니다.
시맨틱 모델링
여러 시스템에 분산된 가상 데이터로 “고객” 또는 “제품 라인”과 같은 의미 있는 비즈니스 개념을 표현할 수 있습니다. 가상화 계층을 사용하면 데이터를 활용하여 여러 소스에서 의미 있는 개념을 보다 쉽게 정의할 수 있습니다.
범용 연결
가상화 계층을 통해 조직 내 데이터 소스에 액세스하면 데이터 사일로를 더 쉽게 허물고 모든 팀에 통합 데이터 세트에 대한 실시간 액세스를 제공할 수 있습니다.
고성능 쿼리
가상화 계층을 통해 조직 내 데이터 소스에 접근함으로써 데이터 사일로를 보다 쉽게 해소하고, 모든 팀이 통합된 데이터세트에 실시간으로 접근할 수 있도록 할 수 있습니다. 다른 시스템에 중복 쿼리를 생성하지 않습니다.
데이터 카탈로그
가상화는 데이터에 대한 정보인 메타데이터를 동일한 시스템 내에 저장할 수 있도록 합니다. 데이터를 사용하여 기존 데이터세트 관련 정보를 추적하고 데이터 검색을 지원하는 데이터 카탈로그를 작성할 수 있습니다.
데이터 가상화는 어떻게 작동하나요?
데이터 가상화는 데이터 통합의 한 유형입니다. 데이터 가상화 서비스는 데이터를 직접 다루는 대신, 데이터가 어디에 저장되어 있는지, 어떻게 분류되어 있는지, 다른 데이터와 어떻게 연결되는지와 같은 메타데이터만을 기반으로 작동합니다.
사용자 쿼리
비즈니스에 고객 관계 관리(CRM) 데이터베이스와 제품 관리에 필요한 별도의 재고 시스템이 있다고 가정해 보겠습니다. 그런데 지난 2개월 동안 이름이 “Smith”인 고객이 주문한 모든 내역을 찾아내야 합니다. 이 요청은 두 시스템을 아우르는 요청입니다. 데이터 가상화 서비스에 쿼리를 입력합니다.
데이터 통합
가상화 서비스는 쿼리를 더 작은 구성 요소로 분해합니다. 서비스는 메타데이터를 활용하여 다양한 소스 내에서 쿼리의 각 구성 요소에 대한 데이터 위치를 식별합니다. 하위 쿼리를 생성하여 CRM에서 고객 정보를 검색하고 인벤토리에서 주문 정보를 검색합니다.
데이터 프레젠테이션
데이터 소스가 데이터를 반환하면 데이터 가상화 서비스는 작업 메모리에서 이를 변환하며, 필요에 따라 형식과 이름을 조정합니다. 메타데이터로 식별된 중복을 제거합니다. 그런 다음, 변환이 완료되면 서비스가 통합된 결과를 애플리케이션에 제공합니다.
클라우드에서의 데이터 가상화 접근 방식은 무엇인가요?
클라우드에서 데이터 가상화를 구현하는 방법에는 세 가지 광범위한 접근 방식에는 맞춤형 솔루션, 상용 도구, 클라우드 네이티브 솔루션이 있습니다.
맞춤형 데이터 가상화
첫 번째 옵션은 클라우드 인프라를 사용하여 자체 데이터 가상화 솔루션을 맞춤 구축하는 방식입니다. 디자인과 기능을 더 효과적으로 제어할 수 있지만 상당한 개발 및 유지 보수도 필요합니다.
상용 데이터 가상화 도구
또 다른 옵션은 공급업체에서 사전에 구축한 데이터 가상화 플랫폼을 사용하는 방식입니다. 이러한 도구는 일반적으로 다양한 데이터 소스에 대한 사전 구축된 커넥터와 성능 최적화를 제공합니다. 또한 기존 기업 메타데이터 표준과의 통합을 지원할 수도 있습니다.
클라우드 네이티브 데이터 가상화
이 접근 방식은 Amazon Web Services(AWS) 와 같은 클라우드 공급업체에서 제공하는 관리 서비스를 활용하여 배포 및 지속적인 운영 과정을 간소화할 수 있습니다. 이를 통해 이미 클라우드에서 작업하고 있거나 클라우드로 전환하고 있는 조직은 광범위한 기술 전문 지식이 없어도 데이터 가상화를 도입할 수 있습니다.
AWS는 데이터 가상화 요구 사항을 어떻게 지원하나요?
AWS는 상용 데이터 가상화 서비스에서 제공하는 대부분의 기능과 일치하는 기본 기능을 제공합니다. 이러한 기본 기능은 다양한 데이터 가상화 사용 사례를 잠재적으로 지원할 수 있습니다.
Amazon Redshift는 대규모 최신 데이터 분석 기능을 지원합니다. 증가하는 데이터가 운영 데이터 스토어, 데이터 레이크, 스트리밍 서비스 또는 타사 데이터 세트 중 어디에 저장되는지에 관계없이 Amazon Redshift를 통해 최소한의 이동 또는 복사만으로 안전하게 데이터에 액세스하고 데이터를 결합 및 공유할 수 있습니다.
Amazon Athena는 Amazon S3에 저장된 데이터를 직접 사용하는 상호작용형 분석 서비스입니다. Amazon Athena는 서버리스 서비스이므로, 설정하거나 관리할 인프라가 없으며 데이터 분석을 즉시 시작할 수 있습니다.
AWS Glue는 서버리스 데이터 통합 서비스로서, 데이터 검색, 준비, 결합 프로세스를 간소화합니다. Amazon Athena와 Amazon Redshift는 가상화를 지원하는 중앙 메타데이터 저장소인 AWS Glue 데이터 카탈로그와 기본적으로 통합되어 있습니다.
AWS Lake Formation을 사용하면 분석 및 기계 학습(ML)을 위해 데이터를 중앙에서 더 쉽게 관리하고, 보호하고, 전 세계적으로 공유할 수 있습니다. AWS Glue 데이터 카탈로그를 사용하여 데이터 보안 및 거버넌스를 중앙 집중화하여 익숙한 데이터베이스 스타일 기능을 통해 한 곳에서 메타데이터와 데이터 권한을 관리할 수 있습니다. 또한 세분화된 데이터 액세스 제어를 제공합니다.
지금 바로 무료 계정을 생성하여 AWS에서 데이터 가상화를 시작하세요.