데이터베이스 분석이란 무엇인가요?
데이터베이스 분석이란 무엇인가요?
데이터는 기업 내 의사 결정에서 매우 중요한 역할을 하므로 신중하게 관리, 처리 및 분석해야 합니다. 아무리 숙련된 데이터 분석가라도 데이터를 잘못 조작하면 잘못된 가정과 잘못된 의사 결정으로 이어질 수 있습니다.
성숙한 데이터 분석 파이프라인을 통해 조직은 트렌드를 정확하게 식별하고, 설명 분석, 처방 분석, 통계 분석을 수행하며, 기계 학습 및 AI 기능을 도입할 수 있습니다.
데이터베이스 분석 시스템 선택은 기존 데이터, 현재 데이터베이스 형식 및 기타 필요한 분석 유형에 따라 달라집니다. 데이터는 관계형 데이터베이스, 비관계형 데이터베이스 및 기타 파일 형식을 비롯한 다양한 형식으로 비즈니스에 저장됩니다. 관계형 및 비관계형 데이터베이스는 기본 분석을 기본적으로 지원하지만 이러한 기능만으로는 비즈니스 기능 및 소스 전반에 걸쳐 심층적인 인사이트를 도출하기에 충분하지 않습니다.
데이터 분석가에게는 서로 다른 소스의 데이터를 통합하기 위한 데이터 웨어하우스, 데이터 레이크, 레이크하우스가 필요하며, 이를 통해 형식 간 및 부서 간 데이터 마이닝 및 분석에 대비할 수 있습니다.
이 안내서의 나머지 부분에서는 데이터베이스 분석 영역에서 이러한 다양한 기술을 모두 살펴봅니다.
분석에 사용되는 기본 데이터 시스템 유형으로 무엇이 있나요?
다음은 분석에 사용할 수 있는 다양한 유형의 시스템에 대한 간략한 개요입니다.
관계형 데이터베이스
관계형 데이터베이스는 행과 열이 있는 테이블로 정렬된 정형 데이터 모음입니다. 각 테이블에는 실제 객체 또는 개념을 나타내는 관련 데이터 모음이 포함되어 있습니다.
테이블의 각 행은 이름, 전화번호, 주소 등의 고객 세부 정보와 같은 단일 레코드를 나타냅니다. 각 테이블은 하나 이상의 다른 테이블과 관련될 수 있습니다. 예를 들어 고객 테이블을 구매 테이블과 연결하여 각 구매를 특정 고객에 연결할 수 있습니다.
모든 관계형 데이터베이스 관리 시스템에는 위에서 설명한 것처럼 고정된 스키마가 있으며 여러 테이블과 테이블 내부에서 데이터를 쿼리하기 위해 Structured Query Language(SQL)를 지원합니다.
AWS의 관계형 데이터베이스 서비스 예로 Amazon Relational Database Service 및 Amazon Aurora(PostgreSQL, MySQL, DSQL에 대한 글로벌로 확장 가능한 고성능 관계형 데이터베이스 솔루션)가 있습니다.
비관계형 데이터베이스
비관계형 데이터베이스는 유연한 스키마를 사용하며 SQL을 통한 쿼리를 지원하지 않기 때문에 NoSQL 데이터베이스라고도 합니다. 다양한 유형의 비관계형 데이터베이스로, 키 값 데이터베이스, 도큐먼트 데이터베이스, 와이드 컬럼 데이터베이스, 그래프 데이터베이스, 인 메모리 데이터베이스 및 검색 데이터베이스가 있습니다.
각 유형의 NoSQL 데이터베이스는 특정 사용 사례에 적합합니다. 예를 들어 도큐먼트 데이터베이스는 내부 콘텐츠 관리 시스템에 적합하고, 와이드 컬럼 저장소는 IoT 플릿의 시계열 데이터에 적합합니다.
다음은 AWS의 비관계형 데이터베이스 서비스의 몇 가지 예입니다.
- Amazon DynamoDB는 10밀리초 미만의 성능을 제공하는 서버리스 NoSQL 완전관리형 데이터베이스로, 키 값 데이터베이스 및 문서 저장소에 적합합니다.
- Amazon DocumentDB(MongoDB 호환)는 완전관리형 네이티브 JSON 도큐먼트 데이터베이스입니다.
- Amazon Keyspaces(Apache Cassandra용)는 고가용성의 확장 가능한 관리형 Apache Cassandra 호환 와이드 컬럼 데이터베이스 서비스입니다.
- Amazon Neptune은 뛰어난 분석, 확장성 및 가용성을 제공하는 고성능 서버리스 그래프 데이터베이스 서비스입니다.
- Amazon ElastiCache는 Valkey, Redis 및 Memcached 인 메모리 데이터베이스와 호환되는 완전관리형 인 메모리 캐싱 서비스입니다.
- Amazon MemoryDB는 Valkey 및 Redis OSS와 호환되고 내구성이 뛰어나며 초고속 성능을 위한 인 메모리 데이터베이스 서비스입니다.
데이터 웨어하우스
데이터 웨어하우스는 관계형 데이터베이스의 기능을 대규모로 확장하여 SQL 쿼리를 지원하는 분석 솔루션입니다. 데이터 웨어하우스는 많은 데이터베이스의 관계형 데이터를 저장하고 분석하는 데 사용됩니다. 웨어하우스 솔루션은 추출, 변환, 로드(ETL) 프로세스 중에 비관계형 데이터를 변환하여 분석에 바로 사용할 수 있도록 정규화할 수 있습니다.
Amazon Redshift는 데이터를 저장하고 데이터 분석 워크로드를 손쉽게 확장할 수 있도록 지원하는 관리형 데이터 웨어하우스 솔루션입니다.
데이터 레이크
데이터 레이크는 모든 규모의 정형 및 비정형 데이터를 저장할 수 있는 중앙 집중식 리포지토리입니다. 데이터 레이크로 전송되기 전이나 후에 데이터가 변환될 수 있습니다. 데이터 레이크에는 ETL 및 분석을 위한 추가 서비스가 필요합니다. 원시 데이터 분석은 일반적으로 옵션이 아닙니다.
Amazon S3는 어디서나 원하는 양의 데이터를 검색하도록 설계된 객체 데이터 스토리지로, 데이터 레이크 역할을 할 수 있습니다. S3는 데이터 액세스 권한 부여 및 저장된 데이터 공유를 위해 AWS Lake Formation에 결합할 수 있습니다.
데이터 레이크하우스
데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크의 조합입니다. 데이터 레이크하우스는 정형 데이터와 비정형 데이터를 저장할 수 있고, 스키마와 구조를 추가할 수 있는 형식 계층을 제공하며, 쿼리 엔진을 포함합니다. 데이터 레이크하우스는 모든 데이터에 대해 동시에 쿼리를 실행할 수 있기 때문에 오늘날 기업 데이터 분석의 필수 계층입니다.
Amazon SageMaker Lakehouse는 Amazon S3 데이터 레이크 및 Amazon Redshift 분석 데이터 웨어하우스에서 데이터를 통합합니다. Amazon SageMaker Lakehouse는 모든 Apache Iceberg 호환 도구와 엔진을 통해 데이터를 현재 위치에서 액세스하고 쿼리할 수 있는 유연성을 제공합니다.
기타 유형
기업 전반의 분석에서 다양한 데이터 유형이 원시 파일 및 테이블과 같은 관계형 또는 비관계형 데이터베이스 모델에 적합하지 않을 수 있습니다. 즉, 서로 다른 형식으로 저장됩니다. 예를 들어 반정형 스트리밍 데이터는 Apache Avro 파일로 저장될 수 있습니다. 이 경우 Amazon S3를 사용하면 모든 유형의 데이터를 저장할 수 있습니다.
데이터 분석 시스템을 선택하는 경우 데이터베이스와 함께 이러한 파일 유형을 분석할 수 있는 기능이 필요할 수 있습니다.
AWS에서 데이터베이스 분석을 어떻게 구현하나요?
다양한 데이터베이스, 데이터 유형, 데이터베이스 스토리지 및 관리 시스템은 각각 고유한 방식으로 데이터 분석을 처리합니다. 데이터 웨어하우스, 데이터 레이크 및 레이크하우스에서 분석을 수행하려면 서로 다른 전략과 기술이 필요합니다.
Amazon DataZone을 사용하여 AWS, 온프레미스 및 서드 파티 소스에 저장된 데이터를 카탈로그로 작성하고 검색, 공유 및 관리하여 처음부터 기본적인 데이터 거버넌스를 보장합니다.
Amazon Managed Workflows for Apache Airflow(MWAA)는 파이프라인 자동화 도구로 데이터 전송 및 변환을 통해 데이터 분석 프로세스를 조율하는 데 도움이 되며, 웨어하우스, 레이크 또는 레이크하우스에서 분석 워크플로를 트리거할 수도 있습니다.
1단계 - 다양한 소스의 데이터를 더 큰 시스템으로 중앙 집중화
현재 소스에서 데이터 웨어하우스, 데이터 레이크 및 데이터 레이크하우스로 데이터를 전송하는 다양한 방법이 있습니다. 데이터를 저장하기 전에 변환 및 정리해야 할 수 있습니다. 민감한 고객 데이터 유형, 액세스 권한, 일부 데이터에 대한 인플레이스 액세스와 같은 다른 고려 사항이 있을 수 있습니다.
AWS 웨어하우스, 레이크 또는 레이크하우스 구성을 준비하기 위해 데이터를 전송하는 가장 쉬운 방법은 먼저 데이터를 S3로 이동하는 것입니다.
- AWS Database Migration Service는 데이터베이스 워크로드를 AWS 인프라로 마이그레이션합니다. AWS Schema Conversion Tool은 기존 데이터베이스 스키마를 AWS 지원 스키마로 변환할 수 있습니다.
- AWS Snowball은 대용량 데이터에 대해 디바이스 기반 배송 및 반품 전송 기능을 제공합니다.
- AWS Transfer Family 및 AWS DataSync는 데이터 전송을 위한 대체 네트워크 기반 방법을 제공합니다.
스트리밍 데이터에는 실시간 스트리밍 데이터 전송을 위한 Amazon Data Firehose, 수집 및 집계를 위한 Amazon Kinesis Data Streams와 같은 새로운 서비스가 필요할 수도 있습니다.
2단계 - 데이터 변환 및 정규화
데이터를 분석하기 위해 일부 데이터를 변환 및 정규화해야 합니다.
AWS Glue는 100여 개의 다양한 데이터 소스를 찾아서 연결하고, 중앙 집중식 데이터 카탈로그에서 데이터를 관리하며, 데이터를 데이터 레이크, 웨어하우스 및 레이크하우스에 로드하는 데이터 파이프라인을 시각적으로 생성, 실행, 모니터링합니다. AWS Glue DataBrew는 데이터 분석가 및 데이터 과학자가 데이터를 손쉽게 정리 및 정규화할 수 있도록 지원하는 시각적 데이터 준비 도구입니다.
Amazon EMR은 Apache Spark, Trino, Apache Flink 및 Hive 빅 데이터 분석을 위한 성능 최적화 런타임을 제공하여 데이터 레이크 워크플로와 처리 시간을 간소화합니다.
Amazon SageMaker Data Wrangler는 기계 학습을 위한 데이터를 준비하는 가장 빠르고 쉬운 방법입니다.
3단계 - 통합 데이터 분석
데이터가 저장, 연결 및 변환되면 데이터 분석가가 웨어하우스, 레이크 또는 레이크하우스를 활용하여 분석을 수행합니다. 사용 사례에 따라 여러 데이터 분석 기법이 있습니다.
쿼리
Amazon Redshift에는 데이터 웨어하우스를 위한 내장된 쿼리 기능이 있습니다. Amazon Athena는 Amazon S3 데이터 레이크에 저장된 비정형, 반정형 및 정형 데이터를 분석하고 쿼리하는 데 도움이 됩니다. 실시간 데이터 분석 및 탐색을 수행하는 데 최적화되어 사용자가 대화형 방식으로 데이터를 쿼리하고 시각화할 수 있습니다. Amazon SageMaker Lakehouse도 내장된 쿼리 기능을 제공합니다.
비즈니스 인텔리전스
Amazon QuickSight는 데이터 웨어하우스, 데이터 레이크 및 레이크하우스를 포괄하는 대규모 통합 비즈니스 인텔리전스(BI) 데이터 분석을 제공합니다. 데이터 시각화는 Amazon QuickSight의 핵심 서비스입니다.
기계 학습
Amazon Redshift ML은 Redshift 웨어하우스의 기계 학습 분석에 사용할 수 있습니다. Amazon SageMaker는 데이터 레이크 및 레이크하우스에서 기계 학습 및 기타 분석 기능을 제공합니다.
Amazon SageMaker Lakehouse에서
SageMaker Lakehouse를 사용하면 단일 데이터 복사본에서 모든 Apache Iceberg와 호환되는 도구를 사용하여 데이터를 현재 위치에서 액세스하고 쿼리할 수 있습니다. SQL, Apache Spark, 비즈니스 인텔리전스(BI), AI/ML 도구 등 원하는 분석 도구 및 엔진을 활용하고 Amazon S3 데이터 레이크 및 Amazon Redshift 웨어하우스에 저장된 단일 데이터 복사본으로 협업할 수 있습니다.
스트리밍 데이터
Amazon Kinesis는 확장 가능한 보안 방식으로 실시간 비디오 및 데이터 스트림을 수집, 처리 및 분석할 수 있습니다.
AWS는 데이터베이스 분석 요구 사항을 어떻게 지원할 수 있나요?
데이터베이스를 분석하려면 오늘날 기업 환경에서 사용하는 SQL 쿼리보다 훨씬 더 많은 기능이 필요합니다. 데이터 분석가는 데이터 웨어하우스, 데이터 레이크 및 레이크하우스를 활용하여 다양한 소스, 유형 및 기능에 걸쳐 데이터 분석을 수행함으로써 데이터의 가치를 극대화할 수 있습니다.
올바른 데이터베이스 분석 아키텍처를 갖추면 솔루션을 확장하고 바로 실행할 수 있으며 현재 필수적인 ML 서비스 및 예측 분석과 통합할 수 있습니다. 지금 무료 계정을 만들어 AWS에서 시작해 보세요.