AWS 기반 현대적 데이터 아키텍처
현대적 데이터 아키텍처 - 작동 방식
현대적 데이터 아키텍처는 분석에서 모든 규모에 하나의 솔루션을 제공할 경우 비효율적이라는 생각에 기반합니다. 단순히 데이터 레이크를 데이터 웨어하우스에 통합하는 것이 아니라, 데이터 레이크, 데이터 웨어하우스 및 목적별 스토어를 통합하여 통합 거버넌스와 간편한 데이터 이동을 지원하는 것입니다. AWS 기반의 현대적 데이터 아키텍처를 통해 고객은 확장 가능한 데이터 레이크를 신속하게 구축하고, 광범위하고 심층적인 데이터 서비스 모음을 사용하며, 통합 데이터 액세스, 보안 및 거버넌스를 통해 규정 준수를 보장하고, 성능 저하 없이 저렴한 비용으로 시스템을 확장하고, 조직의 경계를 넘어 손쉽게 데이터를 공유함으로써 대규모 환경에서 신속하고 민첩하게 의사 결정을 내릴 수 있습니다.

현대적 데이터 아키텍처가 필요한 이유
데이터 볼륨은 매우 빠르게 증가하며, 테라바이트에서 페타바이트, 때로는 엑사바이트 수준으로 급증하고 있습니다. 기존의 온프레미스 데이터 분석 접근 방식으로는 이러한 데이터 볼륨을 감당할 수 없습니다. 기존 방식은 충분한 확장이 불가능하고 비용이 너무 비싸기 때문입니다. 많은 회사가 여러 사일로에서 모든 데이터를 가져와 한곳에서 이러한 모든 데이터를 집계하고, 여기서 데이터 레이크를 호출하여 해당 데이터를 기반으로 바로 분석과 기계 학습을 수행합니다. 때로는 같은 회사에서 정형 및 비정형 데이터 모두를 분석하고 이로부터 인사이트를 얻기 위해 목적별 데이터 스토어에 다른 데이터를 저장하기도 합니다. 이러한 경우 데이터에는 중력이 작용하므로 데이터는 ‘내부에서 외부로’, ‘외부에서 내부로’, ‘경계 주변’에서 이동하거나 ‘경계를 넘어 공유’할 수 있습니다.
-
내부에서 외부로
-
외부에서 내부로
-
경계 주변
-
경계를 넘어 공유
-
데이터 중력
-
내부에서 외부로
-
내부에서 외부로 데이터 이동
고객은 데이터 레이크에 데이터를 저장한 후 추가적인 기계 학습 및 분석을 위해 해당 데이터 일부를 목적별 데이터 스토어에 이동합니다.
예제: 웹 애플리케이션의 클릭스트림 데이터는 데이터 레이크에서 직접 수집되며, 이러한 데이터의 일부가 매일 보고를 위해 데이터 웨어하우스로 이동(외부로 이동)될 수 있습니다. 이러한 조건을 내부에서 외부로의 데이터 이동으로 간주합니다.
-
외부에서 내부로
-
외부에서 내부로 데이터 이동
고객이 데이터 웨어하우스 또는 데이터베이스와 같은 목적별 데이터 스토어에 데이터를 저장한 후 해당 데이터에서 분석을 실행하기 위해 해당 데이터를 데이터 레이크로 이동합니다.
예제: 기계 학습을 통해 대규모 데이터 집합에서 제품 추천 알고리즘을 실행하기 위해 지정된 리전에서 제품 판매에 대한 조회 결과를 데이터 웨어하우스에서 데이터 레이크로 복사합니다.
-
경계 주변
-
경계 주변에서 데이터 이동
데이터 레이크, 데이터 웨어하우스 및 목적별 데이터 스토어를 원활하게 통합합니다.
예제: 제품 카탈로그를 보다 쉽게 검색하고 데이터베이스에서 검색 쿼리를 오프로드하기 위해 데이터베이스에 저장된 제품 카탈로그 데이터를 검색 서비스로 복사할 수 있습니다.
-
경계를 넘어 공유
-
경계를 넘어 공유하는 방식의 데이터 이동
많은 고객은 현대적 데이터 아키텍처를 사용하여 논리적 또는 물리적 거버넌스 경계를 넘어 거버넌스와 데이터 공유를 촉진함으로써 사업부(LOB)에 맞춤화된 데이터 도메인을 구축하고 있습니다.
-
데이터 중력
-
데이터 중력
이러한 데이터 레이크 및 목적별 스토어의 데이터는 계속 증가하므로, 이러한 모든 데이터를 이동하기가 더 어려워집니다. 왜냐하면 데이터에는 중력이 작용하기 때문입니다. 마찬가지로, 필요할 때 언제나 올바른 제어 권한으로 데이터에 쉽게 접근하여 분석을 수행하고 인사이트를 얻을 수 있어야 합니다.
현대적 데이터 아키텍처 원칙
회사들은 여러 사일로에서 데이터를 가져와 한 곳에 이러한 모든 데이터를 집계하고 해당 데이터를 기반으로 분석과 기계 학습을 수행합니다. 이러한 방식에서 최대한 가치를 끌어내려면 현대적 데이터 아키텍처를 활용해야 합니다. 그러면 데이터 레이크와 목적별 데이터 스토어 사이에서 데이터를 쉽게 이동할 수 있습니다. 이러한 현대적 아키텍팅 방식에는 다음 조건이 우선되어야 합니다.
-
확장 가능한 데이터 레이크
수많은 고객이 AWS에서 데이터 레이크를 실행합니다.
데이터 레이크를 설정하고 관리하기 위해서는 시간 소모적인 많은 수작업이 필요합니다. AWS Lake Formation은 이러한 작업을 자동화하므로 사용자는 몇 달이 아니라 며칠 만에 데이터 레이크를 구축하고 보호할 수 있습니다. 데이터 레이크 스토리지의 경우, Amazon S3는 독보적인 99.999999999%의 내구성과 99.99%의 가용성 덕분에 데이터 레이크를 구축하기에 가장 적합하며, 객체 수준 감사 로깅 및 액세스 제어를 통한 최상의 보안, 규정 준수, 감사 기능을 제공하고, 5개의 스토리지 계층으로 최고의 유연성을 보여주며, 요금이 가장 저렴합니다(매월 TB당 1 USD 미만부터 시작).
-
목적별 분석 서비스
AWS는 고유한 분석 사용 사례에 최적화된 가장 광범위하고 가장 심층적인 목적별 분석 서비스 포트폴리오를 제공합니다.
이러한 서비스는 모두 동급 최고로 설계되었습니다. 즉, 사용 시 성능, 규모 또는 요금에서 결코 실망하는 일이 없습니다. 예를 들어, Amazon Redshift는 다른 클라우드 데이터웨어 하우스보다 3배 더 빠르고 50% 이상 저렴합니다. Spark on Amazon EMR은 표준 Apache Spark 3.0보다 1.7배 빠르게 실행되며 기존 온프레미스 솔루션의 절반도 안 되는 비용으로 페타바이트 규모의 분석을 실행할 수 있습니다.
-
통합 데이터 액세스
데이터 레이크 및 목적별 데이터 스토어의 데이터가 계속 증가하면서, 해당 데이터 일부를 한 데이터 스토어에서 다른 데이터 스토어로 쉽게 이동하는 기능이 필요한 경우가 많습니다.
AWS를 사용하면 여러 데이터 스토어와 데이터 레이크에서 데이터를 손쉽게 결합, 이동 및 복제할 수 있습니다. 예를 들어, AWS Glue는 분석, 기계 학습, 애플리케이션 개발을 위해 데이터를 손쉽게 검색, 준비 및 결합할 수 있는 포괄적인 데이터 통합 기능을 제공하는 한편, Amazon Redshift는 S3 데이터 레이크에서 데이터를 쉽게 쿼리할 수 있습니다. 이렇게 데이터를 가장 필요한 위치로 규모에 맞게 손쉽게 이동할 수 있게 하는 제공자는 AWS밖에 없습니다.
-
통합 거버넌스
최신 분석 아키텍처에서 가장 중요한 부분 중 하나는 고객이 데이터에 대한 액세스 권한을 부여, 관리 및 감사하는 기능입니다.
이는 상당히 어려울 수 있습니다. 조직의 모든 데이터 스토어에서 보안, 액세스 제어 및 감사 추적을 관리하는 일은 복잡하고 시간이 많이 걸리고 오류가 발생하기 쉽기 때문입니다. AWS는 여러 데이터 레이크와 목적별 데이터 스토어에 걸쳐 모든 데이터에 대한 액세스를 한곳에서 관리할 수 있는 거버넌스 기능을 제공합니다. AWS Lake Formation을 사용하면 보안, 거버넌스 및 감사 정책을 한곳에서 정의하고 관리할 수 있으므로 전사적 데이터 공유를 위한 일관된 액세스 제어가 가능합니다.
-
성능 및 비용 효율성
AWS는 모든 분석 서비스에서 최저 비용으로 최고 성능을 제공하기 위해 최선을 다하고 있으며, 서비스의 가격 대비 성능을 개선하기 위해 계속해서 혁신하고 있습니다.
분석 서비스에 대한 업계 최고의 가격 대비 성능 외에도, S3 Intelligent Tiering은 고객이 데이터 레이크에 저장된 데이터의 스토리지 비용을 최대 70% 절감하게 하며, Amazon EC2는 업계 최고의 20개가 넘는 인스턴스 유형에 대한 액세스, 최대 100Gbps 네트워크 대역폭, 온디맨드, 예약 및 스팟 인스턴스 중에서 선택하는 기능을 제공합니다.
더 많은 고객이 어디서나 AWS 기반 현대적 데이터 아키텍처를 활용해야 함
-
BMW Group
-
혁신을 가속화하고 데이터 사용을 대규모로 민주화하기 위해 BMW Group은 Amazon S3에서 지원하는 온프레미스 데이터 레이크로 마이그레이션했습니다. 이제 BMW는 매일 수백만 대의 차량에서 전송되는 TB 단위의 텔레메트리 데이터를 처리하고 고객에게 영향을 미치기 전에 문제를 해결합니다.
-
Nielsen
-
글로벌 평가 및 데이터 분석 회사인 Nielsen은 현대적 클라우드 기술을 활용하여 매일 수집하고 처리하며 클라이언트에 보고하는 데이터 양을 크게 늘렸습니다. 매일 사내 처리 건수가 40,000건에서 3천만 건으로 늘어났습니다.
-
Engie
-
프랑스 공익 사업 부문에서 가장 큰 기업 중 하나인 ENGIE는 70개 국가에서 160,000명의 직원과 40개의 사업부를 운영하고 있습니다. 이들이 운영하는 Common Data Hub의 100TB 규모에 달하는 데이터 레이크에서는 데이터 과학, 마케팅 및 운영에 대한 비즈니스 요구 사항을 충족하기 위해 AWS 서비스를 사용합니다.
파트너
조직이 AWS 기반 현대적 데이터 아키텍처를 구축할 수 있도록 파트너가 지원하는 방법에 대해 알아보세요.

Cloudera
AWS에서 Cloudera Enterprise를 실행하면 IT 및 비즈니스 사용자에게 최신 데이터 프로세싱 및 분석을 위한 기반 역할을 할 수 있는 데이터 관리 플랫폼을 제공할 수 있습니다.
/Informatica_icon_solutionspace.b413aef928d0d5cb73d65ffe147b99059a187b46.png)
Informatica Cloud
Informatica Cloud는 100개 이상의 애플리케이션에 대한 네이티브 연결을 통해 AWS 데이터 서비스와의 최적화된 통합을 제공합니다.

Dataguise
Dataguise는 안전한 비즈니스 실행의 선두업체로, 저장 위치나 대상 사용자에 상관 없이 기업의 민감한 데이터를 감지하고 보호하는 데이터 중심의 보안 솔루션을 제공합니다.

Alluxio Data Orchestration
Alluxio Data Orchestration을 사용해 고객은 분석 및 AI 워크로드를 위한 EMR 및 S3와 같은 주요 AWS 서비스를 효과적으로 활용할 수 있습니다.
시작하기

AWS Data-Driven Everything
AWS Data-Driven EVERYTHING(D2E) 프로그램에서 AWS는 고객과 파트너 관계를 맺고 데이터 플라이휠을 직접 활용할 수 있도록 보다 높은 정확도로 보다 야심찬 포부를 갖고 보다 빠르게 발전합니다.
자세히 알아보기 »

AWS Data Lab
AWS Data Lab은 고객과 AWS 기술 리소스 사이에서 빠른 협업 엔지니어링 참여를 제공하여 데이터 및 분석 현대화 이니셔티브를 가속화하는 유형의 결과물을 얻습니다.

AWS 데이터 및 빅 데이터 참조 아키텍처
AWS에서의 클라우드 데이터 분석, 데이터 웨어하우징 및 데이터 관리에 관한 아키텍처 모범 사례에 대해 알아보세요.