기존 데이터 관리 시스템보다 더욱 민첩하고 유연한 데이터 스토리지 및 분석 솔루션을 필요로 하는 Amazon Web Services(AWS) 고객이 많습니다. 데이터 레이크는 새로 등장하여 데이터 저장과 분석에 인기를 얻고 있습니다. 기업들은 다양한 소스에서 여러 데이터를 관리하고, 이 데이터를 중앙 집중형 리포지토리에 구조적, 비구조적 형식으로 저장할 수 있습니다.
AWS 클라우드는 고객이 안전하고 유연하며 비용 효율적인 데이터 레이크를 구현하는 데 필요한 다양한 빌딩 블록을 제공합니다. 여기에는 구조화된 데이터와 구조화되지 않은 데이터를 모두 수집, 저장, 찾기, 처리 및 분석하는 데 도움이 되는 AWS Managed Services가 포함됩니다. Data Lake on AWS는 데이터 레이크를 구축하는 고객을 지원하기 위해 AWS가 제공하는 솔루션입니다. 이 솔루션은 데이터 집합을 검색하고 요청하는 데 사용할 수 있는 사용자 친화적인 콘솔과 함께 고가용성의 비용 효율적인 데이터 레이크 아키텍처를 AWS 클라우드에 배포합니다.
개요
Data Lake on AWS는 회사 내부에서 또는 다른 외부 사용자가 특정 데이터 하위 집합을 손쉽게 태그 지정, 검색, 공유, 변환, 분석 및 관리하는 데 필요한 핵심 AWS 서비스를 자동으로 구성합니다. 이 지침은 사용자가 액세스하여 비즈니스 요구 사항에 따라 사용 가능한 데이터 집합을 검색 및 탐색할 수 있는 콘솔을 배포합니다. 또한 이 솔루션에는 Microsoft Active Directory와 통합되는 솔루션 버전을 시작할 수 있는 페더레이션 템플릿이 포함됩니다.
아래의 다이어그램은 GitHub의 예제 코드를 사용하여 구축할 수 있는 데이터 레이크 아키텍처를 보여줍니다.
Data Lake on AWS 아키텍처
이 코드는 AWS Lambda 마이크로서비스(함수) 집합, 안정적 검색 기능을 위한 Amazon OpenSearch Service, 사용자 인증을 위한 Amazon Cognito, 데이터 변환을 위한 AWS Glue, 분석을 위한 Amazon Athena를 구성합니다.
Data Lake on AWS는 Amazon S3의 보안, 내구성, 확장성을 활용해서 조직 데이터 집합의 영구 카탈로그를 관리하고 Amazon DynamoDB로 해당 메타 데이터를 관리합니다. 데이터 집합이 카탈로그에 기록되면 속성과 설명 태그를 검색에 사용할 수 있게 됩니다. 사용자는 콘솔에서 사용 가능한 데이터 집합을 검색하여 살펴보고, 액세스가 필요한 데이터 목록을 생성할 수 있습니다. 이 솔루션은 사용자가 선택하는 데이터 집합을 추적하면서 사용자가 체크아웃할 때 원하는 콘텐츠로 안전한 액세스 링크를 제공하는 매니페스트 파일을 생성합니다.