AWS 솔루션 라이브러리

Data Lake on AWS

기존 데이터 관리 시스템보다 더욱 민첩하고 유연한 데이터 스토리지 및 분석 솔루션을 필요로 하는 Amazon Web Services(AWS) 고객이 많습니다. 데이터 레이크는 새로 등장하여 데이터 저장과 분석에 인기를 얻고 있습니다. 기업들은 다양한 소스에서 여러 데이터를 관리하고, 이 데이터를 중앙 집중형 리포지토리에 구조적, 비구조적 형식으로 저장할 수 있습니다.

AWS 클라우드는 고객이 안전하고 유연하며 비용 효율적인 데이터 레이크를 구현하는 데 필요한 다양한 빌딩 블록을 제공합니다. 여기에는 구조화된 데이터와 구조화되지 않은 데이터를 모두 수집, 저장, 찾기, 처리 및 분석하는 데 도움이 되는 AWS Managed Services가 포함됩니다. Data Lake on AWS는 데이터 레이크를 구축하는 고객을 지원하기 위해 AWS가 제공하는 솔루션입니다. 이 솔루션은 데이터 집합을 검색하고 요청하는 데 사용할 수 있는 사용자 친화적인 콘솔과 함께 고가용성의 비용 효율적인 데이터 레이크 아키텍처를 AWS 클라우드에 배포합니다.

개요

Data Lake on AWS는 회사 내부에서 또는 다른 외부 사용자가 특정 데이터 하위 집합을 손쉽게 태그 지정, 검색, 공유, 변환, 분석 및 관리하는 데 필요한 핵심 AWS 서비스를 자동으로 구성합니다. 이 지침은 사용자가 액세스하여 비즈니스 요구 사항에 따라 사용 가능한 데이터 집합을 검색 및 탐색할 수 있는 콘솔을 배포합니다. 또한 이 솔루션에는 Microsoft Active Directory와 통합되는 솔루션 버전을 시작할 수 있는 페더레이션 템플릿이 포함됩니다.

아래의 다이어그램은 GitHub의 예제 코드를 사용하여 구축할 수 있는 데이터 레이크 아키텍처를 보여줍니다.

Data Lake on AWS 아키텍처

이 코드는 AWS Lambda 마이크로서비스(함수) 집합, 안정적 검색 기능을 위한 Amazon OpenSearch Service, 사용자 인증을 위한 Amazon Cognito, 데이터 변환을 위한 AWS Glue, 분석을 위한 Amazon Athena를 구성합니다.

Data Lake on AWS는 Amazon S3의 보안, 내구성, 확장성을 활용해서 조직 데이터 집합의 영구 카탈로그를 관리하고 Amazon DynamoDB로 해당 메타 데이터를 관리합니다. 데이터 집합이 카탈로그에 기록되면 속성과 설명 태그를 검색에 사용할 수 있게 됩니다. 사용자는 콘솔에서 사용 가능한 데이터 집합을 검색하여 살펴보고, 액세스가 필요한 데이터 목록을 생성할 수 있습니다. 이 솔루션은 사용자가 선택하는 데이터 집합을 추적하면서 사용자가 체크아웃할 때 원하는 콘텐츠로 안전한 액세스 링크를 제공하는 매니페스트 파일을 생성합니다.

간단히 보기

Data Lake on AWS

버전 2.2
최종 업데이트 날짜: 2023년 4월
작성자: AWS

GitHub의 예제 코드

추가 리소스

리소스 및 FAQ »
문의하기 »

이 가이드가 도움이 되었나요?

예

아니요

피드백 제공

기능

데이터 액세스 유연성

미리 설명된 Amazon S3 URL을 활용하거나 적절한 AWS Identity and Access Management(IAM) 역할을 사용하여 제어된 환경에서 Amazon S3의 데이터 집합에 직접 액세스할 수 있습니다.

관리형 스토리지 계층

관리형 Amazon S3 버킷에서 데이터 저장 및 검색을 보안, 관리하고 솔루션별 AWS Key Management Service(KMS) 키로 저장된 데이터를 암호화합니다.

페더레이션 로그인

필요한 경우 SAML ID 공급자(IdP)(예: Microsoft Active Directory Federation Services(AD FS))를 통한 사용자 로그인을 허용할 수 있습니다.

명령줄 인터페이스

기본 제공되는 CLI 또는 API를 사용하여 데이터 레이크 활동을 간편하게 자동화하거나 이 지침을 기존 데이터 자동화에 통합하여 데이터 집합 수집, 수신, 분석에 활용합니다.

사용자 인터페이스

Data Lake on AWS는 Amazon S3에서 호스트되고 Amazon CloudFront를 통해 제공되는 직관적인 웹 기반 콘솔 UI를 제공합니다. 콘솔에 액세스하면 데이터 레이크 사용자 및 데이터 레이크 정책 관리 데이터 패키지 추가/제거, 데이터 패키지 검색, 추가 분석을 위한 데이터 집합 매니페스트 생성 기능을 손쉽게 사용할 수 있습니다.