AWS Lake Formation

며칠 만에 안전한 데이터 레이크 구축

AWS Lake Formation은 안전한 데이터 레이크를 며칠 만에 손쉽게 설정할 수 있도록 지원하는 서비스입니다. 데이터 레이크는 큐레이션된 안전한 중앙 집중식 리포지토리로, 모든 데이터를 원래 형식 및 분석에 필요한 형식으로 저장합니다. 데이터 레이크를 사용하면 데이터 사일로를 없애고 다양한 유형의 분석을 조합하여 통찰력을 얻을 수 있으며, 이를 바탕으로 더 나은 비즈니스 결정을 내릴 수 있습니다.

하지만 데이터 레이크를 설정하고 관리하기 위해서는 수많은 복잡하고 시간 소모적인 수작업이 필요합니다. 이러한 작업에는 다양한 소스로부터 데이터 로딩, 이러한 데이터 흐름 모니터링, 파티션 설정, 암호화 설정 및 키 관리, 변환 작업 정의 및 운영 모니터링, 열 기반 형식으로 데이터 재구성, 액세스 제어 설정 구성, 중복 데이터 제거, 링크된 레코드 매칭, 데이터 세트에 대한 액세스 권한 부여, 추후 액세스 감사 등이 포함됩니다.

Lake Formation으로 데이터 레이크를 생성하는 작업은 데이터 원본, 적용할 데이터 액세스 및 보안 정책을 정의하는 것만큼이나 간단합니다. 그러면 Lake Formation이 데이터베이스 및 객체 스토리지의 데이터를 수집하고 카탈로그화한 후, 새로운 Amazon S3 데이터 레이크로 옮긴 다음, 기계 학습 알고리즘을 사용해 정리 및 분류하고, 민감한 데이터에 대한 액세스를 보호하도록 지원합니다. 이 과정이 마무리되면 사용자는 사용 가능한 데이터 세트 및 적절한 사용 방법이 설명된 중앙 집중식 데이터 카탈로그에 액세스할 수 있습니다. 그런 다음 사용자는 Amazon Redshift, Amazon AthenaAmazon EMR for Apache Spark(베타) 등 원하는 분석 및 기계 학습 서비스를 통해 이러한 데이터 세트를 활용할 수 있습니다. Lake Formation은 AWS Glue에서 제공되는 기능을 기반으로 합니다.

AWS re:Invent 2018 - AWS Lake Formation 발표

이점

데이터 레이크를 신속하게 구축

Lake Formation을 사용하면 데이터를 보다 신속하게 이동, 저장, 카탈로그 및 정리할 수 있습니다. Lake Formation을 데이터 소스로 지정하면 Lake Formation이 해당 소스를 크롤링하고 데이터를 새 Amazon S3 데이터 레이크로 이동합니다. Lake Formation은 S3에서 빈번하게 사용되는 쿼리 용어와 올바른 크기의 청크로 데이터를 구성하여 효율성을 높입니다. Lake Formation은 더 빠른 분석을 위해 Apache Parquet 및 ORC와 같은 형식으로 데이터를 변경합니다. 또한 Lake Formation에는 데이터 품질을 높이기 위해 일치하는 레코드(동일한 것을 참조하는 두 개의 항목)를 중복 제거하고 찾을 수 있는 machine learning 기능이 내장되어 있습니다.

보안 관리의 간소화

Lake Formation을 사용하면 서비스별로 작업을 수행하는 것보다 보안, 관리 및 감사 정책을 중앙의 한 곳에서 정의한 다음 해당 분석 애플리케이션에서 사용자에 대한 정책을 시행 할 수 있습니다. 정책은 일관되게 구현되어 AWS Identity and Access Management 및 AWS Key Management Service 같은 보안 서비스, S3 같은 스토리지 서비스, Redshift, Athena 및 EMR for Apache Spark(베타) 같은 분석 및 기계 학습 서비스를 통해 수동으로 구성할 필요가 없습니다. 이를 통해 서비스 간에 정책을 구성하는 노력을 줄이고 일관된 시행 및 준수를 제공합니다.

데이터에 대한 셀프 서비스 액세스 제공

Lake Formation을 사용하면 사용 가능한 여러 데이터 세트를 설명하고 각 사용자 그룹에 액세스 할 수 있는 데이터 카탈로그를 작성할 수 있습니다. 이는 분석할 올바른 데이터 세트를 찾도록 도와줌으로써 사용자의 생산성을 높일 수 있습니다. Lake Formation을 사용하면 일관된 보안 적용으로 데이터 카탈로그를 제공함으로써 분석가와 데이터 과학자가 선호하는 분석 서비스를 보다 쉽게 사용할 수 있습니다.
단일 데이터 레이크에 있는 다양한 데이터 세트에 대해 EMR for Apache Spark(베타), Redshift 또는 Athena를 사용할 수 있습니다. 또한 사일로 간에 데이터를 이동할 필요 없이 이러한 서비스를 결합할 수도 있습니다.

작동 방식

AWS Lake Formation 작동 방식

Lake Formation은 데이터 레이크를 구축, 보안 및 관리하는 데 도움이 됩니다. 먼저 S3 또는 관계형 데이터베이스와 NoSQL 데이터베이스에 있는 기존 데이터 저장소를 식별하고 데이터를 데이터 레이크로 이동합니다. 그런 다음 분석을 위해 데이터를 크롤링, 카탈로그 화 및 준비합니다. 그 후 사용자가 선택한 분석 서비스를 통해 데이터에 대한 안전한 셀프 서비스 액세스를 제공합니다. 다른 AWS 서비스 및 타사 애플리케이션도 표시된 서비스를 통해 데이터에 액세스할 수 있습니다. Lake Formation은 주황색 상자의 모든 작업을 관리하며 파란색 상자에 표시된 데이터 저장소 및 서비스와 통합됩니다.

사용 사례

"데이터 레이크란 무엇입니까?"와 사용 사례를 알아보십시오.

고객

panasonic_logo

Panasonic Avionics Corporation은 세계 최고의 기내 엔터테인먼트 및 커뮤니케이션 시스템 공급업체입니다.

Panasonic Avionics의 클라우드 및 데이터 서비스 담당 이사인 Anand Desikan 씨는 "저희는 환경의 다양한 애플리케이션 전반에 걸쳐 보안 설정을 관리하는 기능을 갖춘 데이터 플랫폼을 구축하고 싶었습니다. 이제 AWS Lake Formation을 사용해 정책을 한 번 정의한 후, AWS Glue와 Amazon Athena를 비롯하여 저희가 사용하는 여러 서비스에 대해 어느 곳이든 같은 방식으로 적용할 수 있습니다."라고 말합니다. “제어 수준의 높아지면서 단순히 대량의 객체에 액세스하는 것이 아니라 열 및 테이블의 데이터와 메타데이터에 안전하게 액세스할 수 있게 되었습니다. 이는 데이터 보안 및 거버넌스 표준에서 중요한 부분입니다.”

Accenture_Logo_Black_Purple_RGB

Accenture는 업계를 선도하는 글로벌 전문 서비스 기업으로, 전략, 컨설팅, 디지털, 기술 및 운영 부문에서 광범위한 서비스 및 솔루션을 제공하고 있습니다.

“저는 고객이 ‘클라우드 기반의 데이터 서비스’라는 목표를 실현하도록 지원하는 데 집중하고 있습니다. 구체적인 예를 들자면, 여러 소스에서 데이터 분석을 수행해야 하는데 신뢰할 수 있는 데이터가 부족한 문제를 해결해야 했던 조직의 사례가 있었습니다.”라는 것이 Accenture의 데이터 비즈니스 그룹 수석 아키텍트인 Namrata Maheshwary 씨의 설명입니다. “데이터 정리는 데이터 분석에서 중요한 단계로, 비즈니스 성과와 의사 결정에 크게 영향을 미칠 수 있습니다. AWS Lake Formation의 새로운 기능은 데이터 정확성과 데이터 레이크에 대한 액세스 보안이라는 문제를 해결하는 데 크게 도움이 되었습니다. 고급 기계 학습 기법을 데이터 준비에 활용하면 일치하는 레코드를 찾고, 여러 데이터 원본에서 데이터를 정리 및 복제하는 데 매우 유용하다는 사실을 알게 되었습니다. 덕분에 시간과 작업 부담, 비용은 줄이면서 고객 데이터 레이크의 데이터 품질과 정확도를 높일 수 있습니다.”

Zalando

Zalando는 유럽의 대표적인 패션 및 라이프스타일 전문 온라인 플랫폼입니다.

Zalando SE의 엔지니어링 책임자 Alberto Miorin 씨는 “유럽에서 가장 패셔너블한 기술 회사로서, 저희는 패션 산업의 모든 측면에 디지털 솔루션을 접목하기 위해 노력하고 있습니다.”라며, “AWS Lake Formation은 프로세스를 간소화할 뿐만 아니라 데이터 사용 방식에 대한 세분화된 제어를 통해 프로세스를 개선하기도 하는 Amazon Redshift를 기반으로 확장성이 뛰어난 중앙 액세스 제어 시스템을 제공했습니다. 이제 데이터 레이크의 데이터를 원하는 도구를 사용해 검색, 액세스 및 분석하고 비즈니스 인텔리전스와 데이터 과학에 활용할 수 있게 되었습니다. 간소화된 워크플로우는 경영진이 적시에 올바른 결정을 내리는 데 도움을 주며, 기계 학습을 통한 혁신을 촉진합니다.”라고 설명합니다.

Logo_for_Life360_App

Life360은 가족을 위한 세계 최고의 보호 서비스입니다. Life360 앱은 소중한 가족을 보호하고 서로 연결하도록 설계된 스마트 기능을 통해 가족 간의 유대를 돈독하게 해줍니다.

Life360, Inc.의 클라우드 및 데이터 서비스 책임자 Richard Chennault 씨는 “저희는 AWS Lake Formation을 사용하여 위치 기반 시계열 데이터를 지원할 데이터 레이크를 구축하고 데이터 로드를 간소화하기를 원했습니다. 사전 제작되는 청사진은 데이터 엔지니어링 팀이 새로 코드를 작성하지 않고 데이터 레이크로 데이터를 가져오는 데 유용합니다. 덕분에 팀이 도구를 새로 개발하는 데가 아니라 수집을 구성하는 데 집중할 수 있습니다.”라고 설명합니다. “AWS Lake Formation을 사용하면서 Amazon S3에서 데이터 가용성을 신속하고 확보하여 다양한 AWS 데이터 서비스에 걸쳐 분석을 지원할 수 있게 되었습니다. 데이터가 Amazon S3에 상주하므로 다양한 방식으로 분석하고 저희가 완벽하게 제어할 수 있습니다.”

change-healthcare-red-blue-logo

Change Healthcare는 약 2,100개의 정부 및 상업적 결제 기관, 5,500개의 병원, 900,000명의 의사 및 33,000개의 약국에 도달하는 데이터 및 분석 중심 솔루션을 제공하는 선도적인 독립 의료 기술 회사입니다.

Change Healthcare의 CTO인 Aaron Symanski는 "우리는 매일 HIPAA를 포함한 의료 산업 규제를 준수하면서 수백만 건의 거래 데이터를 처리합니다” 라고 말했습니다. "수천 명의 고객 데이터를 AWS 기반 데이터 레이크로 쉽게 로드, 정리, 보안 및 카탈로그 할 수 있는 중앙 제어 지점을 제공하여 운영 부하를 크게 줄이는 AWS Lake Formation의 출시에 매우 흥분하고 있습니다. Lake Formation의 데이터 액세스 제어 기능은 우리의 정책을 정의하고 우리가 사용하는 모든 분석 및 기계 학습 서비스 전반에 대해 쉽게 적용 할 수 있도록 하며, 감사 로그를 통해 준수를 나타냅니다.

Fender_digital

Fender Digital은 Fender에서 만드는 기타, 앰프 및 오디오 장비를 보완하는 앱, 웹사이트, 플랫폼 및 툴을 제작하는 대표적인 기타 브랜드 Fender의 일부입니다.

"우리는 디지털 애플리케이션과 장치에서 많은 사용자 및 사용 데이터를 생성하고 있습니다. 우리는 Amazon Redshift 기반 데이터 웨어하우스와 함께 작동하도록 AWS에 데이터 레이크를 구축할 계획입니다."라고 Fender Digital의 VP 엔지니어링인 Joshua Couch는 말했습니다. "우리 팀이 AWS Lake Formation에 참여할 때까지 기다리기가 힘들군요. Lake Formation을 사용하면 다양한 AWS 서비스 포트폴리오에서 데이터를 로드, 변환 및 카탈로그 화하고 조직 내에서 안전하게 사용할 수 있습니다. Lake Formation과 같은 기업용 옵션을 사용하면 수동으로 데이터 레이크를 설정하고 관리하는데 부담을 갖기보다 데이터에서 가치를 창출하는데 더 많은 시간을 할애할 수 있게 될 것입니다."

cloudreach-logo

Cloudamize라는 마이그레이션 및 관리 소프트웨어 플랫폼을 기반으로, Cloudreach는 데이터 중심의 의사 결정을 내리는 프로세스를 간소화하고 신뢰성을 높일 수 있었습니다.

Cloudreach의 AWS 실무 담당 CTO인 Kevin Davis 씨는 “AWS Lake Formation은 데이터 레이크를 민주화하고 기업 데이터 전략의 실행을 가속화하고 있습니다.”라고 말합니다. “AWS Lake Formation은 서비스의 보안 및 거버넌스를 중앙 집중화하여 관리를 간소화하고 운영 오버헤드를 줄입니다. 기업 전반에서 데이터 사일로를 없애는 프로세스를 가속화해주므로, 기계 학습과 같은 다른 이니셔티브에서 더 큰 비즈니스 가치가 실현되기 시작합니다.”

Amgen-logo

Amgen은 세계 최대의 독립 생명 공학 회사입니다.

“Amgen은 Amazon Redshift 및 Amazon EMR 클러스터를 수년간 많이 사용해왔습니다. 각 AWS 계정, 서비스, 사용자 및 데이터에 대해 요구되는 세부 수준으로 보안 및 액세스 제어를 설정하는 것은 번거로운 작업이 될 수 있습니다.”라고 설명합니다. “AWS Lake Formation은 중앙 집중식 제어를 통해 이 프로세스를 간소화하는 동시에 데이터를 사용하는 사람과 방식을 보다 세부적으로 관리할 수 있도록 합니다. AWS Lake Formation 덕분에 Amazon S3 객체에 대한 권한을 데이터베이스의 데이터에 대한 권한을 관리하듯이 관리할 수 있게 되었습니다. 이제 사용자들이 원하는 도구를 사용하여 필요한 데이터를 찾고, 액세스하고, 분석할 수 있습니다. 이 새로운 워크플로우는 Amgen의 데이터를 사용하는 모든 이의 생산성을 높일 수 있습니다.”

Alcon-logo

Alcon은 획기적인 안과 및 시력 보호 제품의 혁신과 개발을 선도하는 업체입니다.

Alcon의 IT 분석 책임자인 Srinivas Ravilisetty 씨는 “많은 회사들과 마찬가지로, 저희도 액세스하기 어려운 데이터 사일로를 없애고자 데이터 레이크 이니셔티브를 시작했습니다. AWS Lake Formation 덕분에 기존 Amazon S3 버킷에 대한 액세스를 신속하게 추가하고 그 안에 들어 있는 데이터와 그 사용 방식을 정의할 수 있게 되었습니다. 데이터는 항상 S3에 상주하지만 다른 사용 사례에 대해서 저희가 완벽하게 제어할 수 있습니다.”

quantiphi-logo

Quantiphi는 복잡한 비즈니스 문제를 해결하고자 하는 인공 지능 및 빅 데이터 소프트웨어 및 서비스 회사입니다. Quantiphi는 고객에게 수치화할 수 있는 가치를 실현해주는 데이터 레이크 구축 및 AI 솔루션을 전문으로 합니다.

Quantiphi의 AWS 실무 책임자 Arnav Gupta 씨는 “AWS Lake Formation 덕분에 며칠 만에 관련 데이터에 대한 액세스를 지원하는 안전한 데이터 레이크를 제공할 수 있게 되었습니다.”라고 말합니다. “이제 완벽한 보안은 물론, 사용자가 쉽게 의사 결정을 내리도록 하는 액세스 간소화까지 두 가지 이점을 모두 실현할 수 있게 되었습니다. 따라서 저희 고객은 강력한 중앙 집중식 데이터 원본에 액세스하여 더 스마트하고 분석을 기반으로 한 비즈니스 결정을 내리는 데 집중할 수 있습니다.”

Product-Page_Standard-Icons_01_Product-Features_SqInk
AWS Lake Formation 기능에 대해 자세히 알아보기
자세히 알아보기 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
계정에 가입
가입하기 
Product-Page_Standard-Icons_03_Start-Building_SqInk
콘솔에서 구축 시작
로그인