AWS Lake Formation

며칠 만에 안전한 데이터 레이크 구축

AWS Lake Formation은 안전한 데이터 레이크를 며칠 만에 손쉽게 설정할 수 있도록 지원하는 서비스입니다. 데이터 레이크는 큐레이팅된 안전한 중앙 집중식 리포지토리로, 모든 데이터를 원래 형식 및 분석에 필요한 형식으로 저장합니다. 데이터 레이크를 사용하면 데이터 사일로를 없애고 다양한 유형의 분석을 조합하여 인사이트를 얻을 수 있으며, 이를 바탕으로 더 나은 비즈니스 결정을 내릴 수 있습니다.

데이터 레이크를 설정하고 관리하기 위해서는 수많은 복잡하고 시간 소모적인 수작업이 필요합니다. 이러한 작업에는 다양한 소스로부터 데이터 로딩, 해당 데이터 흐름 모니터링, 파티션 설정, 암호화 설정 및 키 관리, 변환 작업 정의 및 운영 모니터링, 열 기반 형식으로 데이터 재구성, 중복 데이터 제거, 링크된 레코드 매칭 등이 포함됩니다. 데이터가 데이터 레이크에 로드되면, 세분화된 액세스 권한을 데이터 집합에 부여하고 넓은 범위의 분석 및 기계 학습(ML) 도구 및 서비스에 걸쳐 시간에 따른 액세스를 감사해야 합니다.

Lake Formation으로 데이터 레이크를 생성하는 작업은 데이터 원본, 적용할 액세스 및 보안 정책을 정의하는 것 만큼이나 간단합니다. 그러면 Lake Formation이 데이터베이스 및 객체 스토리지의 데이터를 수집하고 카탈로그화한 후, 새로운 Amazon Simple Storage Service(S3) 데이터 레이크로 옮긴 다음, 기계 학습 알고리즘을 사용해 정리 및 분류하고, 열, 행, 셀 수준에서의 세분화된 제어를 사용해 민감한 데이터에 대한 액세스를 보호하도록 지원합니다. 이 과정이 마무리되면 사용자는 사용 가능한 데이터 세트 및 적절한 사용 방법이 설명된 중앙 집중식 데이터 카탈로그에 액세스할 수 있습니다. 그러면 Amazon Redshift, Amazon Athena, Amazon EMR for Apache Spark, Amazon QuickSight 등 선택한 분석 및 기계 학습 서비스에서 이러한 데이터 세트를 사용할 수 있습니다. Lake Formation은 AWS Glue에서 제공되는 기능을 기반으로 합니다.

AWS re:Invent 2018 - AWS Lake Formation 발표(2:44)

이점

데이터 레이크를 신속하게 구축

Lake Formation을 사용하면 데이터를 보다 신속하게 이동, 저장, 카탈로그 및 정리할 수 있습니다. Lake Formation에서 데이터 원본을 지정하면 해당 소스를 크롤링하고 데이터를 새 Amazon S3 데이터 레이크로 이동합니다. Lake Formation은 빈번하게 사용되는 쿼리 용어를 중심으로 S3의 데이터를 적절한 크기의 청크로 구성하여 효율성을 높입니다. 또한 더 빠른 분석을 위해 Apache Parquet 및 ORC와 같은 형식으로 데이터를 변경합니다. 또한 Lake Formation에는 데이터 품질을 높이기 위해 일치하는 레코드(동일한 것을 참조하는 두 개의 항목)를 중복 제거하고 찾을 수 있는 기계 학습 기능이 내장되어 있습니다.

보안 관리의 간소화

Lake Formation은 데이터에 액세스하는 모든 사용자 및 서비스에 대해 테이블, 열, 행, 셀 수준에서 운영되는 액세스 제어를 정의하고 적용할 수 있는 단일 장소를 제공합니다. 정책은 일관되게 구현되므로 보안 서비스(예: AWS Identity and Access Management(IAM) 및 AWS Key Management Service(KMS)), 스토리지 서비스(예: S3), 분석 및 기계 학습 서비스(예: Redshift, Athena, AWS Glue 및 EMR for Apache Spark) 등에서 수동으로 구성할 필요가 없습니다. 이를 통해 서비스 간에 정책을 구성하는 노력을 줄이고 일관된 시행 및 준수를 제공합니다.

데이터에 대한 셀프 서비스 액세스 제공

Lake Formation을 사용하면 사용 가능한 여러 데이터 세트를 설명하고 각 사용자 그룹에 액세스할 수 있는 데이터 카탈로그를 작성할 수 있습니다. 이는 분석할 올바른 데이터 세트를 찾도록 도와줌으로써 사용자의 생산성을 높일 수 있습니다. Lake Formation을 사용하면 일관된 보안 적용으로 데이터 카탈로그를 제공함으로써 분석가와 데이터 사이언티스트가 선호하는 분석 서비스를 보다 쉽게 사용할 수 있습니다. Apache Spark, Redshift, Athena, AWS Glue, Amazon QuickSight에서 현재 단일 데이터 레이크에 있는 다양한 데이터 세트에 대해 EMR을 사용할 수 있습니다. 또한 사일로 간에 데이터를 이동할 필요 없이 이러한 서비스를 결합할 수도 있습니다.

작동 방식

작동 방식

Lake Formation은 데이터 레이크를 구축, 보안 및 관리하는 데 도움이 됩니다. 먼저 S3 또는 관계형 데이터베이스와 NoSQL 데이터베이스에 있는 기존 데이터 저장소를 식별하고 데이터를 데이터 레이크로 이동합니다. 그런 다음 분석을 위해 데이터를 크롤링, 카탈로그화 및 준비합니다. 다음으로, 사용자가 선택한 분석 서비스를 통해 데이터에 대한 안전한 셀프 서비스 액세스를 제공합니다. 다른 AWS 서비스 및 서드파티 애플리케이션도 표시된 서비스를 통해 데이터에 액세스할 수 있습니다. Lake Formation은 주황색 상자에 표시된 모든 태스크를 관리하며 파란색 상자에 표시된 데이터 저장소 및 서비스와 통합됩니다.

사용 사례

데이터 레이크를 신속하게 구축

Lake Formation의 블루프린트를 사용하여 데이터에 대한 이동, 저장, 카탈로그화, 정리, 구성이 신속해집니다. 데이터를 Parquet 및 ORC와 같은 형식으로 변환해 빠르게 분석하고 내장 기계 학습을 사용해 레코드의 중복을 제거하며 일치하는 레코드를 찾습니다. Amazon S3 테이블의 새로운 유형인 관리 테이블(Governed Tables)을 사용해 데이터 저장 및 유지 관리 방법을 간소화합니다. 관리 테이블은 ACID(원자식, 일관적, 격리형, 내구성) 트랜잭션을 사용해 충돌을 자동으로 관리하고 모든 사용자에 대해 일관적인 데이터 보기를 보장합니다. 관리 테이블은 또한 데이터를 모니터링하고 자동으로 최적화하여 관리 테이블에 쿼리할 때 엔진 성능을 개선합니다.

액세스 제어에 대한 중앙 집중식 정의 및 관리

Lake Formation은 Amazon S3의 데이터에 대해 세분화된 권한을 정의, 분류, 태깅 및 관리할 수 있는 단일 장소를 제공합니다. 태그의 계층적 목록을 정의하고, 데이터베이스, 테이블, 열에 태그를 할당하며 열 및 셀 수준 보안을 구성할 수 있습니다.

데이터 분류 및 세분화된 액세스 적용

Lake Formation은 각 사용 서비스마다 데이터 액세스 제어를 구성하지 않고도 정책을 적용할 수 있습니다. Lake Formation은 데이터를 자동으로 필터링하고 정의된 정책에 의해 허용된 데이터만 인증된 사용자에게 중복 데이터 없이 표시합니다.

지속적인 데이터 관리, 시간 이동(Time Travel), 스토리지 최적화를 활성화

배치 업데이트 및 데이터 스트리밍에 대한 데이터 레이크 안정성 및 신뢰성을 개선합니다. 데이터 버전 기록을 쿼리하고 변경된 데이터를 감사합니다. 작은 파일을 자동으로 압축하고 필터 푸시다운을 활성화하여 데이터 스캔을 줄이고 쿼리 성능을 개선합니다.

교차 계정 공유를 사용해 연합 데이터 레이크 활성화

잘 관리된 데이터 공유를 사용해 데이터 이동을 최소화하거나 거의 없는 상태로, 분산된 도메인 지향 데이터 제품을 조직 전체에 전달합니다.

자세한 내용은 “데이터 레이크란 무엇입니까?”를 참조하세요.

고객

Nu Skin

Nu Skin Enterprises는 개인 생활용품 및 건강 보조제 카테고리에 200개가 넘는 프리미엄급 안티 에이징 제품을 유통하는 세계적인 직접 판매 기업입니다.

"저희는 기존 분석 시스템의 기능을 확대하고 처리량을 확장해야 한다는 과제에 직면했습니다. 연결되지 않은 다수의 데이터베이스와 SaaS 솔루션 사이에 분산된 데이터 때문에 규모 있게 데이터를 분석하기가 어려웠고 민감한 데이터에 대한 액세스도 제한되었습니다. 이러한 문제를 극복하기 위해 AWS에서 데이터 레이크 솔루션을 구축했습니다. 그 결과 다양한 데이터 사일로에서 Amazon S3로 데이터를 집계하고, 여기서 AWS Lake Formation을 사용해 모든 데이터를 카탈로그에 저장하고 보안을 유지할 수 있었습니다. "AWS Lake Formation이 없었다면 Amazon S3의 모든 데이터에 대한 확장 가능하고 편리한 보안 계층이라는 목적을 달성할 수 없었을 겁니다. 사용자의 특성을 기반으로 세분화된 액세스 제어를 손쉽게 설정하고 적용할 수 있었습니다."

Joe Sueper, Nu Skin Enterprises의 Global Technology Services, 엔터프라이즈 아키텍처 VP

Panasonic

Panasonic Avionics Corporation은 세계 최고의 기내 엔터테인먼트 및 커뮤니케이션 시스템 공급업체입니다.

"저희는 환경의 다양한 애플리케이션 전반에 걸쳐 보안 설정을 관리하는 기능을 갖춘 데이터 플랫폼을 구축하고 싶었습니다. 이제 AWS Lake Formation을 사용해 정책을 한 번 정의한 후, AWS Glue와 Amazon Athena를 비롯하여 저희가 사용하는 여러 서비스에 대해 어느 곳이든 같은 방식으로 적용할 수 있습니다. 제어 수준이 높아지면서 단순히 대량의 객체에 액세스하는 것이 아니라 열 및 테이블의 데이터와 메타데이터에 안전하게 액세스할 수 있게 되었습니다. 이는 데이터 보안 및 거버넌스 표준에서 중요한 부분입니다."

Anand Desikan, Panasonic Avionics의 클라우드 및 데이터 서비스 담당 이사

Accenture

Accenture는 업계를 선도하는 글로벌 전문 서비스 기업으로, 전략, 컨설팅, 디지털, 기술 및 운영 부문에서 광범위한 서비스 및 솔루션을 제공하고 있습니다.

"저는 고객이 '클라우드 기반의 데이터 서비스'라는 목표를 실현하도록 지원하는 데 집중하고 있습니다. 구체적인 예를 들자면, 여러 소스에서 데이터 분석을 수행해야 하는데 신뢰할 수 있는 데이터가 부족한 문제를 해결해야 했던 조직의 사례가 있었습니다. 데이터 정리는 데이터 분석에서 중요한 단계로, 비즈니스 성과와 의사 결정에 크게 영향을 미칠 수 있습니다. AWS Lake Formation의 새로운 기능은 데이터 정확성과 데이터 레이크에 대한 액세스 보안이라는 문제를 해결하는 데 크게 도움이 되었습니다. 고급 기계 학습 기법을 데이터 준비에 활용하면 일치하는 레코드를 찾고, 여러 데이터 원본에서 데이터를 정리 및 복제하는 데 매우 유용하다는 사실을 알게 되었습니다. 덕분에 시간과 작업 부담, 비용은 줄이면서 고객 데이터 레이크의 데이터 품질과 정확도를 높일 수 있습니다."

Namrata Maheshwary, Accenture의 데이터 비즈니스 그룹 수석 아키텍트

Zalando

Zalando는 유럽의 대표적인 패션 및 라이프스타일 전문 온라인 플랫폼입니다.

"유럽에서 가장 패셔너블한 기술 회사로서, 저희는 패션 산업의 모든 측면에 디지털 솔루션을 접목하기 위해 노력하고 있습니다. AWS Lake Formation은 프로세스를 간소화할 뿐만 아니라 데이터 사용 방식에 대한 세분화된 제어를 통해 프로세스를 개선하기도 하는 Amazon Redshift를 기반으로 확장성이 뛰어난 중앙 액세스 제어 시스템을 제공했습니다. 이제 데이터 레이크의 데이터를 원하는 도구를 사용해 검색, 액세스 및 분석하고 비즈니스 인텔리전스와 데이터 과학에 활용할 수 있게 되었습니다. 간소화된 워크플로는 경영진이 적시에 올바른 결정을 내리는 데 도움을 주며, 기계 학습을 통한 혁신을 촉진합니다."

Alberto Miorin, Zalando SE의 엔지니어링 책임자

Life360

Life360은 가족을 위한 세계 최고의 보호 서비스입니다. Life360 앱은 소중한 가족을 보호하고 서로 연결하도록 설계된 스마트 기능을 통해 가족 간의 유대를 돈독하게 해줍니다.

"저희는 AWS Lake Formation을 사용하여 위치 기반 시계열 데이터를 지원할 데이터 레이크를 구축하고 데이터 로드를 간소화하기를 원했습니다. 사전 제작되는 청사진은 데이터 엔지니어링 팀이 새로 코드를 작성하지 않고 데이터 레이크로 데이터를 가져오는 데 유용합니다. 덕분에 팀이 도구를 새로 개발하는 데가 아니라 수집을 구성하는 데 집중할 수 있습니다. AWS Lake Formation을 사용하면서 Amazon S3에서 데이터 가용성을 신속하고 확보하여 다양한 AWS 데이터 서비스에 걸쳐 분석을 지원할 수 있게 되었습니다. 데이터가 Amazon S3에 상주하므로 다양한 방식으로 분석하고 저희가 완벽하게 제어할 수 있습니다."

Richard Chennault, Life360, Inc.의 클라우드 및 데이터 서비스 책임자

Change Healthcare

Change Healthcare는 약 2,100개의 정부 및 상업적 결제 기관, 5,500개의 병원, 900,000명의 의사 및 33,000개의 약국에 도달하는 데이터 및 분석 중심 솔루션을 제공하는 선도적인 독립 의료 기술 회사입니다.

"우리는 매일 HIPAA를 포함한 의료 산업 규제를 준수하면서 수백만 건의 거래 데이터를 처리합니다. 수천 명의 고객 데이터를 AWS 기반 데이터 레이크로 쉽게 로드, 정리, 보안 적용 및 카탈로그화할 수 있는 중앙 제어 지점을 제공하여 운영 부하를 크게 줄이는 AWS Lake Formation의 출시에 매우 흥분하고 있습니다. Lake Formation의 데이터 액세스 제어 기능은 우리의 정책을 정의하고 우리가 사용하는 모든 분석 및 기계 학습 서비스 전반에 대해 쉽게 적용할 수 있도록 하며, 감사 로그를 통해 준수를 나타냅니다."

Aaron Symanski, Change Healthcare의 CTO

Fender Digital

Fender Digital은 Fender에서 만드는 기타, 앰프 및 오디오 장비를 보완하는 앱, 웹사이트, 플랫폼 및 툴을 제작하는 대표적인 기타 브랜드 Fender의 일부입니다.

"우리는 디지털 애플리케이션과 장치에서 많은 사용자 및 사용 데이터를 생성하고 있습니다. 우리는 Amazon Redshift 기반 데이터 웨어하우스와 함께 작동하도록 AWS에 데이터 레이크를 구축할 계획입니다. 우리 팀이 AWS Lake Formation에 참여할 때까지 기다리기가 힘들군요. Lake Formation을 사용하면 다양한 AWS 서비스 포트폴리오에서 데이터를 로드, 변환 및 카탈로그화하고 조직 내에서 안전하게 사용할 수 있습니다. Lake Formation과 같은 기업용 옵션을 사용하면 수동으로 데이터 레이크를 설정하고 관리하는 부담스러운 작업보다는 데이터에서 가치를 창출하는 데 더 많은 시간을 할애할 수 있게 될 것입니다."

Joshua Couch, Fender Digital의 엔지니어링 VP

Cloudreach

Cloudamize라는 마이그레이션 및 관리 소프트웨어 플랫폼을 기반으로, Cloudreach는 데이터 중심의 의사 결정을 내리는 프로세스를 간소화하고 신뢰성을 높일 수 있었습니다.

"AWS Lake Formation은 데이터 레이크를 널리 보급하고 기업 데이터 전략의 실행을 가속화하고 있습니다. AWS Lake Formation은 서비스의 보안 및 거버넌스를 중앙 집중화하여 관리를 간소화하고 운영 오버헤드를 줄입니다. 기업 전반에서 데이터를 통합하는 프로세스를 가속화해주므로, 기계 학습과 같은 다른 이니셔티브에서 더 큰 비즈니스 가치가 실현되기 시작합니다."

Kevin Davis, Cloudreach의 AWS 실무 담당 CTO

Amgen

Amgen은 세계 최대의 독립 생명 공학 회사입니다.

"Amgen은 Amazon Redshift 및 Amazon EMR 클러스터를 수년간 많이 사용해왔습니다. 각 AWS 계정, 서비스, 사용자 및 데이터 세트에 대해 요구되는 세부 수준으로 보안 및 액세스 제어를 설정하는 것은 번거로운 작업이 될 수 있습니다. AWS Lake Formation은 중앙 집중식 제어를 통해 이 프로세스를 간소화하는 동시에 데이터를 사용하는 사람과 방식을 보다 세부적으로 관리할 수 있도록 합니다. AWS Lake Formation 덕분에 Amazon S3 객체에 대한 권한을 데이터베이스의 데이터에 대한 권한을 관리하듯이 관리할 수 있게 되었습니다. 이제 사용자들이 원하는 도구를 사용하여 필요한 데이터를 찾고, 액세스하고, 분석할 수 있습니다. 이 새로운 워크플로는 Amgen의 데이터를 사용하는 모든 이의 생산성을 높일 수 있습니다."

Kerby Johnson, Amgen의 엔터프라이즈 데이터 레이크 제품 담당자

Alcon

Alcon은 획기적인 안과 및 시력 보호 제품의 혁신과 개발을 선도하는 업체입니다.

"많은 회사들과 마찬가지로, 저희도 액세스하기 어려운 데이터 사일로를 없애고자 데이터 레이크 이니셔티브를 시작했습니다. AWS Lake Formation 덕분에 기존 Amazon S3 버킷에 대한 액세스를 신속하게 추가하고 그 안의 데이터와 데이터 사용 방식을 정의할 수 있게 되었습니다. 데이터는 항상 S3에 상주하지만 다른 사용 사례에 대해서 저희가 완벽하게 제어할 수 있습니다."

Srinivas Ravilisetty, Alcon의 IT 분석 책임자

Quantiphi

Quantiphi는 복잡한 비즈니스 문제를 해결하고자 하는 인공 지능 및 빅 데이터 소프트웨어 및 서비스 회사입니다. Quantiphi는 고객에게 수치화할 수 있는 가치를 실현해주는 데이터 레이크 구축 및 AI 솔루션을 전문으로 합니다.

"AWS Lake Formation 덕분에 며칠 만에 관련 데이터에 대한 액세스를 지원하는 안전한 데이터 레이크를 제공할 수 있게 되었습니다. 이제 완벽한 보안은 물론, 사용자가 쉽게 의사 결정을 내리도록 하는 액세스 간소화까지 두 가지 이점을 모두 실현할 수 있게 되었습니다. 따라서 저희 고객은 강력한 중앙 집중식 데이터 원본에 액세스하여 더 스마트하고 분석을 기반으로 한 비즈니스 결정을 내리는 데 집중할 수 있습니다."

Arnav Gupta, Quantiphi의 AWS 실무 책임자

Curvo Labs

Curvo는 의료 공급망에 초점을 맞춘 Software-as-a-Service 회사입니다. 이들은 심층적인 도메인 전문 지식과 민첩한 개발 사례를 바탕으로 분석, 워크플로 및 자동화를 구축하여 의료 분야의 지출 관리를 더 빠르고 손쉽게 수행합니다.

"데이터 정규화는 임상 및 의료 제품에 대한 벤치마크 요금 데이터에 투명성을 도입해 더 나은 환자의 치료 결과를 제공하는 데 있어서 매우 중요한 단계입니다. 이전에는 1주일이 걸렸지만 이제는 AWS Lake Formation의 ML 변환을 활용하여 4시간 안에 데이터 세트를 처리하고, 정확도는 거의 100%에 가깝게 향상되었습니다. 이러한 속도와 정확성을 바탕으로 저희의 의료 분야 고객은 빠르게 시장 변화에 대처하고 궁극적으로 환자의 치료 결과를 저해하지 않으면서 더 경제적인 비용의 관리 서비스를 제공할 수 있습니다. 경쟁자는 4~6주가 걸리는 작업을 저희는 하루 안에 완료합니다."

Nic Sagez, Curvo의 CTO

새로운 소식

날짜
  • 날짜
1
Standard Product Icons (Features) Squid Ink
AWS Lake Formation 기능에 대해 자세히 알아보기

기능 페이지에서 AWS Lake Formation의 기능에 대해 자세히 알아봅니다.

자세히 알아보기 
Sign up for a free account
계정에 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다. 

가입하기 
Standard Product Icons (Start Building) Squid Ink
콘솔에서 구축 시작

AWS Management Console에서 AWS Lake Formation을 사용하여 구축을 시작하십시오.

로그인