AWS Lake Formation

며칠 만에 안전한 데이터 레이크 구축

AWS Lake Formation은 안전한 데이터 레이크를 며칠 만에 손쉽게 설정할 수 있도록 지원하는 서비스입니다. 데이터 레이크는 큐레이션된 안전한 중앙 집중식 리포지토리로, 모든 데이터를 원래 형식 및 분석에 필요한 형식으로 저장합니다. 데이터 레이크를 사용하면 데이터 사일로를 없애고 다양한 유형의 분석을 조합하여 통찰력을 얻을 수 있으며, 이를 바탕으로 더 나은 비즈니스 결정을 내릴 수 있습니다.

하지만 데이터 레이크를 설정하고 관리하기 위해서는 수많은 복잡하고 시간 소모적인 수작업이 필요합니다. 이러한 작업에는 다양한 소스로부터 데이터 로딩, 이러한 데이터 흐름 모니터링, 파티션 설정, 암호화 설정 및 키 관리, 변환 작업 정의 및 운영 모니터링, 열 기반 형식으로 데이터 재구성, 액세스 제어 설정 구성, 중복 데이터 제거, 링크된 레코드 매칭, 데이터 세트에 대한 액세스 권한 부여, 추후 액세스 감사 등이 포함됩니다.

Lake Formation으로 데이터 레이크를 생성하는 작업은 데이터가 상주할 위치 및 적용할 데이터 액세스 및 보안 정책을 정의하는 것만큼이나 간단합니다. 그러면 Lake Formation이 데이터베이스 및 객체 스토리지의 데이터를 수집하고 카탈로그화한 후, 새로운 Amazon S3 데이터 레이크로 옮긴 다음, 기계 학습 알고리즘을 사용해 정리 및 분류하고, 민감한 데이터에 대한 액세스를 보호합니다. 이 과정이 마무리되면 사용자는 사용 가능한 데이터 세트 및 적절한 사용 방법이 설명된 중앙 집중식 데이터 카탈로그에 액세스할 수 있습니다. 그런 다음 사용자는 Amazon EMR for Apache Spark, Amazon Redshift, Amazon Athena, Amazon Sagemaker 및 Amazon QuickSight 등 원하는 분석 및 기계 학습 서비스를 통해 이러한 데이터 세트를 활용할 수 있습니다.

AWS re:Invent 2018 - AWS Lake Formation 발표

이점

데이터 레이크를 신속하게 구축

Lake Formation을 사용하면 데이터를 보다 신속하게 이동, 저장, 카탈로그 및 정리할 수 있습니다. Lake Formation을 데이터 소스로 지정하면 Lake Formation이 해당 소스를 크롤링하고 데이터를 새 Amazon S3 데이터 레이크로 이동합니다. Lake Formation은 S3에서 빈번하게 사용되는 쿼리 용어와 올바른 크기의 청크로 데이터를 구성하여 효율성을 높입니다. Lake Formation은 더 빠른 분석을 위해 Apache Parquet 및 ORC와 같은 형식으로 데이터를 변경합니다. 또한 Lake Formation에는 데이터 품질을 높이기 위해 일치하는 레코드(동일한 것을 참조하는 두 개의 항목)를 중복 제거하고 찾을 수 있는 machine learning 기능이 내장되어 있습니다.

보안 관리의 간소화

Lake Formation을 사용하면 서비스별로 작업을 수행하는 것보다 보안, 관리 및 감사 정책을 중앙의 한 곳에서 정의한 다음 해당 분석 애플리케이션에서 사용자에 대한 정책을 시행 할 수 있습니다. 정책은 일관되게 구현되어 보안 서비스 (AWS Identity and Access Management 및 AWS Key Management Service), 스토리지 서비스 (S3), 분석 및 machine learning 서비스 (Apache Spark용 Redshift, Athena 및 EMR)를 통해 수동으로 구성 할 필요가 없습니다. 이를 통해 서비스 간에 정책을 구성하는 노력을 줄이고 일관된 시행 및 준수를 제공합니다.

쉽고 안전하게 데이터에 대한 셀프 서비스 액세스

Lake Formation을 사용하면 사용 가능한 여러 데이터 세트를 설명하고 각 사용자 그룹에 액세스 할 수 있는 데이터 카탈로그를 작성할 수 있습니다. 이는 분석할 올바른 데이터 세트를 찾도록 도와줌으로써 사용자의 생산성을 높일 수 있습니다. Lake Formation을 사용하면 일관된 보안 적용으로 데이터 카탈로그를 제공함으로써 분석가와 데이터 과학자가 선호하는 분석 서비스를 보다 쉽게 사용할 수 있습니다.
Apache Spark, Redshift, Athena, Sagemaker 또는 QuickSight에 대해 단일 데이터 레이크에 있는 다양한 데이터 세트에 대한 EMR을 사용할 수 있습니다. 또한 사일로 간에 데이터를 이동할 필요 없이 이러한 서비스를 결합할 수도 있습니다.

작동 방식

AWS Lake Formation 작동 방식

Lake Formation은 데이터 레이크를 구축, 보안 및 관리하는 데 도움이 됩니다. 먼저 S3 또는 관계형 데이터베이스와 NoSQL 데이터베이스에 있는 기존 데이터 저장소를 식별하고 데이터를 데이터 레이크로 이동합니다. 그런 다음 분석을 위해 데이터를 크롤링, 카탈로그 화 및 준비합니다. 그 후 사용자가 선택한 분석 서비스를 통해 데이터에 대한 안전한 셀프 서비스 액세스를 제공합니다. 다른 AWS 서비스 및 타사 애플리케이션도 표시된 서비스를 통해 데이터에 액세스할 수 있습니다. Lake Formation은 주황색 상자의 모든 작업을 관리하며 파란색 상자에 표시된 데이터 저장소 및 서비스와 통합됩니다.

사용 사례

"데이터 레이크란 무엇입니까?"와 사용 사례를 알아보십시오.

고객

change-healthcare-red-blue-logo

Change Healthcare는 약 2,100개의 정부 및 상업적 결제 기관, 5,500개의 병원, 900,000명의 의사 및 33,000개의 약국에 도달하는 데이터 및 분석 중심 솔루션을 제공하는 선도적인 독립 의료 기술 회사입니다.

Change Healthcare의 CTO인 Aaron Symanski는 "우리는 매일 HIPAA를 포함한 의료 산업 규제를 준수하면서 수백만 건의 거래 데이터를 처리합니다” 라고 말했습니다. "수천 명의 고객 데이터를 AWS 기반 데이터 레이크로 쉽게 로드, 정리, 보안 및 카탈로그 할 수 있는 중앙 제어 지점을 제공하여 운영 부하를 크게 줄이는 AWS Lake Formation의 출시에 매우 흥분하고 있습니다. Lake Formation의 데이터 액세스 제어 기능은 우리의 정책을 정의하고 우리가 사용하는 모든 분석 및 기계 학습 서비스 전반에 대해 쉽게 적용 할 수 있도록 하며, 감사 로그를 통해 준수를 나타냅니다. 또한 Lake Formation은 보안 요구 사항을 충족하고 데이터 레이크를 구축하고 관리 할 수 있는 강력한 방법을 제공함으로써 첫날부터 HIPAA를 준수하게 될 것입니다. "

Fender_digital

Fender Digital은 Fender에서 만드는 기타, 앰프 및 오디오 장비를 보완하는 앱, 웹사이트, 플랫폼 및 툴을 제작하는 대표적인 기타 브랜드 Fender의 일부입니다.

"우리는 디지털 애플리케이션과 장치에서 많은 사용자 및 사용 데이터를 생성하고 있습니다. 우리는 Amazon Redshift 기반 데이터 웨어하우스와 함께 작동하도록 AWS에 데이터 레이크를 구축할 계획입니다."라고 Fender Digital의 VP 엔지니어링인 Joshua Couch는 말했습니다. "우리 팀이 AWS Lake Formation에 참여할 때까지 기다리기가 힘들군요. Lake Formation을 사용하면 다양한 AWS 서비스 포트폴리오에서 데이터를 로드, 변환 및 카탈로그 화하고 조직 내에서 안전하게 사용할 수 있습니다. Lake Formation과 같은 기업용 옵션을 사용하면 수동으로 데이터 레이크를 설정하고 관리하는데 부담을 갖기 보다 데이터에서 가치를 창출하는데 더 많은 시간을 할애할 수 있게 될 것입니다."

Product-Page_Standard-Icons_01_Product-Features_SqInk
AWS Lake Formation 기능에 대해 자세히 알아보기
자세히 알아보기 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
계정에 가입
가입하기 
Product-Page_Standard-Icons_03_Start-Building_SqInk
콘솔에서 구축 시작
로그인