Amazon Web Services 한국 블로그

Amazon SageMaker Lakehouse, Amazon Athena 통합 쿼리를 위한 액세스 제어 기능 출시

오늘 데이터, 분석 및 AI를 위한 통합 플랫폼인 차세대 Amazon SageMaker를 발표했습니다. 이 플랫폼은 널리 채택된 AWS 기계 학습 및 분석 기능을 통합합니다. 여기에서 핵심은 데이터 탐색, 준비 및 통합, 빅 데이터 처리, 빠른 SQL 분석, 모델 개발 및 훈련, 생성형 AI 애플리케이션 개발을 위한 단일 데이터 및 AI 개발 환경인 SageMaker Unified Studio(평가판)입니다. 이번 발표에는 데이터 레이크 및 데이터 웨어하우스 전반의 데이터를 통합하는 기능인 Amazon SageMaker Lakehouse가 포함되어 있으며, 이를 통해 단일 데이터 사본을 대상으로 강력한 분석, 인공 지능 및 기계 학습(AI/ML) 애플리케이션을 구축할 수 있습니다.

이번 출시 외에도 Amazon SageMaker Lakehouse의 데이터 카탈로그 및 권한 기능을 발표하였습니다. 이 기능을 사용하면 데이터 소스에 대한 권한을 중앙에서 연결, 검색 및 관리할 수 있습니다.

기업들은 특정 사용 사례 및 규모 요구 사항에 맞게 최적화하기 위해 다양한 시스템에 데이터를 저장합니다. 이로 인해 데이터 레이크, 데이터 웨어하우스, 데이터베이스 및 스트리밍 서비스 전반에서 데이터가 사일로가 생성되는 경우가 많습니다. 분석가와 데이터 과학자는 이러한 다양한 소스의 데이터에 연결하고 데이터를 분석하려고 할 때 어려움을 겪습니다. 각 데이터 소스에 대해 특수 커넥터를 설정하고, 다중 액세스 정책을 관리하고, 경우에 따라 데이터 복제에 의존해야 하므로 비용이 증가하고 데이터 불일치가 발생할 수 있습니다.

새로운 기능은 인기 있는 데이터 소스에 연결하고, 카탈로그를 작성하고, 권한을 적용하고, SageMaker Lakehouse와 Amazon Athena를 통해 데이터를 분석에 사용할 수 있도록 만드는 프로세스를 단순화하여 이러한 문제를 해결합니다. AWS Glue Data Catalog를 위치와 상관없이 모든 데이터 소스의 단일 메타데이터 저장소로 사용할 수 있으며, 이를 통해 사용 가능한 모든 데이터를 한 곳에서 볼 수 있습니다.

한 번 데이터 소스 연결을 생성했다면 재사용할 수 있으므로 연결을 반복해서 설정할 필요가 없습니다. 데이터 소스에 연결하면 데이터베이스 및 테이블이 자동으로 카탈로그화되고 AWS Lake Formation에 등록됩니다. 카탈로그화되면 데이터 분석가에게 해당 데이터베이스 및 테이블에 대한 액세스 권한이 부여되므로 분석가는 각 데이터 소스에 연결하는 별도의 단계를 거치거나 내장된 데이터 소스 암호를 알 필요가 없습니다. Lake Formation 권한은 데이터 레이크, 데이터 웨어하우스 및 OLTP(온라인 트랜잭션 처리) 데이터 소스 전반에 걸쳐 FGAC(세분화된 액세스 제어) 정책을 정의하는 데 사용할 수 있으므로 Athena를 사용하여 쿼리할 때 일관성 있게 적용할 수 있습니다. 데이터는 원래 위치에 유지되므로 비용과 시간이 많이 소요되는 데이터 전송 또는 복제가 필요하지 않습니다. 데이터 카탈로그에서 기존 데이터 소스 연결을 생성 또는 재사용할 수 있으며 Amazon Simple Storage Service(Amazon S3), Amazon Redshift, Amazon Aurora, Amazon DynamoDB(평가판), Google BigQuery 등을 비롯한 여러 데이터 소스에 대한 내장 커넥터를 구성할 수 있습니다.

Amazon Athena와 AWS Lake Formation 간의 통합 시작하기
이 기능을 보여드리기 위해 Amazon DynamoDB를 데이터 소스로 통합하는 사전 구성된 환경을 사용하겠습니다. 환경을 적절한 테이블과 데이터로 설정하여 기능을 효과적으로 시연해 보겠습니다. 이 데모에서는 SageMaker Unified Studio(평가판) 인터페이스를 사용할 것입니다.

먼저 Amazon SageMaker 도메인을 통해 SageMaker Unified Studio(평가판)로 이동합니다. 여기에서 공유 워크스페이스 역할을 하는 프로젝트를 생성하고 관리할 수 있습니다. 이러한 프로젝트를 통해 팀원들은 협업하고, 데이터로 작업하고, ML 모델을 함께 개발할 수 있습니다. 프로젝트를 생성하면 AWS Glue Data Catalog 데이터베이스를 자동으로 설정하고, Redshift Managed Storage(RMS) 데이터를 위한 카탈로그를 설정하고, 필요한 권한을 프로비저닝합니다.

프로젝트를 관리하려면 모든 프로젝트 찾기를 선택하여 기존 프로젝트의 전체 목록을 보거나, 프로젝트 생성을 선택하여 새 프로젝트를 만들 수 있습니다. 기존 프로젝트 두 개를 사용하겠습니다. 관리자가 모든 데이터에 대한 전체 액세스 권한을 가지는 영업 그룹과 분석가가 제한된 데이터 액세스 권한으로 운영하는 마케팅 프로젝트입니다. 두 가지를 사용하면 관리자 액세스 수준과 제한된 사용자 액세스 수준 간의 차이를 효과적으로 알 수 있습니다.

이 단계에서는 대상 데이터 소스인 Amazon DynamoDB에 대한 통합 카탈로그를 설정했습니다. 왼쪽 탐색 창의 데이터로 이동하고 +(더하기) 기호를 선택하여 데이터 추가를 수행합니다. 연결 추가를 선택한 후 다음을 선택합니다.

Amazon DynamoDB를 선택하고 다음을 선택합니다.

세부 정보를 입력하고 데이터 추가를 선택합니다. 이제 SageMaker Lakehouse에 Amazon DynamoDB 통합 카탈로그를 생성했습니다. 여기서 관리자는 리소스 정책을 사용하여 액세스 권한을 부여합니다. 이 환경의 리소스 정책은 이미 구성해 두었습니다. 이제 SageMaker Unified Studio(평가판)에서 세분화된 액세스 제어가 어떻게 작동하는지 보여드리겠습니다.

먼저 관리자가 고객 데이터를 유지 관리하고 고객 데이터에 대한 전체 액세스 권한을 갖는 영업 그룹 프로젝트를 선택합니다. 이 데이터세트에는 우편번호, 고객 ID, 전화번호 등의 필드가 포함되어 있습니다. 이 데이터를 분석하는 데 Athena를 사용하여 쿼리를 통해 쿼리를 실행할 수 있습니다.

Athena를 사용하여 쿼리를 선택하면 쿼리 편집기가 자동으로 실행되어 레이크하우스에 대한 SQL 쿼리를 작성 및 실행할 수 있는 워크스페이스가 제공됩니다. 이 통합 쿼리 환경은 데이터 탐색 및 분석을 위한 원활한 환경을 제공합니다.

두 번째로는 마케팅 프로젝트로 전환하여 분석가가 쿼리를 실행하고 세분화된 액세스 제어 권한이 올바르게 적용되고 작동하는지 관찰할 때 어떤 식으로 진행되는지 보여드리겠습니다.

두 번째 프로젝트는 마케팅 프로젝트 환경으로 전환하여 분석가의 관점에서 시연해 보겠습니다. 이를 통해 세분화된 액세스 제어 권한이 올바르게 구현되고 의도한 대로 데이터 액세스를 효과적으로 제한하는지 확인할 수 있습니다. 예제 쿼리를 통해 분석가가 설정된 보안 제어를 적용받으면서 데이터와 상호 작용하는 방식을 관찰할 수 있습니다.

Athena를 사용하여 쿼리 옵션을 통해 테이블에서 SELECT 문을 실행하여 액세스 제어를 확인합니다. 그 결과, 예상대로 우편 번호cust_id 열만 볼 수 있고 전화 열은 구성된 권한에 따라 제한되어 있는 것을 확인할 수 있습니다.

이제 Amazon SageMaker Lakehouse의 이러한 새로운 데이터 카탈로그 및 권한 기능을 통해 전체 데이터 에코시스템에서 데이터 무결성과 규정 준수를 유지하면서 데이터 운영을 간소화하고, 보안 거버넌스를 강화하고, AI/ML 개발을 가속할 수 있습니다.

정식 출시
Amazon SageMaker Lakehouse의 데이터 카탈로그와 권한은 여러 데이터 소스에서 통합 카탈로그와 권한에 연결할 때 통합 쿼리를 통해 상호 작용 분석을 간소화하며, 데이터 레이크, 데이터 웨어하우스 및 OLTP 데이터 소스 전반에 걸쳐 세분화된 보안 정책을 정의하고 적용할 수 있는 단일 장소를 제공하여 고성능 쿼리 환경을 제공합니다.

이 기능은 미국 동부(버지니아 북부), 미국 서부(오리건), 미국 동부(오하이오), 유럽(아일랜드), 및 아시아 태평양(도쿄)의 AWS 리전에서 사용할 수 있습니다.

새로운 기능을 시작하려면 Amazon SageMaker Lakehouse 문서를 참조하십시오.

— Esra