Amazon Web Services 한국 블로그

차세대 Amazon SageMaker 데이터 및 AI 거버넌스: 데이터와 AI를 안전하게 검색, 관리 및 협업

오늘 데이터, 분석 및 AI를 위한 통합 플랫폼인 차세대 Amazon SageMaker를 발표했습니다. 이 플랫폼은 널리 채택된 AWS 기계 학습 및 분석 기능을 통합합니다. 이 발표에는 데이터 및 AI 자산 관리를 간소화하는 기능 세트인 Amazon SageMaker 데이터 및 AI 거버넌스가 포함됩니다.

데이터 팀은 조직 전체에서 데이터 및 AI 모델을 찾고, 액세스하고, 관련 협업을 진행할 때 종종 어려움을 겪습니다. 관련 자산을 찾고, 컨텍스트를 이해하고, 적절한 액세스를 확보하는 프로세스는 시간이 많이 걸리고 복잡하여 생산성과 혁신을 저해할 수 있습니다.

SageMaker 데이터 및 AI 거버넌스는 데이터 및 AI 자산의 카탈로그 작성, 검색 및 관리를 위한 통합 환경을 통해 포괄적인 기능 세트를 제공합니다. Amazon DataZone 기반의 SageMaker Catalog를 중심으로 구축되었으며, Amazon SageMaker Unified Studio(평가판)를 통해 액세스할 수 있는 중앙 집중식 리포지토리를 제공합니다. 카탈로그는 SageMaker 플랫폼에 직접 구축되어 기존 SageMaker 워크플로 및 도구와의 원활한 통합을 제공하여 엔지니어, 데이터 과학자 및 분석가가 고급 검색 기능을 통해 승인된 데이터 및 모델을 안전하게 찾고 사용할 수 있도록 지원합니다. 사용자는 SageMaker 플랫폼을 통해 가드레일을 사용하여 AI 모델을 안전하게 보호하고 책임 있는 AI 정책을 구현할 수 있습니다.

SageMaker의 주요 데이터 및 AI 거버넌스 기능 중 일부는 다음과 같습니다.

  1. 엔터프라이즈 지원 비즈니스 카탈로그 – 비즈니스 컨텍스트를 추가하고 조직의 모든 사용자가 데이터를 검색할 수 있도록 하려면 기계 학습(ML)을 사용하여 데이터 자산의 비즈니스 이름과 해당 자산 내에 열을 자동으로 생성하는 자동 메타데이터 생성을 통해 카탈로그를 사용자 지정하면 됩니다. 여러 비즈니스 용어집을 자산에 연결하고 용어집 용어를 자산의 개별 열에 연결할 수 있도록 메타데이터 큐레이션 기능을 개선했습니다.
  2. 데이터 및 AI 작업자를 위한 셀프 서비스 – 사용자가 데이터를 게시하고 사용할 수 있도록 데이터 자율성을 제공하려면 API를 사용하여 모든 유형의 자산을 사용자 지정하고 카탈로그에 가져오면 됩니다. 데이터 게시자는 데이터 소스 실행 또는 지원되는 데이터 소스에서 수동으로 게시된 파일을 통해 메타데이터 검색을 자동화하고, 데이터세트를 카탈로그로 가져올 때 생성형 AI가 자동으로 생성한 데이터 설명으로 메타데이터를 보강할 수 있습니다. 이렇게 하면 데이터 소비자는 패싯 검색을 사용하여 데이터를 빠르게 찾고 이해하고 액세스를 요청할 수 있습니다.
  3. 데이터 및 도구에 대한 액세스 간소화 – 비즈니스 목적에 따라 데이터 및 AI 자산을 관리하기 위해 프로젝트는 비즈니스 사용 사례 기반 논리적 컨테이너 역할을 합니다. 프로젝트를 만들고 특정 비즈니스 사용 사례 기반의 사용자, 데이터 및 분석 도구를 그룹화하여 협업할 수 있습니다. 프로젝트 구성원이 쉽게 새 데이터를 생성하거나 액세스 권한이 있는 데이터를 사용할 수 있도록 분석 및 AI 도구와 스토리지 같은 필요한 인프라를 프로젝트 구성원에게 제공하는 환경을 프로젝트 내에서 만들 수 있습니다. 이를 통해 사용자는 필요에 따라 동일한 프로젝트에 여러 기능과 분석 도구를 추가할 수 있습니다.
  4. 관리형 데이터 및 모델 공유 – 데이터 생산자는 소비자가 액세스를 요청하고 데이터 소유자가 승인할 수 있는 구독 승인 워크플로를 통해 데이터에 대한 액세스를 소유하고 관리합니다. 이제 구독 약관이 게시될 때 자산에 연결되도록 설정하고, 다른 소스를 위해 Amazon EventBridge 이벤트를 사용하는 사용자 지정을 통해 AWS 관리형 데이터 레이크 및 Amazon Redshift에 대한 구독 권한 이행을 자동화할 수 있습니다.
  5. 모든 애플리케이션에 일관된 수준의 AI 안전 제공: Amazon Bedrock Guardrails는 사용 사례별 정책을 기반으로 사용자 입력 및 파운데이션 모델(FM) 응답을 평가하는 데 도움이 되며 기본 파운데이션 모델에 관계없이 추가 보호 계층을 제공합니다. AWS AI 포트폴리오는 TensorFlow Hub, PyTorch Hub, Hugging Face, MxNet GluonCV를 비롯한 모델 허브의 사전 학습된 모델과 함께 수백 개의 내장 알고리즘을 제공합니다. SageMaker Python SDK를 사용하여 내장 알고리즘에 액세스할 수도 있습니다. 내장 알고리즘은 데이터 분류(이미지, 텍스트, 테이블 형식) 및 감정 분석과 같은 일반적인 ML 작업을 다룹니다.

기존 프로세스와의 원활한 통합을 위해 SageMaker 데이터 및 AI 거버넌스는 설정 및 구성을 위한 프로그래밍 방식의 액세스를 지원하는 API 지원을 제공합니다.

Amazon SageMaker 데이터 및 AI 거버넌스를 사용하는 방법
이 데모에서는 사전 구성된 환경을 사용합니다. Amazon SageMaker Unified Studio(평가판) 콘솔을 살펴보겠습니다. 이 콘솔은 모든 데이터 및 AI 사용 사례에 대한 통합 개발 환경을 제공합니다. 여기에서 공유 워크스페이스 역할을 하는 프로젝트를 생성하고 관리할 수 있습니다. 이러한 프로젝트를 통해 팀원들은 협업하고, 데이터로 작업하고, ML 모델을 함께 개발할 수 있습니다.

탐색 모음의 관리 메뉴부터 살펴보겠습니다.

도메인 단위 및 권한 부여 정책이라는 새로운 데이터 거버넌스 기능을 통해 사업부 및 팀 수준의 조직을 만들고 비즈니스 요구 사항에 따라 정책을 관리할 수 있습니다. 도메인 단위를 추가하면 사업부 또는 팀과 관련된 데이터 자산 및 프로젝트를 구성하고, 만들고, 검색하고, 찾을 수 있습니다. 권한 부여 정책을 통해 프로젝트 및 용어집 생성을 위한 액세스 정책을 설정할 수 있습니다.

또한 도메인 단위는 Amazon SageMaker 내에서 데이터 자산 게시 및 컴퓨팅 리소스 활용과 같은 중요한 작업에 대한 셀프 서비스 거버넌스에도 도움이 됩니다. 프로젝트를 선택하고 왼쪽 탐색 창의 데이터 소스 탭으로 이동합니다. 이 섹션에서 새 데이터 소스를 추가하거나 기존 데이터 소스를 관리하여 비즈니스 데이터 카탈로그에 데이터 자산을 게시할 수 있으며, 이를 통해 모든 사용자가 데이터를 검색할 수 있습니다.

홈페이지로 돌아가 사용자가 조직 내 여러 데이터 소스에서 사용 가능한 모든 데이터 자산을 탐색하고 검색할 수 있는 중앙 집중식 허브 역할을 하는 데이터 카탈로그를 선택하여 계속 살펴보겠습니다. 이 카탈로그는 Amazon Simple Storage Service(Amazon S3), Amazon Redshift, AWS Glue를 비롯한 다양한 데이터 소스에 연결됩니다.

시맨틱 검색 기능을 통해 자연어 쿼리를 사용하여 관련 데이터 자산을 빠르고 효율적으로 찾을 수 있으므로 데이터를 보다 직관적으로 검색할 수 있습니다. 데이터 검색 영역에 이벤트를 입력합니다.

AWS Glue 테이블 및 Amazon Redshift와 같은 자산 유형을 기반으로 필터를 적용할 수 있습니다.

Amazon Q Developer를 통합하면 대화형 언어를 사용하여 데이터와 상호 작용할 수 있어 사용자가 데이터 자산을 더 쉽게 찾고 이해할 수 있습니다. “이벤트와 관련된 데이터세트 보여줘” 및 “수익과 관련된 데이터세트 보여줘”와 같은 예제 명령을 사용할 수 있습니다. 상세한 보기를 통해 AI가 생성한 설명, 데이터 품질 지표, 데이터 계보를 포함하여 각 데이터세트에 대한 포괄적인 정보를 제공하므로 데이터의 내용과 출처를 쉽게 이해할 수 있습니다.

구독 프로세스는 사용자가 데이터 액세스의 필요성을 증명해야 하는 통제된 액세스 메커니즘을 구현하여 적절한 데이터 거버넌스와 보안을 제공합니다. 구독을 선택하여 액세스를 요청합니다.

팝업 창에서 프로젝트를 선택하고 요청 사유(예: 액세스 필요)를 입력한 다음 요청을 선택합니다. 요청이 데이터 소유자에게 전송됩니다.

이 마지막 단계에서는 구조화된 승인 워크플로를 통해 데이터 액세스가 적절하게 관리되도록 하여 데이터 보안 및 규정 준수 요구 사항을 유지합니다. 소유자 승인 프로세스 중에 데이터 소유자는 알림을 받고 요청 세부 정보를 검토한 후 액세스를 승인하거나 거부할 수 있습니다. 승인된 경우 요청자는 데이터 테이블에 액세스할 수 있습니다.

정식 출시
Amazon SageMaker 데이터 및 AI 거버넌스는 데이터 및 AI 자산 관리를 개선하려는 조직에 상당한 이점을 제공합니다. 이 솔루션은 데이터 및 AI 자산의 카탈로그 작성, 검색 및 관리를 위한 포괄적인 기능을 제공하는 동시에 구조화된 승인 워크플로를 통해 보안 및 규정 준수를 보장하여 데이터 과학자, 엔지니어, 분석가가 리소스를 검색하고 액세스하는 데 따르는 문제를 해결할 수 있도록 지원합니다.

요금 정보는 Amazon SageMaker 요금을 참조하세요.

Amazon SageMaker 데이터 및 AI 거버넌스를 시작하려면 Amazon SageMaker 설명서를 참조하세요.

— Esra