Amazon Web Services 한국 블로그
2024년 AWS Pi Day 행사 – 자체 데이터로 생성형 AI 구동하는 방법
지난 3월 14일은 AWS Pi Day였고, Twitch에서 생방송을 통해 다양한 콘텐츠를 제공하였습니다.
18년 전 오늘, 미국 서해안의 한 소매 회사는 객체 스토리지 서비스를 출시하면서 전 세계에 Amazon Simple Storage Service(S3)를 소개했습니다. 당시에는 이 서비스로 전 세계 기업의 데이터 관리 방식이 바뀌게 될 것이라고 생각하지 못했습니다. 그런데 2024년에 이른 지금, 모든 현대적 비즈니스는 데이터 비즈니스입니다. 그 동안 수많은 시간을 들여 데이터로 디지털 트랜스포메이션을 추진하는 방법과 생성형 인공 지능(AI)으로 새롭고 획기적이며 이로운 비즈니스 기회를 여는 방법을 논의했습니다. 이 대화는 차별화된 생성형 AI 애플리케이션을 만드는 데 있어서 기업의 자체 데이터가 하는 역할에 대한 토론을 포함하는 수준까지 발전했습니다.
Amazon S3는 거의 모든 사용 사례에서 350조 개 이상의 객체와 엑사바이트 이상의 데이터를 저장하고 초당 평균 1억 개 이상의 요청을 처리합니다. Amazon S3는 생성형 AI 여정의 출발점이 될 수 있습니다. 그러나 데이터의 양이나 저장 위치와 관계없이 가장 중요한 것은 품질입니다. 데이터 품질이 높을수록 모델 응답의 정확성과 신뢰성이 향상됩니다. Chief Data Officer(CDO)를 대상으로 한 최근 설문 조사에서 거의 절반(46%)의 CDO가 데이터 품질을 생성형 AI 구현의 가장 큰 과제 중 하나로 꼽았습니다.
올해 AWS Pi Day에서는 Amazon S3의 생일을 기념하면서 데이터 레이크부터 고성능 스토리지에 이르기까지 AWS 스토리지를 통한 데이터 전략의 혁신과 생성형 AI 프로젝트의 출발점이 된 과정을 살펴봅니다.
이 라이브 온라인 이벤트는 AWS Innovate: Generative AI + Data 에디션 종료된 직후인 오늘(2024년 3월 14일) 오후 1시(PT)에 시작됩니다. Twitch의 AWS OnAir 채널에서 생중계되며 AWS 전문가가 제공하는 4시간 분량의 참신한 교육 콘텐츠를 선보일 예정입니다. 데이터와 기존 데이터 아키텍처를 사용하여 사용자 지정 생성형 AI 애플리케이션을 구축하고 감사하는 방법과 함께 최신 AWS 스토리지 혁신에 대해서도 알아볼 수 있습니다. 언제나 그렇듯이 풍부한 실습 데모도 소개합니다. 이 기술을 바로 사용하는 방법을 확인해 보세요.
생성형 AI를 위한 데이터
데이터는 소비자 활동, 비즈니스 분석, IoT 센서, 콜센터 레코드, 지리 공간 데이터, 미디어 콘텐츠 및 기타 요인에 힘입어 놀라운 속도로 증가하고 있습니다. 이 데이터 증가는 생성형 AI의 발전을 가속화하고 있습니다. 파운데이션 모델(FM)은 주로 Common Crawl과 같은 개방형 데이터 리포지토리를 소스로 사용하는 대규모 데이터세트에서 훈련되는데, 여기에는 페타바이트 규모의 인터넷 웹 페이지 데이터가 포함됩니다. 조직에서 FM 응답을 추가로 사용자 지정할 때는 더 작은 규모의 비공개 데이터세트를 사용합니다. 사용자 지정된 모델은 더 많은 생성형 AI 애플리케이션을 구동하게 될 것이고, 여기에서 고객 상호 작용을 통해 데이터 플라이휠을 위한 더 많은 데이터가 생성됩니다.
산업, 사용 사례 또는 지역과 관계없이 지금 바로 시작할 수 있는 세 가지 데이터 이니셔티브가 있습니다.
먼저 기존 데이터를 사용하여 AI 시스템을 차별화합니다. 대부분의 조직에는 많은 데이터가 있습니다. 이 데이터를 사용하여 특정 요구 사항에 맞게 파운데이션 모델을 사용자 지정하고 개인화할 수 있습니다. 일부 개인화 기술에는 구조화된 데이터가 필요하며 일부는 그렇지 않습니다. 레이블링된 데이터 또는 원시 데이터가 필요한 기술도 있습니다. Amazon Bedrock과 Amazon SageMaker는 다양한 기존 파운데이션 모델을 미세 조정하거나 사전 훈련할 수 있는 여러 솔루션을 제공합니다. 또한 고객 또는 공동 작업자를 위해 비즈니스 전문 도구인 Amazon Q를 배포하고 이 도구에 기본적으로 지원되는 데이터 소스 43개 중 하나 이상을 연결할 수 있습니다.
하지만 AI 사용량을 늘리기 위해 새로운 데이터 인프라를 만들고 싶지는 않을 것입니다. 생성형 AI는 기존 애플리케이션과 같은 방식으로 조직의 데이터를 사용합니다.
둘째, 기존 데이터 아키텍처 및 데이터 파이프라인을 생성형 AI에 사용하고 액세스, 규정 준수 및 거버넌스에 대한 기존 규칙을 계속 준수하고자 할 것입니다. 고객이 AWS에 배포한 데이터 레이크의 수는 100만 개가 넘습니다. 데이터 레이크, Amazon S3 및 기존 데이터베이스는 생성형 AI 애플리케이션을 구축하기 위한 훌륭한 출발점입니다. AWS는 검색 증강 생성(RAG)을 지원하기 위해 다수의 데이터베이스 시스템에 벡터 저장 및 검색에 대한 지원을 추가했습니다. Amazon OpenSearch Service는 타당한 출발점이 될 수 있습니다. 그러나 pgvector
를 Amazon Aurora for PostgreSQL 및 Amazon Relational Database Service(RDS) for PostgreSQL과 함께 사용할 수도 있습니다. 게다가 최근에는 Amazon MemoryDB for Redis, Amazon Neptune 및 Amazon DocumentDB(MongoDB 호환)에 대한 벡터 저장 및 검색 지원도 발표되었습니다.
현재 이미 가지고 있는 데이터 파이프라인을 재사용하거나 확장해도 됩니다. Amazon Managed Streaming for Apache Kafka(Amazon MSK), Amazon Managed Service for Apache Flink 및 Amazon Kinesis와 같은 AWS 스트리밍 기술을 사용하여 기존 기계 학습(ML) 및 AI에서 실시간 데이터를 준비하는 고객도 많습니다. 이 워크플로는 확장이 가능합니다. 데이터 변경 사항을 캡처하고 벡터 데이터베이스를 업데이트하여 대규모 언어 모델(LLM)에 거의 실시간으로 제공할 수 있습니다. Amazon OpenSearch Service로의 MSK 네이티브 스트리밍 모으기를 통해 기술 자료에 변경 사항을 추가할 수도 있고, Amazon Kinesis Data Firehose를 통해 Amazon S3에 데이터 스트리밍을 통합하여 미세 조정 데이터세트를 업데이트할 수 있습니다.
LLM 훈련은 속도가 중요합니다. 데이터 파이프라인은 훈련 클러스터의 여러 노드에 데이터를 공급할 수 있어야 합니다. Amazon S3에 데이터 레이크를 보유한 고객은 성능 요구 사항을 충족하기 위해 Amazon S3 Express One Zone과 같은 객체 스토리지 클래스나 Amazon FSx for Lustre와 같은 파일 스토리지 서비스를 사용합니다. FSx for Lustre는 긴밀하게 통합되므로 친숙한 고성능 파일 인터페이스를 통해 객체 데이터 처리를 가속화할 수 있습니다.
좋은 소식은 AWS 서비스를 사용하여 데이터 인프라를 구축했다면 이미 생성형 AI를 위한 데이터 확장 목표를 대부분 달성했다는 것입니다.
셋째, 스스로 최고의 감사 담당자가 되어야 합니다. 모든 데이터 조직은 생성형 AI에 적용될 규정, 규정 준수, 콘텐츠 조정에 대비해야 합니다. 훈련 및 사용자 지정에 어떤 데이터세트가 사용되는지, 모델이 어떻게 결정을 내렸는지 알아야 합니다. 생성형 AI처럼 빠르게 변화하는 분야에서는 미래를 예측할 수 있어야 합니다. AI 시스템을 확장하는 동안, 지금 바로 완전히 자동화된 방식으로 이를 해내야 합니다.
현재의 데이터 아키텍처에서는 AWS CloudTrail, Amazon DataZone, Amazon CloudWatch 및 OpenSearch와 같은 다양한 AWS 서비스를 감사에 사용하여 데이터 사용량을 관리하고 모니터링합니다. 이를 AI 시스템으로 손쉽게 확장할 수 있습니다. 생성형 AI를 위한 AWS 관리형 서비스를 사용하면 데이터 투명성 기능이 기본으로 제공됩니다. AWS의 생성형 AI 기능에는 CloudTrail 지원이 포함되어 있습니다. 기업 고객에게는 AI 시스템에 대한 감사 추적을 보유하는 것이 중요하기 때문입니다. Amazon Q에서 데이터 소스를 생성할 때마다 CloudTrail에 로깅됩니다. CloudTrail 이벤트를 사용하여 Amazon CodeWhisperer를 통해 수행된 API 직접 호출을 나열할 수도 있습니다. Amazon Bedrock에서는 80개 이상의 CloudTrail 이벤트를 사용하여 파운데이션 모델 사용에 대한 감사를 수행할 수 있습니다.
또한 지난 AWS re:Invent 컨퍼런스에서 소개한 Guardrails for Amazon Bedrock을 사용하면. 피해야 할 주제를 지정할 수 있습니다. 제한된 범주에 속하는 질문에 대해 Bedrock은 승인된 답변만 제공합니다.
방금 출시된 새로운 기능
Pi Day는 AWS 스토리지 및 데이터 서비스의 혁신을 축하하는 자리이기도 합니다. 다음은 방금 발표된 새로운 기능 중 일부에 대한 내용입니다.
이제 Amazon S3 Connector for PyTorch에서 PyTorch Lightning 모델 체크포인트를 Amazon S3에 직접 저장할 수 있습니다. 모델 체크포인트를 저장하려면 일반적으로 훈련 작업을 일시 중지해야 합니다. 따라서 체크포인트를 저장하는 데 소요되는 시간이 전체 모델 훈련 시간에 직접적인 영향을 미칩니다. PyTorch Lightning은 PyTorch를 사용한 훈련 및 체크포인트 저장을 위한 고급 인터페이스를 제공하는 오픈 소스 프레임워크입니다. 이 새로운 통합에 대한 자세한 내용은 새로운 소식 게시물을 참조하세요.
Amazon S3 on Outposts 인증 캐싱 – 이 새로운 기능은 Amazon S3에 대한 인증 및 권한 부여 데이터를 Outposts 랙에 로컬로 안전하게 캐시합니다. 이 기능을 사용하면 모든 요청에서 상위 AWS 리전으로의 왕복 이동이 필요하지 않으므로 네트워크 왕복으로 인한 지연 시간 변동성이 없어집니다. Amazon S3 on Outposts 인증 캐싱에 대한 자세한 내용은 새로운 소식 게시물 및 AWS Storage 블로그 채널에 게시된 이 신규 게시물에서 확인할 수 있습니다.
Mountpoint for Amazon S3 컨테이너 스토리지 인터페이스(CSI) 드라이버를 Bottlerocket에서 사용할 수 있습니다. Bottlerocket은 컨테이너 호스팅을 위한 무료 오픈 소스 Linux 기반 운영 체제입니다. Mountpoint for Amazon S3를 기반으로 구축된 이 CSI 드라이버는 S3 버킷을 Amazon Elastic Kubernetes Service(Amazon EKS) 및 자체 관리형 Kubernetes 클러스터에서 액세스할 수 있는 볼륨으로 제공합니다. 이렇게 하면 애플리케이션에서 파일 시스템 인터페이스를 통해 S3 객체에 액세스할 수 있으므로 애플리케이션 코드를 변경하지 않고도 전체 처리량을 높일 수 있습니다. 새로운 소식 게시물에서 Bottlerocket의 CSI 드라이버에 대한 자세한 내용을 확인할 수 있습니다.
Amazon Elastic File System(Amazon EFS)의 파일 시스템당 처리량이 2배 증가합니다. 탄력적 처리량 한도는 읽기 작업의 경우 최대 20GB/s, 쓰기 작업의 경우 5GB/s로 늘어났습니다. 따라서 이제 기계 학습, 유전체학 및 데이터 분석 애플리케이션과 같이 처리량 집약적인 워크로드에 EFS를 사용할 수 있습니다. EFS의 이 처리량 증가에 대한 자세한 내용은 새로운 소식 게시물에서 확인할 수 있습니다.
이번 달 초에 적용된 다른 중요한 변경 사항도 있습니다.
Amazon S3 Express One Zone 스토리지 클래스가 Amazon SageMaker와 통합됩니다. 이제 훈련 데이터, 체크포인트 및 모델 출력을 더 빠르게 로드하여 SageMaker 모델 훈련을 가속화할 수 있습니다. 이 새로운 통합에 대한 자세한 내용은 새로운 소식 게시물에서 확인할 수 있습니다.
Amazon FSx for NetApp ONTAP의 파일 시스템당 최대 처리량 용량이 2배(36GB/s에서 72GB/s로) 증가합니다. 이제 ONTAP의 데이터 관리 기능을 더 광범위한 성능 집약적 워크로드 세트에 사용할 수 있습니다. Amazon FSx for NetApp ONTAP에 대한 자세한 내용은 새로운 소식 게시물에서 확인할 수 있습니다.
라이브 스트리밍 내용
오늘 4시간 동안 진행되는 라이브 쇼에서 이러한 새로운 기능 중 일부를 살펴봅니다. 제 동료 Darko가 여러 AWS 전문가를 초빙하여 실습 데모를 진행합니다. 생성형 AI 프로젝트에 데이터를 활용하는 방법을 알아볼 수 있습니다. 오늘의 일정은 다음과 같습니다. 모든 시간은 태평양 표준시(PT) 시간대(GMT-8)로 표시됩니다.
- 기존 데이터 아키텍처를 생성형 AI로 확장(오후 1~2시).
AWS 데이터 레이크를 기반으로 분석을 실행하고 있다면 여기에서 대부분의 생성형 AI 데이터 전략을 수립할 수 있습니다. - 생성형 AI를 위한 컴퓨팅 데이터 경로 가속화(오후 2~3시).
모델 훈련 및 추론에는 컴퓨팅 데이터 경로의 속도가 중요합니다. 이를 실현하는 다양한 방법을 확인해 보세요. - RAG 및 미세 조정을 통한 사용자 지정(오후 3~4시).
기본 파운데이션 모델을 사용자 지정하는 최신 기술을 살펴보세요. - 최고의 GenAI 감사 담당자 되기(오후 4~5).
기존 AWS 서비스를 사용하여 규정 준수 목표를 달성할 수 있습니다.
오늘 AWS Pi Day 라이브 스트림에서 참여하세요.
나중에 뵙겠습니다!