Amazon FSx for Lustre

Amazon FSx for Lustre 고객

다톨로지 AI

DatologyAI는 딥 러닝 모델을 학습하는 데 사용할 최상의 데이터를 자동으로 선택하는 도구를 구축합니다.

“Amazon SageMaker HyperPod의 원클릭 옵저버빌리티 솔루션을 사용하게 되어 매우 기쁩니다. 고위 직원들에게는 GPU 리소스를 어떻게 활용하고 있는지에 대한 통찰력이 필요했습니다. 사전 구축된 Grafana 대시보드를 사용하면 모니터링 인프라를 유지 관리할 필요 없이 작업별 GPU 사용률부터 파일 시스템 (FSx for Lustre) 성능에 이르기까지 중요한 메트릭을 즉시 파악할 수 있어 필요한 것을 정확히 얻을 수 있습니다. Prometheus 쿼리 언어의 성능을 높이 평가하는 사람으로서 인프라 문제에 대한 걱정 없이 직접 쿼리를 작성하고 사용자 지정 지표를 분석할 수 있다는 점이 마음에 듭니다.”

조쉬 윌스, 다톨로지AI 기술 담당 직원

인공 지능 블로그 읽기

아포이데아 그룹

Apoidea는 최첨단 제너레이티브 AI 및 딥 러닝 기술을 사용하여 다국적 은행을 위한 AI 기반 솔루션을 개발합니다. 주력 제품인 SuperACC는 은행 명세서 및 KYC 양식을 포함한 다양한 재무 문서를 처리하기 위해 독점 모델을 사용하는 정교한 문서 처리 서비스입니다. 이 기술은 금융 부문의 효율성을 크게 개선하여 금융 스프레드 처리 시간을 4~6시간에서 단 10분으로 단축했습니다.

Apoidea는 이러한 개발을 지원하기 위해 대규모 모델 교육을 위한 확장 가능하고 유연한 환경을 제공하는 Amazon SageMaker HyperPod를 활용합니다. SageMaker HyperPod는 분산형 교육 관리, FSx for Lustre와의 원활한 데이터 동기화, 사용자 지정 가능한 환경을 특징으로 하며, 이 모든 것이 ML 워크플로우 효율성을 향상시킵니다.

인공 지능 블로그 읽기

Adobe

Adobe는 세상을 변화시킬 혁신적인 제품을 만들겠다는 단순한 아이디어를 바탕으로 40년 전에 설립되었습니다. Adobe는 모든 사람이 어디서나 상상하고, 창작하고, 디지털 경험을 실현할 수 있는 획기적인 기술을 제공합니다. Adobe는 오픈 소스 모델에 의존하는 대신 창의적인 사용 사례에 맞게 조정된 자체 기본 제너레이티브 AI 모델을 트레이닝하기로 결정했습니다. Adobe는 모델을 빠르게 반복할 수 있는 AI 훈련 플랫폼 및 데이터 파이프라인을 구현하기 위해 AWS에 AI 초고속도로를 구축했습니다. Adobe는 데이터에 빠르게 액세스하고 GPU 리소스가 유휴 상태로 남지 않도록 하기 위해 Lustre 고성능 파일 스토리지로 Amazon FSx를 사용했습니다.

“AI 클라우드를 직접 만들겠다고 생각하기 쉽지만 AWS와의 파트너십을 통해 차별화 요소에 집중할 수 있게 되었습니다.”

Alexandru Costin - Adobe 생성형 AI 및 Sensei 담당 부사장

Adobe 사례 연구 읽기

LG AI 리서치

한국 대기업 LG 그룹의 인공지능 (AI) 연구 허브인 LG AI Research는 미래 성장을 주도하기 위한 디지털 전환 전략의 일환으로 AI를 홍보하기 위해 설립되었습니다. 연구소는 아마존 세이지메이커와 러스트레용 아마존 FSx를 사용하여 1년 만에 기본 모델인 EXAONE 엔진을 개발했습니다. 기반 모델은 대규모 데이터 학습을 통해 인간이 스스로 생각하고 학습하고 행동하는 모습을 모방합니다. 다목적 파운데이션 모델은 다양한 산업 분야에서 다양한 작업을 수행하는 데 사용될 수 있습니다.

LG AI 리서치 사례 연구 읽기

페이지

선도적인 디지털 병리학 제공업체인 Paige는 암 진단을 위한 AI 및 ML 모델을 개선하고자 했지만 온프레미스 솔루션으로는 한계에 부딪혔습니다. 이를 극복하기 위해 Paige는 Amazon EC2 P4d 인스턴스와 Amazon FSx를 Lustre에 도입하여 페타바이트 규모의 ML 입력 데이터를 효율적으로 처리하기 위해 Lustre를 위한 Amazon S3 버킷과 통합했습니다. 이 AWS 인프라를 통해 Paige는 고성능 파일 시스템에서 수동으로 사전 스테이징하지 않고도 데이터를 처리할 수 있었습니다. 그 결과 Paige는 데이터 교육 용량이 10배 증가하고 내부 워크플로우가 72% 빨라졌습니다.

“Amazon FSx for Lustre를 Amazon S3에 연결하면 온 프레미스 인프라에서 사용해 본 것보다 10배 많은 양의 데이터를 문제 없이 학습할 수 있습니다.”

Alexander van Eck, Paige AI 엔지니어 직원

Toyota

Toyota Research Institute(TRI)는 자사의 자율 주행 차량(AV) 테스트 드라이브에서 대량의 센서 데이터를 수집하고 처리합니다. 각 교육 데이터 세트는 온 프레미스 NAS 디바이스에 스테이징되고 강력한 GPU 컴퓨팅 클러스터에서 처리되기 전에 Amazon Simple Storage Service (Amazon S3) 로 전송됩니다. TRI는 컴퓨팅 리소스와 페어링하고, ML 모델의 훈련 속도를 단축하며, 데이터 사이언티스트를 위한 인사이트를 가속화할 수 있는 고성능 파일 시스템이 필요했습니다. Toyota Research Institute는 객체 인식 기계 학습 훈련 시간을 줄이기 위해 FSx for Lustre를 선택했습니다.

“ML 교육 데이터 세트를 위한 병렬 파일 시스템이 필요했고, 기존 파일 시스템 제품에 비해 가용성과 내구성이 더 뛰어난 Amazon FSx를 Lustre로 선택했습니다. 또한 S3를 비롯한 AWS 서비스와의 통합으로 고성능 파일 스토리지로 선호되는 옵션이 되었습니다.”

Toyota Research Institute 소프트웨어 엔지니어, David Fluck

Shell

Shell은 석유, 가스, 석유화학부터 풍력, 태양열, 수소에 이르기까지 다양한 에너지 옵션 포트폴리오를 제공합니다. Shell은 고객의 삶에 필요한 에너지를 공급하는 것을 자랑스럽게 생각합니다. Shell은 모델 구축, 테스트 및 검증을 위해 HPC를 사용합니다. 2020년부터 2022년까지 GPU 사용률은 평균 90% 미만이었으며, 이로 인해 프로젝트가 지연되고 새로운 알고리즘 실험이 제한되었습니다. Shell은 Amazon EC2 클러스터와 Amazon FSx for Lustre를 통해 클라우드로 확장하여 온 프레미스 컴퓨팅 파워를 강화합니다. 이 솔루션을 통해 Shell은 신속하게 스케일 업 및 스케일 다운하고 필요할 때만 추가 컴퓨팅 용량을 구매할 수 있습니다. Shell의 GPU는 이제 완전히 활용되어 컴퓨팅 비용을 줄이고 기계 학습 모델 테스트를 가속화합니다.

Netflix

Netflix는 미디어 ML 모델, 포스트 프로덕션 썸네일, VFX, 수천 개의 동영상과 수백만 개의 클립에 대한 예고편 생성을 위한 대규모 분산 교육을 사용합니다. Netflix는 노드 간 복제와 40%의 GPU 유휴 시간으로 인해 오랜 대기 시간을 겪고 있었습니다.

Netflix는 데이터 로드 파이프라인을 재설계하고 모든 비디오/오디오 클립을 사전 컴퓨팅하여 효율성을 개선했습니다. Amazon FSx for Lustre의 성능 덕분에 Netflix는 GPU를 포화시키고 GPU 유휴 시간을 사실상 없앨 수 있습니다. Netflix는 이제 사전 컴퓨팅 및 FSx for Lustre를 사용하여 3~4배 개선된 성능을 경험하고 있으며, 모델 훈련 시간이 일주일에서 1~2일로 단축되었습니다.

넷플릭스 동영상 보기

Netflix는 에피소드 드라마 ‘더 크라운’의 네 번째 시즌 제작에서 예기치 않은 문제에 봉착했습니다. VFX 후반 제작 작업이 시작될 예정일 때 COVID-19 팬데믹으로 전 세계가 봉쇄에 들어갔던 것입니다. 처리량 향상을 위한 Amazon FSx Lustre 파일 서버를 비롯한 AWS 기반 클라우드 기반 워크플로를 채택함으로써, 10명의 아티스트로 구성된 Netflix의 사내 VFX 팀은 시즌 10개 에피소드로 구성된 600장 이상의 VFX 샷을 원격으로 작업하면서 단 8개월 만에 원활하게 완성할 수 있었습니다.

"클라우드 기반으로 촬영한 '더 크라운'의 사례" 블로그 글 읽기

Storengy

ENGIE 그룹의 자회사인 Storengy는 업계를 선도하는 천연 가스 공급업체입니다. Storengy는 전 세계 기업을 대상으로 가스 저장고, 지열 솔루션, 무탄소 에너지 생산, 저장 기술을 제공합니다.

Storengy는 생산품을 올바르게 보관하기 위해 하이테크 시뮬레이터를 사용하여 지하 가스 저장고를 평가하는데, 이는 고성능 컴퓨팅(HPC) 워크로드를 광범위하게 사용해야 하는 프로세스입니다. 이 회사는 HPC 기술을 사용하여 천연가스 발굴 및 탐사 작업을 수행하기도 합니다.

“AWS 덕분에 한 번에 수백 개의 시뮬레이션을 수행할 수 있는 확장성과 고가용성을 갖추게 되었습니다. 또한 최대 워크로드 기간을 지원할 수 있도록 솔루션이 자동으로 확장되거나 축소되므로 HPC 환경에 전혀 문제가 발생하지 않습니다.”

Storengy 엔지니어, Jean-Frederic Thebault

Smartronix

Smartronix는 FSx for Lustre를 활용하여 SAS Grid 배포를 위한 안정적인 고성능 환경을 제공합니다.

Smartronix는 세계 유수의 여러 상용 기관 및 정부 기관을 대상으로 클라우드 솔루션, 사이버 보안, 시스템 통합, 전 세계 C5ISR 및 데이터 분석, 미션 중심의 엔지니어링을 제공합니다. Smartronix는 SAS Grid를 사용하여 전국의 코로나19 일일 통계를 분석하고 제공했으나, 기존의 자체 관리형 병렬 파일 시스템을 관리하고 보호하기가 어렵다는 사실을 알게 되었습니다.

“AWS와 협업하고 FSx for Lustre와 같은 관리형 솔루션을 활용하여 자체 관리형 파일 시스템보다 높은 가용성과 29% 저렴한 비용으로 고객에게 더 나은 서비스를 제공할 수 있었습니다.”

Smartronix, 선임 솔루션 아키텍트, Rob Mounier

현대

200여 개국에 제품을 수출하는 글로벌 자동차 제조업체인 현대자동차는 자율주행에 시맨틱 분할을 사용하여 이미지 픽셀을 도로, 사람, 건물과 같은 범주로 분류합니다.

현대자동차는 모델 정확도를 개선하고 기한을 맞추기 위해 효율적인 데이터 저장 및 처리를 위한 Amazon FSx for Lustre와 S3를 구현했으며, 여러 GPU에서 자동 학습 및 데이터 병렬화를 지원하는 Amazon SageMaker를 구현했습니다. 현대자동차는 이러한 솔루션을 통해 64개의 GPU로 93% 의 스케일링 효율성을 달성하면서 데이터 대기 시간을 없앴습니다.

현대자동차 블로그 읽기

A plain solid dark blue background image.

Rivian

Amazon FSx for Lustre는 컴퓨터 지원 엔지니어링 및 설계 워크로드에 필요한 빠른 공유 스토리지 액세스를 제공하여 Rivian의 클라우드 혁신에 중요한 역할을 했습니다. Rivian은 FSx for Lustre를 AWS 솔루션의 일부로 사용하여 제품 수명 주기 관리 상호 작용 속도를 66% 높이고 백업 동기화 시간을 하루에서 1시간 미만으로 줄이는 등 성능 지표를 크게 개선했습니다.

완전 관리형 스토리지 서비스는 Amazon EC2 및 Auto Scaling과 같은 다른 AWS 서비스와 함께 구현되었습니다. 이를 통해 Rivian은 예상 6개월 일정에 비해 단 3주 만에 온 프레미스 인프라 한계를 극복하고 확장 가능한 고성능 컴퓨팅 기능을 구현할 수 있었습니다.

Rivian 사례 연구 읽기

덴소

Denso는 운전자가 주차 및 차선 변경과 같은 기능을 할 수 있도록 도와주는 첨단 운전자 보조 시스템 (ADAS) 용 이미지 센서를 개발합니다. DENSO는 ADAS 이미지 인식에 필요한 ML 모델을 개발하기 위해 온프레미스 환경에 GPU 클러스터를 구축했습니다. 그러나 여러 ML 엔지니어가 제한된 GPU 리소스를 공유함으로써 특히 신제품 출시 전 바쁜 기간 동안 생산성에 영향을 미쳤습니다.

Lustre에 Amazon SageMaker와 Amazon FSx를 채택함으로써 Denso는 데이터 수집, 모델 개발, 학습 및 평가 시간을 줄임으로써 ADAS 이미지 인식 모델 생성을 가속화할 수 있었습니다.

“인공 지능과 ML 분야에서는 클라우드로의 전환이 계속 가속화될 것입니다. 계속해서 기능을 추가함에 따라 AWS가 계속해서 지원을 제공할 것이라고 확신합니다.”

Kensuke Yokoi, DENSO 총괄 관리자

T-Mobile

T-Mobile은 자체 관리형 시스템의 성능 문제와 높은 관리 오버헤드를 해결하기 위해 Amazon FSx for Lustre를 구현하여 SAS 그리드 인프라를 혁신했습니다.

FSx for Lustre를 배포하고 Amazon S3와의 통합을 통해 T-Mobile은 SAS Grid 워크로드 속도를 두 배로 높이는 동시에 연간 150만 달러를 절감하고 총 소유 비용을 83% 절감할 수 있었습니다.

이 솔루션을 통해 T-Mobile은 운영 부담을 없애고 AWS의 고급 스토리지 기능을 활용하면서 혁신적인 고객 제품 개발이라는 핵심 비즈니스에 집중할 수 있었습니다.

Maxar

지구 정보 및 우주 인프라 분야의 신뢰할 수 있는 파트너이자 혁신자인 Maxar Technologies는 온프레미스 슈퍼컴퓨터에 비해 일기 예보를 더 빠르게 제공해야 했습니다. Maxar는 AWS와 협력하여 안전하고 안정적인 컴퓨팅 리소스를 위한 AMAZON EC2, 애플리케이션의 읽기/쓰기 처리량을 가속화하는 Amazon FSx for Lustre와 AWS에 HPC 컴퓨팅 환경을 신속하게 구축하기 위한 AWS ParallelCluster를 비롯한 주요 기술을 갖춘 HPC 솔루션을 만들었습니다.

“Maxar는 AWS HPC 솔루션의 Lustre용 Amazon FSx를 사용하여 NOAA의 수치 일기 예보 모델을 실행했습니다. 이를 통해 컴퓨팅 시간을 58% 단축하여 약 45분 만에 훨씬 더 경제적인 비용으로 예보 자료를 생성할 수 있었습니다. AWS 컴퓨팅 리소스를 최대화한 결과 성능이 크게 향상되었습니다.”

Stefan Cecelski, Maxar Technologies의 수석 데이터 사이언티스트 겸 엔지니어(PhD)

블랙쏜 테라퓨틱스 (뉴모라)

표준 DIY 클라우드 파일 시스템을 사용하여 자기공명영상 (MRI) 데이터를 처리하려면 리소스와 시간이 많이 소요되었습니다. BlackThorn은 데이터 과학 및 기계 학습 워크플로를 단순화하는 데 도움이 되는 컴퓨팅 집약적인 공유 파일 스토리지 솔루션이 필요했습니다. Amazon FSx for Lustre는 Amazon S3 및 Amazon SageMaker와 통합되어 ML 교육 데이터 세트를 빠르게 처리할 수 있을 뿐만 아니라 Amazon EC2 인스턴스를 사용하여 컴퓨팅에 원활하게 액세스할 수 있습니다.

“FSx for Lustre를 통해 고성능 MRI 데이터 처리 파이프라인을 만들 수 있었습니다. ML 기반 워크플로우의 데이터 처리 시간이 며칠과 몇 주에 비해 몇 분으로 단축되었습니다.”

Oscar Rodriguez, 혁신 및 기술 부문 선임 책임자, BlackThorn Therapeutics

Qubole

Qubole은 고객의 분석 및 AI/ML 워크로드를 처리하기 위한 고성능 스토리지 솔루션을 찾고 있었습니다. EC2 스팟 플릿에 보관된 중간 데이터를 쉽게 저장하고 처리할 수 있는 기능이 필요했습니다. Qubole은 Amazon FSx for Lustre를 사용하여 병렬 고속 파일 시스템을 통해 중간 데이터를 저장하고 처리했습니다.

“사용자들의 가장 큰 두 가지 문제인 높은 비용과 중간 수준의 데이터 손실은 유휴 EC2 인스턴스와 EC2 스팟 인스턴스를 사용하여 Hive 및 Spark와 같은 분산 처리 프레임워크에서 생성된 중간 데이터를 처리하고 저장하는 데서 비롯되었습니다. 고성능 파일 시스템인 Amazon FSx for Lustre를 사용하여 중간 데이터를 없애는 방식으로 이 문제를 해결할 수 있었습니다. 이제 사용자는 유휴 인스턴스를 유지하기 위해 비용을 지불할 필요가 없으며 중단된 EC2 스팟 노드의 영향을 받지 않습니다. Amazon FSx를 통해 사용자는 총 비용을 30% 절감할 수 있었습니다.”

Qubole, CTO, Joydeep Sen Sarma

다음 단계

Amazon FSx 기능 살펴보기

자세히 알아보기

무료 계정 가입

가입

콘솔에서 구축 시작

로그인