학습 스타트업이 AWS Inferentia를 사용하여 AI/ML 비용을 낮추고 혁신하는 방법

스타트업이 AWS Inferentia를 사용하여 AI/ML 비용을 낮추고 혁신하는 방법

이 콘텐츠는 어떠셨나요?

기계 학습(ML) Startup이라면 애플리케이션에서 ML 모델을 훈련하고 배포하는 데 따르는 문제(‘ML 제품화’)에 대해 잘 아실 겁니다. Startup들은 경쟁력 있고 지속 가능한 Startup을 구축하는 동시에, 높은 애플리케이션 성능을 구현하고, 만족스러운 사용자 경험을 만들고, 비용을 효율적으로 관리하기 위해 애쓰고 있기 때문에 ML 제품화는 쉽지 않습니다.

Startup은 ML 워크로드를 위한 인프라를 선택할 때, 최적의 훈련 및 추론 접근 방식을 고려해야 합니다. 훈련은 기존 데이터를 학습하여 특정 작업에 맞게 모델을 구축하고 조정하는 프로세스입니다. 추론은 해당 모델을 사용하여 새 입력 데이터를 기반으로 예측 결과를 생성하는 프로세스입니다. 지난 5년간 AWS는 ML 워크로드의 성능 및 컴퓨팅 비용으로 인한 한계를 극복하기 위해 자체적인 목적별 액셀러레이터에 투자해왔습니다. AWS Trainium 및 AWS Inferentia 액셀러레이터를 사용하면 클라우드에서 가장 저렴한 비용으로 모델을 훈련하고 추론을 실행할 수 있습니다.

AWS Inferentia 기반 Amazon EC2 Inf1 인스턴스는 다음과 같은 ML 추론 애플리케이션을 실행하려는 Startup에 적합합니다.

검색
추천 엔진
컴퓨터 비전
음성 인식
자연어 처리(NLP)
개인화
사기 탐지

생성형 AI 모델(대규모 언어 모델 및 확산 모델)과 같은 복잡한 모델을 훈련하고 배포하려는 경우, Startup은 새로운 AWS Trainium 기반 Amazon EC2 Trn1 인스턴스와 AWS Inferentia2 기반 Amazon EC2 Inf2 인스턴스를 고려할 수 있습니다.

이 게시물에서는 Actuate 및 Finch Computing이라는 두 Startup의 사용 사례와 이들이 Inferentia 기반 Inf1 인스턴스로 거둔 성공 사례를 살펴봅니다.

Actuate | 실시간 AI 비디오 분석 기술을 활용한 위협 탐지 | 추론 비용 91% 절감

사용 사례: Actuate는 모든 카메라를 실시간 위협 감지 스마트 카메라로 변환하여 총기, 침입자, 군중 및 배회하는 사람을 즉각적이고 정확하게 탐지할 수 있는 서비스형 소프트웨어(SaaS) 플랫폼을 제공합니다. Actuate의 소프트웨어 플랫폼은 기존 비디오 카메라 시스템에 통합되어 고급 보안 시스템을 구축합니다. Actuate의 인공 지능(AI) 위협 탐지 소프트웨어를 통해 고객은 몇 초 내에 실시간 알림을 받고 신속하게 조치를 취하여 거주지를 보호할 수 있습니다.

기회: Actuate는 높은 탐지 정확도를 보장해야 했습니다. 따라서 더 많은 데이터를 사용하여 모델을 지속적으로 재훈련해야 했고, 이로 인해 개발자의 소중한 시간이 허비되었습니다. 게다가 빠른 응답 시간이 요구되었기 때문에 대규모로 구축했을 때 비용이 너무 많이 드는 GPU 기반 인프라에 의존했습니다. 리소스가 한정된 Startup으로서 Actuate가 추론 비용과 개발자 작업 시간을 최소화한다면 절약된 리소스를 활용하여 더 나은 기능을 구축하고 최종 사용자에게 더 많은 가치를 제공할 수 있었습니다.

솔루션 및 효과: 우선, Actuate는 모델을 훈련하고 배포하기 위해 Amazon SageMaker를 구현했습니다. 그 결과, 데이터가 레이블링된 시점부터 모델이 배포된 시점까지의 시간으로 측정한 배포 시간이 4주에서 4분으로 단축되었습니다. 다음 단계에서는 GPU 기반 인스턴스에서 AWS Inferentia 기반 Inf1 인스턴스로 전체 제품군에 걸쳐 ML 모델을 마이그레이션했습니다. 이 마이그레이션 단계에서는 애플리케이션 코드를 다시 작성할 필요가 없고 몇 줄의 코드만 변경하면 되므로 최소한의 개발자 작업만 요구되었습니다. Actuate는 AWS Inferentia을 활용함으로써 즉시 사용 가능한 비용을 최대 70%까지 절감할 수 있었습니다. 그리고 추가 최적화를 통해 추론 비용을 91% 절감습니다. 이를 통해 절감된 리소스를 활용하여 사용자 경험 개선과 기본적인 AI 연구에 집중할 수 있었습니다.

리소스: Actuate의 사용 사례에 대해 자세히 알아보려면 reInvent 프레젠테이션을 시청하시기 바랍니다. Inf1 인스턴스에서 컴퓨터 비전 모델을 시작하려면 Neuron 설명서 페이지를 방문하고 GitHub에서 Yolov5 모델에 대한 이 노트북을 참조하세요.

Finch Computing | 정보 자산에 NLP를 사용하는 실시간 인사이트 솔루션 | 추론 비용 80% 절감

활용 사례: '찾기(find)'와 '검색(search)'을 조합한 이름인 Finch Computing은 미디어 회사, 데이터 집계 업체, 미국 정보기관 및 정부 기관, 금융 서비스 회사에 서비스를 제공합니다. 이 회사의 제품은 자연어 처리(NLP) 알고리즘을 사용하여 다양한 정보 자산의 방대한 텍스트 데이터에 대한 유용한 인사이트를 제공합니다. 특정 콘텐츠를 긍정적, 부정적 또는 중립적 콘텐츠로 식별하고 감정 수준 및 유형을 나타내는 점수를 반환하는 감정 할당을 예로 들 수 있습니다.

기회: Finch Computing은 네덜란드어 지원 기능을 제품에 추가한 후 프랑스어, 독일어, 스페인어 및 기타 언어를 지원하도록 제품을 더 확장하고자 했습니다. 그렇게 하면 기존 고객이 해당 언어로 콘텐츠를 이용할 수 있을 뿐만 아니라, 유럽 전역에서 신규 고객을 유치할 수 있었습니다. Finch Computing은 GPU에 자체 딥 러닝 번역 모델을 구축하고 배포했는데, 그로 인해 추가 언어를 지원하는 데 비용이 너무 많이 들었습니다. 이 회사는 새로운 언어 모델을 경제적으로 빠르게 구축하고 실행할 수 있는 대체 솔루션을 찾고 있었습니다.

솔루션 및 효과: Finch Computing은 불과 몇 개월 만에 컴퓨팅 집약적인 번역 모델을 GPU 기반 인스턴스에서 AWS Inferentia 기반의 Amazon EC2 Inf1 인스턴스로 마이그레이션했습니다. Inf1 인스턴스는 GPU와 동일한 처리량을 지원했지만 Finch가 비용을 80% 이상 절감할 수 있게 해 주었습니다. Finch Computing은 세 가지 추가 언어를 지원하여 신규 고객을 유치했습니다. 현재 모든 번역 모델은 Inf1에서 실행되며 텍스트 요약 및 헤드라인 생성과 같은 새로운 생성형 AI 사용 사례를 지원하기 위해 Inf2 인스턴스 사용을 검토할 계획입니다.

리소스: Finch Computing의 사용 사례에 대해 자세히 알아보려면 이 사례 연구를 읽어보세요. 번역 모델을 시작하려면 Neuron 설명서 페이지를 방문하고 GitHub에서 MarianMT 모델을 위한 이 노트북을 참조하세요.

경제적인 고성능 ML 추론을 지원하는 AWS Inferentia

이 블로그에서는 높은 처리량과 짧은 지연 시간을 실현하는 동시에, 프로덕션 환경에서 AWS Inferentia에 ML 모델을 경제적으로 배포한 두 Startup의 사례를 살펴보았습니다.

Inf1 인스턴스를 시작할 준비가 되셨나요? 그렇다면 PyTorch, TensorFlow 등의 인기 ML 프레임워크와 기본적으로 통합되는 AWS Neuron SDK를 활용할 수 있습니다. 방법을 알아보려면 Neuron 설명서 페이지를 방문하고 GitHub에서 이 샘플 모델 리포지토리를 참조하세요.

갈수록 많은 AIML Startup들이 어떻게 AWS를 기반으로 구축하고 확장하고 있는지 알아보세요. 🚀

Shruti Koparkar

Shruti Koparkar는 AWS의 선임 제품 마케팅 관리자입니다. 그녀는 고객이 기계 학습 요구 사항에 맞게 Amazon EC2 가속 컴퓨팅 인프라를 탐색, 평가 및 채택하도록 지원합니다.

이 콘텐츠는 어떠셨나요?