Startup에 적합한 파운데이션 모델 선택

이 콘텐츠는 어떠셨나요?

Startup이 자사 제품에 생성형 인공 지능(AI)을 구축할 때, 파운데이션 모델(FM)을 선택하는 것이 첫 번째이자 가장 중요한 단계 중 하나입니다. FM은 방대한 양의 데이터를 대규모로 사전 훈련하는 대규모 기계 학습 (ML) 모델입니다. 그 결과 다양한 다운스트림 작업에 맞게 조정할 수 있는 모델이 만들어집니다.

모델 선택은 Startup 설립 방식에 전략적 영향을 미칩니다. 선택한 모델에 따라 사용자 경험과 시장 진출부터 채용 및 수익성에 이르기까지 모든 것이 영향을 받을 수 있습니다. 모델은 다음과 같은 여러 요인에 따라 달라집니다.

  • 맞춤화 수준 - 프롬프트 기반 접근 방식부터 전체 모델 재훈련에 이르기까지, 다양한 새로운 데이터로 모델 출력을 변경할 수 있는 기능
  • 모델 크기 - 파라미터 수로 정의된 대로 모델이 훈련한 정보의 양
  • 추론 옵션 - 자체 관리형 배포부터 API 호출까지
  • 라이선스 계약 - 일부 계약에서는 상업적 사용을 제한하거나 금지할 수 있음
  • 컨텍스트 창 - 단일 프롬프트에 담을 수 있는 정보의 양
  • 지연 시간 - 모델이 출력을 생성하는 데 걸리는 시간

다음 섹션에서는 Startup의 요구 사항에 맞는 FM을 선택하기 위해 고려해야 할 사항을 보여줍니다.

애플리케이션별 벤치마크

사용 사례에 따라 다양한 FM의 성능을 평가할 때 프로세스의 중요한 단계는 벤치마크 전략을 수립하는 것입니다. 이를 통해 콘텐츠가 기대치에 얼마나 잘 부합하는지 수치화할 수 있습니다.

Vellum의 Chief Technology Officer(CTO)이자 공동 설립자인 Noa Flaherty는 “클로즈드 소스 모델부터 Dolly, Alpaca, Vicuna와 같은 오픈 소스 모델에 이르기까지 다양한 모델이 있습니다. 각 모델마다 장단점이 있기 때문에 작업에 가장 적합한 모델을 선택하는 것이 중요합니다. 저희는 기업이 다양한 AI 사용 사례를 구현하도록 지원해왔으며 사용 사례마다 비용, 품질, 지연 시간, 컨텍스트 창 및 프라이버시에 대한 요구 사항이 다르다는 것을 직접 확인했습니다”라고 설명합니다.

일반화된 벤치마크(예: Stanford의 Holistic Evaluation of Language Models)는 실험을 시작할 파운데이션 모델의 우선순위를 정하는 데 도움이 되기 때문에 일부 Startup에게는 좋은 출발점이 됩니다. 하지만 특정 고객 기반을 구축하는 데 집중하는 Startup에는 일반화된 벤치마크만으로는 충분하지 않을 수 있습니다.

예를 들어 진료 예약이나 고객 피드백을 요약하는 모델을 개발해야 할 경우 이러한 특정 작업을 얼마나 잘 수행할 수 있는지를 기준으로 모델을 평가해야 합니다. Noa는 “맞춤형 벤치마킹을 수행하려면 일반적으로 다양한 시나리오에서 시행착오를 거쳐 신속하게 실험할 수 있는 워크플로가 필요합니다. 특정 테스트 사례에 따라 모델/프롬프트를 너무 많이 맞춤화하고 적합한 모델을 보유하고 있다고 생각하다가, 막상 프로덕션 환경에 적용하면 실패로 돌아가는 경우가 많습니다”라고 조언합니다. 맞춤형 벤치마킹에는 BLEU 및 ROUGE 점수 계산과 같은 기법이 포함될 수 있습니다. 이 두 가지 지표는 Startup이 휴먼 인 더 루프(Human-in-the-Loop) 애플리케이션에서 사용하도록 승인되기까지 AI 생성 텍스트에 적용해야 하는 수정 건수를 수치화하는 데 도움이 됩니다.

품질 지표와 모델 평가가 매우 중요합니다. 이것이 애초에 Noa가 Vellum을 설립한 이유입니다. Y Combinator의 지원을 받는 이 Startup은 제품 오퍼링을 실험에 집중하고 있습니다. Noa는 “프로덕션환경에서 볼 수 있는 것과 유사한 여러 사례에서 모델을 더 많이 비교/대조할수록 프로덕션 환경에서 더 좋은 결과를 얻을 수 있습니다”라고 말합니다.

더 작은 목적별 모델의 증가

품질 벤치마크가 설정되면 지침을 따르거나 요약하는 것과 같은 특정 작업에 특화된 더 작은 모델을 사용하여 실험을 시작할 수 있습니다. 이러한 목적별 모델을 사용하면 영역별 작업을 수행할 수 있는 기능을 유지하면서 모델의 파라미터 수를 크게 줄일 수 있습니다. 일례로 GoCharlie Startup은 SRI와 협력하여 1B개의 파라미터를 사용하는 마케팅 전용 멀티모달 모델을 개발했습니다.

GoCharlie의 Chief Executive Officer(CEO)이자 공동 설립자인 Kostas Hatalis는 “다목적 단일 모델로는 최종 사용자의 요구를 진정으로 해결할 수 없으며, 고객의 요구 사항을 구체적으로 충족하도록 설계된 모델이 가장 효과적일 것입니다. 마케팅과 같은 특정 분야에 맞는 목적별 모델이 최종 사용자의 진정한 요구 사항을 이해하는 데 중요하다고 생각합니다”라고 설명합니다.

오픈 소스 연구 커뮤니티는 Stanford의 Alpaca 또는 Technology Innovation Institute의 Falcon 40B 같이 작은 목적별 모델을 중심으로 여러 측면에서 혁신을 주도하고 있습니다. Hugging Face의 Open LLM Leaderboard 는 다양한 일반 벤치마크에서 이러한 오픈 소스 모델의 순위를 매기는 데 도움이 됩니다. 이러한 작은 모델은 적은 파라미터 수와 훈련 리소스로 지침을 따르는 작업에 대해 유사한 벤치마크 지표를 제공합니다.

영역별 작업에 맞게 모델을 맞춤화하는 과정에서 Startup은 오픈 소스 FM에서 자체 데이터 세트를 사용하여 시스템을 보다 맞춤화하고 미세 조정할 수 있습니다. 예를 들어 Hugging Face의 Parameter-Efficient Fine-tuning(PERT) 솔루션은 적은 수의 모델 파라미터를 조정하는 동시에 사전 훈련된 LLM의 다른 파라미터는 대부분 동결하여 계산 및 저장 비용을 크게 줄일 수 있다는 것을 보여주었습니다. API 기반 독점 FM으로는 이러한 영역 적응 기반 미세 조정 기법은 일반적으로 불가능하며, 그로 인해 Startup이 차별화된 제품을 구축할 수 있는 범위가 제한될 수 있습니다.

또한 특정 작업에 초점을 맞추면 수학, 역사 또는 의학과 같은 영역 전반에 걸쳐 사전 훈련된 FM의 지식이 일반적으로 Startup에게는 쓸모가 없게 됩니다. 일부 Startup은 모델 내에 Nvidia의 오픈 소스 NeMo Guardrails와 같은 경계를 구현하여 FM의 범위를 특정 영역으로 의도적으로 제한하기도 합니다. 이러한 경계는 연관성이 없거나 부정확하거나 예상치 못한 출력과 같은 모델의 할루시네이션을 방지하는 데 도움이 됩니다.

추론 유연성이 중요

모델 선택에 있어 중요한 또 다른 고려 사항은 모델을 제공하는 방법입니다. 자체 관리형 독점 모델뿐만 아니라 오픈 소스 모델도 모델을 호스팅하는 방법과 위치를 맞춤화할 수 있는 유연성을 제공합니다. 모델 인프라를 직접 제어하면 Startup이 Auto Scaling 및 이중화와 같은 모범 사례를 통해 애플리케이션의 신뢰성을 보장하는 데 도움이 될 수 있습니다. 또한 호스팅 인프라를 관리하면 모델에서 생성되고 소비되는 모든 데이터가 Startup이 설정한 보안 요구 사항에 부합하는 전용 클라우드 환경에 포함되도록 할 수 있습니다.

앞서 언급한 소규모 목적별 모델에는 컴퓨팅 집약적인 하드웨어가 덜 필요하므로 Startup이 단위 경제와 가격 대비 성능을 최적화하는 데 도움이 됩니다. AWS가 실시한 최근 실험에서 오픈 소스 모델에 ARM 기반 AWS Graviton3 인스턴스를 사용할 경우 유사한 Amazon Elastic Compute Cloud(EC2) 인스턴스에 비해 추론 비용이 최대 50% 절감되는 것으로 나타났습니다.

또한 이러한 AWS Graviton3 프로세서는 유사한 Amazon EC2 인스턴스보다 동일한 성능을 기준으로 에너지를 최대 60% 더 적게 사용하므로 전력 소모가 많은 추론 하드웨어를 선택할 때 환경에 미치는 영향을 고려하는 Startup에 도움이 됩니다. 세계 경제 포럼의 한 연구 에서는 데이터 센터의 에너지 소비에 대해 자세히 설명하고 있습니다. 한때 외부 요인으로만 여겨졌던 환경적 영향이 많은 기업에게 중요한 문제로 떠올랐고, AWS는 Carbon Footprint Reporting과 같은 오퍼링을 통해 Startup이 환경에 미치는 영향을 수치화할 수 있도록 지원합니다. 이 오퍼링은 기업이 다양한 하드웨어 옵션의 에너지 효율성을 비교할 수 있도록 도와줍니다.

결론

Aaron Melgar

Aaron Melgar

Aaron은 AWS의 AI/ML Startups 및 벤처 캐피탈 에코시스템을 지원하며 초기 단계의 회사 성장에 중점을 두고 있습니다. 그는 전에 창립자, Series-A 제품 관리자, 기계 학습 책임자, 전략 컨설턴트였습니다. 그는 테니스, 골프, 여행을 좋아하고 경제, 심리학 또는 비즈니스에 관한 오디오북 추천을 교환하는 것을 좋아하는 1세대 미국인입니다.

이 콘텐츠는 어떠셨나요?