메인 콘텐츠로 건너뛰기

생성형 AI 모델이란 무엇인가요?

생성형 AI 모델에는 강점과 한계가 있습니다. 사용 사례의 복잡성, 성능, 개인 정보 보호 및 비용 요구 사항에 따라 일부 모델이 다른 모델보다 더 나은 선택일 수 있습니다. 이 가이드에서는 생성형 AI 모델을 선택할 때 고려해야 할 요소와 모범 사례를 살펴보겠습니다.

생성형 AI 모델은 사용자의 자연어 입력을 기반으로 독창적이고 의미 있는 텍스트, 이미지, 오디오 및 비디오 콘텐츠를 생성할 수 있습니다. 조직은 챗봇 지원부터 디자인 템플릿을 만들고 복잡한 생물학 문제를 해결하는 것까지 모든 것에 생성형 AI 모델을 활용하고 있습니다. 수천 개의 독점 및 오픈 소스 AI 모델이 존재하며, 신규 모델과 개선된 버전이 매일 출시되고 있습니다.

뛰어난 유연성과 다양성에도 불구하고 생성형 AI 모델은 모든 사용 사례에 적합한 솔루션은 아닙니다. AI 팀은 비용 및 성능 최적화를 가능하게 하는 최상의 모델을 신중하게 선택하고 평가해야 합니다. 모델을 평가하는 과정은 복잡합니다. Helm이나 Hugging Face 리더보드와 같은 인기 벤치마크는 특정 AI 모델이 일반적인 자연어 작업에서 어떻게 수행하는지에 대한 일반적인 관점만 제공합니다. AI 팀은 다양한 전략을 채택하여 사용자 지정 데이터 입력에 대한 모델 출력물을 평가한 다음, 요구 사항에 가장 적합한 전략을 선택해야 합니다.

다양한 사용 사례에 대해 생성형 AI 모델을 어떻게 평가할까요?

사용 사례에 적합한 AI 모델을 선택할 때 고려해야 할 요소는 다음과 같습니다.

전달 방식

전달 방식은 모델이 처리하는 데이터 유형(임베딩, 이미지(비전) 또는 텍스트 등)을 나타냅니다. 일부 모델은 단일 모드이며, 단일 데이터 유형을 효율적으로 처리할 수 있습니다. 다른 모델은 멀티모달 방식이며 여러 데이터 유형을 통합할 수 있지만, 다른 유형보다 한 가지 유형에 더 적합할 수 있습니다. 예를 들어 Claude, Llama 3.1 또는 Titan Text G1과 같은 모델은 텍스트 기반 작업에 적합하지만 Stable Diffusion XL과 Titan Image Generator v2는 비전 작업에 더 적합합니다. 마찬가지로 Titan Multimodal Embeddings G1 모델은 입력 이미지나 텍스트를 동일한 의미 공간에 있는 이미지와 텍스트의 의미론적 의미를 포함하는 임베딩으로 변환하는 데 선호되는 모델입니다.

모델 크기

모델 크기는 모델 내부의 매개변수 또는 구성 변수의 수입니다. 모델 크기는 수백만에서 1,000억 이상까지 다양하며, 대부분의 모델에는 100억에서 1,000억 사이의 매개변수가 있습니다. 모델 크기는 데이터로 학습할 수 있는 모델의 능력을 직접적으로 정의합니다. 매개변수가 더 많은 모델일수록 새로운 데이터를 심층적으로 이해할 수 있기 때문에 성능이 더 좋습니다. 하지만 사용자 지정 및 운영 비용이 더 많이 들기도 합니다.

추론 지연 시간

추론 지연 시간은 보통 AI 애플리케이션 사용자가 즉각적인 응답을 기대하는 실시간 시나리오에서 문제가 됩니다. 추론 지연 시간은 모델이 입력 길이를 기준으로 입력을 처리하고 출력을 반환하는 데 걸리는 총 시간입니다. 복잡한 아키텍처를 사용하는 생성형 AI 모델은 소형 모델보다 추론 속도가 느릴 수 있습니다. 하지만 추론 지연 시간은 예상 프롬프트와 모델 성능에 따라 달라집니다. 최종 사용자 입력 토큰 수(예: 문자, 구두점 등) 가 증가하면 지연 시간도 증가할 수 있습니다.

컨텍스트 창

생성형 AI 모델의 컨텍스트 창은 컨텍스트에 대해 한 번에 “기억”할 수 있는 토큰의 수입니다. 컨텍스트 창이 더 큰 모델은 이전에 진행한 대화 내용을 더 많이 유지하고 더 관련성 높은 응답을 제공합니다. 따라서 긴 문서 요약 또는 여러 차례의 대화 지원과 같은 복잡한 작업에는 큰 컨텍스트 창이 선호됩니다.

요금 고려 사항

모델 운영 비용은 독점 모델 사용 비용과 계산 및 메모리 비용을 포함합니다. 운영 비용은 워크로드에 따라 모델마다 달라질 수 있습니다. 비용과 혜택을 비교하면 투자 가치를 극대화할 수 있습니다. 예를 들어 Claude 2 또는 Command R+를 실행하면 독점 모델이기 때문에 사용량에 따라 요금이 발생하는 반면, Llama 2 7B를 이용하면 계산 비용이 감소합니다. 그러나 독점 모델이 작업의 정확도나 효율성이 크게 향상된다면 추가 비용이 정당화될 수 있습니다.

응답 품질

다음과 같은 지표를 사용하여 AI 모델의 응답 품질을 평가할 수 있습니다.

  • 정확도 - 모델이 제시하는 응답이 정답인 빈도
  • 관련성 - 주어진 입력에 대한 응답이 적절한 정도. 
  • 견고성 - 모델이 혼란을 주기 위해 의도적으로 만들어진 입력을 효과적으로 처리하는 정도.
  • 독성 - 모델 출력에 있는 부적절한 콘텐츠 또는 편향의 백분율.

지표는 보통 사전에 구성된 베이스라인을 기준으로 측정합니다. 동일한 입력 데이터셋에 대해 서로 다른 모델의 응답 품질을 평가하여 가장 높은 응답 품질을 제공하는 모델을 선택하는 것이 가장 좋습니다.

생성형 AI 모델 선택 프로세스는 무엇인가요?

생성형 AI 모델을 선택하려면 먼저 AI 애플리케이션의 특정 요구 사항을 결정해야 합니다. 비즈니스와 업계의 사용자 기대치, 데이터 처리 요구 사항, 배포 고려 사항 및 기타 세부 사항을 이해해야 합니다. 그런 다음 요구 사항에 가장 적합한 모델을 찾을 때까지 품질 테스트를 수행함으로써 다양한 AI 모델을 제거할 수 있습니다.

1단계 - 모델 선택 목록 작성

수천 개의 모델 중에서 요구 사항에 맞는 약 20개의 모델을 선정하여 프로세스를 시작하세요. 오픈 소스 모델과 독점 모델 중 하나를 선택하면 작업의 절반은 완료했습니다. 일단 모델이 결정되면 이전 섹션에서 설명한 전달 방식, 모델 크기, 컨텍스트 창 등과 같은 주요 기준을 기반으로 모델을 평가하여 최종 후보에 추가할 수 있습니다.

오픈소스 vs. 독점 생성형 AI 모델

오픈 소스 모델은 유연성을 제공하며, 팀이 독점 데이터를 기반으로 모델을 미세 조정하거나 완전히 재교육할 수 있도록 지원합니다. 이는 범용 모델이 틈새 사용 사례에서 제대로 작동하지 않는 특수 산업에서 특히 유용할 수 있습니다. 예를 들어 대형 보험 회사는 특정 요구 사항을 제대로 충족하지 못하는 금융 부문을 대상으로 하는 독점 모델을 사용하는 대신, 사용자 지정 데이터를 기반으로 오픈 소스 모델을 교육하는 것을 선호할 수 있습니다.

그러나 오픈 소스 모델에는 추가 고려 사항이 염두에 두어야 합니다. 보안 및 법적 위험을 초래할 수 있으므로 조직은 자체 규정 준수 조치를 시행하고 라이선스 조건을 철저히 검토해야 합니다. 반면 독점 모델은 일반적으로 내장 보안 기능, 교육 데이터 및 출력에 대한 보상, 규정 준수 보장을 제공하여 위험 완화를 우선시하는 기업의 운영 오버헤드를 줄입니다.

2단계 - 출력 검사 및 목록 범위 좁히기

이 단계의 목표는 사용 사례에 가장 적합한 상위 3가지 생성형 AI 모델을 식별하는 것입니다. 먼저 사용 사례와 일치하는 테스트 프롬프트의 하위 집합을 식별하세요. 그런 다음, 각 모델의 출력을 시각적으로 검사하여 특정 프롬프트를 확인하세요. 입력에 가장 잘 맞는 세부 정보가 포함된 결과를 찾아보세요. 가장 관련성이 높고 상세하며 정확한 출력을 생성하는 상위 3개를 선택하세요.

Amazon SageMaker Clarify는 이 단계에 가장 적합합니다. 정확성, 견고성, 유해성과 같은 지표를 사용하여 생성형 AI 사용 사례에 대해 FM을 자동으로 평가하여 책임 있는 AI 이니셔티브를 지원합니다.

3단계 - 사례 기반 벤치마킹 사용 사례

이제 특정 테스트 데이터세트에 대해 사전 정의된 프롬프트 및 출력을 기반으로 상위 선택된 AI 모델을 더 자세히 평가할 수 있습니다. 여기서 중요한 요소는 사용 사례의 모든 측면을 다양한 변형으로 포괄하는 포괄적인 테스트 데이터세트를 보유하는 것입니다. 또한 어떤 모형의 결과가 이상적인 결과에 가장 가까운지를 통계적으로 평가하려면 이에 상응하는 이상적인 결과가 있어야 합니다.

Amazon Bedrock모델 평가를 통해 사용 사례에 맞는 AI 모델을 평가, 비교 및 선택할 수 있는 평가 도구를 제공합니다.

세 가지 평가 방법을 사용할 수 있습니다.

프로그래밍 방식

기존의 자연어 알고리즘과 BERT Score, F1 등의 지표와 기타 정확한 매칭 기법을 사용하여 내장된 프롬프트 데이터세트를 사용하거나 직접 가져와 모델 출력을 평가합니다. Amazon Bedrock에서는 내장된 프롬프트 데이터세트를 사용하거나 직접 가져올 수 있습니다.

핵심 인적 자원

팀 구성원, 최종 사용자 샘플 세트 또는 전문 AI 평가자와 같은 인간 평가자를 고용하여 사전 결정된 모델 메트릭을 기반으로 세 모델 모두의 결과를 평가하십시오. 출력을 이상적인 출력과 수동으로 비교할 수도 있고, 사용 사례가 너무 광범위할 경우 최선의 판단에 따라 결과를 평가하고 표시할 수도 있습니다.
Amazon Bedrock을 사용하면 인력과 함께 모델 출력을 평가하거나, 관련성, 스타일, 브랜드 보이스 또는 내장 지표와의 정렬과 같은 지표가 포함된 사용자 지정 프롬프트 데이터세트에 대한 응답에 대한 평가를 AWS에서 관리하도록 할 수 있습니다.

평가자로서의 또 다른 AI 모델

이 접근 방식에서는 또 다른 AI 모델이 세 모델의 출력을 편향되지 않은 방식으로 평가합니다. 이는 출력이 잘 정의되어 있고 이상적인 출력과의 유사성을 통계적으로 측정할 수 있는 사용 사례에 가장 적합합니다. Amazon Bedrock을 사용하면 평가형 LLM 모드에서 다른 AI 모델을 사용하여 모델 출력을 평가할 수 있습니다. 정확성, 완전성, 유해성 등의 지표는 물론 답변 거부 및 유해성과 같은 책임감 있는 AI 지표와 함께 사용자 지정 프롬프트 데이터세트를 사용할 수 있습니다.

4단계 - 최종 선택

평가 데이터를 비용 및 성능 분석과 함께 사용하여 최종 모델을 선택합니다. Amazon Bedrock을 사용하면 평가 시 비교 기능을 사용하여 프롬프트와 평가 대상 모델에 적용한 변경 결과를 확인할 수 있습니다. 모든 분석을 한 곳에서 확인하고 성능, 비용 및 관련 위험 간에 최상의 균형을 제공하고 리소스를 효율적으로 사용하는 모델을 선택하세요.

사용 사례에 적합한 생성형 AI 모델을 선택하려면 기술 역량, 비즈니스 요구 사항, 운영 제약의 균형을 맞추는 구조화된 접근 방식이 필요합니다. 핵심은 사용 사례의 특정 요구 사항에 맞게 결정을 내리는 것입니다. 양식, 크기, 데이터 처리 기능, 배포 고려 사항 등의 요소를 기반으로 모델을 신중하게 평가합니다. 궁극적으로 올바른 모델은 효율성과 혁신을 향상시키고 조직의 향후 AI 기반 발전을 위한 확장 가능한 기반을 제공합니다.