Amazon Web Services 한국 블로그

Amazon Bedrock 서비스 등급 소개 – AI 워크로드 성능과 비용을 최적화 제공

오늘 Amazon Bedrock은 애플리케이션에 필요한 성능 수준을 유지하면서 AI 워크로드 비용을 보다 세밀하게 관리할 수 있는 새로운 서비스 등급을 도입했습니다.

저는 AI 애플리케이션을 개발하는 고객들과 함께 일하고 있습니다. 워크로드에 따라 필요한 성능과 비용 간의 균형이 다르다는 것을 직접 체득하고 있습니다. AI 워크로드를 운영하는 많은 조직은 성능 요구 사항과 비용 최적화 간에 균형을 맞추는 데 어려움을 겪고 있습니다. 어떤 애플리케이션은 실시간 상호 작용을 위해 빠른 응답 시간이 필요하지만, 어떤 애플리케이션은 데이터를 보다 점진적으로 처리할 수 있습니다. 이러한 어려움을 고려하여 오늘, 워크로드 요구 사항과 비용 최적화를 보다 유연하게 맞출 수 있는 추가 요금 옵션을 발표합니다.

Amazon Bedrock은 이제 워크로드 유형에 따라 Priority, Standard, Flex의 세 가지 서비스 등급을 제공합니다. 각 등급은 특정 워크로드 요구 사항에 맞춰 설계되었습니다. 애플리케이션은 사용 사례에 따라 요구되는 응답 시간이 다릅니다. 예를 들어 금융 거래 시스템과 같은 애플리케이션은 가장 빠른 응답 시간이 요구되고, 콘텐츠 생성과 같은 비즈니스 프로세스를 지원하는 애플리케이션은 빠른 응답 시간이 요구되며, 콘텐츠 요약과 같은 애플리케이션은 데이터를 보다 점진적으로 처리할 수 있습니다.

  • Priority 등급은 다른 등급보다 우선적으로 요청을 처리하며, 고객 대응형 채팅 어시스턴트나 실시간 언어 번역 서비스와 같은 미션 크리티컬 애플리케이션에 대해 우선적으로 컴퓨팅 자원을 할당합니다. 다만, 프리미엄 요금이 적용됩니다.
  • Standard 등급은 일상 AI 작업에 대해 안정적인 성능을 정액에 제공하므로, 콘텐츠 생성, 텍스트 분석, 일상 문서 처리 등에 적합합니다.
  • Flex 등급은 상대적으로 긴 지연 시간을 감수할 수 있는 워크로드에 대해 저렴한 요금의 경제적인 옵션을 제공하므로, 모델 평가, 콘텐츠 요약, 다단계 분석 및 에이전트형 워크플로에 적합합니다.

이제 각 워크로드를 가장 적합한 등급과 매칭하여 지출을 최적화할 수 있습니다. 예를 들어, 빠른 응답이 필요한 고객 서비스용 채팅 어시스턴트를 운영하는 경우 Priority 등급을 사용하여 가장 빠른 처리 시간을 확보할 수 있습니다. 반대로 처리 시간이 비교적 길어도 되는 콘텐츠 요약 작업에는 Flex 등급을 사용해 비용을 절감하면서도 안정적인 성능을 유지할 수 있습니다. Priority 등급을 지원하는 대부분의 모델에서는 고객이 Standard 등급 대비 최대 25% 향상된 초당 출력 토큰(OTPS) 지연 시간을 경험할 수 있습니다.

각 서비스 등급별로 지원되는 최신 모델 목록은 Amazon Bedrock 문서를 참조하시기 바랍니다.

워크로드에 적합한 등급 선택

다음은 워크로드에 적합한 등급을 선택하는 데 도움이 되는 사고 모델입니다.

범주 추천 서비스 등급 설명
핵심 업무 Priority 다른 등급보다 우선적으로 요청 처리. 사용자 대상 애플리케이션에서 짧은 응답 지연 시간 제공(예: 고객 서비스용 채팅 어시스턴트, 실시간 언어 번역, 대화형 AI 어시스턴트)
표준 업무 Standard 중요한 워크로드에 대해 민첩한 성능 제공(예: 콘텐츠 생성, 텍스트 분석, 일상 문서 처리)
비핵심 업무 Flex 긴급하지 않은 워크로드에 대해 비용 효율적인 옵션 제공(예: 모델 평가, 콘텐츠 요약, 다단계 에이전트형 워크플로)

먼저 애플리케이션 소유자와 함께 현재 사용 패턴을 검토하세요. 다음으로, 즉각적인 응답이 필요한 워크로드와 데이터를 보다 점진적으로 처리할 수 있는 워크로드를 식별합니다. 이후에는 트래픽 일부를 각기 다른 등급으로 라우팅하여 성능과 비용상의 이점을 테스트할 수 있습니다.

AWS Pricing Calculator를 사용하면 각 서비스 등급별 예상 워크로드를 입력하여 비용을 추정할 수 있습니다. 이를 통해 사용 패턴에 기반한 예산을 계획할 수 있습니다.

사용량과 비용을 모니터링하려면 AWS Service Quotas 콘솔을 사용하거나 Amazon Bedrock에서 모델 호출 로깅을 활성화하고 Amazon CloudWatch를 통해 지표를 확인할 수 있습니다. 이러한 도구를 통해 토큰 사용량을 가시화하고 각 등급별 성능을 파악할 수 있습니다.

Amazon Bedrock 호출 관찰성

새로운 서비스 등급은 오늘부터 바로 사용을 시작할 수 있습니다. 등급은 API 호출 단위로 선택할 수 있습니다. 아래 예시는 ChatCompletions OpenAI API를 사용한 경우이지만, 지원 모델에 따라 InvokeModel, InvokeModelWithResponseStream, Converse, ConverseStream API에서도 동일하게 service_tier 파라미터를 본문에 전달할 수 있습니다.

from openai import OpenAI

client = OpenAI(
    base_url="https://bedrock-runtime.us-west-2.amazonaws.com/openai/v1",
    api_key="$AWS_BEARER_TOKEN_BEDROCK" # Replace with actual API key
)

completion = client.chat.completions.create(
    model= "openai.gpt-oss-20b-1:0",
    messages=[
        {
            "role": "developer",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": "Hello!"
        }
    ]
    service_tier= "priority"  # options: "priority | default | flex"
)

print(completion.choices[0].message)

자세한 내용은 Amazon Bedrock 사용 설명서를 참조하거나 AWS 계정 팀에 구체적인 계획 수립에 대한 도움을 문의하세요.

새로운 요금 옵션을 활용하여 AI 워크로드를 최적화한 사례를 듣고 싶습니다. 온라인 소셜 네트워크에서 경험을 공유하시거나 AWS 이벤트에서 저와 직접 소통해 주세요.

– seb