Amazon Bedrock에서 교차 리전 추론 시작하기

이번 게시글은 AWS Machine Learning Blog에 게시된 Getting started with cross-region inference in Amazon Bedrock by Talha Chattha, Andrew Kane, Rupinder Grewal, and Sumit Kumar를 한국어 번역 및 편집하였으며, 현재 2025.02 기준으로 변경된 내용 (에: 가능 모델) 을 반영하여 작성되었습니다.

생성형 AI 솔루션의 등장으로 기업들이 파운데이션 모델을 도입하여 전례 없는 기회를 창출함에 따라, 산업 전반에서 패러다임의 변화가 일어나고 있습니다. Amazon Bedrock은 생성형 AI 애플리케이션을 혁신하고 런칭하고자 하는 많은 고객들이 선호하는 서비스로 자리 잡았으며, 이에 따라 모델 추론 기능에 대한 수요도 폭발적으로 증가했습니다. Bedrock 고객들은 전 세계적인 성장에 맞춰 애플리케이션을 확장하고, 예기치 않은 급격한 트래픽 증가에 대응하기 위한 추가적인 순간 처리 용량이 필요합니다. 현재 사용자들은 여러 리전의 서비스 할당량을 활용하기 위해 Amazon Bedrock이 지원되는 AWS 리전 간 클라이언트 측 로드 밸런싱과 같은 복잡한 기술을 구현해야 합니다. 하지만 이러한 수요의 변동성은 예측이 어렵고, 운영 부담이 늘어나며, 잠재적인 장애 지점이 생길 수 있어 비즈니스의 안정적인 서비스 가용성에 영향을 줄 수 있습니다.

우리는 Amazon Bedrock에 들어오는 요청을 자동으로 여러 리전에 걸쳐 추론 라우팅 할 수 있는 강력한 기능인 교차 리전 추론(Cross-Region Inference)의 정식 출시를 발표하게 되었습니다(Aug 2024). 이는 온디맨드 추론 모드를 사용하는 개발자들에게 더 높은 처리량과 성능을 제공하며, Amazon Bedrock 애플리케이션의 급격한 트래픽 증가도 효과적으로 관리할 수 있습니다. 이제 개발자들은 수요 변동을 예측하는 데 시간과 노력을 들일 필요가 없습니다. 교차 리전 추론이 여러 리전에 걸쳐 트래픽을 자동으로 분산시키며, 가능한 경우 연결된 Amazon Bedrock API 소스 리전을 우선적으로 활용하여 지연 시간을 최소화하고 응답 속도를 개선하는 데 도움을 줍니다. 결과적으로 고객은 애플리케이션의 안정성, 성능, 효율성을 한층 높일 수 있습니다.

이 기능에 대해 자세히 알아보겠습니다:

교차 리전 추론의 주요 기능 및 이점
교차 리전 추론 시작하기
교차 리전 추론 기능 정의 및 활용을 위한 샘플 코드
마이그레이션 시 검토 사항
주요 고려 사항
모범 사례
결론

이제 본격적으로 살펴봅시다!

주요 기능 및 이점

고객들의 중요한 요구사항 중 하나는 다양한 생성형 AI 워크로드와 서로 다른 요청 패턴에 따라 급격히 증가하는 트래픽 패턴을 관리하는 능력입니다. 교차 리전 추론의 주요 기능은 다음과 같습니다:

여러 AWS 리전의 용량을 활용하여 수요에 따라 생성형 AI 워크로드를 확장할 수 있습니다.
기존 Amazon Bedrock API와 호환됩니다.
라우팅이나 데이터 전송에 대한 추가 비용이 없으며, 소스 리전(요청을 보낸 리전)과 동일한 토큰당 가격을 지불합니다.
필요에 따라 사전 구성된 AWS 리전 세트 중에서 선택할 수 있습니다.

아래 이미지는 해당 기능이 어떻게 작동하는지 이해하는 데 도움이 됩니다. Amazon Bedrock은 교차 리전 추론을 통해 들어오는 모든 요청에 대해 실시간으로 결정을 내립니다. 요청이 Amazon Bedrock에 도착하면 처음 요청이 들어온 리전에서 처리할 수 있는 용량이 있는지 확인합니다. 충분한 용량이 있으면 요청이 처리되고, 그렇지 않으면 다른 리전들을 확인하여 여유 용량이 있는 리전을 결정한 후 해당 리전으로 재라우팅하여 고객 요청에 대한 결과를 가져옵니다. 이전에는 이러한 용량 확인 기능을 고객들이 사용할 수 없었기 때문에 오류가 발생하면 원하는 모든 리전에 대해 수동으로 확인하고 재라우팅해야 했습니다. 또한 일반적인 사용자 지정 재라우팅은 각 리전의 실제 가용 용량을 고려하지 못한 채 단순히 라운드 로빈 방식으로만 구현될 수밖에 없었습니다. 이 새로운 기능을 통해 Amazon Bedrock은 트래픽과 용량의 모든 측면을 실시간으로 고려하여 추가 비용 없이 완전 관리형으로 고객을 대신하여 결정을 내립니다.

주의 사항:

리전 간 데이터 전송 시 인터넷이나 VPC 피어링 대신 AWS 네트워크 백본을 사용하여 안전하고 안정적인 실행이 가능합니다.
교차 리전 추론을 통해 특정 모델 목록에 접근할 수 있으며, 이 모델들은 특정 AWS 리전에 종속되지 않고 여러 리전에서 사용할 수 있는 리전 독립적 모델입니다.
Amazon Bedrock model invocation API(InvokeModel 과 Converse API)에서 이 기능을 사용할 수 있습니다.
파운데이션 모델을 사용할 때, 개별 모델 ID를 직접 지정하거나, 교차 리전 추론 메커니즘을 통해 접근하는 방식 중 선택할 수 있습니다. 교차 리전 추론 기능을 통해 수행되는 모든 추론 작업은 사전 구성된 모든 리전의 온디맨드 용량을 활용하여 애플리케이션의 처리량과 성능을 최대화합니다.
재라우팅이 발생할 때 추가 지연 시간이 발생하며, 테스트에서는 두 자릿수 밀리초의 지연 시간이 추가되었습니다.
최종 사용자 라이선스 계약을 포함하여 특정 모델을 사용할 때 적용되는 모든 조건은 교차 리전 추론을 사용할 때도 동일하게 적용됩니다.
이 기능을 사용할 때, 처리량은 추론 프로파일이 설정된 리전에서 리전 내 기본 할당량의 최대 2배까지 도달할 수 있습니다. 처리량 증가는 추론 프로파일을 통해 수행되는 호출에만 적용되며, 특정 리전에서 모델을 직접 호출하는 경우 기존의 기본 할당량이 그대로 적용됩니다. 온디맨드 처리량에 대한 할당량을 확인하려면 Amazon Bedrock의 할당량 섹션에서 Runtime quotas를 참조하거나 Service Quotas 콘솔을 통해 확인 할 수 있습니다.

몇 가지 중요한 사항에 대해 자세히 살펴보겠습니다:

현재 US Model, EU Model, APAC Model을 선택할 수 있으며, 각 모델은 해당 지역에서 2~3개의 사전 설정된 리전을 포함하게 됩니다.
어떤 모델이 포함되나요? 현재 Claude 3 제품군(Haiku, Sonnet, Opus)과 Claude 3.5 Sonnet, Amazon Nova, Meta Llama가 제공됩니다.
PrivateLink를 사용할 수 있나요? 네, 이 기능을 통해 PrivateLink를 활용하여 트래픽이 VPC를 통해 흐르도록 보장할 수 있습니다.
이 기능에서 프로비저닝된 처리량도 사용할 수 있나요? 현재 이 기능은 프로비저닝된 처리량에는 적용되지 않으며 온디맨드 추론에만 사용할 수 있습니다.
교차 리전 추론에 대한 로그는 어디에 있나요? 로그와 호출 데이터는 요청이 시작된 리전과 계정에 있습니다. Amazon Bedrock은 실제로 어떤 리전이 요청을 처리했는지 보여주는 지표를 로그에 출력합니다.

다음은 트래픽 패턴의 예시입니다(지도는 실제 비율과 다릅니다).

eu-west-1(아일랜드)의 워크로드를 가진 고객은 eu-west-3(파리)와 eu-central-1(프랑크푸르트) 용량을 모두 활용할 수 있으며, us-east-1(버지니아 북부)의 워크로드는us-west-2(오레곤)의 용량을 활용할 수 있고, 그 반대도 가능합니다. 이렇게 하면 모든 추론 트래픽이 각각 EU 또는 US 내에 유지됩니다.

교차 리전 추론 보안 및 아키텍처

다음 다이어그램은 교차 리전 추론 요청의 하이 레벨 아키텍처를 보여줍니다.

운영 흐름은 온디맨드 기반 모델에 대한 추론 요청이 리전으로 들어오는 것으로 시작됩니다. 이후 사전 구성된 리전 세트에 대한 용량 평가가 이루어집니다.

만약 REGION ONE(예: 프랑크푸르트)에서 용량 제약(CAPACITY CONSTRAINT)이 발생하면, 요청은 AWS 백본 네트워크를 통해 REGION TWO로 전달됩니다. 이때 모든 트래픽은 AWS 네트워크 내에서만 유지됩니다. 요청은 Amazon Bedrock 서비스의 표준 API 진입점을 우회하고 REGION TWO의 런타임 추론 서비스에서 처리되며, 응답은 다시 AWS 백본을 통해 REGION ONE으로 반환된 후 최종적으로 호출자에게 전달됩니다. 선택된 리전에서 처리가 실패하면 이 예시에서는 eu-west-1(아일랜드), 그 다음 eu-west-3(파리)와 같이 사전 구성된 모든 리전이 시도될 때까지 리전 목록의 다른 리전을 차례로 시도됩니다. 리전 목록의 어떤 리전도 추론 요청을 처리할 수 없는 경우, API는 표준 “throttled” 응답을 반환합니다.

네트워킹 및 데이터 로깅

Region 간 데이터 전송 (Edge Location 및 Direct Connect 경로 포함)과 같은 AWS 간 트래픽 흐름은 항상 AWS가 소유하고 운영하는 백본 경로를 통과합니다. 이는 일반적인 취약점 공격이나 DDoS 공격과 같은 위협을 줄일 뿐만 아니라, 모든 내부 AWS 간 트래픽이 신뢰할 수 있는 네트워크 경로만 사용하도록 보장합니다.

이는 리전 간(inter-Region) 및 리전 내(intra-Region) 경로 암호화와 라우팅 정책 집행 메커니즘이 결합되어 있으며, 이 모든 것은 AWS 보안 설비를 활용합니다. 이러한 집행 메커니즘의 조합으로 인해 AWS간 트래픽이 인터넷과 같은 암호화되지 않거나 신뢰할 수 없는 경로를 절대 사용하지 않도록 보장하며, 결과적으로 모든 교차 리전 추론 요청은 항상 AWS 백본 네트워크상에서만 유지됩니다.

Amazon CloudWatch와 AWS CloudTrail의 로그 항목은 모두 요청이 시작된 원본 소스 리전에 계속 기록되며, 재라우팅된 리전에서는 추가 로그가 생성되지 않습니다. 재라우팅이 발생했음을 표시하기 위해, AWS CloudTrail의 관련 로그 항목에는 다음과 같은 추가 데이터가 포함됩니다. 이벤트에는 additionalEventData 요소가 포함되며, 요청이 처리된 리전을 지정하는 inferenceRegion 키가 들어 있습니다. 만약 요청이 재라우팅 없이 처리되었다면, 해당 이벤트에는 additionalEventData가 포함되지 않습니다.

{
    "eventVersion": "1.09",
    ...
    "eventSource": "bedrock.amazonaws.com",
    "eventName": "Converse",
    "awsRegion": "us-east-1",
    ...
    "additionalEventData": {
        "inferenceRegion": "us-west-2"
    },
    ...
}

동일한 정보는 Amazon Bedrock 모델 호출 로그에서도 확인할 수 있습니다. 이 로그는 먼저 Amazon CloudWatch 로그나 Amazon S3 버킷으로 로깅 대상을 설정해야 합니다:

{
    "schemaType": "ModelInvocationLog",
    "schemaVersion": "1.0",
    ...
    "region": "us-east-1",
    "operation": "Converse",
    ...
    "inferenceRegion": "us-west-2"
}

Amazon CloudWatch Logs를 사용하면 애플리케이션의 성능에 대한 메트릭을 생성할 수 있습니다. CloudTrail 이벤트나 Amazon Bedrock 모델 호출 로그에 포함된 inferenceRegion 키를 사용하여 소스 리전에서 처리된 Amazon Bedrock 요청과 재라우팅 된 요청을 구분하도록 대시보드와 모니터링 시스템을 개선할 수 있습니다. GitHub 리포지토리의 “Monitoring, Logging, and Metrics” 섹션에 제공된 샘플 코드를 사용하면 모델 호출 로그를 기반으로 적절한 메트릭을 생성할 수 있으며, 이 메트릭은 CloudWatch 대시보드에서 확인할 수 있습니다.

ID 및 액세스 관리(Identity and Access Management)

AWS Identity and Access Management(IAM)은 AWS 서비스와 리소스에 대한 ID와 접근을 안전하게 관리하는 핵심 서비스입니다. 교차 리전 추론을 사용하기 전에 여러분의 역할이 교차 리전 추론 API 작업에 대한 접근 권한이 있는지 확인해야 합니다. 자세한 내용은 여기를 참조하세요. 다음은 호출자가 us-east-1과 us-west-2리전에서 InvokeModel* API를 사용하여 교차 리전 추론을 사용할 수 있도록 허용하는 정책 예시입니다:

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": ["bedrock:InvokeModel*"],
      "Resource: [
          "arn:aws:bedrock:us-east-1:<account_id>:inference-profile/*",
          "arn:aws:bedrock:us-east-1::foundation-model/*",
          "arn:aws:bedrock:us-west-2::foundation-model/*"
      ]
    }
  ]
}

교차 리전 추론 시작하기

교차 리전 추론을 시작하려면 Amazon Bedrock의 추론 프로파일을 사용해야 합니다. 모델의 추론 프로파일은 특정 모델에 대해 각 AWS 리전의 모델 ARN을 구성하고, 이를 단일 통합 식별자(ID와 ARN 모두)로 추상화합니다. 새로운 추론 프로파일 식별자를 InvokeModel 또는 Converse API와 함께 사용하기만 하면 교차 리전 추론 기능을 활용할 수 있습니다.

사용 중인 리전과 교차 리전 추론을 통해 접근 가능할 수 있는 모델은 아래 방법으로 바로 사용할 수 있습니다. 하지만 교차 리전 추론을 통해서만 사용할 수 있는 모델에 대해서는 별도로 접근 권한을 요청해야 합니다. 예를 들어, US West(Oregon) 리전에서 Anthropic의 Claude 3 Haiku 추론 프로파일에 대한 호출 접근 권한을 얻으려면 us-west-2 리전에서 Amazon Bedrock 콘솔의 model access 페이지로 이동하여 접근 권한을 부여해야 합니다. 교차 리전 추론에 대한 사전 요구 사항을 참조하세요.

다음은 추론 프로파일을 사용하여 교차 리전 추론을 시작하는 단계입니다:

1. 추론 프로파일 목록 조회

Amazon Bedrock AWS 콘솔에 로그인하거나 API를 통해 리전에서 사용 가능한 추론 프로파일을 확인할 수 있습니다.

Console

1. 왼쪽 창에서 “Cross-region inference”을 선택합니다
2. 리전에서 사용 가능한 다양한 추론 프로파일을 살펴볼 수 있습니다
3. 추론 프로파일 ID를 복사하여 아래 설명된 섹션과 같이 애플리케이션에서 사용하시면 됩니다

API

1. boto3 SDK 또는 AWS CLI를 통해 리전에서 사용 가능한 추론 프로파일을 확인할 수도 있습니다.
aws bedrock list-inference-profiles

다양한 지리적 위치로 구성된 여러 AWS 리전에 대해 서로 다른 추론 프로파일이 어떻게 설정되었는지를 확인하실 수 있습니다. 예를 들어 us. 접두사가 붙은 모델들은 미국의 AWS 리전에서, eu. 접두사가 붙은 모델들은 유럽연합(EU)의 AWS 리전에서 동작하도록 구성되어 있습니다.

2. 애플리케이션 수정하기

콘솔이나 API 응답에서 얻은 추론 프로파일 ID/ARN값을 가져와 InvokeModel 또는 Converse API 요청의 modelId로 지정하여 애플리케이션을 업데이트합니다.
이 새로운 추론 프로파일은 자동으로 추론 throttling을 관리하고 여러 AWS 리전(구성에 따라)에 걸쳐 요청을 재라우팅합니다.

3. 모니터링 및 조정하기

Amazon CloudWatch를 사용하여 리전 간 추론 트래픽과 지연 시간을 모니터링합니다.
관찰된 트래픽 패턴과 성능 요구사항에 따라 추론 프로파일을 사용할지 Foundation Models의 직접 호출할지 선택하여 조정합니다.

추론 프로파일을 활용하는 코드 예제

추론 프로파일 사용은 InvokeModel 또는 Converse API 사용하는 Amazon Bedrock의 파운데이션 모델과 유사하며, modelId의 유일한 차이점은 us. 또는 eu.와 같은 접두사가 추가된다는 것입니다.

Foundation Model

modelId = 'anthropic.claude-3-5-sonnet-20240620-v1:0'
bedrock_runtime.converse(
  modelId=modelId,
  system=[{
    "text": "You are an AI assistant."
  }],
  messages=[{
    "role": "user",
    "content": [{"text": "Tell me about Amazon Bedrock."}]
  }]
)

Inference Profile

modelId = 'eu.anthropic.claude-3-5-sonnet-20240620-v1:0'
bedrock_runtime.converse(
  modelId=modelId,
  system=[{
    "text": "You are an AI assistant."
  }],
  messages=[{
    "role": "user",
    "content": [{"text": "Tell me about Amazon Bedrock."}]
  }]
)

Deep Dive

추론 프로파일 사용은 간단하지만, 먼저 리전에서 어떤 추론 프로파일을 사용할 수 있는지 알아야 합니다. AWS CLI나 SDK를 통해 추론 프로파일 목록을 확인하고 이 기능을 사용할 수 있는 모델을 살펴보세요.

import boto3

bedrock_client = boto3.client("bedrock", region_name="us-east-1")
bedrock_client.list_inference_profiles()

다음과 같은 결과를 예상할 수 있습니다:

{
  "inferenceProfileSummaries": [
    {
     "inferenceProfileName": "us. Anthropic Claude 3.5 Sonnet",
        "models": [
           {
             "modelArn": "arn:aws:bedrock:us-east-1::foundation-model/anthropic.claude-3-5-sonnet-20240620-v1:0"
           },
           {
             "modelArn": "arn:aws:bedrock:us-west-2::foundation-model/anthropic.claude-3-5-sonnet-20240620-v1:0"
           }
        ],
        "description": "Routes requests to Anthropic Claude 3.5 Sonnet in us-east-1 and us-west-2",
        "createdAt": "2024-XX-XXT00:00:00Z",
        "updatedAt": "2024-XX-XXT00:00:00Z",
        "inferenceProfileArn": "arn:aws:bedrock:us-east-1:<account_id>:inference-profile/us.anthropic.claude-3-5-sonnet-20240620-v1:0",
        "inferenceProfileId": "us.anthropic.claude-3-5-sonnet-20240620-v1:0",
        "status": "ACTIVE",
        "type": "SYSTEM_DEFINED"
    },
    ...
  ]
}

Amazon Bedrock을 통해 사용할 수 있는 파운데이션 모델과 추론 프로파일의 ARN 차이점을 다음과 같이 확인할 수 있습니다:

Foundation Model:

arn:aws:bedrock:us-east-1::foundation-model/anthropic.claude-3-5-sonnet-20240620-v1:0

Inference Profile:

arn:aws:bedrock:us-east-1:<account_id>:inference-profile/us.anthropic.claude-3-5-sonnet-20240620-v1:0

설정된 추론 프로파일을 선택하고 평소와 같이 모델의 엔드포인트로 추론 요청을 보내면 됩니다. Amazon Bedrock은 필요한 경우 설정된 여러 리전에 걸쳐 요청을 자동으로 라우팅하고 확장합니다. Converse API에서는 ARN과 ID를 모두 사용할 수 있지만, InvokeModel API에서는 추론 프로파일 ID만 사용할 수 있습니다. 또한 Converse API에서 지원하는 모델을 확인하는 것이 중요합니다.

import boto3

source_region ="<source-region-name>" #us-east-1, eu-central-1
bedrock_runtime = boto3.client("bedrock-runtime", region_name= source_region)
inferenceProfileId = '<regional-prefix>.anthropic.claude-3-5-sonnet-20240620-v1:0' 

# Example with Converse API
system_prompt = "You are an expert on AWS AI services."
input_message = "Tell me about AI service for Foundation Models"
response = bedrock_runtime.converse(
    modelId = inferenceProfileId,
    system = [{"text": system_prompt}],
    messages=[{
        "role": "user",
        "content": [{"text": input_message}]
    }]
)

print(response['output']['message']['content'])

위 코드 샘플에서 <your-source-region-name>에는 us-east-1, us-west-2와 같은 US 리전이나 u-central-1, eu-west-1, eu-west-3와 같은 EU 리전 또는 ap-northeast-1, p-northeast-2, ap-south-1,ap-southeast-1 ap-southeast-2와 같은 APAC리전을 지정해야 합니다. <regional-prefix>는 이에 따라 us 나 eu, apac이 됩니다.

위 단계를 수행하면 Amazon Bedrock FM에 추론 프로파일을 적용하여 애플리케이션을 빠르고 쉽게 적용할 수 있습니다. 클라이언트 측에서 코드를 크게 변경할 필요가 없으며, 교차 리전 추론은 Amazon Bedrock이 투명하게 처리합니다. 위에서 설명한 대로 AWS CloudTrail 로그를 모니터링하여 요청이 자동으로 다른 리전으로 재라우팅되는지 확인하세요.

교차 리전 추론 기능을 도입할 때 어떤 것들을 검토해야 할까요?
이 새로운 기능을 도입할 때는 애플리케이션 요구사항, 트래픽 패턴, 기존 인프라를 신중하게 평가하는 것이 중요합니다. 다음은 교차 리전 추론을 계획하고 도입하는 데 도움이 되는 단계별 접근 방법입니다.

1. 현재 워크로드와 트래픽 패턴을 평가합니다. 기존 생성형 AI 워크로드를 분석하고 최대 부하, 지리적 분포와 계절별 또는 주기적인 변동을 포함하여 높은 처리량이 필요한 워크로드를 식별합니다.

2. 교차 리전 추론의 잠재적 이점을 평가합니다. 교차 리전 추론을 활용하여 처리량이 크게 향상되고 글로벌 사용자에게 더 나은 성능을 제공할 수 있는 잠재적 장점들을 고려하세요. 자체적인 커스텀 로직을 구현하지 않아도 되고 데이터 전송 비용을 지불할 필요가 없어 비용을 절감(모델별 토큰 가격 차이 포함) 할 수 있으며, 여러 지역의 배포를 완전 관리형 분산 솔루션으로 전환하여 얻을 수 있는 효율성을 예측해 보세요.

3. 마이그레이션을 계획 및 실행합니다. 위에서 제공된 샘플 코드를 참고하여 개별 파운데이션 모델 ID 대신 추론 프로파일 ID/ARN을 사용하도록 애플리케이션 코드를 업데이트합니다. 비 프로덕션 환경에서 다양한 트래픽 패턴과 장애 시나리오를 시뮬레이션하여 애플리케이션을 꼼꼼하게 테스트하세요. 마이그레이션 과정에서 애플리케이션의 성능, 지연 시간, 비용을 모니터링하고 필요에 따라 조정하세요.

4. 교차 리전 추론을 고려하여 새로운 애플리케이션을 개발합니다. 새로운 애플리케이션을 개발하는 경우, 처음부터 추론 프로파일을 활용하여 교차 리전 추론을 기반으로 설계하는 것을 고려하세요.

주요 고려 사항

현재 생성형 AI 워크로드에 미치는 영향

추론 프로파일은 InvokeModel과 Converse와 같은 기존 Amazon Bedrock API와 호환되도록 설계되었습니다. 또한 LangChain과 같은 API를 사용하는 모든 서드파티/오픈소스 도구도 추론 프로파일과 함께 사용할 수 있습니다. 즉, 코드를 크게 변경할 필요 없이 추론 프로파일을 기존 워크로드에 원활하게 통합할 수 있습니다. 개별 모델 ID 대신 추론 프로파일 ARN 으로 변경하기만 하면 Amazon Bedrock이 리전 간 라우팅을 처리해 줍니다.

비용에 미치는 영향

이 기능은 추가 비용 없이 제공됩니다. 소스 리전에서 사용하는 개별 모델의 토큰당 동일한 비용을 지불하면 됩니다. 이 기능에서 제공하는 장애 조치 기능을 포함하여 교차 리전 추론과 관련된 추가 비용은 없습니다. 해당 비용에는 관리, 데이터 전송, 암호화, 네트워크 사용 및 모델별로 백만 토큰당 발생할 수 있는 리전 간 가격 차이도 모두 포함됩니다.

규정, 컴플라이언스 및 데이터 보존

교차 리전 추론을 사용할 때 고객 데이터가 어떤 리전에도 저장되지 않지만, 추론 데이터가 추론 프로파일에 정의된 대로 미리 구성된 여러 리전에서 처리되고 전송될 수 있다는 점을 고려하는 것이 중요합니다. 엄격한 데이터 보존 또는 규정 준수 요구 사항이 있는 경우, 교차 리전 추론이 정책 및 규정과 부합하는지 신중하게 평가해야 합니다.

결론

이 블로그에서는 Amazon Bedrock의 최신 기능인 추론 프로파일을 통한 지역 간 추론과 그 작동 방식을 소개하고 몇 가지 방법과 고려 사항에 대해 자세히 살펴보았습니다. 이 기능의 샘플 코드는 이 GitHub 리포지토리에서 확인할 수 있습니다. 이 기능을 통해 개발자는 복잡한 라우팅 구조를 구축하는 데 시간과 노력을 들이지 않고도 애플리케이션의 처리량과 성능을 향상할 수 있습니다. 이 기능은 현재 US, EU, APAC에서 지원되는 모델에 대해 제공하고 있습니다.

AWS 기술 블로그