Amazon Web Services 한국 블로그

Amazon Bedrock, Claude 3.5 Sonnet 업그레이드 정식 버전 및 컴퓨터 도구 베타 출시

4개월 전, AWS는 Amazon Bedrock에서 Anthropic의 Claude 3.5를 출시하여 Claude 3 Sonnet의 속도와 비용을 유지하면서 AI 모델 인텔리전스에 대한 업계 기준을 높였습니다.

오늘 Amazon Bedrock의 Claude 3.5 모델 제품군을 위한 세 가지 새로운 기능을 발표합니다.

Claude 3.5 Sonnet 업그레이드 버전 – 이제 이전 모델의 강점을 기반으로 동일한 비용으로 더 많은 인텔리전스를 제공하는 업그레이드된 Claude 3.5 Sonnet 모델을 이용할 수 있습니다. Claude 3.5 Sonnet은 실제 소프트웨어 엔지니어링 작업을 해결하고 복잡한 에이전트 워크플로를 수행하는 능력을 지속적으로 개선하고 있습니다. 업그레이드된 Claude 3.5 Sonnet은 초기 설계부터 버그 수정, 유지 관리, 최적화에 이르기까지 전체 소프트웨어 개발 수명 주기에 걸쳐 도움이 됩니다. 이러한 기능 덕분에 업그레이드된 Claude 3.5 Sonnet 모델은 따뜻하고 인간적인 어조의 고급 챗봇을 빌드하는 데 도움이 될 수 있습니다. 업그레이드된 모델이 뛰어난 성능을 발휘하는 다른 사용 사례로는 지식 Q&A 플랫폼, 차트 및 다이어그램과 같은 시각적 요소에서 데이터 추출, 반복적인 태스크 및 운영의 자동화가 있습니다.

Claude 3.5 Sonnet 컴퓨터 도구 – Claude 3.5 Sonnet은 이제 공개 베타 버전에서 Amazon Bedrock의 컴퓨터 사용 기능을 제공하여 Claude가 컴퓨터 인터페이스를 인식하고 상호 작용할 수 있습니다. 개발자는 화면을 보고, 커서를 움직이고, 버튼을 클릭하고, 텍스트를 입력하는 등 사람처럼 컴퓨터를 사용하도록 Claude에게 지시할 수 있습니다. 이는 모델에 키 입력 및 마우스 클릭, 텍스트 파일 편집, 쉘 명령 실행과 같은 컴퓨터 작업을 반환할 수 있는 통합 도구에 대한 액세스 권한을 부여함으로써 작동합니다. 소프트웨어 개발자는 작업 실행 계층을 구축하고 Claude 3.5 Sonnet에 화면 액세스 권한을 부여하여 솔루션에 컴퓨터 사용을 통합할 수 있습니다. 이러한 방식으로 소프트웨어 개발자는 컴퓨터 작업을 수행하고, 여러 단계를 따르고, 결과를 확인할 수 있는 기능을 갖춘 애플리케이션을 구축할 수 있습니다. 컴퓨터 사용은 AI 기반 애플리케이션에 새로운 가능성을 열어줍니다. 예를 들어 소프트웨어 테스트 및 백오피스 태스크를 자동화하고 애플리케이션과 상호 작용할 수 있는 고급 소프트웨어 어시스턴트를 구현하는 데 도움이 될 수 있습니다. 이 기술은 초기 단계이므로 개발자는 위험도가 낮은 태스크를 탐색하고 샌드박스 환경에서 사용하는 것이 좋습니다.

Claude 3.5 Haiku 출시 예정 – 새로운 Claude 3.5 Haiku가 곧 출시될 예정입니다. 이 모델은 빠른 응답 시간과 향상된 추론 기능을 결합하여 속도와 인텔리전스가 모두 필요한 태스크에 이상적입니다. Claude 3.5 Haiku는 이전 모델에서 개선되었으며 Claude 3 Haiku의 속도 및 비용으로 Claude 3 Opus(이전의 Claude 최대 모델)의 성능과 견줄 만합니다. Claude 3.5 Haiku는 빠르고 정확한 코드 제안, 고객 서비스에 대한 빠른 응답 시간이 필요한 대화형 챗봇, 전자 상거래 솔루션, 교육 플랫폼과 같은 사용 사례에 도움을 줄 수 있습니다. 금융, 의료, 연구 등에서 대량의 비정형 데이터를 다루는 고객의 경우 Claude 3.5 Haiku가 정보를 효율적으로 처리하고 분류하는 데 도움을 줄 수 있습니다.

Anthropic에 따르면 업그레이드된 Claude 3.5 Sonnet은 이전 모델에 비해 전반적으로 개선되었으며 이미 뛰어난 영역인 코딩 측면에서 상당한 기능 개선을 제공합니다. 업그레이드된 Claude 3.5 Sonnet은 업계 벤치마크에서 광범위한 개선을 보여줍니다. 코딩의 경우 SWE-bench Verified에서 성능이 33%에서 49%로 개선되어 공개적으로 사용 가능한 모든 모델보다 높은 점수를 기록했습니다. 또한 에이전트 도구 사용 태스크인 TAU-bench에서도 성능이 개선되어 소매 도메인에서는 62.6%에서 69.2%로, 항공 도메인에서는 36.0%에서 46.0%로 증가했습니다. 다음 표에는 Anthropic에서 제공한 모델 평가 결과가 포함되어 있습니다.

업그레이드된 Claude 3.5 Sonnet 평가

AI 상호 작용의 새로운 영역인 컴퓨터 사용
Claude는 API를 사용하도록 모델을 제한하는 대신 일반 컴퓨터 기술에 대한 훈련을 받았기 때문에 광범위한 표준 도구와 소프트웨어 프로그램을 사용할 수 있게 되었습니다. 이러한 방식으로 애플리케이션은 Claude를 사용하여 컴퓨터 인터페이스를 인식하고 상호 작용할 수 있습니다. 소프트웨어 개발자는 이 API를 통합하여 Claude가 프롬프트(예: “로마에서 호텔을 찾아줘”)를 특정 컴퓨터 명령(브라우저 열기, 이 웹 사이트 탐색 등)으로 변환하도록 할 수 있습니다.

좀 더 구체적으로 말하자면, 이제 소프트웨어 개발자는 모델을 간접적으로 호출할 때 컴퓨터를 조작할 수 있는 일련의 가상 핸드를 제공하는 세 가지 새로운 통합 도구에 액세스할 수 있습니다.

  • 컴퓨터 도구 – 이 도구는 스크린샷과 목표를 입력으로 받고 해당 목표를 달성하기 위해 수행해야 하는 마우스 및 키보드 작업에 대한 설명을 반환합니다. 예를 들어, 이 도구는 커서를 특정 위치로 이동하고, 클릭하고, 입력하고, 스크린샷을 생성하도록 요청할 수 있습니다.
  • 텍스트 편집기 도구 – 이 도구를 사용하여 모델은 파일 내용 보기, 새 파일 생성, 텍스트 바꾸기, 편집 취소와 같은 작업을 수행하도록 요청할 수 있습니다.
  • Bash 도구 – 이 도구는 컴퓨터 시스템에서 실행되어 하위 수준에서 터미널에 입력하는 사용자로서 상호 작용할 수 있는 명령을 반환합니다.

이러한 도구는 데이터 분석 및 소프트웨어 테스트부터 콘텐츠 제작, 시스템 관리에 이르기까지 복잡한 태스크를 자동화할 수 있는 다양한 가능성을 열어줍니다. Claude 3.5 Sonnet으로 구동되는 애플리케이션이 사람과 마찬가지로 컴퓨터와 상호 작용하면서 터미널, 텍스트 편집기, 인터넷 브라우저를 비롯한 여러 데스크톱 도구를 탐색하고 양식을 작성하고 코드를 디버깅할 수 있다고 상상해 보세요.

소프트웨어 개발자가 Amazon Bedrock을 통해 이러한 새로운 기능을 탐색할 수 있도록 지원하게 되어 기쁩니다. 이 기능은 앞으로 몇 달 안에 빠르게 개선될 것으로 기대하지만, 현재 Claude의 컴퓨터 사용 능력에는 한계가 있습니다. 스크롤, 드래그, 확대/축소와 같은 일부 작업은 Claude에게 어려움을 줄 수 있으므로 위험도가 낮은 작업을 탐색해 보는 것이 좋습니다.

실제 컴퓨터 환경의 멀티모달 에이전트에 대한 벤치마크인 OSWorld를 살펴보면 업그레이드된 Claude 3.5 Sonnet은 현재 14.9%를 기록하고 있습니다. 인간 수준 기술이 약 70~75%로 훨씬 앞서고 있지만, 이 결과는 동일 범주에서 차상위 모델이 기록한 7.7% 보다 훨씬 낫습니다.

Amazon Bedrock 콘솔에서 업그레이드된 Claude 3.5 Sonnet 사용
업그레이드된 Claude 3.5 Sonnet을 시작하려면 Amazon Bedrock 콘솔로 이동하여 탐색 창에서 Model access를 선택합니다. 여기에서 새로운 Claude 3.5 Sonnet V2 모델에 대한 액세스를 요청합니다.

새로운 비전 기능을 테스트하기 위해 다른 브라우저 탭을 열고 Our World in Data 웹사이트에서 PNG 형식으로 Wind power generation 차트를 다운로드합니다.

Our Word in Data – Wind power generation 차트

Amazon Bedrock 콘솔로 돌아가서 탐색 창의 Playgrounds에서 Chat/text를 선택합니다. 모델에서 Anthropic을 모델 공급자로 선택한 다음 Claude 3.5 Sonnet V2를 선택합니다.

채팅의 입력 섹션에 있는 세 개의 세로 점을 사용하여 컴퓨터에서 이미지 파일을 업로드합니다. 그런 다음 아래 프롬프트를 입력합니다.

Which are the top countries for wind power generation? Answer only in JSON.

결과는 저의 지시를 따라 이미지에서 정보를 추출한 목록을 반환합니다.

콘솔 스크린샷.

업그레이드된 Claude 3.5 Sonnet을 AWS CLI 및 SDK와 함께 사용
다음은 Amazon Bedrock Converse API를 사용하는 샘플 AWS Command Line Interface(AWS CLI) 명령입니다. CLI의 --query 파라미터를 사용하여 결과를 필터링하고 출력 메시지의 텍스트 내용만 표시합니다.

aws bedrock-runtime converse \
    --model-id anthropic.claude-3-5-sonnet-20241022-v2:0 \
    --messages '[{ "role": "user", "content": [ { "text": "What do you throw out when you want to use it, but take in when you do not want to use it?" } ] }]' \
    --query 'output.message.content[*].text' \
    --output text

출력에서 다음 텍스트가 응답에 표시됩니다.

An anchor! You throw an anchor out when you want to use it to stop a boat, but you take it in (pull it up) when you don't want to use it and want to move the boat.

AWS SDK는 유사한 인터페이스를 구현합니다. 예를 들어, AWS SDK for Python(Boto3)을 사용하여 콘솔 예제와 동일한 이미지를 분석할 수 있습니다.

import boto3

MODEL_ID = "anthropic.claude-3-5-sonnet-20241022-v2:0"
IMAGE_NAME = "wind-generation.png"

bedrock_runtime = boto3.client("bedrock-runtime")

with open(IMAGE_NAME, "rb") as f:
    image = f.read()

user_message = "Which are the top countries for wind power generation? Answer only in JSON."

messages = [
    {
        "role": "user",
        "content": [
            {"image": {"format": "png", "source": {"bytes": image}}},
            {"text": user_message},
        ],
    }
]

response = bedrock_runtime.converse(
    modelId=MODEL_ID,
    messages=messages,
)
response_text = response["output"]["message"]["content"][0]["text"]
print(response_text)

컴퓨터 사용을 애플리케이션과 통합
컴퓨터 사용이 실제로 어떻게 작동하는지 알아보겠습니다. 먼저 Ubuntu 시스템의 데스크톱 스냅샷을 찍습니다.

Ubuntu 데스크톱 스크린샷

이 스크린샷은 컴퓨터 사용을 통해 구현될 단계의 시작점입니다. 어떻게 작동하는지 보기 위해 Python 스크립트를 실행하여 모델에 입력을 전달하고 스크린샷 이미지와 다음 프롬프트를 표시합니다.

Find me a hotel in Rome.

이 스크립트는 컴퓨터 사용에 필요한 새 구문을 사용하여 Amazon Bedrock에서 업그레이드된 Claude 3.5 Sonnet을 간접적으로 호출합니다.

import base64
import json
import boto3

MODEL_ID = "anthropic.claude-3-5-sonnet-20241022-v2:0"

IMAGE_NAME = "ubuntu-screenshot.png"

bedrock_runtime = boto3.client(
    "bedrock-runtime",
    region_name="us-east-1",
)

with open(IMAGE_NAME, "rb") as f:
    image = f.read()

image_base64 = base64.b64encode(image).decode("utf-8")

prompt = "Find me a hotel in Rome."

body = {
    "anthropic_version": "bedrock-2023-05-31",
    "max_tokens": 512,
    "temperature": 0.5,
    "messages": [
        {
            "role": "user",
            "content": [
                {"type": "text", "text": prompt},
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": "image/jpeg",
                        "data": image_base64,
                    },
                },
            ],
        }
    ],
    "tools": [
        { # new
            "type": "computer_20241022", # literal / constant
            "name": "computer", # literal / constant
            "display_height_px": 1280, # min=1, no max
            "display_width_px": 800, # min=1, no max
            "display_number": 0 # min=0, max=N, default=None
        },
        { # new
            "type": "bash_20241022", # literal / constant
            "name": "bash", # literal / constant
        },
        { # new
            "type": "text_editor_20241022", # literal / constant
            "name": "str_replace_editor", # literal / constant
        }
    ],
    "anthropic_beta": ["computer-use-2024-10-22"],
}

# Convert the native request to JSON.
request = json.dumps(body)

try:
    # Invoke the model with the request.
    response = bedrock_runtime.invoke_model(modelId=MODEL_ID, body=request)

except Exception as e:
    print(f"ERROR: {e}")
    exit(1)

# Decode the response body.
model_response = json.loads(response["body"].read())
print(model_response)

요청 본문에 새 옵션이 포함됩니다.

  • anthropic_beta 및 값 ["computer-use-2024-10-22"]는 컴퓨터 사용을 활성화합니다.
  • tools 섹션은 새 type 옵션(구성한 도구에 대해 custom으로 설정됨)을 지원합니다.
  • 참고로 컴퓨터 도구는 화면의 해상도(display_height_pxdisplay_width_px)를 알아야 합니다.

이 모델은 컴퓨터 사용 지시를 따르기 위해 입력 스크린샷에 설명된 대로 데스크톱에서 조작하는 작업을 제공합니다.

모델의 응답에는 첫 번째 단계를 제공하는 computer 도구의 tool_use 섹션이 포함됩니다. 모델은 스크린 샷에서 Firefox 브라우저 아이콘과 마우스 화살표의 위치를 찾았습니다. 따라서 이제 브라우저를 시작하기 위해 마우스를 특정 좌표로 이동하도록 요청합니다.

{
    "id": "msg_bdrk_01WjPCKnd2LCvVeiV6wJ4mm3",
    "type": "message",
    "role": "assistant",
    "model": "claude-3-5-sonnet-20241022",
    "content": [
        {
            "type": "text",
            "text": "I'll help you search for a hotel in Rome. I see Firefox browser on the desktop, so I'll use that to access a travel website.",
        },
        {
            "type": "tool_use",
            "id": "toolu_bdrk_01CgfQ2bmQsPFMaqxXtYuyiJ",
            "name": "computer",
            "input": {"action": "mouse_move", "coordinate": [35, 65]},
        },
    ],
    "stop_reason": "tool_use",
    "stop_sequence": None,
    "usage": {"input_tokens": 3443, "output_tokens": 106},
}

이것은 단지 첫 단계일 뿐입니다. 일반적인 도구 사용 요청과 마찬가지로 스크립트는 도구 사용 결과(이 경우 마우스 이동)로 응답해야 합니다. 호텔을 예약하라는 초기 요청을 기반으로 호텔 예약이 완료될 때까지 아이콘 클릭, 브라우저에 URL 입력 등을 요청하는 도구 사용 상호 작용이 반복됩니다.

Anthropic이 공유하는 이 리포지토리에서 더 완전한 예제를 볼 수 있습니다.

알아야 할 사항
업그레이드된 Claude 3.5 Sonnet은 현재 미국 서부(오리건) AWS 리전Amazon Bedrock에서 사용할 수 있으며 원래 Claude 3.5 Sonnet과 동일한 요금으로 제공됩니다. 리전별 가용성에 대한 최신 정보는 Amazon Bedrock 설명서를 참조하세요. 각 Claude 모델에 대한 자세한 요금 정보는 Amazon Bedrock 요금 페이지를 참조하세요.

업그레이드된 모델의 향상된 인텔리전스 외에도 소프트웨어 개발자는 이제 컴퓨터 사용(공개 베타 버전에서 제공)을 애플리케이션에 통합하여 복잡한 데스크톱 워크플로를 자동화하고, 소프트웨어 테스트 프로세스를 개선하고, 보다 정교한 AI 기반 애플리케이션을 구축할 수 있습니다.

Claude 3.5 Haiku는 몇 주 안에 출시될 예정입니다. 처음에는 텍스트 전용 모델로 출시되고, 나중에는 이미지 입력이 포함됩니다.

이 동영상에서 Anthropic Head of Developer Relations인 Alex Albert와 함께 컴퓨터 사용이 코딩에 어떻게 도움이 되는지 확인해 보세요.

다른 동영상에서는 작업 자동화를 위한 컴퓨터 사용에 대해 설명합니다.

이러한 새로운 기능에 대해 자세히 알아보려면 Amazon Bedrock 설명서의 Claude 모델 섹션을 참조하세요. 지금 바로 Amazon Bedrock 콘솔에서 업그레이드된 Claude 3.5 Sonnet을 사용해 보시고, AWS re:Post for Amazon Bedrock으로 피드백을 보내주세요. community.aws에서 심층적인 기술 콘텐츠와 함께 빌더 커뮤니티가 Amazon Bedrock을 어떻게 사용하고 있는지 알아볼 수 있습니다. 이러한 새로운 기능으로 무엇을 빌드했는지 알려주세요!

Danilo