Meta의 Llama 3.2 모델, Amazon Bedrock 정식 출시: 새로운 세대의 멀티모달 비전 및 경량 모델 제공

지난 7월에 Amazon Bedrock 기반 Llama 3.1 모델이 출시되었다는 소식을 전했습니다. 생성형 AI 기술이 놀라운 속도로 발전하고 있는 가운데, 오늘은 기쁜 마음으로 Amazon Bedrock에 기반한 Meta의 새로운 Llama 3.2 모델을 소개합니다.

Llama 3.2는 Meta의 최신 대규모 언어 모델(LLM) 기술 발전을 보여주는 모델로, 다양한 사용 사례에 걸쳐 향상된 기능과 광범위한 적용 가능성을 보장하는 멀티모달 비전과 경량 모델을 제공합니다. 책임감 있는 혁신과 시스템 수준의 안전성에 중점을 둔 이 새 모델은 광범위한 산업 벤치마크를 통해 첨단 성능을 입증했으며 새로운 세대의 AI 경험을 구축하는 데 유용한 기능을 도입했습니다.

이 모델은 이미지 추론을 통해 빌더에게 영감을 주도록 설계되었으며 엣지 애플리케이션에서 더 쉽게 접근할 수 있어 AI의 활용 가능성이 훨씬 커집니다.

Llama 3.2 모델 컬렉션은 엣지 디바이스에 적합한 가벼운 텍스트 전용 1B 및 3B 파라미터 모델부터 고해상도 이미지용 멀티모달 지원을 비롯해 정교한 추론 작업을 수행할 수 있는 중소형 11B 및 90B 파라미터 모델까지 다양한 크기로 제공됩니다. Llama 3.2 11B와 90B는 이미지 인코더 표현을 언어 모델에 통합하는 새로운 모델 아키텍처로 비전 작업을 지원하는 최초의 Llama 모델입니다. 이번 새 모델은 짧아진 지연 시간과 개선된 성능으로 AI 워크로드에 더 효율적으로 설계되어 광범위한 애플리케이션에 적합합니다.

모든 Llama 3.2 모델은 Llama 3.1부터 도입한 확장된 토큰 용량을 유지하면서 128K 컨텍스트 길이를 지원합니다. 또한 영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어 등 8개 언어에 대한 다국어 지원도 개선되었습니다.

텍스트를 지원하는 기존 Llama 3.1 8B, 70B, 405B 모델에 더해, Llama 3.2는 멀티모달 사용 사례도 지원합니다. 이제 Amazon Bedrock에서 Meta의 네 가지 새로운 Llama 3.2 모델(90B, 11B, 3B, 1B)을 사용하여 창의적인 아이디어를 구축하고 실험하고 확장할 수 있습니다.

Llama 3.2 90B Vision(텍스트+이미지 입력) – Meta의 최신 모델로, 엔터프라이즈급 애플리케이션에 적합합니다. 이 모델은 일반적인 지식, 긴 형식의 텍스트 생성, 다국어 번역, 코딩, 수학, 고급 추론에 탁월합니다. 또한 이미지 추론 기능을 도입하여 이미지를 이해하고 시각적 추론 작업을 수행할 수 있습니다. 이 모델은 이미지 캡셔닝, 이미지-텍스트 검색, 비주얼 그라운딩, 시각적 질의응답, 시각적 추론, 문서의 시각적 질의응답 등의 사용 사례에 적합합니다.

Llama 3.2 11B Vision(텍스트+이미지 입력) – 콘텐츠 생성, 대화형 AI, 언어 이해, 시각적 추론이 필요한 엔터프라이즈 애플리케이션에 적합합니다. 이미지에 대한 추론 기능이 추가된 이 모델은 텍스트 요약, 감정 분석, 코드 생성, 지침 준수 등에서 강력한 성능을 보여줍니다. 이 모델의 사용 사례는 이미지 캡셔닝, 이미지-텍스트 검색, 비주얼 그라운딩, 시각적 질의응답, 시각적 추론, 문서의 시각적 질의응답 등 90B 버전과 비슷합니다.

Llama 3.2 3B(텍스트 입력) – 추론 지연 시간이 짧아야 하고 컴퓨팅 리소스가 제한적인 애플리케이션을 위해 설계되었으며, 텍스트 요약, 분류, 언어 번역 작업에 탁월합니다. 이 모델은 모바일 AI 기반 쓰기 어시스턴트, 고객 서비스 애플리케이션 등의 사용 사례에 적합합니다.

Llama 3.2 1B(텍스트 입력) – Llama 3.2 모델 컬렉션 중 가장 가벼운 모델로, 엣지 디바이스와 모바일 애플리케이션의 검색과 요약에 알맞으며, 이 모델은 개인 정보 관리, 다국어 지식 검색 등의 사용 사례에 적합합니다.

또한 Llama 3.2는 캐노니컬 도구 체인 구성 요소와 에이전트 애플리케이션 빌드를 위해 표준화된 인터페이스인 Llama Stack 기반으로 구축되어, 어느 때보다 쉽게 구축하고 배포할 수 있습니다. Llama Stack API 어댑터와 배포판은 Llama 모델 기능을 가장 효과적으로 활용하도록 설계되어 있어 고객은 다양한 공급업체의 Llama 모델을 벤치마킹할 수 있습니다.

Meta는 여러 언어에 걸친 150개 이상의 벤치마크 데이터세트에서 Llama 3.2를 테스트하고 광범위한 인간 평가를 수행하여 다른 주요 파운데이션 모델 사이에서 성능 경쟁력을 입증했습니다. 이 모델들이 실제로 어떻게 작동하는지 보겠습니다.

Amazon Bedrock에서 Llama 3.2 모델 사용하기
Llama 3.2 모델을 시작하려면 Amazon Bedrock 콘솔로 이동하여 탐색 창에서 모델 액세스를 선택합니다. 거기에서 저는 새로운 Llama 3.2 모델인 Llama 3.2 1B, 3B, 11B Vision, 90B Vision에 대한 액세스를 요청합니다.

새로운 비전 기능을 테스트하기 위해 다른 브라우저 탭을 열고 Our World in Data 웹사이트에서 PNG 형식의 재생 에너지로 생산된 전기 비중 차트를 다운로드합니다. 차트의 해상도가 매우 높아서 1024픽셀 너비로 크기를 조정합니다.

Amazon Bedrock 콘솔로 돌아와 탐색 창의 플레이그라운드에서 채팅을 선택하고 카테고리로 Meta를 선택한 다음 Llama 3.2 90B Vision 모델을 선택합니다.

파일 선택을 사용하여 크기가 조정된 차트 이미지를 선택하고 다음 프롬프트를 사용합니다.

Based on this chart, which countries in Europe have the highest share?

실행을 선택하면 모델이 이미지를 분석하고 결과를 반환합니다.

AWS Command Line Interface(AWS CLI)와 AWS SDK를 사용하여 프로그래밍 방식으로 모델에 액세스할 수도 있습니다. Llama 3.1 모델 사용과 비교할 때, 문서에 설명된 대로 모델 ID를 업데이트하기만 하면 됩니다. 미국과 EU 리전의 경우, 새로운 교차 리전 추론 엔드포인트를 사용할 수도 있습니다. 이 엔드포인트는 각각 미국과 EU 내 모든 리전에서 작동합니다. 예를 들어, Llama 3.2 90B Vision 모델의 교차 리전 추론 엔드포인트는 다음과 같습니다.

us.meta.llama3-2-90b-instruct-v1:0
eu.meta.llama3-2-90b-instruct-v1:0

다음은 Amazon Bedrock Converse API를 사용하는 샘플 AWS CLI 명령입니다. CLI의 --query 파라미터를 사용하여 결과를 필터링하고 출력 메시지의 텍스트 내용만 표시합니다.

aws bedrock-runtime converse --messages '[{ "role": "user", "content": [ { "text": "Tell me the three largest cities in Italy." } ] }]' --model-id us.meta.llama3-2-90b-instruct-v1:0 --query 'output.message.content[*].text' --output text

출력에서 “어시스턴트”로부터 응답 메시지를 받습니다.

이탈리아에서 가장 큰 세 도시는 다음과 같습니다.

1. 로마 - 인구: 약 280만
2. 밀라노 - 인구: 약 140만
3. 나폴리 - 인구: 약 97만

AWS SDK 중 하나를 사용해도 크게 다르지 않습니다. 예를 들어, AWS SDK for Python(Boto3)과 함께 Python을 사용하여 콘솔 예제와 동일한 이미지를 분석하는 과정은 다음과 같습니다.

import boto3

MODEL_ID = "us.meta.llama3-2-90b-instruct-v1:0"
# MODEL_ID = "eu.meta.llama3-2-90b-instruct-v1:0"

IMAGE_NAME = "share-electricity-renewable-small.png"

bedrock_runtime = boto3.client("bedrock-runtime")

with open(IMAGE_NAME, "rb") as f:
    image = f.read()

user_message = "Based on this chart, which countries in Europe have the highest share?"

messages = [
    {
        "role": "user",
        "content": [
            {"image": {"format": "png", "source": {"bytes": image}}},
            {"text": user_message},
        ],
    }
]

response = bedrock_runtime.converse(
    modelId=MODEL_ID,
    messages=messages,
)
response_text = response["output"]["message"]["content"][0]["text"]
print(response_text)

Llama 3.2 모델은 콘솔을 사용하거나 SageMaker Python SDK를 통해 프로그래밍 방식으로 사전 훈련된 모델을 쉽게 배포할 수 있는 기계 학습(ML) 허브인 Amazon SageMaker JumpStart에서도 사용할 수 있습니다. SageMaker JumpStart에서는 책임 있는 혁신과 시스템 수준의 안전성을 지원하도록 설계된 Llama Guard 3 11B Vision을 포함하여 모델 입력(프롬프트)과 출력(응답)의 안전성 수준을 분류하는 데 유용한 새로운 보호 모델에 액세스하고 배포할 수도 있습니다.

또한 지금 SageMaker JumpStart를 사용하여 Llama 3.2 1B 및 3B 모델을 쉽게 미세 조정할 수 있습니다. 그런 다음 미세 조정된 모델을 Amazon Bedrock에 사용자 지정 모델로 가져올 수 있습니다. Amazon Bedrock 및 Amazon SageMaker JumpStart 기반의 모든 Llama 3.2 모델 컬렉션에 대한 미세 조정이 곧 제공될 예정입니다.

공개적으로 제공되는 Llama 3.2 모델의 가중치를 사용하면 각자의 필요에 맞는 맞춤형 솔루션을 더 쉽게 제공할 수 있습니다. 예를 들어 특정 사용 사례에 맞게 Llama 3.2 모델을 미세 조정하고 Amazon Bedrock에 사용자 지정 모델로 가져오면 도메인별 작업에서 다른 모델보다 성능이 뛰어날 수 있습니다. 콘텐츠 생성, 언어 이해 또는 시각적 추론과 같은 영역에서 성능 향상을 위해 미세 조정하려는 경우 Amazon Bedrock과 SageMaker에서 Llama 3.2를 사용할 수 있으므로 솔루션을 차별화할 고유한 고성능 AI 기능을 만들 수 있습니다.

Llama 3.2 모델 아키텍처에 대한 추가 정보
Llama 3.2는 최적의 성능과 다양한 용도를 고려한 고급 아키텍처로 성공을 거둔 이전 모델을 기반으로 구축되었습니다.

자동 회귀 언어 모델 – Llama 3.2는 기본적으로 최적화된 트랜스포머 아키텍처를 사용하므로 이전 컨텍스트를 기반으로 다음 토큰을 예측하여 텍스트를 생성할 수 있습니다.

미세 조정 기법 – — 명령이 조정된 버전의 Llama 3.2는 다음 두 가지 주요 기법을 사용합니다.

지도형 미세 조정(SFT) – 이 프로세스는 특정 지침을 따르고 더 관련성이 높은 응답을 생성하도록 모델을 조정합니다.
인간 피드백을 통한 강화 학습(RLHF) – 이 고급 기법은 모델의 출력을 인간의 선호도에 맞게 조정하여 유용성과 안전성을 향상시킵니다.

멀티모달 기능 – 11B 및 90B Vision 모델의 경우 Llama 3.2는 이미지 이해에 대한 새로운 접근 방식을 도입합니다.

별도로 학습된 이미지 추론 어댑터 가중치가 핵심 LLM 가중치와 통합됩니다.
이러한 어댑터는 크로스 어텐션 메커니즘을 통해 기본 모델에 연결됩니다. 크로스 어텐션 덕분에 모델의 한 섹션이 다른 구성 요소 출력의 관련 부분에 초점을 맞출 수 있으므로 모델의 여러 섹션 사이에서 정보가 흐를 수 있습니다.
이미지가 입력되면 모델은 이미지 추론 프로세스를 “도구 사용” 작업으로 취급하므로 텍스트 처리와 함께 정교한 시각적 분석이 가능합니다. 이 맥락에서 도구 사용은 모델이 외부 리소스 또는 함수를 사용하여 기능을 보강하고 작업을 더 효과적으로 완료할 때 사용되는 일반적인 용어입니다.

최적화된 추론 – 모든 모델은 그룹화된 쿼리 어텐션(GQA)을 지원하므로 추론 속도와 효율성이 향상되며, 대용량 90B 모델에서 특히 유용합니다.

이 아키텍처 덕분에 Llama 3.2는 텍스트 생성과 이해부터 복잡한 추론과 이미지 분석에 이르는 광범위한 작업을 처리하는 동시에, 다양한 모델 크기에서 뛰어난 성능과 적응성을 유지할 수 있습니다.

알아야 할 사항
Meta의 Llama 3.2 모델은 이제 다음 AWS 리전의 Amazon Bedrock에 정식 출시되었습니다.

Llama 3.2 1B 및 3B 모델은 미국 서부(오리건) 및 유럽(프랑크푸르트) 리전에서 사용할 수 있으며 크로스 리전 추론을 통해 미국 동부(오하이오, 버지니아 북부) 및 유럽(아일랜드, 파리) 리전에서 사용할 수 있습니다.
Llama 3.2 11B Vision 및 90B Vision 모델은 미국 서부(오리건) 리전에서 사용할 수 있으며 크로스 리전 추론을 통해 미국 동부(오하이오, 버지니아 북부) 리전에서 사용할 수 있습니다.

향후 업데이트 여부는 전체 AWS 리전 목록을 확인하세요. 예상 비용은 Amazon Bedrock 요금 페이지를 참조하세요.

Llama 3.2의 특징과 기능에 대해 자세히 알아보려면 Amazon Bedrock 설명서의 Llama 모델 섹션을 참조하세요. 지금 바로 Amazon Bedrock 콘솔에서 Llama 3.2를 사용해 보시고, AWS re:Post for Amazon Bedrock으로 피드백을 보내주세요.

community.aws에서 심층적인 기술 콘텐츠와 함께 빌더 커뮤니티가 Amazon Bedrock을 어떻게 사용하고 있는지 알아볼 수 있습니다. Amazon Bedrock에서 Llama 3.2로 무엇을 구축했는지 공유해주세요!

– Danilo

Amazon Web Services 한국 블로그

Meta의 Llama 3.2 모델, Amazon Bedrock 정식 출시: 새로운 세대의 멀티모달 비전 및 경량 모델 제공

주요 링크 모음

팔로우하기

알아보기

리소스

개발자

도움말