Amazon Bedrock AgentCore, 품질 평가와 정책 통제 기능 출시

오늘 Amazon Bedrock AgentCore의 새로운 기능을 발표합니다. 이 기능을 통해 AI 에이전트의 프로덕션 환경 진입을 가로막는 장벽을 더욱 효과적으로 제거할 수 있습니다. 다양한 산업 분야의 기업들이 규모에 관계없이 고성능 에이전트를 안전하게 구축, 배포 및 운영할 수 있는 최첨단 플랫폼인 AgentCore를 기반으로 이미 구축하고 있습니다. AgentCore SDK는 평가판 이후 단 5개월 만에 2백만 회 이상 다운로드되었습니다. 예를 들면 다음과 같습니다.

스포츠 분야의 선구자이자 혁신을 선도하는 PGA TOUR는 디지털 플랫폼에 문서를 작성하기 위해 다중 에이전트 콘텐츠 생성 시스템을 구축했습니다. AgentCore를 기반으로 구축된 이 새로운 솔루션을 통해 PGA TOUR는 콘텐츠 작성 속도를 1,000% 향상시키고 비용을 95% 절감하여 현장의 모든 선수에게 포괄적인 서비스를 제공할 수 있습니다.
Workday와 같은 독립 소프트웨어 개발 판매 회사(ISV)는 AgentCore를 기반으로 미래의 소프트웨어를 구축하고 있습니다. AgentCore Code Interpreter는 Workday Planning Agent에 안전한 데이터 보호 기능과 재무 데이터 탐색에 필수적인 기능을 제공합니다. 사용자는 자연어 쿼리를 통해 재무 및 운영 데이터를 분석할 수 있으므로 직관적이고 자율적인 재무 계획을 수립할 수 있습니다. 이 기능을 통해 일상적인 계획 분석에 소요되는 시간을 30% 단축하여 매달 약 100시간을 절약할 수 있습니다.
브라질의 유통업체이자 소매업체인 Grupo Elfa는 AgentCore Observability를 통해 완벽한 감사 추적성과 에이전트의 실시간 지표를 확보하고, 사후 대응 프로세스를 사전 예방적 운영으로 전환하고 있습니다. 이 통합 플랫폼을 통해 영업 팀은 매일 수천 건의 견적을 처리하는 동시에 조직은 에이전트의 의사 결정을 완벽하게 파악할 수 있어 에이전트의 의사 결정 및 상호작용을 100% 추적하고 문제 해결 시간을 50% 단축할 수 있습니다.

조직이 에이전트 배포를 확장함에 따라 적절한 경계 설정 및 품질 검사를 통해 에이전트를 안정적으로 배치하는 데 어려움을 겪습니다. 에이전트를 강력하게 만드는 자율성 때문에 에이전트는 민감한 데이터에 부적절하게 액세스하거나, 무단 결정을 내리거나, 예상치 못한 조치를 취할 수 있으므로, 확신을 바탕으로 대규모로 배포하기가 어렵습니다. 개발 팀은 에이전트의 자율성을 지원하는 동시에 수용 가능한 범위 내에서 운영되도록 하는 동시에 고객과 직원에게 필요한 품질을 제공해야 합니다.

오늘 출시된 새로운 기능은 이러한 프로세스에서 추측을 배제하고 확신을 바탕으로 신뢰할 수 있는 AI 에이전트를 구축하고 배포할 수 있도록 지원합니다.

AgentCore의 정책(평가판) – 세분화된 권한이 있는 정책을 사용하여 에이전트가 실행되기 전에 AgentCore Gateway 도구의 직접 호출을 가로채서 에이전트 작업의 경계를 명확하게 정의합니다.
AgentCore 평가(평가판) – 정확성, 유용성 등의 측면에 대한 기본 제공 평가 도구와 비즈니스별 요구 사항에 대한 사용자 지정 평가기를 사용하여 실제 동작을 기반으로 에이전트의 품질을 모니터링합니다.

에이전트가 수행 가능한 작업을 확장하는 기능도 도입할 예정입니다.

AgentCore Memory의 에피소드 기능 – 에이전트가 경험을 통해 학습하고 유사한 상황에서 솔루션을 조정하여 향후 유사한 작업에서 일관성과 성능을 향상시킬 수 있도록 지원하는 새로운 장기 전략입니다.
AgentCore Runtime의 양방향 스트리밍 – 자연스러운 대화 흐름에 따라 사용자와 에이전트 모두가 동시에 말할 수 있는 음성 에이전트를 배포합니다.

정밀하게 에이전트를 제어하기 위한 AgentCore의 정책
정책을 통해 에이전트가 수행할 수 있는 작업을 제어하고 에이전트의 추론 루프 외부에서 적용되는 작업을 제어하며, 에이전트를 자율적 행위자로 취급합니다. 즉, 에이전트가 내리는 결정은 도구, 시스템 또는 데이터에 도달하기 전에 검증됩니다. AgentCore Gateway와 통합되어 도구의 직접 호출이 발생하는 즉시 이를 가로채고 운영 속도를 지키면서 요청을 처리하여 워크플로의 속도와 응답성을 유지합니다.

자연어를 사용하거나 세분화된 권한을 위한 오픈 소스 정책 언어인 Cedar를 직접 사용해 정책을 생성하여 사용자 지정 코드를 작성하지 않고도 규칙을 설정, 이해 및 감사하는 프로세스를 간소화할 수 있습니다. 이러한 접근 방식을 통해 개발, 보안 및 규정 준수 팀은 전문 코딩 지식 없이도 규칙을 생성, 이해 및 감사할 수 있는 정책을 생성할 수 있습니다.

정책은 에이전트가 구축되는 방식 또는 에이전트가 사용하는 모델과는 독립적으로 작동합니다. API, AWS Lambda 함수, Model Context Protocol(MCP) 서버 또는 타사 서비스 등 에이전트가 액세스할 수 있는 도구와 데이터, 수행할 수 있는 작업 및 조건을 정의할 수 있습니다.

팀은 명확한 정책을 한 번 정의하고 조직 전체에 일관되게 적용할 수 있습니다. 정책이 구축되면 개발자는 혁신적인 에이전트 환경을 자유롭게 생성할 수 있으며, 에이전트가 정의된 경계와 규정 준수 요건을 준수할 것이라는 확신을 바탕으로 에이전트가 자율적으로 행동하도록 배포할 수 있습니다.

AgentCore에서 정책 사용
먼저 AgentCore 콘솔의 새 정책 섹션에서 정책 엔진을 생성하고 하나 이상의 AgentCore 게이트웨이와 연결할 수 있습니다.

정책 엔진은 게이트웨이 엔드포인트에서 평가되는 정책 모음입니다. 게이트웨이를 정책 엔진에 연결할 때 정책 결과(도구의 직접 호출에 대한 액세스를 효과적으로 허용 또는 거부)를 적용할지, 아니면 로그만 전송할지 선택할 수 있습니다. 로그를 사용하면 프로덕션 환경에서 정책을 활성화하기 전에 테스트하고 검증할 수 있습니다.

그런 다음 적용할 정책을 정의하여 연결된 AgentCore 게이트웨이에서 제공하는 도구에 대한 액세스를 세부적으로 제어할 수 있습니다.

정책을 생성하려면 자연어 설명(사용할 인증 클레임 정보 포함해야 함)으로 시작하거나 Cedar 코드를 직접 편집할 수 있습니다.

자연어 기반 정책 작성으로 세분화된 정책을 더 쉽게 생성할 수 있습니다. 공식 정책 코드를 작성하는 대신, 일반 영어로 규칙을 설명할 수 있습니다. 시스템은 사용자의 의도를 해석하고, 후보 정책을 생성하고, 도구 스키마와 비교하여 검증하고, 자동 추론을 사용하여 안전 조건을 확인합니다. 즉, 지나치게 관대하거나, 지나치게 제한적이거나, 충족될 수 없는 조건이 포함된 프롬프트를 식별합니다.

일반적인 대규모 언어 모델(LLM) 번역과 달리, 이 기능은 도구의 구조를 이해하고 구문적으로 정확하고 사용자의 의도와 의미적으로 일치하는 정책을 생성하는 동시에 적용할 수 없는 규칙에 플래그를 지정합니다. 또한 Model Context Protocol(MCP) 서버로도 사용할 수 있으므로 일반적인 개발 워크플로의 일부로 선호하는 AI 지원 코딩 환경에서 직접 정책을 작성하고 검증할 수 있습니다. 이 접근 방식을 사용하면 온보딩 시간이 단축되고 Cedar의 전문 지식이 없어도 고품질의 승인 규칙을 작성할 수 있습니다.

다음 샘플 정책은 AgentCore Gateway(역할에 대한)에 인증하는 데 사용되는 JWT 토큰의 OAuth 클레임 정보와 도구의 직접 호출(context.input)에 전달된 인수를 사용하여 환불을 처리하는 도구에 대한 액세스를 검증합니다. refund-agent 역할을 가진 인증된 사용자만 금액(context.input.amount)이 200달러 미만인 경우에만 도구에 액세스할 수 있습니다.

permit(
  principal is AgentCore::OAuthUser,
  action == AgentCore::Action::"RefundTool__process_refund",
  resource == AgentCore::Gateway::"<GATEWAY_ARN>"
)
when {
  principal.hasTag("role") &&
  principal.getTag("role") == "refund-agent" &&
  context.input.amount < 200
};

AgentCore Evaluations를 통해 지속적인 실시간 품질 인텔리전스 확보
AgentCore Evaluations는 실제 행동을 기반으로 에이전트 성과를 지속적으로 모니터링하고 분석할 수 있도록 지원하는 완전 관리형 서비스입니다. AgentCore Evaluations를 사용하면 정확성, 유용성, 도구 선택 정확도, 안전성, 목표 성공률, 상황 관련성 등 일반적인 품질 측면에 대한 기본 제공 평가기를 사용할 수 있습니다. 또한 선택한 프롬프트와 모델을 기반으로 구성된 사용자 지정 모델 기반 채점 시스템을 생성하여 비즈니스에 맞는 채점을 진행할 수 있으며, 서비스는 실시간 에이전트 상호작용을 샘플링하고 지속적으로 채점합니다.

AgentCore Evaluations의 모든 결과는 AgentCore Observability 인사이트와 함께 Amazon CloudWatch에 시각화되어 통합 모니터링을 위한 단일 위치를 제공합니다. 또한 평가 점수에 대한 알림 및 경보를 설정하여 에이전트 품질을 사전에 모니터링하고 지표가 허용 임계값을 벗어날 경우 대응할 수 있습니다.

AgentCore Evaluations는 테스트 단계에서 배포 전에 기준선과 비교해 에이전트를 확인하여 잘못된 버전이 사용자에게 도달하는 것을 방지하고, 프로덕션 환경에서는 에이전트를 지속적으로 개선하는 데 사용할 수 있습니다. 품질 지표가 정의된 임계값 아래로 떨어지면(예: 고객 서비스 에이전트의 만족도가 감소하거나 8시간 동안 예의 점수가 10% 이상 떨어지는 경우) 시스템에서 즉시 알림을 보내 품질 문제를 더 빨리 감지하고 해결할 수 있도록 도와줍니다.

AgentCore Evaluations 사용
AgentCore 콘솔의 새 평가 섹션에서 온라인 평가를 생성할 수 있습니다. AgentCore 에이전트 엔드포인트 또는 외부 에이전트에 사용되는 CloudWatch 로그 그룹을 데이터 소스로 사용할 수 있습니다. 예를 들어, 여기에서는 AgentCore 평가판 버전을 출시했을 때 공유했던 고객 지원 에이전트 샘플을 사용합니다.

그런 다음 기존 템플릿을 기반으로 정의하거나 처음부터 직접 구축할 수 있는 사용자 지정 평가기를 포함하여 사용할 평가자를 선택할 수 있습니다.

예를 들어 고객 지원 에이전트의 경우 다음과 같은 지표를 선택할 수 있습니다.

정확성 = 에이전트의 응답 정보가 사실적으로 정확한지 평가합니다.
충실성 – 응답의 정보가 제공된 컨텍스트/소스를 통해 뒷받침되는지 여부를 평가합니다.
유용성 – 사용자 관점에서 에이전트의 응답이 얼마나 유용하고 가치가 있는지 평가합니다.
유해성 – 응답에 유해한 콘텐츠가 포함되어 있는지 여부를 평가합니다.
일반화 – 개인이나 집단을 일반화하는 콘텐츠를 감지합니다.

도구 선택 및 도구 파라미터 정확도 평가기는 에이전트가 작업에 적합한 도구를 선택하고 사용자 쿼리에서 올바른 파라미터를 추출하는지 이해하는 데 도움이 될 수 있습니다.

평가 생성을 완료하려면 샘플링 속도와 선택 가능한 필터를 선택할 수 있습니다. 권한의 경우 새 AWS Identity and Access Management(IAM) 서비스 역할을 생성하거나 기존 역할을 전달할 수 있습니다.

평가 결과는 AgentCore Observability 대시보드의 Amazon CloudWatch에 게시됩니다. 막대 차트 섹션을 선택하여 해당 추적을 확인하고 해당 평가의 이면에 있는 요청과 응답에 대한 심층적인 인사이트를 얻을 수 있습니다.

결과가 CloudWatch에 있으므로 모든 기능을 사용하여 알람 및 자동화 등을 생성할 수 있습니다.

AgentCore Evaluations에서 사용자 지정 평가기 생성
사용자 지정 평가기를 사용하면 에이전트의 고유한 요구 사항에 맞는 비즈니스별 품질 지표를 정의할 수 있습니다. 사용자 지정 평가기를 생성하려면 온도 및 최대 출력 토큰과 같은 추론 파라미터와 평가 지침이 포함된 사용자 지정 프롬프트를 포함하여 평가기로 사용할 모델을 제공해야 합니다. 기본 제공 평가기 중 하나에서 사용하는 프롬프트에서 시작하거나 새 프롬프트를 입력할 수 있습니다.

그런 다음 출력에서 생성할 스케일을 정의합니다. 숫자 값이나 사용자가 정의하는 사용자 지정 텍스트 레이블일 수 있습니다. 마지막으로, 모델에서 평가를 단일 추적, 전체 세션 또는 각 도구의 직접 호출에 대해 계산할지 여부를 구성합니다.

경험 기반 학습을 위한 AgentCore Memory 에피소드 기능
AI 에이전트가 과거 상호작용을 기억할 수 있도록 하는 완전 관리형 서비스인 AgentCore Memory에는 이제 새로운 장기 기억 전략이 포함되어 에이전트가 과거 경험에서 배우고 이러한 교훈을 적용하여 향후 상호작용에서 더욱 유용한 지원을 제공할 수 있습니다.

에이전트를 통해 여행을 예약해 보세요. 시간이 지남에 따라 에이전트는 고객의 예약 패턴을 학습합니다. 예를 들어, 고객 회의로 인해 출장 시 항공편을 더 낮은 시간으로 변경해야 하는 경우가 많습니다. 고객 회의가 포함된 다음 예약을 시작할 때 에이전트는 이러한 학습된 패턴을 기반으로 유연한 복귀 옵션을 사전에 제안합니다. 고객의 특정 여행 습관을 학습하는 숙련된 비서처럼, 에피소드 기억 기능을 갖춘 에이전트는 이제 고객의 개별적인 요구를 인식하고 이에 맞춰 조정할 수 있습니다.

새로운 에피소드 기능을 활성화하면 AgentCore Memory는 에이전트 상호작용의 컨텍스트, 추론 과정, 수행된 작업 및 결과를 기록하는 구조화된 에피소드를 캡처하고, 반영 에이전트는 이러한 에피소드를 분석하여 더 광범위한 인사이트와 패턴을 추출합니다. 유사한 작업에 직면했을 때 에이전트는 이러한 학습 내용을 검색하여 의사 결정의 일관성을 개선하고 처리 시간을 단축할 수 있습니다. 이렇게 하면 에이전트 컨텍스트에 가능한 모든 제안을 나열하는 대신 에이전트가 작업을 완료하는 데 필요한 특정 학습 내용만 포함되므로 사용자 지정 지침의 필요성이 줄어듭니다.

보다 자연스러운 대화를 위한 AgentCore Runtime 양방향 스트리밍
AgentCore Runtime을 사용하면 몇 줄의 코드만으로 에이전트 애플리케이션을 배포할 수 있습니다. 자연스럽고 반응성이 뛰어난 대화 환경을 간편하게 배포하기 위해 AgentCore Runtime은 이제 양방향 스트리밍을 지원합니다. 이 기능을 통해 음성 에이전트는 사용자가 말하는 동안 듣고 적응할 수 있으므로, 사용자는 에이전트의 응답 도중에 개입하여 에이전트가 현재 출력을 완료할 때까지 기다리지 않고도 새로운 컨텍스트에 즉시 적응하도록 할 수 있습니다. 사용자가 완전한 응답을 기다려야 하는 기존의 턴 기반 상호작용과 달리, 양방향 스트리밍은 상담원이 사용자의 말에 따라 동적으로 응답을 변경하는 자연스럽고 매끄럽게 흐르는 대화를 생성합니다.

이러한 대화 경험을 처음부터 구축하려면 동시 커뮤니케이션의 복잡한 흐름을 처리하기 위한 상당한 엔지니어링 노력이 필요합니다. 양방향 스트리밍은 에이전트가 입력을 처리하는 동시에 출력을 생성하는 데 필요한 인프라를 관리하고, 중단을 원활하게 처리하고, 동적인 대화 전환 과정에서 컨텍스트를 유지함으로써 이러한 노력을 간소화합니다. 이제 대화의 유동적인 특성에 자연스럽게 적응하는 에이전트를 배포할 수 있습니다. 즉, 상호작용의 흐름을 잃지 않고 중간에 중단하고, 컨텍스트를 전환하고, 명확한 설명을 전달할 수 있습니다.

알아야 할 사항
정책 평가판을 포함하는 Amazon Bedrock AgentCore는 미국 동부(오하이오, 버지니아 북부), 미국 서부(오리건), 아시아 태평양(뭄바이, 싱가포르, 시드니, 도쿄), 유럽(프랑크푸르트, 아일랜드) AWS 리전에서 사용할 수 있습니다. AgentCore Evaluations 평가판은 미국 동부(오하이오, 북버지니아), 미국 서부(오리건), 아시아 태평양(시드니), 유럽(프랑크푸르트) 리전에서 이용할 수 있습니다. 리전별 이용 가능 여부 및 향후 로드맵은 리전별 AWS 기능을 참조하세요.

AgentCore는 선불 약정 없이 사용한 만큼만 요금을 지불합니다. 자세한 요금 정보는 Amazon Bedrock 요금 페이지를 참조하세요. AgentCore는 신규 AWS 고객이 무료로 시작하고 주요 AWS 서비스를 탐색할 수 있는 AWS 프리 티어에도 포함되어 있습니다.

이러한 새로운 기능은 CrewAI, LangGraph, LlamaIndex, Strands Agents 등 모든 오픈 소스 프레임워크 및 모든 기반 모델에서 작동합니다. AgentCore 서비스는 함께 또는 개별적으로 사용할 수 있으며, AgentCore 오픈 소스 MCP 서버를 통해 원하는 AI 지원 개발 환경을 시작할 수 있습니다.

자세히 알아보고 빠르게 시작하려면 AgentCore 개발자 안내서를 참조하세요.

– Danilo

Amazon Web Services 한국 블로그

Amazon Bedrock AgentCore, 품질 평가와 정책 통제 기능 출시

주요 링크 모음

팔로우하기

알아보기

리소스

개발자

도움말