AWS 기술 블로그
비정형 데이터! Amazon Bedrock으로 제대로 활용하기
오늘날 기업들은 전례 없는 규모의 비정형 데이터를 보유하고 있습니다. 이메일, 문서, 이미지, 동영상, 소셜 미디어 게시물 등 다양한 형태의 비정형 데이터는 모든 엔터프라이즈 데이터에서 80%~90%를 차지하고 있으며, 정형 데이터보다 몇 배나 빠르게 증가하고 있습니다.
이러한 방대한 비정형 데이터에는 시장 트렌드, 고객 니즈, 운영상의 문제점 등 귀중한 인사이트가 있습니다. 하지만 약 18%의 기업만이 이러한 데이터를 효과적으로 활용합니다. 이는 비정형 데이터를 처리하고 분석하는 과정에서 다음과 같은 기술적 어려움이 있기 때문입니다.
비정형 데이터 활용의 주요 기술적 과제
1. 복잡한 데이터 처리
이미지, 문서, 오디오, 비디오 등 다양한 형식의 비정형 데이터를 효과적으로 처리하고 분석하기 위해서는 고급 AI/ML 기술, 데이터 파이프라인 등의 기술이 필요합니다.
2. 정확한 인사이트 추출
비정형 데이터에서 의미 있는 인사이트를 추출하고 이를 비즈니스 의사결정에 활용하기 위해서는 고도화된 분석 도구와 워크플로가 요구됩니다.
생성형 AI 분야에서 이러한 기술적 과제를 해결하기 위해 AWS는 re:Invent 2024에서 Amazon Bedrock의 새로운 기능들 – Bedrock Data Automation, Multimodal Data Processing, GraphRAG(Graph Retrieval-Augmented Generation)을 발표했습니다. 이 새로운 기능들을 통해 기업들은 비정형 데이터를 보다 효율적이고 정확하게 처리하여 생성형 AI를 통해 의미 있는 인사이트를 도출합니다.
Amazon Bedrock Data Automation 소개
1. Amazon Bedrock Data Automation
Amazon Bedrock Data Automation(BDA)은 Bedrock의 생성형 AI 기반 완전 관리형 기능으로, 문서, 이미지, 오디오, 비디오와 같은 비정형 멀티모달 콘텐츠를 자동으로 분석하여 유용한 인사이트를 추출하고 이를 구조화된 형식으로 변환하는 서비스입니다. 이를 통해 데이터 처리의 복잡성을 줄이고 개발 시간과 노력을 절감하며, RAG(Retrieval-Augmented Generation)와 같은 생성형 AI 애플리케이션이나 ETL(추출-변환-적재)과 같은 데이터 중심 애플리케이션을 손쉽게 구축할 수 있습니다. BDA는 정확하고 신뢰할 수 있는 출력을 제공해 수동 검토에 대한 의존도를 줄이고, 데이터 자동화를 비즈니스 워크플로에 통합해 프로덕션 속도를 가속화합니다. 또한, 머신러닝 전문 지식 없이도 간소화된 개발 환경에서 낮은 비용으로 차별화된 애플리케이션을 구축할 수 있도록 지원하며, 다양한 비즈니스 요구 사항과 애플리케이션 유형에 맞춰 출력 요구 사항을 유연하게 조정할 수 있는 기능을 제공합니다.
대표 사용 사례 (Use Cases)
- 문서 처리:
분류, 추출, 정규화, 검증과 같은 복잡하고 시간이 많이 소요되는 문서 처리 작업을 자동화하여 지능형 문서 처리(IDP) 워크플로를 대규모로 구현할 수 있도록 지원합니다. 이를 통해 비정형 문서를 비즈니스에 특화된 구조화된 데이터로 변환하여 데이터의 효율성과 활용도를 극대화할 수 있습니다. BDA는 특히 다양한 문서 유형에 맞는 유연성을 제공하며, 생성된 출력을 기존 시스템이나 워크플로에 손쉽게 통합할 수 있도록 사용자 정의 옵션을 제공합니다. 보험 청구서, 급여 명세서 등과 같은 복잡한 문서에서도 높은 정확성과 일관성을 유지하며 데이터를 처리할 수 있습니다. - 미디어 분석:
비정형 비디오 콘텐츠를 분석하여 각 장면에 대한 요약을 자동으로 생성하고, 명시적이거나 안전하지 않은 콘텐츠를 식별하며, 비디오 내 텍스트를 추출하거나 광고와 브랜드를 기준으로 콘텐츠를 분류하는 등 다양한 인사이트를 제공합니다. 이러한 기능은 단순한 데이터 분석을 넘어, 지능형 비디오 검색, 광고의 맥락에 맞는 배치 최적화, 브랜드 안전성을 보장하는 데 필수적인 도구로 활용될 수 있습니다. 예를 들어, 브랜드 규정 준수나 특정 타겟팅 광고를 위한 고도화된 분석을 통해 기업의 미디어 전략을 개선할 수 있습니다. - 생성형 AI 어시스턴트:
문서, 이미지, 비디오, 오디오와 같은 다양한 데이터 소스에서 추출한 풍부한 모달리티 별 데이터 표현을 제공하여 RAG(Retrieval-Augmented Generation) 기반 질문-응답 애플리케이션의 성능을 크게 향상 시킵니다. 이를 통해 AI 어시스턴트는 더 정확하고 관련성 높은 답변을 제공할 수 있으며, 복잡한 질문이나 특정한 데이터 요구에도 효과적으로 대응할 수 있습니다. 예를 들어, 기업 내부 데이터에서 중요한 정보를 검색해 직원들에게 제공하거나, 고객 지원과 같은 환경에서 보다 정밀하고 개인화된 응답을 제공하는 데 유용하게 활용될 수 있습니다.
2. Bedrock Data Automation 상세
Amazon Bedrock Knowledge Bases에서 Amazon Bedrock Data Automation을 파서로 선택하면, Data Automation은 콘텐츠에서 인사이트를 추출, 변환, 생성하고, Knowledge Bases는 이를 검색, 응답 생성, 소스 속성 관리에 활용합니다. 이를 통해 애플리케이션은 텍스트뿐만 아니라 문서의 시각적 요소도 처리할 수 있습니다. 시각적 요소에서 답변을 검색하거나 텍스트와 시각적 데이터를 결합해 응답을 생성하며, 원본 문서의 시각적 요소를 참조하는 소스 정보를 제공합니다.
주요 기능 동작 방식
[그림1] Amazon Bedrock Data Automation 동작 방식
- 표준 출력(Standard Output)
표준 출력은 입력된 콘텐츠 유형에 따라 자동으로 최적화된 결과를 제공합니다. 예를 들어, 문서, 이미지, 비디오, 오디오 등 다양한 모달리티에 대해 의미 있는 텍스트 표현을 생성하며, 생성형 AI(Gen-AI)에 최적화된 출력 결과(예: 읽기/보기 순서, 의미적 연관성 기반 그룹화 등)를 제공합니다. 간단한 설정만으로도 다운스트림 시스템에 적합한 출력 형식을 선택하고 최적화할 수 있는 제어 기능을 제공하며, 파일 유형뿐만 아니라 시맨틱 모달리티에 기반한 자동 라우팅도 지원합니다. 이 모든 기능은 문서, 이미지, 비디오, 오디오 모달리티에서 활용할 수 있습니다. - 사용자 지정 출력(Custom Output)
사용자 지정 출력은 특정 비즈니스 요구에 맞게 데이터를 세밀하게 제어하고, 맞춤형 결과를 생성할 수 있도록 지원합니다. 개발자가 제공하는 블루프린트를 기반으로 추출, 키-값 정규화, 변환, 추론, 분할 및 분류와 같은 다양한 작업을 수행할 수 있습니다. 각 데이터 필드에 대해 비즈니스 규칙 및 작업 로직을 정의할 수 있는 직관적인 인터페이스를 제공하며, 간단한 설명과 샘플을 기반으로 콘솔에서 블루프린트를 빠르게 생성하고 테스트할 수 있습니다. 이러한 기능은 문서 및 이미지 모달리티에서 효과적으로 활용 가능합니다.
주요 기능 사용 예시
- RAG 인덱싱 (RAG 애플리케이션 구축) – 표준 출력(Standard output)
회사 문서, 이미지(예: 다이어그램, 프로세스 흐름), 교육 비디오, 회의 녹음 등을 기반으로 직원들을 위한 RAG 기반 질문-답변 또는 검색 애플리케이션을 구축할 수 있습니다. 표준 출력을 사용해서 오디오, 문서, 이미지 및 비디오에서 관련 인사이트를 자동으로 추출하고 이를 텍스트 임베딩으로 변환한 뒤 벡터 데이터베이스에 인덱싱할 수 있습니다. BDA는 개발자가 비정형 데이터를 효과적으로 활용하여 RAG 기반 애플리케이션에서 더 정확하고 관련성 높은 응답을 제공하도록 지원합니다. - 지능형 문서 처리 (IDP: Intelligent Document Processing) – 사용자 지정 출력(Custom output)
보험 청구서, 급여 명세서 등 다양한 문서를 자동으로 처리하고 데이터를 구조화하여 기존 시스템과 통합할 수 있습니다. BDA는 단일 또는 다중 페이지 문서를 자동으로 분류, 추출, 정규화, 검증하며, 생성된 데이터를 특정 형식으로 변환해 데이터베이스와 같은 시스템에 통합합니다. 사용자 지정 출력을 사용해서 기존 블루프린트를 선택하거나 간단한 설명을 바탕으로 자동 생성된 블루프린트를 수정할 수 있으며, 이를 샘플 문서로 빠르게 테스트하고 조정할 수 있습니다. 최종적으로 구성된 블루프린트를 기반으로 문서를 처리해 핵심 데이터를 정확히 출력하며, 복잡한 문서 작업을 간소화하고 비정형 데이터 관리와 분석을 효율화합니다. - 미디어 분석 – 표준 출력(Standard output) + 사용자 지정 출력(Custom output)
비디오, 오디오, 이미지와 같은 멀티미디어 콘텐츠에서 유의미한 정보를 추출하여 아카이브 데이터의 검색 및 활용을 용이하게 합니다. 미디어 회사나 관련 산업에서 특히 유용하며, 콘텐츠를 보다 정교하게 분석하고 관리할 수 있습니다. 표준 출력(Standard output)을 사용해서 미디어 회사는 비디오 요약, 장면 요약, 오디오 요약, IAB 분류, 콘텐츠 검토 레이블, 비디오 내 텍스트 검출 등의 정보를 자동으로 추출하여 향후 검색을 위해 저장할 수 있습니다. 그리고 사용자 지정 출력(Custom output)을 사용해서 표준 출력에서 제공되는 내용 외에도 추가적으로 추출하거나 생성할 인사이트를 정의할 수 있습니다. 예를 들어, 장면 감정 분석, 제품 배치, 제품 크기 등의 맞춤형 정보를 추출하여 비즈니스 요구에 맞는 출력을 생성할 수 있습니다.
Amazon Bedrock Knowledge Bases의 Multimodal Data Processing 소개
1. Multimodal Data Processing
멀티모달 데이터 처리 기능은 텍스트, 이미지, 표 등 여러 형식의 데이터가 포함된 문서에서 정보를 추출하고 이해할 수 있습니다. 이 기능은 Bedrock Knowledge Bases의 end-to-end 관리형 RAG(Retrieval-Augmented Generation) 워크플로를 통해 제공되며, 텍스트와 시각적 데이터로부터 콘텐츠를 추출하고 선택된 임베딩 모델을 사용하여 시맨틱 임베딩을 생성한 후 벡터 스토어(vector store)에 저장합니다. 예를 들어, 재무 보고서의 텍스트와 차트를 동시에 분석하여 종합적인 인사이트를 도출할 수 있으며, 시각적 데이터에 대한 소스 출처 정보도 함께 제공되어 생성된 결과의 신뢰성을 높일 수 있습니다.
현재 프리뷰로 제공되는 Amazon Bedrock Data Automation을 통해 멀티모달 데이터를 자동으로 처리하거나, Multimodal Data Processing 기능을 통해 커스텀 프롬프트로 멀티 모달 데이터를 처리할 수 있습니다.
대표 사용 사례 (Use Cases)
Amazon Bedrock Knowledge Bases의 Multimodal Data Processing을 활용할 수 있는 다양한 시나리오 중 몇가지 예를 들겠습니다.
- 재무 분석 및 의사결정 지원
재무 보고서 분석에는 텍스트와 시각적 데이터를 동시에 처리하여 보다 포괄적인 재무 인사이트를 도출할 수 있습니다. 재무제표의 수치 데이터와 관련 그래프를 통합 분석함으로써 재무 지표의 장기적 트렌드를 정확하게 파악할 수 있으며, 주석 정보와 차트 데이터의 상관관계를 분석하여 주요 재무 지표의 변동 원인을 심층적으로 이해할 수 있습니다. 또한 경영진 보고서의 서술적 내용과 재무 데이터를 종합적으로 분석함으로써 보다 정교한 전략적 의사결정을 지원할 수 있습니다. - 기술 문서 분석 및 이해
기술 문서나 매뉴얼에서는 텍스트와 다이어그램의 통합 분석을 통해 복잡한 기술 정보를 보다 정확하게 이해할 수 있습니다. 시스템 아키텍처 다이어그램과 설명 텍스트를 연계 분석하여 시스템의 전체 구성과 컴포넌트 간의 관계를 명확하게 파악할 수 있으며, 순서도와 절차 설명을 결합하여 프로세스의 전체 흐름과 각 단계의 세부 내용을 포괄적으로 이해할 수 있습니다. 또한 기술 스펙 문서의 표와 설명을 통합적으로 분석하여 제품의 상세 사양과 성능 정보를 체계적으로 추출할 수 있습니다. - 의료 정보 통합 분석
의료 분야에서는 텍스트와 이미지 데이터의 통합 처리를 통해 환자 진료의 질을 향상시킬 수 있습니다. 의료 보고서의 텍스트 정보와 의료 영상을 동시에 분석하여 보다 정확한 진단 정보를 도출할 수 있으며, 검사 결과지의 수치 데이터와 그래프를 통합적으로 해석하여 환자의 건강 상태 변화를 종합적으로 파악할 수 있습니다. 또한 진단 기록과 관련 의료 이미지를 연계하여 환자의 전체적인 의료 정보를 체계적으로 관리하고 분석할 수 있습니다.
2. Multimodal Data Processing 상세
주요 기능 동작 방식
Amazon Bedrock Knowledge Bases는 텍스트와 시각적 데이터를 모두 처리할 수 있는 멀티모달 기능을 제공 합니다. 이를 통해 문서 내의 차트, 다이어그램, 표 등의 시각적 요소와 텍스트를 동시에 분석하여 보다 정확하고 관련성 높은 정보를 추출할 수 있습니다.
[그림2] Amazon Bedrock Knowledge Bases – Multimodal Data Processing 동작 방식
멀티모달 데이터 처리는 다음과 같은 단계로 진행됩니다.
- 콘텐츠 추출 : 문서와 이미지에서 텍스트와 시각적 데이터를 추출 합니다.
- 시맨틱 임베딩 : 선택된 임베딩 모델을 사용하여 추출된 콘텐츠의 의미적 표현을 생성 합니다.
- 벡터 저장 : 생성된 임베딩을 선택된 벡터 스토어에 저장합니다.
특히 문서 내 이미지와 같은 시각적 데이터 (이미지, 차트, 다이어그램, 표 등)를 분석하고 활용할 수 있습니다. 이 기능을 통해 텍스트 뿐만 아니라 시각적 요소에도 답변을 검색하고 추출할 수 있습니다. 뿐만아니라 텍스트와 시각적 데이터를 모두 포함한 맥락을 기반으로 응답을 생성할 수 있습니다.
Amazon Bedrock에서 Knowledge Bases를 생성하는 단계에서 멀티 모달 파싱 기능을 사용하고자 하는 경우, 다음 두 가지 옵션 중 하나를 선택할 수 있습니다:
- Amazon Bedrock Data Automation as parser
- 시각적 콘텐츠로부터 인사이트 추출, 변환, 생성을 자동으로 처리
- Knowledge Bases가 수집, 검색, 모델 응답 생성 및 소스 속성 관리
- Foundation models as a parser (Multimodal Data Processing)
- Claude 3.5 Sonnet 또는 Claude 3 Haiku와 같은 멀티모달 지원 모델 활용
- 파싱을 위한 기본 프롬프트를 사용하거나 특정 사용 사례에 맞게 수정
[그림3] Knowledge Bases – Parsing Strategy 선택 화면
[그림4] Foundation models as a parser – Instructions for the parser (프롬프트)
Amazon Bedrock Knowledge Bases의 GraphRAG 소개
1. Amazon Bedrock Knowledge Bases의 GraphRAG (Preview)
Amazon Bedrock의 Knowledge Bases에서 Amazon Neptune Analytics와 통합하여 GraphRAG를 쉽게 생성할 수 있습니다. GraphRAG는 기존 RAG(Retrieval-Augmented Generation) 기술을 확장하여 문서 간의 관계를 그래프 형태로 구성하고 분석합니다. 이를 통해 복잡한 문서 집합에서 더 정확하고 맥락에 맞는 정보를 추출하여 응답 품질을 개선할 수 있습니다. 문서 청크 식별자와 비정형 문서에서 발견된 다양한 엔티티 및 관계를 연결하는 그래프를 자동으로 생성합니다. Amazon Bedrock Knowledge Bases는 그래프 전문 지식 없이도 더욱 포괄적이고 잘 요약된 응답을 생성할 수 있도록 풍부한 컨텍스트를 만들어냅니다.
대표 사용 사례(Use cases)
- 다단계 추론 과정 간소화
GraphRAG는 복잡한 추론 과정을 그래프 구조로 표현하여 다단계 추론을 효율적으로 수행할 수 있게 합니다. 예를 들어, 법률 문서 분석에서 관련 판례, 법령, 해석 등을 그래프로 연결하여 복잡한 법적 추론을 지원할 수 있습니다. 또한, 이를 통해 법률 전문가들은 보다 신속하고 정확한 법적 자문을 제공할 수 있으며, 다양한 법적 시나리오에 대한 포괄적인 분석이 가능해집니다. - 금융 범죄 탐지 강화
GraphRAG를 활용하면 복잡한 금융 거래 네트워크에서 의심스러운 패턴을 더 효과적으로 식별할 수 있습니다. 계좌 간 자금 흐름, 거래 당사자의 관계, 과거 금융 활동 이력 등을 그래프로 연결하여 다차원적인 분석이 가능해집니다. 이를 통해 자금 세탁, 내부자 거래, 사기 등의 복잡한 금융 범죄를 조기에 탐지하고 예방할 수 있습니다. - 복잡한 의료 진단 지원
GraphRAG는 환자의 증상, 병력, 유전정보, 약물 상호작용 등을 그래프로 연결하여 종합적인 진단을 지원할 수 있습니다. 의사는 이를 통해 희귀 질병이나 복합 질환에 대한 인사이트를 얻을 수 있으며, 개인화된 치료 계획을 수립하는 데 도움을 받을 수 있습니다. 또한, 새로운 의학 연구 결과나 임상 시험 데이터를 지속적으로 그래프에 추가함으로써 최신 의료 지식을 진단에 반영할 수 있습니다.
2. GraphRAG 상세
Amazon Bedrock Knowledge Bases에서 지원하기 시작한 GraphRAG 기능은 기존 RAG의 한계를 넘어 정확하고 포괄적인 응답을 제공함으로써 생성형 AI 애플리케이션을 개선한다고 앞서 설명드렸습니다. GraphRAG는 기존의 벡터 검색 방식을 통한 의미적으로 유사한 내용을 찾는 것 뿐만 아니라, 관계에 대한 복잡한 지식 구조를 그래프 형태로 표현하고 처리함으로써 확장된 컨텍스트를 만들어내어 더욱 정교한 AI 응답을 가능하게 합니다. 동작 방식을 설명하기 전에 GraphRAG 등장 배경에 대해 설명합니다.
기존 RAG의 한계점
전통적인 Retrieval-Augmented Generation (RAG) 모델은 다음과 같은 제한사항을 가지고 있었습니다.
- 문서 기반의 지역적(local) 정보 처리로 인해 광범위한 컨텍스트 파악이 어려웠습니다. 예를 들어, “회사의 분기별 실적 추이와 업계 동향을 분석해주세요”라는 질문에 대해, 각각의 분기 실적 문서는 찾을 수 있지만 전체적인 추세와 업계 맥락을 연결하여 설명하기 어려웠습니다.
- 제한된 컨텍스트 길이로 인해 복잡한 질문에 대한 포괄적인 응답이 불가능했습니다. 가령 “지난 5년간의 제품 개발 히스토리와 각 버전별 주요 기능 변화를 설명해주세요”와 같은 질문에서, 토큰 제한으로 인해 전체 히스토리를 한 번에 처리하지 못했습니다.
- 복잡한 관계성 파악의 어려움으로 인해 깊이 있는 분석이 제한적이었습니다. “특정 고객이 구매한 제품들 간의 연관성과 향후 구매 가능성이 높은 제품을 추천해주세요”와 같이 여러 데이터 포인트 간의 관계를 분석해야 하는 경우, 단순 문서 검색으로는 한계가 있었습니다.
- 중간 정보 처리 과정에서의 정보 손실로 인해 정확성이 저하되었습니다. “프로젝트 A의 예산 초과 원인을 관련 부서의 예산 사용 내역과 연계하여 분석해주세요”와 같은 요청에서, 여러 문서를 거치면서 중요한 연결 정보가 누락되거나 왜곡되는 경우가 발생했습니다.
GraphRAG의 주요 특징
GraphRAG는 이러한 한계를 극복하기 위해 그래프 기반의 지식 표현을 도입했습니다. 주요 특징은 다음과 같습니다.
- 관계성 기반 정보 처리
데이터 소스 간의 연결 관계를 지식 그래프로 구성하여 복잡한 정보 구조를 효과적으로 표현합니다. 예를 들어, 제품 카탈로그에서 각 제품 간의 연관 관계, 호환성, 업그레이드 경로 등을 그래프로 표현하여 더 정확한 제품 추천이 가능합니다. 또한 명시적/암시적 컨텍스트를 모두 고려한 처리를 통해 더욱 정확한 정보 추출이 가능한데, 사용자의 검색 기록과 관심사를 그래프로 연결하여 숨겨진 선호도 패턴을 파악할 수 있습니다. 의미적 유사성을 넘어선 관계성 탐색으로 더욱 깊이 있는 분석이 가능해졌습니다. - 글로벌 컨텍스트 활용
*모듈화와 **커뮤니티 감지를 통한 개선된 검색으로 효율적인 정보 접근이 가능합니다. 예를 들어, 대규모 기술 문서에서 연관된 주제들을 자동으로 그룹화하고, 이를 통해 사용자가 필요한 정보를 더 빠르게 찾을 수 있습니다. 또한 다중 단계 추론이 필요한 복잡한 쿼리 처리를 통해 고도화된 분석이 가능한데, “A 제품의 성능 저하가 B 시스템의 안정성에 미치는 영향”과 같은 복잡한 인과관계 분석도 수행할 수 있습니다. 이를 통해 포괄적인 정보 통합 및 분석이 가능해져 더욱 정확하고 신뢰성 있는 응답을 제공할 수 있습니다.- *모듈화: 그래프에서 서로 밀접하게 연관된 노드들을 하나의 단위로 묶는 것을 의미합니다. 마치 책의 목차처럼 관련 정보들을 체계적으로 구조화합니다.
- **커뮤니티 감지: 그래프 내에서 서로 강하게 연결된 노드들의 집합을 자동으로 찾아내는 기술입니다. 예를 들어, SNS에서 비슷한 관심사를 가진 사용자 그룹을 찾아내는 것과 유사합니다.
주요 기능 동작 방식 [그림5] Amazon Bedrock Knowledge Bases – GraphRAG 동작 방식
데이터 저장 프로세스
GraphRAG는 비정형 데이터를 지식 베이스화하는 과정에서 기존 RAG를 넘어선 확장된 처리를 수행합니다. 문서와 같은 비정형 데이터가 입력되면, Amazon Bedrock Knowledge Bases의 빌트인 기능을 활용하여 파싱 및 청킹을 자동으로 수행합니다. 이 과정은 특정 S3 버킷 내의 문서들을 간단한 설정만으로 처리할 수 있도록 최적화되어 있습니다. 다음 단계에서는 두 가지 핵심 처리가 동시에 이루어집니다. 첫째, 각 청크들을 선택된 임베딩 모델을 통해 벡터화하고, 둘째, 자동 설정되는 Claude 3 Haiku v1 모델을 활용하여 청크 내의 엔티티와 이들 간의 관계를 추출하여 지식 그래프를 구성합니다. 이 모든 과정은 Bedrock Knowledge Bases에서 임베딩 모델을 선택하고 벡터 스토어로 Neptune Analytics를 선택하는 것만으로 손쉽게 구현됩니다.
검색 및 응답 생성 프로세스
사용자 질문이 입력되면, GraphRAG는 기존 RAG의 검색 방식을 확장한 이중 검색 프로세스를 실행합니다. 우선 질문을 임베딩하여 벡터 유사도 기반으로 관련 청크들을 검색합니다. 동시에, 질문에서 추출된 엔티티와 관계를 기반으로 지식 그래프에서 연관된 정보를 탐색합니다. 이 두 가지 검색 결과를 통합하여 더욱 풍부한 컨텍스트를 구성하는데, 이는 단순한 의미적 유사성을 넘어 구조화된 지식 관계까지 포함하게 됩니다. 이렇게 확장된 컨텍스트를 기반으로 LLM이 최종 응답을 생성하므로, 더욱 정확하고 맥락에 맞는 답변이 가능해집니다.
Amazon Neptune Analytics 통합
앞서 설명드렸듯이, Bedrock Knowledge Bases에서 GraphRAG를 구현하기 위해 Amazon Neptune Analytics를 벡터 스토어로 활용합니다. Amazon Neptune Analytics는 분석과 메모리 최적화를 위한 그래프 데이터베이스 엔진입니다. 이는 클라우드 네이티브 운영 데이터베이스 서비스인 Amazon Neptune Database를 보완하는 서비스로, GraphRAG의 벡터 스토어로서 대규모 데이터 셋에 대한 높은 수준의 이해가 필요한 쿼리에 이상적입니다.
주요 이점:
- 연결된 관계를 탐색하여 암시적 유사성에 대한 명시적 컨텍스트를 제공합니다.
- GraphRAG는 계보, 출처, 영향력과 같은 토폴로지 지식을 활용하여 생성형 AI 애플리케이션을 향상시킵니다.
- 벡터와 그래프의 통합 저장 및 쿼리로 운영 복잡성이 줄어듭니다.
- Neptune 머신 러닝과의 통합으로 GraphML 기반 임베딩이 가능합니다.
- LangChain, LlamaIndex와 같은 프레임워크와의 손쉬운 통합을 지원합니다.
Amazon Bedrock Knowledge Bases에서는 벡터 스토어 옵션으로 Amazon Neptune Analytics를 선택하는 화면 입니다. 현재는 Claude 3 Haiku 모델을 사용하여 자동으로 지식 기반 그래프를 생성합니다.
[그림6] Amazon Bedrock Knowledge Bases – GraphRAG 선택 화면
유즈 케이스 테스트
1. Bedrock Data Automation
- 표준 출력(Standard Output) 을 이용한 분석 – ‘AWS re:Invent Keynote’ 영상 분석
re:Invent Keynote 영상을 예시로 들면, 7분 30초 분량의 비디오가 자동으로 여러 Scene으로 분할되어 분석되며, 각 Scene별 상세 요약과 전체 영상의 종합적 분석 결과를 제공합니다. 이 기능은 직관적인 텍스트 기반 결과물 제공, 생성형 AI 최적화된 출력 생성, Scene별 자동 분할 분석, 그리고 종합적인 컨텐츠 요약 제공이라는 주요 특징을 가지고 있어 효율적인 비디오 컨텐츠 분석을 가능하게 합니다.[그림7] Amazon Bedrock Data Automation – Standard Output 예시
- 사용자 지정 출력(Custom Output) 을 이용한 분석 – ‘W2 Tax Form’ 이미지 분석
W2 Tax Form을 예시로 들면, JSON 등 다양한 출력 형식을 지원하고, Blueprint 기반의 맞춤형 데이터 추출, 문서 레벨의 상세 파싱, 필드별 데이터 정규화 및 검증이 가능합니다. 특히 Blueprint를 활용한 Custom Output은 스키마 기반 데이터 추출, 키-값 정규화, 데이터 변환 및 추론, 문서 분할 및 분류와 같은 고급 기능을 제공하여 비즈니스 요구사항에 맞는 맞춤형 데이터 처리 솔루션을 실현합니다.
[그림8] Amazon Bedrock Data Automation – Custom Output 예시
2.Multimodal Data Processing
- 이미지와 테이블이 포함된 PDF 문서 파싱 및 쿼리 : Attention Is All You Need 논문 (Link)
2017년 발표된 Attention Is All You Need 논문은 자연어 처리 분야에 혁신적인 변화를 가져온 Transformer 아키텍처를 최초로 소개합니다. 자연어 처리에서 주로 사용되던 RNN(Recurrent Neural Network)이나 CNN(Convolutional Neural Network)을 완전히 배제하고, 오직 Attention 매커니즘만을 사용했다는 점 때문에 제목 그대로 “Attention만 있으면 된다”는 의미를 담고 있습니다.이 논문 (PDF)으로 Knowledge Bases를 생성합니다. Parsing Strategy는 “Foundation models as a parser” 를 선택하여 Multimodal Data Processing을 합니다.
다음 3개의 사용자 쿼리에 대한 답변 생성 시 참조하는 Source chunk를 확인해보면 테이블 또는 이미지의 정보를 참조함을 확인할 수 있습니다.- 테이블 정보 기반 쿼리 : “Table 3에서 dropout 값 변화에 따른 BLEU 점수 변화를 설명해주세요.”
- 테이블 정보 기반 쿼리 : “Table 3에서 dropout 값 변화에 따른 BLEU 점수 변화를 설명해주세요.”
[그림9] Attention Is All You Need – 사용자 쿼리 예시 1
-
- 테이블 정보 기반 쿼리 : “Transformer 모델과 기존 모델들의 BLEU 점수 차이는 얼마인가요?”
- 테이블 정보 기반 쿼리 : “Transformer 모델과 기존 모델들의 BLEU 점수 차이는 얼마인가요?”
[그림10] Attention Is All You Need – 사용자 쿼리 예시 2
-
- 이미지 정보 기반 쿼리 : “Figure 4와 5에서 서로 다른 어텐션 헤드들이 어떻게 다른 역할을 수행하는지 설명해주세요.“
- 이미지 정보 기반 쿼리 : “Figure 4와 5에서 서로 다른 어텐션 헤드들이 어떻게 다른 역할을 수행하는지 설명해주세요.“
[그림11] Attention Is All You Need – 사용자 쿼리 예시 3
3. GraphRAG
미국 증권거래위원회의 기업 공시 서류 (Form 10-Q)를 활용하여 기존 방식의 RAG와 GraphRAG 성능을 비교해보겠습니다. GraphRAG는 복잡한 데이터 관계를 분석하고 다차원의 정보를 통합해야하는 질문에 강점을 보입니다. 다음 질문은 AWS의 매출 증가가 인프라 비용, 인건비 같은 운영 비용에 영향을 미치고, 다시 어떻게 이익률로 이어지는지 이해하는 등의 복잡한 데이터 관계를 이해해야 합니다. 또한, 매출, 운영비용, 이익률과 같은 서로 다른 차원의 재무 지표들을 동시에 고려해야합니다.
- 질문: “AWS 매출 증가가 북미 지역의 운영비용과 이익률에 어떤 영향을 미쳤는지 분석해주세요.”
[그림12] GraphRAG(좌)와 기존 방식의 RAG(우) 답변 비교 예시 1
GraphRAG는 AWS 매출과 비용 구조 사이의 관계를 더 체계적이고 명확하게 설명했습니다. 특히 AWS의 비용 구조를 “기술 및 인프라” 항목과 “이행” 비용으로 구분하여 설명하면서, AWS가 어떻게 내부 기술 요구사항과 외부 고객 판매를 위한 공유 인프라를 활용하는지까지 상세히 다루었습니다. 반면 기존 RAG는 단순히 AWS 관련 비용 증가가 있었다는 사실과 그것이 운영 이익에 부정적 영향을 미쳤다는 기본적인 인과관계만을 설명하는데 그쳤습니다. 비용의 구체적인 구성이나 그 영향의 메커니즘에 대한 설명이 부족했습니다. 더 주목할 만한 점은 GraphRAG가 2023년 3분기의 구체적인 실적 변화를 언급하면서, 매출 증가와 비용 구조 개선이 있었으나 이것이 기술 인프라 투자 증가로 상쇄되는 과정을 명확히 설명했다는 것입니다. 이는 시간적 맥락과 함께 비용-수익 관계를 더 입체적으로 보여주는 설명이었습니다.
또 다른 질문에 대한 결과를 비교해보겠습니다. 다음 질문은 비즈니스, 인과관계 컨텍스트를 포함할 뿐만 아니라 시간의 흐름에 따른 변화 및 장기적 영향의 누적 효과를 분석해야하는 질문입니다.
- 질문: “지난해부터 이어진 공급망 문제가 재고 관리 비용과 운영 효율성에 미친 영향을 시간순으로 설명해주세요.”
[그림13] GraphRAG(좌)와 기존 방식의 RAG(우) 답변 비교 예시 2
결과를 평가해보면, 정보의 구조화 측면에서 GraphRAG는 인력 운영과 재고/배송 관리라는 두 가지 큰 카테고리로 명확하게 영향을 구분하여 제시했습니다. 정보의 깊이와 범위 측면에서도 GraphRAG가 더 뛰어났습니다. 각 카테고리 내에서 재고 보관 공간의 문제, 배송 거리 증가, 배송당 물량 감소 등 더 상세한 영향들을 다룬 것을 알 수 있습니다. 기존 RAG는 주요한 몇 가지 영향만을 간단히 언급하는 데 그쳤습니다. 특히 주목할 만한 점은 인과관계의 설명 방식입니다. GraphRAG는 이러한 문제들이 어떻게 운영비용 증가, 서비스 중단, 자산손상차손으로 이어지는지 더 포괄적인 인과관계를 보여주었습니다. 반면에 기존 RAG는 단순한 선형적 인과관계만을 설명했습니다. 또한 GraphRAG는 현재 상황뿐만 아니라 물류 네트워크의 확장과 복잡성 증가로 인한 미래의 잠재적 영향까지 다루며 시간적 맥락을 더 잘 표현했습니다. 반면 기존 RAG는 현재 상황에 대한 설명에 주로 초점을 맞추었습니다. 마지막으로, GraphRAG는 이러한 문제들이 회사의 사업에 미치는 전반적인 영향까지 설명하며 비즈니스 임팩트를 더 포괄적으로 다루었습니다. 기존 RAG는 주로 운영상의 직접적인 영향에 대한 설명에 그쳤습니다.
이러한 차이점들을 종합해볼 때, GraphRAG의 답변이 더 구조화되고 포괄적이며, 시간의 흐름과 인과관계를 더 효과적으로 설명했다고 평가할 수 있습니다.
비즈니스 이점
Amazon Bedrock의 새로운 기능들은 기업의 비정형 데이터 처리와 분석 방식을 혁신적으로 변화시킵니다. Bedrock Data Automation을 통해 문서, 이미지, 오디오, 비디오와 같은 다양한 비정형 데이터를 자동으로 처리하고 구조화함으로써, 데이터 처리에 소요되는 시간과 비용을 크게 절감할 수 있습니다. Multimodal Data Processing과 GraphRAG는 기존에는 구현하기 어려웠던 수준의 정교한 데이터 분석과 인사이트 도출을 가능하게 하며, 이는 더 나은 비즈니스 의사결정으로 이어집니다. 또한 이러한 기능들은 별도의 AI/ML 전문 지식 없이도 활용할 수 있어, 기업의 기술 도입 장벽을 크게 낮출 수 있습니다.
이러한 기능들의 통합은 기업의 데이터 활용 능력을 한 단계 높은 수준으로 끌어올립니다. 복잡한 문서나 미디어 콘텐츠에서 자동으로 의미 있는 정보를 추출하고, 이를 비즈니스 프로세스에 즉시 활용할 수 있게 됩니다. 또한 Bedrock Knowledge Bases를 통한 통합 데이터 관리로 데이터의 재사용성을 높여 장기적인 비용 효율성이 개선될 수 있으며, 확장 가능한 아키텍처를 통해 기업의 성장에 따른 데이터 처리 요구사항 증가에도 유연하게 대응할 수 있습니다.
결론
이 게시글에서는 Amazon Bedrock의 새로운 기능들을 통해 기업이 비정형 데이터에서 어떻게 가치 있는 인사이트를 도출할 수 있는지 살펴보았습니다. Data Automation은 복잡한 비정형 데이터 처리를 자동화하고, Multimodal Data Processing은 텍스트와 시각적 데이터를 통합적으로 분석하며, GraphRAG는 문서 내 엔티티 및 관계를 그래프로 구성하여 더 정확하고 포괄적인 정보 추출을 가능하게 합니다. 이러한 기능들은 각각 독립적으로도 강력하지만, Amazon Bedrock Knowledge Bases를 통해 통합될 때 더욱 큰 시너지를 발휘합니다.
특히 주목할 만한 점은 이러한 기능들이 완전 관리형 서비스로 제공되어 기업들이 복잡한 AI/ML 인프라 구축 없이도 즉시 활용할 수 있다는 것입니다. 기업의 규모나 기술적 성숙도에 관계없이, Amazon Bedrock의 새로운 기능들을 통해 비정형 데이터에서 실질적인 비즈니스 가치를 창출할 수 있게 되었습니다. 이제 기업들은 Amazon Bedrock을 활용하여 비정형 데이터 분석의 새로운 지평을 열고, 데이터 기반의 의사결정을 더욱 효과적으로 수행할 수 있을 것입니다.
Amazon Bedrock의 비정형 데이터를 위한 새로운 기능들은 다음 링크에서 확인할 수 있습니다.