AWS 기술 블로그
Agentic AI 부터 Physical AI 까지: Bedrock, MCP, AWS IoT로 구축하는 자율 산업 안전 로봇
1. 서론: Physical AI – 디지털 지능과 물리적 행동의 융합
1.1 배경
최근에는 LLM과 멀티모달 모델이 발전하면서 단순 자동화를 넘어 스스로 계획하고 판단하고 실세계에 직접 작용하는 Agentic AI와 디지털 세계를 넘어 물리적 세계와 상호작용하는 Physical AI의 필요성이 높아지고 있습니다. 지금까지 우리가 경험한 AI 시스템은 대부분 디지털 환경 내에서만 작동했습니다. 챗봇과 대화하고, 이미지를 생성하고, 문서를 요약하는 것처럼 말이죠. 하지만 이제 AI는 실제 환경을 인식하고, 스스로 판단하며, 물리적 행동을 수행하는 단계로 진화하고 있습니다.
그러나 산업 현장처럼 물리적 변수가 끊임없이 변화하고 다양한 임무가 동적으로 생성되는 환경에서는 다음이 필요합니다.
- 상황 판단 → 계획 생성 → 장비 제어 → 피드백 → 재계획의 전체 루프를 자동 수행
- 예측 불가능한 값(사람·장비·환경 변화)에 실시간 적응
- 고정된 규칙 기반 로직을 넘어서는 고차원적 추론

이런 시스템을 Physical AI(AI가 물리 환경에서 행동을 실행하는 시스템)라고 부르고, 그 중심에는 Agentic AI(스스로 의도를 설정하고 도구·API·센서·로봇을 활용해 목표를 수행하는 AI)가 존재합니다. 이 글에서는 Agentic AI, IoT, Robotics의 융합을 통해 Physical AI를 구현한 자율 산업 안전 로봇 시스템의 아키텍처와 핵심 기술을 심층적으로 살펴보겠습니다.
1.2 프로젝트 소개
산업 현장은 복잡성, 위험성, 예측 불가능성이 공존하는 대표적인 Real-World AI 도메인입니다. 산업 현장에서는 고온의 용광로, 유독 가스가 누출될 수 있는 화학 시설, 화재 위험이 높은 저장 구역 등 사람이 직접 접근하기 어렵거나 위험한 공간이 존재합니다. 전통적으로는 이러한 위험을 감수하고 작업자가 정기적으로 순찰하거나, 고정된 센서와 CCTV에 의존해왔습니다. 하지만 고정 센서는 사각지대가 있고, 정기 순찰은 실시간 대응이 어렵습니다. 더 중요한 것은 예측하지 못한 상황에서 유연하게 대응할 수 없다는 점입니다. 사전에 프로그래밍된 로직만으로는 복잡하고 예측 불가능한 산업 환경의 다양한 위험 상황을 모두 대처할 수 없습니다.

이번 포스팅에서는 Amazon Bedrock AgentCore, AWS IoT 서비스, Robotics, 그리고 Edge AI를 결합하여 구축한 차세대 산업 안전 관리 로봇 아키텍처를 소개합니다. 이 프로젝트는 25년 10월에 AWS AI x Industry Week 2025에서 전시된 솔루션으로, 중앙대학교 최종원 교수님의 VILab과 AWS의 솔루션즈 아키텍트(SA)가 협업하여, Agentic AI가 IoT·로봇·비전·제어를 조율하여 실제 산업 환경에서 안전 관리를 수행하는 구조를 구현했습니다.
실제 데모는 영상으로 확인할 수 있습니다.
지능형 로봇 시스템이 위험 지역을 자율적으로 순찰하며 데이터를 수집하고 엣지 추론을 수행하는 동시에, AI 에이전트가 이 정보를 종합적으로 분석하여 순찰 경로와 대응을 실시간으로 제어합니다. 이를 통해 인간의 접근이 어렵거나 위험한 산업 환경에서 사고 예방률과 대응 속도가 크게 향상됩니다. 이는 단순히 로봇이 명령을 수행하는 것을 넘어, Agentic AI가 상황을 이해하고, 계획을 수립하며, 실제 세계에서 자율적으로 행동하는 시스템입니다.
2. 아키텍처 개요
이 시스템은 Agentic AI, IoT, Robotics를 통합한 클라우드 네이티브, 이벤트 기반으로 설계되었습니다. 핵심은 지능형 의사결정과 실시간 물리적 대응을 동시에 달성하는 것입니다. 이를 위해 엣지와 클라우드의 장점을 결합한 하이브리드 아키텍처를 채택했습니다. 클라우드에서는 복잡한 추론과 의사결정을, 엣지에서는 밀리초 단위의 즉각적인 위험 감지를 수행합니다. 이러한 분산 처리를 통해 지능적이면서도 실시간으로 반응하는 시스템을 구현할 수 있습니다.
2.1 동작 시나리오
1. 사용자의 요청: “공장의 위험 상황이 있는지 순찰해줘”
2. 에이전트 동작: 로봇을 정해진 위치로 이동시키기 위해 순차적으로 제어 명령어 전송
3. 로봇 동작: 카메라로 캡처된 데이터를 엣지 추론 하여, 화재 / 연기 / 사람의 위험 제스처 등을 인식
- 위험 상황을 감지하면, 즉시 조치를 취하기 위해 미리 정의해둔 로봇의 특정 동작 수행
- 추론 결과를 에이전트로 전송

4. 에이전트 동작: 로봇으로 부터 받은 추론 결과와 메트릭 정보를 바탕으로 종합 보고서 작성
5. 모니터링: 관리자는 작성된 종합 보고서와 실시간 대시보드를 통해 로봇의 자율 순찰 정보 확인
이를 구현하기 위해 시스템을 크게 Cognitive Layer(인지 계층), Integration Layer(통합 계층), Physical Layer(물리 계층)으로 구성했습니다. 이 세 개의 계층이 유기적으로 연결되어 생각하고, 계획하고, 행동하는 완전한 자율 시스템을 구성합니다.
2.2 Cognitive Layer(인지 계층)
이 계층에서는 Strands Agents SDK로 구현된 Agentic AI가 두뇌 역할을 합니다. LLM 기반의 AI 에이전트가 센서 데이터, 비디오 피드, 사용자의 자연어 명령을 종합적으로 분석하여 상황을 이해하고 대응 전략을 수립합니다.
- Agentic AI for Autonomous Robotics
- LLM 기반 자율성: 사전 프로그래밍된 로직을 넘어선 지능적 의사결정 지원
- 동적 계획: 센서 데이터, 비디오 분석, 사용자 요청을 통합하여 복잡한 상황을 해석하고 순찰 경로를 계획
- 완전 관리형 런타임 배포: Agentic AI 시스템이 Amazon Bedrock AgentCore Runtime 환경에 배포되어, 서버리스 런타임으로 유연하게 운영됩니다.
2.3 Integration Layer(통합 계층)
Model Context Protocol(MCP)을 통해 AI 에이전트의 의도를 구체적인 로봇 명령으로 변환합니다. AWS Lambda 기반의 MCP 도구가 이 역할을 수행하며, 자연어로 된 지시사항을 로봇이 실행할 수 있는 제어 신호로 변환합니다.
- Natural Language Command Interface
- 지능적 대화형 제어: 사용자 요청의 의도를 인식하고 구조화된 명령으로 변환함으로써, 직관적인 로봇 제어 가능 (예: “저장 구역을 순찰해”)
- MCP 프로토콜: AI Agent와 로봇 하드웨어 간의 표준화되고 확장 가능한 인터페이스로 자연어가 정확한 로봇 행동에 직접 매핑되도록 보장
- 일원화된 MCP 도구 관리: MCP 도구는 AWS Lambda로 구현되어 확장 가능하고, Amazon Bedrock AgentCore Gateway를 통해 중앙 집중형으로 관리됩니다.
또한 수집된 로봇 데이터를 원격 모니터링 하기 위한 대시보드도 제공합니다.
- Data Integration & Visualization
- 중앙화된 데이터 통합: AWS IoT SiteWise가 로봇 텔레메트리, 센서 메트릭, 시스템 상태를 집계
- 통합 대시보드: Amazon Managed Grafana가 실시간 운영 가시성 제공
2.4 Physical Layer(물리 계층)
AWS IoT Core와 IoT Greengrass를 통해 실제 로봇 하드웨어를 제어하고, 엣지에서 실시간 AI 추론을 수행합니다. 로봇이 실세계 행동을 위한 AI 에이전트의 물리적 구현체로 작동하여, 이 계층에서 디지털 지능이 물리적 행동으로 구현됩니다.
- IoT-Enabled Robotics & Edge Intelligence
- 보안 디바이스 통신: IoT Core가 로봇 플릿과 클라우드 간의 양방향 데이터 흐름 관리
- 엣지-클라우드 하이브리드 아키텍처: IoT Greengrass가 저지연 엣지 추론을 가능하게 하고, 클라우드가 심층 분석을 수행하는 형태의 분산 추론으로 응답 시간과 계산 효율성 최적화
- 실시간 비디오 스트리밍: Amazon Kinesis Video Streams가 클라우드 기반 분석을 위한 라이브 영상 제공
3. Cognitive Layer: 생각하고 계획하는 AI 에이전트

3.1 Agentic AI의 핵심 개념
전통적인 로봇 시스템은 “IF-THEN” 방식의 규칙 기반 프로그래밍에 의존합니다. 하지만 산업 환경은 예측할 수 없는 상황으로 가득합니다. 사전에 모든 시나리오를 프로그래밍하는 것은 사실상 불가능합니다. Agentic AI는 사전 프로그래밍된 로직 대신, 상황을 실시간으로 인지하고(Perception), 목표 달성을 위한 계획을 수립하며(Planning), 그에 따라 행동합니다(Action). 이 Perception-Planning-Action 루프가 자율성의 핵심입니다.
예를 들어, “저장 구역을 순찰하고 화재 위험을 확인해줘”라는 간단한 명령을 받았을 때, 에이전트는 아래와 같이 동작합니다.
- 현재 로봇의 배터리 상태를 확인합니다
- 특정 영역까지의 경로를 계획하고, 이동하기 위한 명령어를 로봇으로 전달합니다
- 로봇으로 부터 인식된 정보(사람의 제스처, 상황 인식 등)를 수집합니다
- 사용자에게 로봇의 행동에 대한 피드백 정보를 설명하고 순찰 보고서를 작성합니다
이 모든 것이 단 한 줄의 자연어 명령에서 파생됩니다.
3.2 Strands Agents SDK 구현 및 Amazon Bedrock AgentCore 배포
이 프로젝트에서는 Strands Agents SDK와 Amazon Bedrock의 Claude Haiku 3.5 모델을 사용하여 에이전트 시스템을 구성했습니다. 구축된 Agentic AI 시스템은 Amazon Bedrock AgentCore Runtime에 배포되어 완전 관리형 런타임 환경으로 관리됩니다. 에이전트에게 “당신은 산업 안전을 담당하는 로봇 제어 전문가입니다”라는 역할을 부여하고, 센서 데이터 해석 방법, 위험 상황 판단 기준, 안전 우선 원칙 등을 명확히 정의하면, LLM의 멀티모달 처리 능력에 따라 여러 종류의 정보를 처리합니다.
- 텍스트: 사용자의 자연어 명령
- 이미지: 로봇 카메라의 실시간 영상
- 구조화된 데이터: 로봇의 배터리, 환경의 센서 수치 등
에이전트는 이 모든 정보를 종합하여 상황을 입체적으로 이해합니다.
3.3 자연어에서 로봇 행동으로의 변환
가장 혁신적인 부분은 자연어 명령이 정확한 로봇 행동으로 변환되는 과정입니다. 사용자가 “저장 구역을 순찰하고 화재 위험을 확인해줘”라고 말하면, 에이전트는 환경을 인식하기 위한 추론 과정을 거친 후, MCP를 통해 제어를 위한 명령을 로봇으로 전송합니다. 사용자는 복잡한 명령어나 좌표를 외울 필요 없이, 일상적인 대화 방식으로 로봇을 제어할 수 있습니다.
- 의도 파악: 사용자의 명령어로 부터 의도를 파악합니다.
- 계획 수립: 현재 환경 정보에 대한 정보를 수집하고, 로봇이 수행해야 하는 계획을 수립합니다.
- 도구 호출: 에이전트가 MCP 프로토콜을 통해 로봇을 제어하기 위한 도구를 호출합니다. 해당 도구는 사용자의 명령을 로봇이 이해할 수 있는 시스템 명령어로 변환합니다.
- 제어 명령어 전달: AWS IoT Core를 통해 로봇에게 제어 명령을 전달합니다.
MCP 도구는 AWS Lambda로 구현되고, Amazon Bedrock AgentCore Gateway를 통해 Amazon Bedrock AgentCore Runtime과 통합됩니다. Amazon Bedrock AgentCore Gateway는 AWS Lambda나 REST API로 구현된 도구들을 중앙 집중형으로 통합할 수 있어서, 로봇의 데이터를 수집하고 제어하는 도구(Tool)들을 유연하게 추가 및 관리하기 용이합니다.
3.4 AWS Amplify와 Amazon Cognito로 구현된 웹 인터페이스

웹 인터페이스는 React, TypeScript, AWS Amplify를 사용하여 구축되었습니다. Amazon Cognito를 통한 안전한 사용자 인증과 AWS Amplify의 간편한 백엔드 통합을 활용하여, 사용자가 자연어로 로봇과 상호작용할 수 있는 직관적인 제어 인터페이스를 제공합니다. AWS Amplify에서는 AWS SDK를 활용해 간편하게 Amazon Bedrock AgentCore 클라이언트와 연결하여 에이전트의 스트림 응답을 처리할 수 있습니다. 사용자는 웹 인터페이스를 통해 AI 에이전트가 로봇견을 실시간으로 제어 및 오케스트레이션 하는 모습을 확인할 수 있습니다. 텍스트 입력을 통해 자연어 명령을 내리면, AI 에이전트와 MCP 서버가 명령을 이해하고 로봇이 즉시 해당 임무를 수행하는 과정을 직접 확인할 수 있습니다.
- 에이전트 기반 로봇 제어: AWS Bedrock AgentCore를 활용하여 “위험 구역을 순찰해 줘”와 같은 자연어 명령을 실시간으로 처리하고, 직관적인 인터페이스를 통해 즉각적인 AI 피드백을 제공합니다.
- 보안: Amazon Cognito 기반 사용자 인증과 AWS IAM 권한 관리, JWT 토큰 자동 갱신을 통해 안전하고 끊김 없는 사용자 경험을 보장합니다.
4. Integration Layer: MCP (Model Context Protocol)로 연결하기

4.1 MCP가 로보틱스에 적합한 이유
AI 에이전트와 로봇 하드웨어를 연결하는 것은 생각보다 복잡한 문제입니다. 에이전트의 추상적인 의도를 로봇의 구체적인 모터 제어, 센서 활성화, 경로 계획 등으로 변환해야 합니다. Model Context Protocol(MCP)은 이 문제를 우아하게 해결합니다. MCP는 Anthropic이 제안한 표준 프로토콜로, LLM 기반 에이전트가 외부 도구와 상호작용하는 방식을 정의합니다.
로보틱스 분야에서 MCP가 적합한 이유는 네 가지입니다.
- 표준화된 인터페이스: 에이전트와 로봇 사이에 일관된 통신 방식이 있어 코드 유지보수가 쉽고, 다른 로봇 플랫폼으로 확장하기도 용이합니다.
- 확장 가능성: 새로운 로봇 기능을 추가하려면 단순히 새로운 MCP 도구를 정의하면 됩니다. 에이전트의 핵심 로직을 수정할 필요가 없습니다.
- 타입 안전성: 각 도구는 스키마로 정의되어 있어, 잘못된 파라미터가 로봇에 전달되는 것을 사전에 방지합니다. 이는 안전이 중요한 산업 환경에서 필수적입니다.
- 멀티 벤더 지원: MCP는 특정 로봇 제조사에 종속되지 않는 추상화 계층을 제공하므로, 다양한 로봇을 동일한 에이전트로 제어할 수 있습니다.
4.2 AWS Lambda 기반 MCP 서버 구현
이 프로젝트에서는 AWS Lambda를 사용하여 MCP 서버를 구현했습니다. Lambda의 서버리스 특성 덕분에 인프라 관리 부담 없이 확장 가능한 통합 계층을 구축할 수 있었습니다. MCP 서버는 도구(Tool)의 집합으로 구성됩니다. 각 도구는 특정 로봇 기능을 추상화합니다. 에이전트는 이 도구들을 조합하여 복잡한 작업을 수행합니다. 아래는 자연어로 로봇을 제어하기 위한 도구 스키마의 예시 입니다.
AWS Lambda 함수는 에이전트로부터 도구 호출 요청을 받으면, 이를 적절한 IoT Core 메시지로 변환하여 로봇에 전달합니다. 그리고 로봇의 응답을 기다렸다가 에이전트에 반환합니다.
4.3 핵심 MCP 도구 설계
프로젝트에서 구현한 주요 도구는 아래와 같습니다.
command: 로봇을 직접 컨트롤하기 위한 핵심 도구입니다. action 파라미터로 로봇의 동작명을 전달하고, message 파라미터로 로봇이 전달할 메시지를 지정합니다. 에이전트가 로봇에게 특정 행동을 지시할 때 사용됩니다.get_robot_detection: 로봇의 최신 감지 정보를 조회합니다. 긴급 상황(emergency_situation), 폭발(explosion), 화재(fire), 쓰러진 사람(person_down) 등의 감지 데이터와 감지된 이미지의 S3 경로를 반환합니다.get_robot_gesture: 로봇의 최신 제스처 인식 정보를 조회합니다. 감지된 사람이 어떤 제스처를 취하고 있는지와 해당 제스처 이미지의 S3 경로를 반환합니다.get_robot_feedback: 로봇의 행동 및 명령 실행 결과에 대한 피드백을 조회합니다. 명령이 성공적으로 수행되었는지 확인할 때 사용됩니다.analyze_robot_image: 로봇이 촬영한 이미지를 분석합니다. 감지된 객체, 환경의 물리적 상태, 시각적으로 확인되는 요소들을 객관적으로 분석하여 반환합니다.wait_for_seconds: 에이전트가 지정된 시간(초) 동안 로봇이 대기하도록 합니다. “3초 대기”, “5초 기다려”, “10초 후에 확인” 등의 요청 시 사용됩니다.
4.4 비동기 통신 패턴
로봇 제어에서 중요한 것은 비동기 통신 패턴입니다. 로봇이 명령을 수행하는 데는 시간이 걸립니다. 순찰 명령을 내린 후 목적지에 도착하기까지 수 분이 소요될 수 있습니다. 이를 해결하기 위해 Amazon SQS를 활용한 비동기 응답 시스템을 구축했습니다. MCP 게이트웨이가 명령을 IoT Core로 전송한 후, 별도의 AWS Lambda 함수가 로봇의 응답을 SQS 큐로 전달합니다. 에이전트는 이 큐를 폴링하여 작업 완료를 확인합니다. 이를 통해 에이전트는 로봇의 응답을 기다리는 동안 다른 작업을 처리하거나, 사용자의 추가 명령에 응답할 수 있습니다.
5. Physical Layer: AWS IoT로 구현하는 로봇 제어
5.1 AWS IoT Core: 로봇과 클라우드의 안전한 연결
Physical AI의 핵심은 디지털 지능을 물리적 행동으로 변환하는 것입니다. AWS IoT Core는 이를 위한 안전하고 확장 가능한 통신 인프라를 제공합니다.
MQTT 프로토콜을 기반으로 하는 IoT Core는 로봇과 클라우드 간의 양방향 실시간 통신을 가능하게 합니다. 각 통신 채널은 MQTT의 토픽(Topic)으로 구분됩니다.
- command 토픽: 클라우드에서 로봇으로 제어 명령을 전송합니다. 순찰 지시, 긴급 정지, 센서 활성화 등의 명령이 이 토픽을 통해 전달됩니다.
- status 토픽: 로봇이 자신의 상태를 주기적으로 보고합니다. 현재 위치, 배터리 잔량, 진행 중인 작업 등을 1초마다 업데이트합니다.
- telemetry 토픽: 센서 데이터를 스트리밍합니다. 온도, 가스 농도, 진동 센서 등의 측정값이 실시간으로 클라우드로 전송됩니다.
- alert 토픽: 위험 상황 감지 시 즉시 알림을 전송합니다. 화재, 가스 누출, 위험한 작업자 제스처 등이 감지되면 이 토픽으로 긴급 메시지가 전달됩니다.
5.2 Device Shadow: 로봇 상태의 디지털 트윈
AWS IoT의 Device Shadow 기능은 로봇의 디지털 트윈을 클라우드에 유지합니다. Shadow는 두 가지 상태를 포함합니다.
- reported 상태는 로봇이 실제로 보고한 현재 상태입니다. 실제 위치, 실제 센서 값, 실제 배터리 잔량 등이 여기에 기록됩니다.
- desired 상태는 클라우드가 로봇에 원하는 목표 상태입니다. 목표 순찰 경로, 활성화해야 할 감지 모드 등이 여기에 설정됩니다.
로봇은 주기적으로 desired 상태를 확인하고, reported 상태와 차이가 있으면 그 격차를 줄이기 위해 행동합니다. 이는 선언적(declarative) 제어 모델로, 복잡한 로봇 제어를 단순화합니다. 네트워크 연결이 일시적으로 끊겨도, Shadow에 저장된 명령은 연결이 복구되면 자동으로 로봇에 전달됩니다. 이는 산업 환경의 불안정한 네트워크에서도 안정적인 제어를 보장합니다.
5.3 로봇 컨트롤러: 명령 실행 엔진
AWS Lambda 함수는 MCP 게이트웨이로부터 받은 추상적인 명령을 구체적인 로봇 제어 신호로 변환하여 IoT Core를 통해 명령을 전송합니다. 이렇게 직접 제어 메커니즘을 제공하는 이유는 Agentic AI를 거치지 않고도 긴급 상황에서 빠른 로봇 제어를 가능하게 하기 위함입니다. 동작 과정은 아래와 같습니다.
- 해당 action에 맞는 로봇 동작 코드를 매핑합니다
- 로봇에 전송할 JSON 페이로드를 구성합니다
- IoT Core를 통해 로봇의 command 토픽으로 명령을 전송합니다
- 실행 결과를 CloudWatch에 로깅합니다
- 클라이언트에 실행 결과 상태를 반환합니다
5.4 피드백 매니저: 이벤트 기반 응답 처리
이 시스템은 로봇에서 IoT Core로 전송되는 데이터를 수신하여 SQS FIFO 큐로 전달하기 위해 AWS Lambda 함수를 사용합니다. AWS Lambda 함수는 로봇으로부터 오는 모든 응답과 이벤트를 처리합니다. IoT Core Rules를 통해 특정 토픽의 메시지가 이 함수로 라우팅됩니다. 이 시스템에는 아래와 같은 AWS Lambda 함수들을 제공합니다.
- Detection Manager: 로봇의 위험 상황 감지 /인식 데이터 수집
- Feedback Manager: 로봇 상태 및 센서 데이터, 작엽 결과 실시간 수집
- Gesture Manager: 사람의 제스처 수집
동작 과정은 아래와 같습니다. 이와 같은 이벤트 기반 아키텍처는 시스템의 반응성과 확장성을 동시에 달성합니다.
- IoT Core에서 MQTT 메시지 수신 (IoT Rule에 의해 Lambda 자동 호출)
- 메시지를 SQS FIFO 큐로 전달하며 메타데이터 추가 (타임스탬프, 소스 등)
- FIFO 큐의 ContentBasedDeduplication을 통한 중복 제거
- 순차적 처리 보장 및 메시지 그룹별 순서 보장
6. Edge Intelligence: AWS IoT Greengrass로 구현하는 실시간 AI 추론
6.1 엣지 AI의 필요성
화재는 몇 초 안에 확산될 수 있습니다. 작업자가 위험한 제스처를 취하는 순간을 놓치면 사고로 이어집니다. 이러한 상황에서 밀리초 단위의 응답 시간이 생명을 구할 수 있습니다. 모든 센서 데이터와 비디오를 클라우드로 전송하여 분석하면 네트워크 지연으로 인해 대응이 늦어집니다. 또한 대역폭도 문제입니다. 고해상도 비디오를 24시간 스트리밍하는 것은 비용 효율적이지 않습니다.
엣지 AI는 이 문제를 해결합니다. 로봇 자체에서 AI 추론을 수행하여 위험을 즉시 감지하고, 중요한 이벤트만 클라우드로 전송합니다. AWS IoT Greengrass는 엣지 디바이스와 클라우드를 연결하는 플랫폼 역할을 제공하며, 로컬 컴퓨팅과 디바이스 간 통신을 통해 지능적이고 자율적인 엣지 시스템을 구축할 수 있게 해줍니다.
6.2 엣지-클라우드 협업 패턴
엣지와 클라우드에서 각각 추론 하도록 하이브리드 아키텍처로 구성하면, 각자의 장점을 살려 협업할 수 있습니다.
- 엣지 추론 (IoT Greengrass)
- 엣지 추론을 통한 실시간 위험 감지 (< 100ms)
- 위험에 따라 즉시 알림 전송
- 로컬 데이터 필터링 (중요한 것만 클라우드로)
- 네트워크 단절 시에도 기본 기능 유지
- 클라우드 추론 (Amazon Bedrock 기반의 Agentic AI)
- 복잡한 상황 종합 분석
- 여러 로봇의 데이터 통합
- 대응 전략 수립 (순찰 경로 재조정, 추가 로봇 파견 등)
- 장기 패턴 학습 및 예측
예를 들어, 엣지에서 화재를 감지하면 즉시 알림을 보냅니다. 동시에 클라우드의 에이전트는 해당 구역의 과거 온도 데이터, 인근 로봇의 위치, 대피 경로 상태 등을 종합 분석하여 “로봇 B를 해당 구역으로 파견하고, 로봇 C는 대피 경로를 확보하라”는 전략을 수립할 수 있습니다.
6.3 Safety Detector: 엣지에서 실행되는 위험 감지 시스템
로봇에 배포되는 Greengrass 컴포넌트를 통해 엣지 추론을 수행합니다. 이 시스템에서는 YOLOv8 기반으로 학습된 모델을 사용하여 실시간으로 세 가지 위험을 감지합니다.
- 연기(Smoke) – 연기 인식을 통한 조기 화재 감지
- 화재(Fire) – 직접적인 불꽃 및 화재 감지
- 사람 쓰러짐(Person Down) – 쓰러지거나 부상당한 인원 감지
학습된 모델은 실시간 추론을 위해 ONNX 형식을 사용하여 엣지 디바이스에 배포하도록 최적화되었습니다. 로봇의 카메라가 초당 30프레임을 캡처하면, Safety Detector는 설정된 간격(기본 2초)마다 프레임을 분석합니다. 감지 신뢰도가 70% 이상이고, 연속해서 3회 이상 감지되면 실제 위험으로 판단합니다. 위험이 확인되면 즉시 두 가지 행동을 수행합니다:
- IoT Core로 즉시 알림 전송: 에이전트가 긴급 대응할 수 있도록
- 해당 순간의 이미지를 S3에 업로드: 추후 분석과 기록을 위해
이 모든 과정이 100밀리초 이내에 로봇 내부에서 완료됩니다.
6.4 Greengrass 배포 및 관리
Greengrass의 클라우드 기능으로 중앙화된 배포 관리 기능을 제공합니다. AWS 콘솔에서 새로운 AI 모델이나 설정을 배포하면, 등록된 모든 로봇에 자동으로 업데이트됩니다. 그리고 로봇 모델에 따라서 버전을 세분화하여 최적화된 배포 버전 환경을 관리할 수 있습니다. 모델 업데이트도 간단합니다. 새로운 모델을 학습하고, S3에 업로드한 후, Greengrass 컴포넌트의 새 버전을 게시하면 됩니다. 각 로봇을 개별적으로 방문할 필요가 없습니다. 설정도 유연하게 조정할 수 있습니다. 감지 임계값, 감지 간격, 알림 조건 등을 컴포넌트 설정으로 관리하여, 현장 상황에 맞게 실시간으로 튜닝할 수 있습니다.
7. 실시간 비디오 스트리밍: Amazon Kinesis Video Streams
7.1 실시간 양방향 비디오 통신
로봇이 수집하는 가장 중요한 데이터 중 하나는 실시간 영상입니다. AI 에이전트가 현장 상황을 정확히 이해하고, 운영자가 원격에서 상황을 모니터링하려면 라이브 비디오 피드가 필수적입니다.
Amazon Kinesis Video Streams(KVS)의 WebRTC 기능은 로봇과 운영자 간의 실시간 양방향 비디오 통신을 가능하게 합니다. 이를 통해 운영자는 로봇의 현장 상황을 실시간으로 모니터링하고, 필요시 음성 명령이나 제어 신호를 즉시 전달할 수 있어 원격 운영의 효율성과 안전성을 크게 향상시킵니다. KVS의 WebRTC Ingestion with Multi-viewer 기능을 활용하면 더욱 효율적인 비디오 관리가 가능합니다. 특히 대역폭 최적화 측면에서 큰 장점을 제공하는데, 로봇에서는 한 번만 업로드하면 클라우드에서 자동으로 다중 뷰어에게 배포하므로 네트워크 부하를 크게 줄일 수 있습니다. 동시에 저지연 스트리밍을 유지하면서도 모든 영상 데이터를 자동으로 저장하여, 사후 분석이나 증거 보전이 필요한 상황에서도 완벽하게 대응할 수 있습니다.
7.2 이벤트 기반 지능형 비디오 분석
WebRTC를 통해 실시간으로 수집되는 영상 데이터는 단순한 모니터링을 넘어 지능적인 안전 관리 시스템의 핵심이 됩니다. AI 기반 제스처 인식 기술을 활용하여 작업자의 움직임과 자세를 실시간으로 분석하고, 위험 상황을 자동으로 감지할 수 있습니다.
이 프로젝트에서는 이벤트 기반 비디오 분석을 구현했습니다:
- 평상시: 엣지에서 기본 감지만 수행하고, 비디오는 WebRTC로 스트리밍만 합니다 (클라우드 분석 없음).
- 위험 감지 시: 엣지에서 위험을 감지하면, 로봇은 즉각적으로 구조 조치를 실행하도록 합니다. 동시에 위험 상황 판단 결과와 해당 영상의 위치 정보는 클라우드의 Bedrock 에이전트에 전달하여 상세 분석을 수행합니다.
- 사용자 요청 시: “A구역의 현재 영상을 보여줘”라는 명령이 오면, 해당 로봇의 KVS Stream에서 **** 최근 비디오 프레임을 추출하여 에이전트에 제공합니다.
이러한 아키텍처는 특히 다중 로봇 환경에서 중앙 관제실 운영 시 매우 유용하며, 각 로봇의 영상을 실시간으로 모니터링하면서도 필요시 과거 영상을 즉시 검색하고 분석할 수 있는 통합 솔루션을 제공합니다.
8. 데이터 통합 및 시각화
8.1 AWS IoT SiteWise: 산업 데이터의 중앙 집중화
여러 로봇이 동시에 작동하면서 생성되는 방대한 데이터를 관리하고 모니터링하는 것은 복잡합니다. AWS IoT SiteWise는 산업 환경에 특화된 데이터 통합 플랫폼으로, 이 문제를 해결합니다.
- 자산 모델링: 각 로봇을 자산으로 정의하고, 속성(위치, 배터리, 센서 등)을 구조화합니다. 여러 로봇을 그룹화하여 플릿 단위로 관리할 수도 있습니다.
- 시계열 데이터 집계: 온도, 가스 농도 등의 센서 값은 시간에 따라 변하는 시계열 데이터입니다. SiteWise는 이를 효율적으로 저장하고, 집계 함수(평균, 최대, 최소 등)를 제공합니다.
- 이벤트 감지: 센서 값이 임계값을 초과하면 자동으로 알림을 생성할 수 있습니다. 예를 들어 온도가 50도를 넘으면 경고를 발생시킵니다.
8.2 Amazon Managed Grafana: 실시간 운영 대시보드
Amazon Managed Grafana는 통합 모니터링 대시보드를 제공합니다. 운영자는 하나의 화면에서 모든 로봇의 상태를 실시간으로 확인할 수 있습니다.
- 플릿 뷰: 각 로봇의 상태(순찰 중, 대기 중, 충전 중 등)가 표시 됩니다.
- 센서 데이터 시각화: 시간에 따른 로봇의 CPU, 메모리 상태, 잔여 배터리를 그래프로 표시합니다. 비정상 패턴을 시각적으로 쉽게 식별할 수 있습니다.
- AI 에이전트 활동: 에이전트가 내린 결정과 그 이유를 로그로 표시합니다. “A구역의 온도 상승으로 인해 로봇 2를 파견함”과 같은 정보를 추적할 수 있습니다.
- 알림 패널: 최근 위험 감지 이벤트, 배터리 부족 경고 등이 실시간으로 업데이트됩니다.
9. 결론

이 프로젝트는 Agentic AI가 Physical AI로 나아가는 실용적 구현으로, 디지털 지능이 물리적 현실과 만나는 지점을 탐구했습니다. 클라우드의 LLM이 고수준 추론과 계획을 담당하고, 엣지의 perception 모델이 실시간 환경 인식을 수행하는 하이브리드 구조를 통해, Agentic AI의 고도화된 추론 능력과 AWS IoT의 강력한 연결성이 결합되었습니다. 이를 통해 로봇이 단순한 기계를 넘어 상황을 이해하고, 계획을 수립하며, 물리적 행동을 수행하는 실용적 시스템으로 발전할 수 있음을 보여줍니다.
핵심 교훈
- Agentic AI는 예측 불가능한 환경에서 진가를 발휘합니다. 사전 프로그래밍으로는 대처할 수 없는 복잡한 상황을 지능적으로 해결합니다.
- 엣지-클라우드 하이브리드는 필수입니다. 실시간 perception과 복잡한 추론을 동시에 달성하는 효과적인 방법입니다. 각 계층이 자신의 강점을 발휘하는 역할 분담을 통해 전체 시스템의 효율성과 지능성을 극대화할 수 있습니다.
- 표준화된 프로토콜(MCP)은 확장성의 열쇠입니다. AI와 로봇 사이의 명확한 추상화 계층이 시스템을 유연하고 확장 가능하게 만들며, 다양한 로봇 플랫폼과 AI 모델을 손쉽게 교체하고 통합할 수 있게 합니다.
다른 사업으로의 확장 가능성
이 아키텍처는 산업 안전을 넘어 다양한 분야에 적용할 수 있습니다. 핵심은 Agentic AI + IoT + Robotics의 조합이 물리적 세계와 상호작용이 필요한 모든 분야에 적용 가능하다는 점입니다.
- 물류 창고: 재고 관리, 자동 입출고, 물품 위치 추적을 자율 로봇으로 수행할 수 있습니다. “A선반의 재고를 확인하고 부족한 품목을 보고해줘”와 같은 자연어 명령으로 제어 가능합니다.
- 의료 시설: 병원 내 물품 배송, 소독 작업, 환자 모니터링 등을 로봇이 자율적으로 수행할 수 있습니다. “3층 중환자실로 약품을 배송해줘”와 같은 명령이 가능합니다.
- 스마트 시티: 공공 안전 모니터링, 도로 상태 점검, 환경 데이터 수집 등을 자율 로봇이 담당할 수 있습니다.
AWS가 제공하는 차별화된 가치
- 완전 관리형 서비스: 인프라 관리 부담 없이 핵심 로직에 집중할 수 있습니다.
- 통합 생태계: Amazon Bedrock AgentCore, IoT Core, IoT Greengrass, IoT SiteWise, Kinesis Video Streams 서비스가 매끄럽게 연동되어, 복잡한 시스템 통합 부담을 크게 줄여줍니다.
- 엔터프라이즈급 안정성: 산업 환경에 필요한 엔터프라이즈급 보안, 안정성, 규정 준수를 기본으로 제공하며, 완전 관리형 서버리스 아키텍처로 자동 스케일링되어 로봇이 늘어나도 인프라 관리 부담이 증가하지 않습니다.
Physical AI를 향한 여정
Agentic AI가 디지털 공간을 넘어 물리적 세계에서 인간과 협력하는 시대가 열리고 있습니다. 현재의 아키텍처는 Physical AI로 가는 과정에서 중요한 기반이 되며, 여기서 더 나아가 VLA(Vision-Language-Action) 모델과 같은 Robot Foundation Model을 활용한 시스템으로 진화할 수 있습니다. 이러한 모델들은 시각 정보 해석, 자연어 명령 이해, 물리적 행동을 보다 긴밀하게 통합하여 고수준 계획과 중간 수준 제어를 담당하고, 검증된 제어 시스템과 협력하는 방식으로 발전할 것입니다. 이를 통해 로봇은 시각 정보를 해석하고 자연어 명령을 이해하며 물리적 행동으로 연결하는 고도화된 자율 시스템으로 진화할 수 있을 것입니다. 이 프로젝트가 여러분의 Physical AI 여정에 영감이 되기를 바랍니다.
10. 참고 문서
- GitHub 저장소: sample-agentic-ai-robot
- Amazon Bedrock AgentCore: 공식 문서
- AWS IoT Greengrass 시작하기: 공식 문서
