스트리밍 데이터의 지속적인 처리를 위한 Amazon EMR Serverless 스트리밍 작업 소개
Amazon EMR Serverless는 데이터 엔지니어 및 데이터 과학자가 클러스터나 서버를 구성, 관리 및 확장할 필요 없이 오픈 소스 빅 데이터 분석 프레임워크를 실행할 수 있도록 해주는 Amazon EMR의 서버리스 옵션입니다. AWS는 스트리밍 데이터를 지속적으로 분석하고 처리할 수 있는 Amazon EMR Serverless의 새로운 스트리밍 작업 모드를 발표했습니다.
스트리밍은 기업이 센서, IoT 디바이스, 웹 로그 같은 데이터 소스에서 지속적인 인사이트를 확보하는 데 필수적인 요소가 되었습니다. 그러나 고가용성, 장애에 대한 복원력, 스트리밍 서비스와의 통합과 같은 요구 사항으로 인해 스트리밍 데이터 처리는 어려운 작업이 될 수 있습니다. Amazon EMR Serverless 스트리밍 작업은 이러한 문제를 해결할 수 있는 기능을 기본 제공합니다. 정상 AZ로 자동 페일오버하여 다중 AZ(가용 영역) 복원력을 통해 고가용성을 제공합니다. 또한 장애 시 자동 작업 재시도와 로그 관리 기능(로그 순환, 압축 등)을 통해 복원력을 높여 작업 실패로 이어질 수 있는 로그 파일 누적을 방지합니다. 아울러 Amazon EMR Serverless 스트리밍 작업은 자체 관리형 Apache Kafka 클러스터, Amazon Managed Streaming for Apache Kafka와 같은 스트리밍 서비스의 데이터 처리를 지원하며, 이제 새로운 기본 제공 Amazon Kinesis Data Streams 커넥터를 사용하여 Amazon Kinesis Data Streams와 통합되므로 엔드 투 엔드 스트리밍 파이프라인을 손쉽게 구축할 수 있습니다.
Amazon EMR Serverless 스트리밍 작업은 EMR 릴리스 버전 7.1.0 이상에서 정식 버전으로 제공되며, 미국 동부(버지니아 북부, 오하이오), 미국 서부(오레곤), 유럽(스톡홀름, 파리, 프랑크푸르트, 아일랜드, 런던), 남아메리카(상파울루) 및 아시아 태평양(도쿄, 서울, 싱가포르, 뭄바이, 시드니) AWS 리전에서 사용할 수 있습니다. 시작하려면 Amazon EMR Serverless 사용 설명서의 Amazon EMR Serverless 스트리밍 작업 페이지로 이동하세요.