게시된 날짜: Nov 30, 2021
데이터 엔지니어 및 분석가가 페타바이트 규모의 데이터 분석을 클라우드에서 쉽고 비용 효율적으로 수행하도록 도와주는 Amazon EMR의 새로운 서버리스 옵션 Amazon EMR Serverless 평가판을 발표하게 되어 기쁩니다. Amazon EMR은 Apache Spark, Apache Hive, Presto와 같은 오픈 소스 분석 프레임워크를 사용해 대규모 배포 데이터 처리 작업, 상호 작용 SQL 쿼리, 기계 학습 애플리케이션 등을 실행하려는 고객에게 적합한 클라우드 빅 데이터 플랫폼입니다. EMR Serverless가 있으면 고객은 클러스터를 구성, 최적화, 보안 처리하는 과정 없이 클릭 몇 번으로 이러한 프레임워크를 사용하여 구축된 애플리케이션을 실행할 수 있습니다. EMR Serverless는 자동으로 애플리케이션이 요구하는 컴퓨팅 및 메모리 리소스를 프로비저닝하고 크기를 조정하며 고객은 사용한 리소스에 대해서만 지불합니다.
EMR Serverless를 통해 애플리케이션에 사용할 오픈 소스 프레임워크 및 버전을 지정하고 API, EMR Studio 또는 JDBC/ODBC 클라이언트를 사용하는 작업을 제출할 수 있습니다. EMR Serverless는 요청을 처리하는 데에 필요한 컴퓨팅 및 메모리 리소스를 자동으로 결정 및 프로비저닝하여, 서로 다른 단계에서 요구 사항 변경에 따라 리소스를 확대 또는 축소합니다. 예를 들어, 데이터를 처리하기 위해 첫 5분 동안 두 개의 실행기가, 다음 10분 동안 열 개의 실행기가, 마지막 20분 동안에는 다섯 개의 실행기가 필요한 Spark 작업이 있습니다. EMR Serverless는 리소스를 필요한 만큼 자동으로 프로비저닝 및 조정하여 시간이 지나도 데이터 볼륨 변화에 대해 걱정할 필요가 없습니다. 또한 사용한 리소스에 대해서만 지불하기 때문에 EMR Serverless는 페타바이트 규모의 분석 실행에 비용 효율적입니다. 고객은 EMR 스튜디오를 사용할 때 작업 실행, 작업 기록 검토, 익숙한 오픈 소스 도구를 사용한 디버깅 작업 등을 확인할 수 있습니다.