Amazon EMR

Amazon EMR 기반 Apache Spark

Apache Spark on EMR을 선택해야 하는 이유

Amazon EMR을 사용하면 Apache Spark, Apache Iceberg를 활용하여 개방형 트랜잭션 데이터 레이크를 구축할 수 있습니다. 성능에 최적화된 런타임이 오픈 소스 Spark와 100% API 호환되며, 오픈 소스 제품보다 최대 4.5배 빠른 속도로 실행되고 Iceberg 쓰기 성능은 2.7배 향상되었습니다.

EMR은 Apache Iceberg v3와 Spark 4.0(미리 보기)을 지원하므로 ACID 트랜잭션, 스키마 진화와 같은 기능을 활용할 수 있으며, VARIANT 데이터 유형이나 대규모 반정형 데이터 처리, 데이터 무결성을 위한 ANSI SQL 규정 준수와 같은 기능도 사용할 수 있습니다. EC2의 세분화된 제어가 필요하든, EKS의 컨테이너화된 규모가 필요하든, EMR 서버리스의 단순성이 필요하든, Amazon EMR은 속도, 신뢰성, 데이터 무결성을 제공합니다.

기능 및 이점

Amazon EMR의 성능 최적화된 Apache Spark 런타임은 100% API 호환성을 유지하면서 오픈 소스 버전보다 최대 4.5배 빠른 실행으로 데이터 레이크 워크로드를 가속화합니다. 이 최적화는 Apache Iceberg 운영으로 확장되어 속도와 신뢰성을 모두 요구하는 트랜잭션 데이터 레이크 대비 2.7배 빠른 쓰기 성능을 제공합니다.

Apache Iceberg v3와 Spark 4.0(미리 보기)을 지원하는 EMR은 ACID 트랜잭션, 스키마 진화, 반정형 데이터 처리를 위한 VARIANT 데이터 유형과 ANSI SQL 규정 준수를 포함한 고급 기능을 제공합니다.

Amazon EMR Spark 런타임은 쿼리 계획을 완전히 메모리에서 실행하도록 최적화하여 하드웨어 활용도를 극대화합니다. EMR은 중간 데이터 처리 방식을 간소화하여 리소스 집약적인 기계 학습 워크로드의 결과 도출 시간을 단축하고 더 빠른 반복 작업을 가능하게 합니다.

SQL, Python, Scala를 위한 통합 환경을 제공하는 SageMaker Unified Studio, EMR Studio로 워크플로를 현대화하세요. Amazon Q Developer를 활용하여 최적화된 PySpark 코드를 생성하고 복잡한 실행 계획(DAG) 문제를 실시간으로 해결하세요. 표준 Spark와 달리 EMR은 Persistent Spark UI를 제공하므로 서버리스 애플리케이션 또는 임시 클러스터가 종료된 후에도 작업 로그를 분석하고 디버그할 수 있습니다. 이러한 지속성은 프로덕션 환경의 감사 및 지속적인 성능 튜닝에 매우 중요합니다.

EMR 서버리스는 즉각적인 노트북 환경을 제공하여 운영 마찰을 제거합니다. 더 이상 클러스터를 프로비저닝, 규모 조정, 관리할 필요가 없습니다. Amazon SageMaker Unified Studio 또는 JupyterLab 등, 선호하는 개발 환경을 EMR 서버리스 애플리케이션에 연결하고 쿼리를 시작합니다. Spark용 EMR 런타임은 대화형 코드가 프로덕션 파이프라인과 동일한 엔터프라이즈급 속도로 실행되도록 합니다. 페타바이트 규모의 S3 데이터에서 임시 데이터 검색을 수행하든, 복잡한 특성 엔지니어링 작업을 실행하든, Amazon EMR은 가장 중요한 데이터 과학 워크플로를 가속화하는 데 필요한 원활한 고성능 환경을 제공합니다.

Apache Spark 업그레이드 에이전트는 PySpark 및 Scala 애플리케이션 전반의 API 변경 및 동작 수정을 자동으로 식별합니다. 엔지니어는 MCP(모델 컨텍스트 프로토콜) 호환성을 통해 SageMaker Unified Studio 또는 선택한 IDE에서 직접 업그레이드를 시작할 수 있습니다. 업그레이드 프로세스 중에 에이전트는 기존 코드를 분석하고 특정 변경 사항을 제안하며 엔지니어는 구현 전에 이를 검토 및 승인할 수 있습니다. 에이전트는 데이터 품질 검증을 통해 기능의 정확성을 검증합니다. 에이전트는 현재 Spark 2.4에서 3.5로의 업그레이드를 지원하며 업그레이드 프로세스 전반에서 데이터 처리의 정확도를 유지합니다.

사용 사례

Amazon Kinesis, Apache Kafka에서, 또는 Spark Streaming on EMR의 다른 데이터 스트림에서 실시간 데이터를 사용하고 처리합니다. 내결함성이 지원되는 방식으로 스트리밍 분석을 수행하고, S3 또는 클러스터상 HDFS에 결과를 작성합니다.

EMR 기반 Apache Spark에는 MLlib가 포함되어 있어 다양한 확장 가능한 기계 학습 알고리즘을 사용할 수 있으며, 사용자의 자체 라이브러리를 사용할 수도 있습니다. Spark는 작업 중에 데이터 세트를 인 메모리에 저장함으로써 기계 학습 워크로드에서 흔히 발생하는 반복 쿼리에 뛰어난 성능을 발휘합니다. 모델을 쉽게 훈련하고 모델을 호스팅하도록 Amazon SageMaker Spark를 통해 노트북 인스턴스를 Amazon EMR에 실행한 Apache Spark 클러스터에 연결하면 Amazon SageMaker 기능을 향상시킬 수 있습니다.

짧은 지연 시간과 SQL 또는 HiveQL과의 쿼리를 위해 Spark SQL을 사용합니다. EMR 기반 Spark는 EMRFS를 활용할 수 있으므로, S3에 있는 데이터 세트에 임의 액세스할 수 있습니다. 또한 ODBC 또는 JDBC 연결을 통해 EMR Notebooks, Zeppelin 노트북 또는 BI 도구를 사용할 수 있습니다.

고객 성공 사례

Yelp

Yelp의 광고 타겟팅 팀은 사용자가 광고와 상호 작용할 가능성을 확인할 수 있는 예측 모델을 만듭니다. Amazon EMR 기반 Apache Spark를 사용하여 기계 학습 모델을 교육하는 데 사용할 대량의 데이터를 처리함으로써 Yelp는 매출과 광고 클릭률을 높였습니다.

Washington Post

The Washington Post는 독자의 참여와 만족도를 높이기 위해 Amazon EMR 기반 Apache Spark를 사용하여 웹 사이트의 추천 엔진을 지원하는 모델을 구축합니다. Amazon EMR이 Amazon S3와 강력하게 연결된다는 점을 활용하여 모델을 거의 실시간으로 업데이트합니다.

Krux

Krux는 고객 통찰력을 위한 데이터 관리 플랫폼의 한 부분으로 Apache Spark를 사용하여 많은 기계 학습 및 일반 처리 워크로드를 실행합니다. Krux는 휘발성 Amazon EMR 클러스터를 Amazon EC2 스팟 용량과 함께 사용하여 비용을 절감하고, EMRFS를 통해 Amazon S3를 Apache Spark용 데이터 계층으로 사용합니다.

GumGum

인 이미지 및 인 스크린 광고 플랫폼인 GumGum은 Amazon EMR 기반 Spark를 사용하여 인벤토리 예측, 클릭스트림 로그의 처리, 그리고 Amazon S3에 있는 비정형 데이터의 임시 분석을 수행합니다. Spark를 통한 성능 향상으로 GumGum은 이러한 워크로드에 드는 시간과 비용을 절감했습니다.

Hearst Corporation

다각화된 대형 미디어 및 정보 회사인 Hearst Corporation은 고객에게 200개가 넘는 웹 자산의 콘텐츠를 제공합니다. Hearst의 편집진은 Amazon EMR 기반 Apache Spark Streaming을 사용하여 어떤 기사가 반응이 좋고 어떤 주제가 요즘 추세인지 실시간으로 확인할 수 있습니다.

CrowdStrike

CrowdStrike는 침해 방지를 위한 엔드포인트 보안을 제공합니다. Amazon EMR을 Spark와 함께 사용하여 수백 테라바이트 규모의 이벤트 데이터를 처리하고, 호스트에 대해 더 높은 수준의 행동 설명을 도출합니다. CrowdStrike는 해당 데이터에서 이벤트 데이터를 함께 가져와서 악의적 행동이 존재하는지 확인할 수 있습니다.

Apache Spark on Amazon EMR 시작하기

요금

Amazon EMR 요금에 대해 자세히 알아보기

요금 페이지로 이동하기

콘솔

구축할 준비가 되셨나요?

Amazon EMR 시작하기

Amazon EMR 기반 Apache Spark

Apache Spark on EMR을 선택해야 하는 이유

기능 및 이점

사용 사례

고객 성공 사례