Amazon Web Services 한국 블로그

Category: Amazon EMR

Amazon EMR Notebooks를 사용한 Python 라이브러리 설치 방법

작년에 AWS는 오픈소스 Jupyter 노트북 애플리케이션 기반의 관리형 노트북 환경인 Amazon EMR Notebooks를 소개했습니다.이 게시물에서는 EMR Notebooks를 사용하여 실행 중인 클러스터에서 직접 노트북 범위 라이브러리를 설치하는 방법을 알아봅니다. 이 기능이 도입되기 전에는 부트스트랩 작업에 의존하거나 사용자 지정 AMI를 사용하여 클러스터를 프로비저닝할 때 EMR AMI로 사전에 패키징되지 않은 추가 라이브러리를 설치해야 했습니다. 이 게시물에서는 EMR Notebooks […]

Read More

Amazon EMR 재구성을 통한 신속한 클러스터 수정

장기 실행 중인 Amazon EMR 클러스터를 사용하는 개발자 또는 데이터 과학자는 워크로드가 빠르게 변화하는 상황을 접하게 됩니다. 이러한 워크로드의 변화는 종종 클러스터에서 최적화된 실행을 위해 별도의 애플리케이션 구성을 필요로 합니다. 이제 재구성 기능을 사용해서 실행 중인 EMR 클러스터의 구성을 변경할 수 있습니다. EMR 릴리스 emr-5.21.0부터 이 기능을 사용해서 새 클러스터를 생성하거나 각 노드에 수동으로 SSH 접속하지 […]

Read More

Apache Spark용 Amazon EMR 런타임을 통한 질의 성능 최적화하기

Amazon EMR이 발표하는 Apache Spark용 Amazon EMR 실행 시간은 EMR 클러스터에서 기본적으로 활성화되는 Apache Spark를 위해 성능 최적화된 실행 시간 환경입니다. Spark용 EMR 실행 시간은 EMR 5.16보다 최대 32배 빠르며 오픈소스 Spark에 대한 100% API 호환성을 제공합니다. 즉, 워크로드가 더 빠르게 실행되므로 애플리케이션 변경 없이 컴퓨팅 비용을 절감할 수 있습니다. Amazon EMR은 EMR 5.24부터 Spark […]

Read More

[기술 백서] Amazon EMR 마이그레이션 가이드

전 세계의 많은 비즈니스 영역에서 Apache Hadoop 및 Apache Spark 과 같은 새로운 빅 데이터 처리 및 분석 프레임워크를 도입을 시도해 왔으나 이러한 기술을 온프레미스 데이터 레이크 환경에서 운영하기 위해 해결해야 하는 과제들이 있습니다. 뿐만 아니라 현재 배포 공급업체와의 장기적인 문제도 고려가 필요합니다. 이러한 문제들을 다루기 위해 AWS는 Amazon EMR 마이그레이션 가이드 (2019년 6월에 초판 게시)를 […]

Read More

Amazon EC2 스팟 인스턴스를 통한 EMR 기반 Apache Spark 활용 10가지 모범 사례

Apache Spark는 사용 편의성, 빠른 성능, 메모리 및 디스크 사용률과 내결함성 등 다양한 이유로 가장 인기 있는 오픈소스 빅데이터 분석 플랫폼이 되었습니다. 이러한 기능은 인스턴스의 폐기 및 삭제가 가능한 클라우드 컴퓨팅의 개념과 매우 깊은 관련이 있습니다. Amazon EMR은 EC2 인스턴스를 사용하여 방대한 양의 데이터를 쉽고 빠르고 경제적으로 처리할 수 있는 관리형 하둡 프레임워크를 제공합니다. Amazon […]

Read More

AWS Step Functions를 통한 Amazon EMR 작업 관리 기능 출시

AWS Step Functions를 사용하면 애플리케이션에 서버리스 워크플로우 자동화를 추가할 수 있습니다. 워크플로우의 단계는 AWS Lambda 함수, Amazon Elastic Compute Cloud(EC2) 또는 온프레미스 등 어디에서나 실행될 수 있습니다. 워크플로우 구축을 간소화하기 위해 Step Functions는 Amazon ECS, AWS Fargate, Amazon DynamoDB, Amazon Simple Notification Service(SNS), Amazon Simple Queue Service(SQS), AWS Batch, AWS Glue, Amazon SageMaker와 같은 여러 […]

Read More

Amazon EMR, Apache Hudi 추가를 통해 개별 레코드 수준 데이터 관리 기능 출시

Amazon S3에 데이터를 저장하면 규모 조정, 신뢰성 및 비용 효율 면에서 많은 이점이 있습니다. 그 뿐 아니라, Amazon EMR을 활용할 수 있으므로 Apache Spark, Hive 및 Presto와 같은 오픈 소스 도구를 사용하여 데이터를 처리 및 분석할 수 있습니다. 이러한 도구는 강력한 성능을 제공하지만 점진적 데이터 프로세싱과 레코드 수준의 삽입, 업데이트 및 삭제가 필요한 사용 사례를 처리하기에는 여전히 […]

Read More

Amazon EMR 클러스터 탄력성에 따른 Spark 노드 손실 문제 해결 방법

AWS 고객은 Amazon EMR의 클러스터 탄력성을 활용하여 작업량에 따라 사용 인스턴스 수를 조정해서 비용을 절감할 수 있습니다. 특히, EC2 스팟 인스턴스를 사용하면, 빠르게 끝나는 작업에 대해서 80-90%의 저렴한 비용으로 작업을 할 수 있습니다. 또한, Amazon EMR의 오토 스케일링 기능을 통해 고객은 클러스터 사용이나 기타 작업 관련 지표에 따라 클러스터를 동적으로 확장 및 축소 할 수 […]

Read More

Parquet 형식의 EMRFS S3 최적화 커미터를 통한 Apache Spark 쓰기 성능 개선하기

EMRFS S3 최적화 커미터는 Amazon EMR 5.19.0부터 Apache Spark 작업에 사용할 수 있는 새로운 출력 커미터입니다. 이 커미터는 EMRFS(EMR 파일 시스템)을 사용하는 Amazon S3에 Apache Parquet 파일을 쓸 때의 성능을 개선합니다. 이 게시물에서는 최근 성능 벤치마크를 실행하여 신규 최적화된 커미터를 기존 커미터 알고리즘(FileOutputCommitter 알고리즘 버전 1 및 2)과 비교하여 어떻게 Spark 쓰기 성능이 개선되었는지 알아봅니다. […]

Read More

Amazon EMR 기반 Apache Spark 애플리케이션을 위한 성공적인 메모리 관리 모범 사례

빅데이터 세상에서 가장 일반적인 활용 사례는 다양한 데이터 원본으로 부터 방대한 양의 데이터를 수집, 변환, 분석 하는 것입니다. 여러분은 또한 그 데이터를 분석하여 통찰력을 얻어 낼 수도 있습니다. 이러한 대규모의 데이터와 관련된 작업을 하기 위한 가장 대표적인 클라우드 기반의 솔루션이 Amazon EMR입니다. Amazon EMR은 AWS에서 Apache Hadoop 및 Apache Spark 같은 빅 데이터 프레임워크의 실행을 […]

Read More