Amazon Web Services 한국 블로그

Category: Amazon EMR

Amazon EMR 클러스터 탄력성에 따른 Spark 노드 손실 문제 해결 방법

AWS 고객은 Amazon EMR의 클러스터 탄력성을 활용하여 작업량에 따라 사용 인스턴스 수를 조정해서 비용을 절감할 수 있습니다. 특히, EC2 스팟 인스턴스를 사용하면, 빠르게 끝나는 작업에 대해서 80-90%의 저렴한 비용으로 작업을 할 수 있습니다. 또한, Amazon EMR의 오토 스케일링 기능을 통해 고객은 클러스터 사용이나 기타 작업 관련 지표에 따라 클러스터를 동적으로 확장 및 축소 할 수 […]

Read More

Parquet 형식의 EMRFS S3 최적화 커미터를 통한 Apache Spark 쓰기 성능 개선하기

EMRFS S3 최적화 커미터는 Amazon EMR 5.19.0부터 Apache Spark 작업에 사용할 수 있는 새로운 출력 커미터입니다. 이 커미터는 EMRFS(EMR 파일 시스템)을 사용하는 Amazon S3에 Apache Parquet 파일을 쓸 때의 성능을 개선합니다. 이 게시물에서는 최근 성능 벤치마크를 실행하여 신규 최적화된 커미터를 기존 커미터 알고리즘(FileOutputCommitter 알고리즘 버전 1 및 2)과 비교하여 어떻게 Spark 쓰기 성능이 개선되었는지 알아봅니다. […]

Read More

Amazon EMR 기반 Apache Spark 애플리케이션을 위한 성공적인 메모리 관리 모범 사례

빅 데이터 세계에서 일반적인 사용 사례 중 하나는 다양한 데이터 원본으로부터 방대한 양의 데이터에 대한  추출, 변환(ET) 및 데이터 분석을 수행하는 것입니다. 때로는 이렇게 한 다음 데이터를 분석하여 통찰력을 얻게 됩니다. 이러한 방대한 데이터를 처리하는 가장 인기 있는 클라우드 기반 솔루션 중 하나는 Amazon EMR입니다. Amazon EMR은 AWS에서 Apache Hadoop 및 Apache Spark 같은 빅 […]

Read More

Amazon EMR의 Amazon S3기반 Apache HBase로의 이관: 가이드라인과 모범 사례

Amazon EMR 버전 5.2.0 이상에서는 Amazon S3기반 Apache HBase를 실행할 수 있습니다. Amazon S3을 Apache HBase용 데이터 스토어로 사용하면 클러스터의 스토리지와 컴퓨팅 노드를 분리할 수 있습니다. 이는 클러스터의 크기를 컴퓨팅 요구 사항에 따라 조정하므로 비용이 절감됩니다. 더이상 전체 데이터세트를 클러스터상의 HDFS에 3벌 복제 저장하는 형태로 비용을 지불하지 않아도 됩니다. 많은 고객들이 데이터 스토리지를 위한 Amazon […]

Read More

Amazon EMR 클러스터 스토리지의 동적 스케일링

Amazon EMR과 같은 관리형 Apache 하둡 환경에서는 클러스터의 스토리지 용량이 가득 찬 경우 손쉽게 대응할 수 있는 솔루션이 없습니다. 이 상황은 고객이 클러스터를 시작할 때 Amazon Elastic Block Store(Amazon EBS) 볼륨을 설정하고 마운트 지점을 구성했기 때문에 발생합니다. 따라서 클러스터가 실행된 후에는 스토리지 용량을 수정하기 어렵습니다. 이를 위한 솔루션은 일반적으로 클러스터에 노드를 추가하고 데이터를 데이터 레이크로 […]

Read More

Amazon SageMaker Notebook에서 (Amazon EMR기반) Apache Spark와의 연동 환경 구축 방법

지난 AWS re:Invent 2017에서 처음 소개된 Amazon SageMaker는 데이터 과학과 머신 러닝 워크플로우를 위한 완전 관리형 서비스를 제공하고 있습니다. 특히 모델을 만드는데 사용되는 Jupyter notebook 인터페이스는 SageMaker에서 대단히 중요한 구성 요소 중 하나입니다. 한편Amazon Elastic MapReduce (Amazon EMR) 상에서 동작하는 Apache Spark 클러스터에 notebook 인스턴스를 연결시켜서 SageMaker의 성능을 훨씬 더 향상시킬 수 있습니다. 참고로 EMR은 […]

Read More

Apache Flink를 이용한 AWS기반 실시간 스트림 처리 파이프라인 구성하기

오늘날 비즈니스 환경에서, 다양한 데이터 소스의 꾸준한 증가에 맞추어 데이터는 계속적으로 생성되고 있습니다. 따라서, 원시 데이터의 대규모 스트림을 통해 실행 가능한 통찰력을 얻기 위한 데이터를 지속적으로 수집하고, 저장하고, 처리하는 능력을 갖춘다는 것은 조직의 경쟁력 측면에서 장점이라 하겠습니다. Apache Flink는 스트림 프로세싱 파이프라인의 기반을 갖추는 데 매우 적합한 오픈소스 프로젝트 입니다. 스트리밍 데이터의 지속적인 분석에 적합한 […]

Read More

Amazon EMR 인스턴스 집합(Instance Fleets) 기능 출시!

인스턴스 집합(instance fleets) 기능이 Amazon EMR 클러스터에서도 사용할 수 있습니다. 이는 인스턴스 프로비저닝과 관련된 다양한 옵션과 스마트한 기능을 제공합니다. 5개 인스턴트 타입에 대해 가중치 기반 컴퓨팅 용량 및 스팟 인스턴스 가격 입찰을 할 수 있습니다. EMR 클러스터를 만들 때, 이들 인스턴스 유형에 대해 온-디멘드 및 스팟 용량을 자동으로 제공합니다. 이를 통해 클러스터에 원하는 용량을 신속하게 […]

Read More

AWS 3월 온라인 세미나 – 서버리스 IoT, Amazon EMR, Active Directory on AWS

AWS 클라우드를 아껴주시는 한국 고객 분들을 위해 지속적으로 AWS 월간 웨비나 시리즈를 진행하고 있습니다. 이번 3월 웨비나에서는 AWS 클라우드 소개, 서버리스 IoT 서비스 백엔드 및 Windows Active Directory, 빅데이터 분석 서비스인 Amazon EMR  심층 분석 등 다양한  온라인 세미나를 준비하였습니다. 관심 있는 분들의 많은 참여를 바랍니다. 온라인 세미나 일정 비지니스 기초 | AWS와 함께하는 클라우드 […]

Read More

Amazon EMR 클러스터 자동 확장 기능 추가

Amazon EMR 팀은 최근 신규 버전을 계속 출시하면서, 이번 분기에만 다양한 기능을 추가하였습니다. 9월 – Apache Spark, Tez, Hadoop MapReduce 데이터 암호화. 9월 – Apache Hive를 위한 오픈 소스 EMR-DynamoDB Connector 지원. 11월 – Apache Flink에서 실시간 스트리밍 처리. 11월 – 클러스터 태그를 활용한 세부 관리 기능. 오늘부터 Amazon EMR 클러스터에 대한 자동 확장 기능을 […]

Read More