Amazon EMR | Amazon Web Services 한국 블로그

Parquet 형식의 EMRFS S3 최적화 커미터를 통한 Apache Spark 쓰기 성능 개선하기

EMRFS S3 최적화 커미터는 Amazon EMR 5.19.0부터 Apache Spark 작업에 사용할 수 있는 새로운 출력 커미터입니다. 이 커미터는 EMRFS(EMR 파일 시스템)을 사용하는 Amazon S3에 Apache Parquet 파일을 쓸 때의 성능을 개선합니다. 이 게시물에서는 최근 성능 벤치마크를 실행하여 신규 최적화된 커미터를 기존 커미터 알고리즘(FileOutputCommitter 알고리즘 버전 1 및 2)과 비교하여 어떻게 Spark 쓰기 성능이 개선되었는지 알아봅니다. […]

Amazon EMR 기반 Apache Spark 애플리케이션을 위한 성공적인 메모리 관리 모범 사례

빅데이터 세상에서 가장 일반적인 활용 사례는 다양한 데이터 원본으로 부터 방대한 양의 데이터를 수집, 변환, 분석 하는 것입니다. 여러분은 또한 그 데이터를 분석하여 통찰력을 얻어 낼 수도 있습니다. 이러한 대규모의 데이터와 관련된 작업을 하기 위한 가장 대표적인 클라우드 기반의 솔루션이 Amazon EMR입니다. Amazon EMR은 AWS에서 Apache Hadoop 및 Apache Spark 같은 빅 데이터 프레임워크의 실행을 […]

Amazon EMR의 Amazon S3기반 Apache HBase로의 이관: 가이드라인과 모범 사례

Amazon EMR 버전 5.2.0 이상에서는 Amazon S3기반 Apache HBase를 실행할 수 있습니다. Amazon S3을 Apache HBase용 데이터 스토어로 사용하면 클러스터의 스토리지와 컴퓨팅 노드를 분리할 수 있습니다. 이는 클러스터의 크기를 컴퓨팅 요구 사항에 따라 조정하므로 비용이 절감됩니다. 더이상 전체 데이터세트를 클러스터상의 HDFS에 3벌 복제 저장하는 형태로 비용을 지불하지 않아도 됩니다. 많은 고객들이 데이터 스토리지를 위한 Amazon […]

Amazon EMR 클러스터 스토리지의 동적 스케일링

Amazon EMR과 같은 관리형 Apache 하둡 환경에서는 클러스터의 스토리지 용량이 가득 찬 경우 손쉽게 대응할 수 있는 솔루션이 없습니다. 이 상황은 고객이 클러스터를 시작할 때 Amazon Elastic Block Store(Amazon EBS) 볼륨을 설정하고 마운트 지점을 구성했기 때문에 발생합니다. 따라서 클러스터가 실행된 후에는 스토리지 용량을 수정하기 어렵습니다. 이를 위한 솔루션은 일반적으로 클러스터에 노드를 추가하고 데이터를 데이터 레이크로 […]

Amazon SageMaker Notebook에서 (Amazon EMR기반) Apache Spark와의 연동 환경 구축 방법

지난 AWS re:Invent 2017에서 처음 소개된 Amazon SageMaker는 데이터 과학과 머신 러닝 워크플로우를 위한 완전 관리형 서비스를 제공하고 있습니다. 특히 모델을 만드는데 사용되는 Jupyter notebook 인터페이스는 SageMaker에서 대단히 중요한 구성 요소 중 하나입니다. 한편Amazon Elastic MapReduce (Amazon EMR) 상에서 동작하는 Apache Spark 클러스터에 notebook 인스턴스를 연결시켜서 SageMaker의 성능을 훨씬 더 향상시킬 수 있습니다. 참고로 EMR은 […]

Apache Flink를 이용한 AWS기반 실시간 스트림 처리 파이프라인 구성하기

오늘날 비즈니스 환경에서, 다양한 데이터 소스의 꾸준한 증가에 맞추어 데이터는 계속적으로 생성되고 있습니다. 따라서, 원시 데이터의 대규모 스트림을 통해 실행 가능한 통찰력을 얻기 위한 데이터를 지속적으로 수집하고, 저장하고, 처리하는 능력을 갖춘다는 것은 조직의 경쟁력 측면에서 장점이라 하겠습니다. Apache Flink는 스트림 프로세싱 파이프라인의 기반을 갖추는 데 매우 적합한 오픈소스 프로젝트 입니다. 스트리밍 데이터의 지속적인 분석에 적합한 […]

Amazon EMR 인스턴스 집합(Instance Fleets) 기능 출시!

인스턴스 집합(instance fleets) 기능이 Amazon EMR 클러스터에서도 사용할 수 있습니다. 이는 인스턴스 프로비저닝과 관련된 다양한 옵션과 스마트한 기능을 제공합니다. 5개 인스턴트 타입에 대해 가중치 기반 컴퓨팅 용량 및 스팟 인스턴스 가격 입찰을 할 수 있습니다. EMR 클러스터를 만들 때, 이들 인스턴스 유형에 대해 온-디멘드 및 스팟 용량을 자동으로 제공합니다. 이를 통해 클러스터에 원하는 용량을 신속하게 […]

AWS 3월 온라인 세미나 – 서버리스 IoT, Amazon EMR, Active Directory on AWS

AWS 클라우드를 아껴주시는 한국 고객 분들을 위해 지속적으로 AWS 월간 웨비나 시리즈를 진행하고 있습니다. 이번 3월 웨비나에서는 AWS 클라우드 소개, 서버리스 IoT 서비스 백엔드 및 Windows Active Directory, 빅데이터 분석 서비스인 Amazon EMR 심층 분석 등 다양한 온라인 세미나를 준비하였습니다. 관심 있는 분들의 많은 참여를 바랍니다. 온라인 세미나 일정 비지니스 기초 | AWS와 함께하는 클라우드 […]

Amazon EMR 클러스터 자동 확장 기능 추가

Amazon EMR 팀은 최근 신규 버전을 계속 출시하면서, 이번 분기에만 다양한 기능을 추가하였습니다. 9월 – Apache Spark, Tez, Hadoop MapReduce 데이터 암호화. 9월 – Apache Hive를 위한 오픈 소스 EMR-DynamoDB Connector 지원. 11월 – Apache Flink에서 실시간 스트리밍 처리. 11월 – 클러스터 태그를 활용한 세부 관리 기능. 오늘부터 Amazon EMR 클러스터에 대한 자동 확장 기능을 […]

Amazon EMR – 전송 및 저장 중 데이터 암호화 옵션 기능 추가

AWS 고객 중에는 Amazon EMR(Apache Hadoop 및 Apache Spark 관련 도구 포함)를 사용하여 다양한 유형의 중요한 업무에 대한 빅 데이터 분석 사례를 가지고 있습니다. 아래 업체들은 바로 대표적인 예입니다. Yelp 매일 테라 바이트 이상의 로그 파일과 사진 데이터 처리 Expedia 사용자 클릭 스트림 및 행동 관련 데이터 처리 FINRA 매일 수십억 건의 증권 거래 기록 […]

Category: Amazon EMR