Amazon Web Services 한국 블로그

Category: Amazon EMR

Amazon SageMaker Notebook에서 (Amazon EMR기반) Apache Spark와의 연동 환경 구축 방법

지난 AWS re:Invent 2017에서 처음 소개된 Amazon SageMaker는 데이터 과학과 머신 러닝 워크플로우를 위한 완전 관리형 서비스를 제공하고 있습니다. 특히 모델을 만드는데 사용되는 Jupyter notebook 인터페이스는 SageMaker에서 대단히 중요한 구성 요소 중 하나입니다. 한편Amazon Elastic MapReduce (Amazon EMR) 상에서 동작하는 Apache Spark 클러스터에 notebook 인스턴스를 연결시켜서 SageMaker의 성능을 훨씬 더 향상시킬 수 있습니다. 참고로 EMR은 […]

Read More

Apache Flink를 이용한 AWS기반 실시간 스트림 처리 파이프라인 구성하기

오늘날 비즈니스 환경에서, 다양한 데이터 소스의 꾸준한 증가에 맞추어 데이터는 계속적으로 생성되고 있습니다. 따라서, 원시 데이터의 대규모 스트림을 통해 실행 가능한 통찰력을 얻기 위한 데이터를 지속적으로 수집하고, 저장하고, 처리하는 능력을 갖춘다는 것은 조직의 경쟁력 측면에서 장점이라 하겠습니다. Apache Flink는 스트림 프로세싱 파이프라인의 기반을 갖추는 데 매우 적합한 오픈소스 프로젝트 입니다. 스트리밍 데이터의 지속적인 분석에 적합한 […]

Read More

Amazon EMR 인스턴스 집합(Instance Fleets) 기능 출시!

인스턴스 집합(instance fleets) 기능이 Amazon EMR 클러스터에서도 사용할 수 있습니다. 이는 인스턴스 프로비저닝과 관련된 다양한 옵션과 스마트한 기능을 제공합니다. 5개 인스턴트 타입에 대해 가중치 기반 컴퓨팅 용량 및 스팟 인스턴스 가격 입찰을 할 수 있습니다. EMR 클러스터를 만들 때, 이들 인스턴스 유형에 대해 온-디멘드 및 스팟 용량을 자동으로 제공합니다. 이를 통해 클러스터에 원하는 용량을 신속하게 […]

Read More

AWS 3월 온라인 세미나 – 서버리스 IoT, Amazon EMR, Active Directory on AWS

AWS 클라우드를 아껴주시는 한국 고객 분들을 위해 지속적으로 AWS 월간 웨비나 시리즈를 진행하고 있습니다. 이번 3월 웨비나에서는 AWS 클라우드 소개, 서버리스 IoT 서비스 백엔드 및 Windows Active Directory, 빅데이터 분석 서비스인 Amazon EMR  심층 분석 등 다양한  온라인 세미나를 준비하였습니다. 관심 있는 분들의 많은 참여를 바랍니다. 온라인 세미나 일정 비지니스 기초 | AWS와 함께하는 클라우드 […]

Read More

Amazon EMR 클러스터 자동 확장 기능 추가

Amazon EMR 팀은 최근 신규 버전을 계속 출시하면서, 이번 분기에만 다양한 기능을 추가하였습니다. 9월 – Apache Spark, Tez, Hadoop MapReduce 데이터 암호화. 9월 – Apache Hive를 위한 오픈 소스 EMR-DynamoDB Connector 지원. 11월 – Apache Flink에서 실시간 스트리밍 처리. 11월 – 클러스터 태그를 활용한 세부 관리 기능. 오늘부터 Amazon EMR 클러스터에 대한 자동 확장 기능을 […]

Read More

Amazon EMR – 전송 및 저장 중 데이터 암호화 옵션 기능 추가

AWS 고객 중에는 Amazon EMR(Apache Hadoop 및 Apache Spark 관련 도구 포함)를 사용하여 다양한 유형의 중요한 업무에 대한 빅 데이터 분석 사례를 가지고 있습니다. 아래 업체들은 바로 대표적인 예입니다. Yelp 매일 테라 바이트 이상의 로그 파일과 사진 데이터 처리 Expedia 사용자 클릭 스트림 및 행동 관련 데이터 처리 FINRA 매일 수십억 건의 증권 거래 기록 […]

Read More

Amazon EMR 5.0.0 – 주요 버전 업데이트, 사용자 UI 개선, 디버깅 향상 등

Amazon EMR 팀은 올해 새로운 버전을 무서운 기세로 출시하고 있습니다. 올해 출시를 되돌아 봅시다. EMR 4.7.0 – Apache Tez, Apache Phoenix, Presto, HBase, Mahout (6월) EMR 4.6.0 – 대량 데이터에 대한 실시간 접근를 위해 HBase 추가 (4월) EMR 4.5.0 – Hadoop, Presto, Spark와 EMRFS 추가 (4월) EMR 4.4.0 – Sqoop, HCatalog, Java 8 등 (3월) […]

Read More

Elastic Map Reduce 4.0.0 버전 출시 – 최신 업데이트 추가

Amazon EMR은 Apache Hadoop과 Apache Spark 등 빅데이터 프레임 워크를 쉽게 AWS 내에서 실행하여 대량 데이터 분석을 할 수 있도록 지원하는 클러스터 관리 플랫폼입니다. 이러한 프레임 워크와 Apache Hive와 Apache Pig 등 관련 오픈 소스 프로젝트를 함께 사용하여 데이터 분석 목적과 지능형 비즈니스(BI) 분석 등을 할 수 있습니다. 2009년에 처음 출시한 이후 (Announcing Amazon Elastic […]

Read More

Amazon EMR, Apache Spark 지원 시작

Amazon EMR에서 새로 출시한 막강 기능을 소개하기 위해 제 동료 존 프리츠(Jon Fritz)의 글을 게재합니다. – Jeff; Amazon EMR(Elastic MapReduce) 서비스가 Apache Spark를 지원하게 된 점을 알려드리게 되어 기쁩니다. Amazon EMR은 Hive, Pig, HBase, Presto, Impala, 및 그 외 여러가지 하둡 생태계 애플리케이션을 이용하여 방대한 데이타를 처리하기 쉽게 해 드리는 서비스입니다. 스파크(Spark) 또한 이 목록에 […]

Read More