Amazon Web Services 한국 블로그

Category: AWS Big Data

Amazon EMR 클러스터 탄력성에 따른 Spark 노드 손실 문제 해결 방법

AWS 고객은 Amazon EMR의 클러스터 탄력성을 활용하여 작업량에 따라 사용 인스턴스 수를 조정해서 비용을 절감할 수 있습니다. 특히, EC2 스팟 인스턴스를 사용하면, 빠르게 끝나는 작업에 대해서 80-90%의 저렴한 비용으로 작업을 할 수 있습니다. 또한, Amazon EMR의 오토 스케일링 기능을 통해 고객은 클러스터 사용이나 기타 작업 관련 지표에 따라 클러스터를 동적으로 확장 및 축소 할 수 […]

Parquet 형식의 EMRFS S3 최적화 커미터를 통한 Apache Spark 쓰기 성능 개선하기

EMRFS S3 최적화 커미터는 Amazon EMR 5.19.0부터 Apache Spark 작업에 사용할 수 있는 새로운 출력 커미터입니다. 이 커미터는 EMRFS(EMR 파일 시스템)을 사용하는 Amazon S3에 Apache Parquet 파일을 쓸 때의 성능을 개선합니다. 이 게시물에서는 최근 성능 벤치마크를 실행하여 신규 최적화된 커미터를 기존 커미터 알고리즘(FileOutputCommitter 알고리즘 버전 1 및 2)과 비교하여 어떻게 Spark 쓰기 성능이 개선되었는지 알아봅니다. […]

Amazon EMR 기반 Apache Spark 애플리케이션을 위한 성공적인 메모리 관리 모범 사례

빅데이터 세상에서 가장 일반적인 활용 사례는 다양한 데이터 원본으로 부터 방대한 양의 데이터를 수집, 변환, 분석 하는 것입니다. 여러분은 또한 그 데이터를 분석하여 통찰력을 얻어 낼 수도 있습니다. 이러한 대규모의 데이터와 관련된 작업을 하기 위한 가장 대표적인 클라우드 기반의 솔루션이 Amazon EMR입니다. Amazon EMR은 AWS에서 Apache Hadoop 및 Apache Spark 같은 빅 데이터 프레임워크의 실행을 […]

Woot.com은 어떻게 AWS 기반 서버리스 데이터 레이크를 구축 하였는가?

이 글에서는 관계형 데이터베이스를 기반으로 구축된 기존 데이터 웨어하우스를 대체할 클라우드 네이티브 데이터 웨어하우스를 설계하는 방법에 대해 Woot.com의 사례를 소개합니다. (Woot는 2004 년에 설립되어 2010년 Amazon에 의해 인수된 최초의 일일 거래 사이트입니다. 원래 Woot는 매진 할 때까지 하루에 단 하나의 제품만을 제공했으나, 최근에는 7 가지 카테고리에 걸쳐 특별 일일 거래 및 기타 기간 한정 상품을 […]

Amazon Athena 및 Amazon QuickSight 기반 JSON 데이터 분석 및 시각화하기

구조화된 데이터는 여전히 많은 데이터 플랫폼의 근간을 이루고 있지만, 갈수록 더 많은 비구조화 또는 반구조화 데이터가 기존 정보를 강화하거나 새로운 통찰력을 창출하는 데 사용되고 있습니다. Amazon Athena는 매우 다양한 데이터에 대한 분석을 지원합니다. 이러한 데이터에는 쉼표로 분리된 값(CSV) 또는 Apache Parquet 파일을 포함된 테이블형 데이터, 정규표현식을 사용하여 로그 파일에서 추출된 데이터 및 JSON 형식의 데이터가 포함됩니다. […]

AWS 클라우드를 통한 대중 교통 시스템 최적화 방안

최근 도시 계획 및 운영 담당자들이 더 살기 좋은 스마트 시티를 만들기 위해 고민할 때 가장 중요한 사안은 도시내 운송 및 교통 관리입니다. 최근 통계에 따르면 미국 운전자는 연평균 42시간을 교통 체증으로 허비하고, 1,400달러를 공회전 중 연료비로 소모한다고 합니다. 유럽도 마찬가지인데 런던, 파리에서 연평균 공회전 시간은 각각 74시간, 69시간입니다. 영국 조사 기관에 따르면 출퇴근에 소요되는 […]

Amazon Kinesis Data Streams, 고속 스트리밍을 위해 향상된 팬아웃 및 HTTP/2 지원 추가

몇 주 전 Amazon Kinesis Data Streams(KDS)를 위한 두 가지의 중요한 성능 개선 기능, 즉 향상된 팬 아웃 및 HTTP/2 데이터 검색 API를 출시했습니다. 향상된 팬아웃을 사용하면 개발자가 각 스트림 소비자(실시간으로 스트림에서 데이터를 읽는 애플리케이션)에게 개별 읽기 처리량을 제공함으로써 스트림 소비자 수를 확대할 수 있습니다. 한편, HTTP/2 데이터 검색 API를 사용하면 전형저인 시나리오에서 제작자가 소비자에게 […]

Amazon S3 및 AWS Glue를 이용한 데이터 레이크 구축하기

데이터 레이크(Data Lake)는 다양한 유형의 대량 데이터를 처리해야 하는 과제를 해결하는 데이터 저장 및 분석 방법으로서 점차 인기를 얻고 있습니다. 데이터 레이크를 사용하면 모든 데이터(정형 및 비정형)를 중앙 집중식 리포지토리 한 곳에 저장할 수 있습니다. 데이터를 있는 그대로 저장할 수 있으므로 데이터를 사전 정의된 스키마로 변환할 필요가 없습니다. 많은 기업들은 데이터 레이크에서 Amazon S3를 사용하는 […]

Amazon Redshift, 비용 최적 고밀도 컴퓨팅(DC2) 노드 활용하기

Amazon Redshift를 사용하면 엑사바이트 규모의 데이터를 빠르고 쉽고 비용 효율적으로 분석할 수 있습니다. 이 솔루션은 병렬 실행, 압축된 컬럼 방식 스토리지, 종단 간 암호화 등과 같은 고급 데이터 웨어하우징 기능을 종합 관리형 서비스로 제공합니다. 비용은 TB당 연간 $1,000 미만입니다. Amazon Redshift Spectrum을 사용하면 Amazon S3에서 엑사바이트 규모의 비정형 데이터에 대해 SQL 쿼리를 직접 실행할 수 있습니다. […]

Apache Flink를 이용한 AWS기반 실시간 스트림 처리 파이프라인 구성하기

오늘날 비즈니스 환경에서, 다양한 데이터 소스의 꾸준한 증가에 맞추어 데이터는 계속적으로 생성되고 있습니다. 따라서, 원시 데이터의 대규모 스트림을 통해 실행 가능한 통찰력을 얻기 위한 데이터를 지속적으로 수집하고, 저장하고, 처리하는 능력을 갖춘다는 것은 조직의 경쟁력 측면에서 장점이라 하겠습니다. Apache Flink는 스트림 프로세싱 파이프라인의 기반을 갖추는 데 매우 적합한 오픈소스 프로젝트 입니다. 스트리밍 데이터의 지속적인 분석에 적합한 […]