Amazon Web Services 한국 블로그

Category: Analytics

Amazon EMR 클러스터 탄력성에 따른 Spark 노드 손실 문제 해결 방법

AWS 고객은 Amazon EMR의 클러스터 탄력성을 활용하여 작업량에 따라 사용 인스턴스 수를 조정해서 비용을 절감할 수 있습니다. 특히, EC2 스팟 인스턴스를 사용하면, 빠르게 끝나는 작업에 대해서 80-90%의 저렴한 비용으로 작업을 할 수 있습니다. 또한, Amazon EMR의 오토 스케일링 기능을 통해 고객은 클러스터 사용이나 기타 작업 관련 지표에 따라 클러스터를 동적으로 확장 및 축소 할 수 […]

Read More

Parquet 형식의 EMRFS S3 최적화 커미터를 통한 Apache Spark 쓰기 성능 개선하기

EMRFS S3 최적화 커미터는 Amazon EMR 5.19.0부터 Apache Spark 작업에 사용할 수 있는 새로운 출력 커미터입니다. 이 커미터는 EMRFS(EMR 파일 시스템)을 사용하는 Amazon S3에 Apache Parquet 파일을 쓸 때의 성능을 개선합니다. 이 게시물에서는 최근 성능 벤치마크를 실행하여 신규 최적화된 커미터를 기존 커미터 알고리즘(FileOutputCommitter 알고리즘 버전 1 및 2)과 비교하여 어떻게 Spark 쓰기 성능이 개선되었는지 알아봅니다. […]

Read More

Amazon Managed Streaming for Apache Kafka (MSK) 서울 리전 출시

Amazon Managed Streaming for Apache Kafka (Amazon MSK) 서비스가 Apache Kafka 버전 2.2.1 지원과 함께 서울 리전에도 정식 출시하였습니다. Apache Kafka(Kafka)는 클릭스트림 이벤트, 트랜잭션, IoT 이벤트, 애플리케이션 및 머신 로그 같은 스트리밍 데이터를 캡처하는 기능과 실시간 분석을 수행하고, 지속적인 변환을 실행하고, 이 데이터를 데이터 레이크 및 데이터베이스에 실시간으로 배포하는 애플리케이션을 제공하는 오픈 소스 플랫폼입니다 Amazon […]

Read More

AWS Fargate, Fluentd 및 Amazon Kinesis Data Firehose를 사용한 확장형 로그 솔루션 집계기 구축하기

최신 분산 애플리케이션들은 매일 기가바이트 수준의 로그 데이터를 생산해 낼 수 있는데, Amazon S3에서 Elasticsearch에 이르는 수많은 솔루션을 활용하면 이에 대한 분석과 스토리지 처리는 비교적 어렵지 않게 구현할 수 있지만 로그를 안정적으로 집계하고 최종 대상까지 전송하는 것은 여전히 어려운 영역에 속합니다. 이 게시물에서는 AWS Fargate, Amazon Kinesis Data Firehose 및 Fluentd를 사용하여 로그 집계기를 구축하는 […]

Read More

Amazon EMR 기반 Apache Spark 애플리케이션을 위한 성공적인 메모리 관리 모범 사례

빅데이터 세상에서 가장 일반적인 활용 사례는 다양한 데이터 원본으로 부터 방대한 양의 데이터를 수집, 변환, 분석 하는 것입니다. 여러분은 또한 그 데이터를 분석하여 통찰력을 얻어 낼 수도 있습니다. 이러한 대규모의 데이터와 관련된 작업을 하기 위한 가장 대표적인 클라우드 기반의 솔루션이 Amazon EMR입니다. Amazon EMR은 AWS에서 Apache Hadoop 및 Apache Spark 같은 빅 데이터 프레임워크의 실행을 […]

Read More

Amazon Managed Streaming for Apache Kafka(MSK) – 정식 출시

최근처럼 데이터가 폭주하는 시대에 실시간 데이터 처리는 기본적인 요구 사항이 되었습니다. AWS 고객 중에도 전 세계적으로 신뢰도가 가장 높은 기업 및 전문가를 위한 뉴스 업체인 Thomson Reuters에서는 제품 팀이 사용자 경험을 지속적으로 개선하는 데 도움이 되는 분석 데이터를 캡처, 분석 및 시각화하는 솔루션을 구축했습니다. 헤이데이, 클래시 오브 클랜 및 붐비치 같은 게임을 제공하는 소셜 게임사인 Supercell은 […]

Read More

Amazon DocumentDB 및 Kinesis Analytics 서울 리전 출시

오늘 MongoDB 호환 문서 데이터베이스인 Amazon DocumentDB 및 실시간 스트리밍 데이터 분석 서비스인 Kinesis Analytics가 동시에 서울 리전에 출시되었습니다. Amazon DocumentDB는 MongoDB 호환 워크로드를 지원하는 빠르고, 확장 가능하며, 가용성이 높은 완전관리형 문서 데이터베이스 서비스입니다. Apache 2.0 오픈 소스 MongoDB 3.6 API를 구현하여 MongoDB 클라이언트가 MongoDB 서버로부터 기대하는 응답을 에뮬레이션 해주기 때문에 DocumentDB에 기존 MongoDB 드라이버 […]

Read More

Woot.com은 어떻게 AWS 기반 서버리스 데이터 레이크를 구축 하였는가?

이 글에서는 관계형 데이터베이스를 기반으로 구축된 기존 데이터 웨어하우스를 대체할 클라우드 네이티브 데이터 웨어하우스를 설계하는 방법에 대해 Woot.com의 사례를 소개합니다. (Woot는 2004 년에 설립되어 2010년 Amazon에 의해 인수된 최초의 일일 거래 사이트입니다. 원래 Woot는 매진 할 때까지 하루에 단 하나의 제품만을 제공했으나, 최근에는 7 가지 카테고리에 걸쳐 특별 일일 거래 및 기타 기간 한정 상품을 […]

Read More

Amazon Redshift 동시성 확장(Concurrent Scaling) 기능 출시

Amazon Redshift는 엑사바이트 규모까지 확장이 가능한 데이터 웨어하우스입니다. 현재 NTT DOCOMO, Finra 및 Johnson & Johnson을 비롯한 수많은 AWS 고객이 Redshift를 사용하여 미션 크리티컬 BI 대시보드를 실행하고 실시간 스트리밍 데이터를 분석하고 예측 분석 작업을 실행합니다. 그런데, 문제는 사용자 피크 시간에 동시 쿼리의 수가 증가할 때 발생합니다. 다수의 비즈니스 분석가가 모두 BI 대시보드로 이동하거나 오래 실행되는 […]

Read More

Amazon Athena 및 Amazon QuickSight 기반 JSON 데이터 분석 및 시각화하기

구조화된 데이터는 여전히 많은 데이터 플랫폼의 근간을 이루고 있지만, 갈수록 더 많은 비구조화 또는 반구조화 데이터가 기존 정보를 강화하거나 새로운 통찰력을 창출하는 데 사용되고 있습니다. Amazon Athena는 매우 다양한 데이터에 대한 분석을 지원합니다. 이러한 데이터에는 쉼표로 분리된 값(CSV) 또는 Apache Parquet 파일을 포함된 테이블형 데이터, 정규표현식을 사용하여 로그 파일에서 추출된 데이터 및 JSON 형식의 데이터가 포함됩니다. […]

Read More