Amazon Web Services 한국 블로그
Category: Analytics
Amazon Managed Streaming for Apache Kafka(MSK) – 정식 출시
최근처럼 데이터가 폭주하는 시대에 실시간 데이터 처리는 기본적인 요구 사항이 되었습니다. AWS 고객 중에도 전 세계적으로 신뢰도가 가장 높은 기업 및 전문가를 위한 뉴스 업체인 Thomson Reuters에서는 제품 팀이 사용자 경험을 지속적으로 개선하는 데 도움이 되는 분석 데이터를 캡처, 분석 및 시각화하는 솔루션을 구축했습니다. 헤이데이, 클래시 오브 클랜 및 붐비치 같은 게임을 제공하는 소셜 게임사인 Supercell은 […]
Amazon DocumentDB 및 Kinesis Analytics 서울 리전 출시
오늘 MongoDB 호환 문서 데이터베이스인 Amazon DocumentDB 및 실시간 스트리밍 데이터 분석 서비스인 Kinesis Analytics가 동시에 서울 리전에 출시되었습니다. Amazon DocumentDB는 MongoDB 호환 워크로드를 지원하는 빠르고, 확장 가능하며, 가용성이 높은 완전관리형 문서 데이터베이스 서비스입니다. Apache 2.0 오픈 소스 MongoDB 3.6 API를 구현하여 MongoDB 클라이언트가 MongoDB 서버로부터 기대하는 응답을 에뮬레이션 해주기 때문에 DocumentDB에 기존 MongoDB 드라이버 […]
Woot.com은 어떻게 AWS 기반 서버리스 데이터 레이크를 구축 하였는가?
이 글에서는 관계형 데이터베이스를 기반으로 구축된 기존 데이터 웨어하우스를 대체할 클라우드 네이티브 데이터 웨어하우스를 설계하는 방법에 대해 Woot.com의 사례를 소개합니다. (Woot는 2004 년에 설립되어 2010년 Amazon에 의해 인수된 최초의 일일 거래 사이트입니다. 원래 Woot는 매진 할 때까지 하루에 단 하나의 제품만을 제공했으나, 최근에는 7 가지 카테고리에 걸쳐 특별 일일 거래 및 기타 기간 한정 상품을 […]
Amazon Redshift 동시성 확장(Concurrent Scaling) 기능 출시
Amazon Redshift는 엑사바이트 규모까지 확장이 가능한 데이터 웨어하우스입니다. 현재 NTT DOCOMO, Finra 및 Johnson & Johnson을 비롯한 수많은 AWS 고객이 Redshift를 사용하여 미션 크리티컬 BI 대시보드를 실행하고 실시간 스트리밍 데이터를 분석하고 예측 분석 작업을 실행합니다. 그런데, 문제는 사용자 피크 시간에 동시 쿼리의 수가 증가할 때 발생합니다. 다수의 비즈니스 분석가가 모두 BI 대시보드로 이동하거나 오래 실행되는 […]
Amazon Athena 및 Amazon QuickSight 기반 JSON 데이터 분석 및 시각화하기
구조화된 데이터는 여전히 많은 데이터 플랫폼의 근간을 이루고 있지만, 갈수록 더 많은 비구조화 또는 반구조화 데이터가 기존 정보를 강화하거나 새로운 통찰력을 창출하는 데 사용되고 있습니다. Amazon Athena는 매우 다양한 데이터에 대한 분석을 지원합니다. 이러한 데이터에는 쉼표로 분리된 값(CSV) 또는 Apache Parquet 파일을 포함된 테이블형 데이터, 정규표현식을 사용하여 로그 파일에서 추출된 데이터 및 JSON 형식의 데이터가 포함됩니다. […]
AWS IoT Analytics 기반 시계열 데이터 QuickSight 시각화 방법
짧은 시간 안에 (예시: 수 초 이내) 크게 달라질 수 있는 사물인터넷(IoT) 데이터를 시각화하는 것은 패턴 탐색, 추세 및 주기성 분석, 잠재적 상관 관계 및 이상 징후 관찰 등을 위해 중요합니다. 시계열 시각화 기능은 이상 징후를 식별하고, 이를 기반으로 알림을 발생시키고, 여러 이해 당사자 간의(특히 데이터 소비자와 엔지니어링) 커뮤니케이션을 개선하는 데 유용합니다. 이 글에서는 시계열 […]
Open Distro for Elasticsearch 오픈 소스 프로젝트 출시
Elasticsearch는 분산형 문서 지향 검색 및 분석 엔진으로서, 정형 및 비정형 쿼리를 지원하고 사전에 스키마를 정의할 필요가 없습니다. Elasticsearch는 검색 엔진으로 사용될 수 있으며, 종종 웹 규모의 로그 분석, 실시간 애플리케이션 모니터링 및 클릭스트림 분석에 사용됩니다. Elasticsearch는 처음에는 순수한 오픈 소스 프로젝트로 시작되었으나 최근에 추가된 일부 내용에는 독점 기술이 적용되었습니다. 제 동료인 Adrian이 작성한 Keeping […]
Amazon EMR의 Amazon S3기반 Apache HBase로의 이관: 가이드라인과 모범 사례
Amazon EMR 버전 5.2.0 이상에서는 Amazon S3기반 Apache HBase를 실행할 수 있습니다. Amazon S3을 Apache HBase용 데이터 스토어로 사용하면 클러스터의 스토리지와 컴퓨팅 노드를 분리할 수 있습니다. 이는 클러스터의 크기를 컴퓨팅 요구 사항에 따라 조정하므로 비용이 절감됩니다. 더이상 전체 데이터세트를 클러스터상의 HDFS에 3벌 복제 저장하는 형태로 비용을 지불하지 않아도 됩니다. 많은 고객들이 데이터 스토리지를 위한 Amazon […]
Amazon EMR 클러스터 스토리지의 동적 스케일링
Amazon EMR과 같은 관리형 Apache 하둡 환경에서는 클러스터의 스토리지 용량이 가득 찬 경우 손쉽게 대응할 수 있는 솔루션이 없습니다. 이 상황은 고객이 클러스터를 시작할 때 Amazon Elastic Block Store(Amazon EBS) 볼륨을 설정하고 마운트 지점을 구성했기 때문에 발생합니다. 따라서 클러스터가 실행된 후에는 스토리지 용량을 수정하기 어렵습니다. 이를 위한 솔루션은 일반적으로 클러스터에 노드를 추가하고 데이터를 데이터 레이크로 […]
Amazon Kinesis와 Amazon Athena를 활용한 VPC 네트워크 트래픽의 분석과 시각화
네트워크 로그 분석은 많은 조직에서 일반적으로 수행하는 작업 중 하나입니다. 네트워크 로그를 캡처 및 분석하면 네트워크상의 디바이스가 어떻게 서로간에 그리고 인터넷과 통신하는지를 알 수 있습니다. 조직은 감사 및 규정 준수, 시스템 문제 해결 또는 보안 포렌직 등 다양한 이유로 인해 로그 분석을 수행합니다. Amazon Virtual Private Cloud(VPC)에서는 VPC Flow Logs를 통해 네트워크 플로우를 캡처할 수 […]