Amazon Web Services 한국 블로그

Category: Analytics

Apache Airflow, Genie 및 Amazon EMR을 통한 빅데이터 워크플로 오케스트레이션 – 2부

AWS에서 빅 데이터 ETL 워크플로를 실행하는 대기업은 많은 내부 최종 사용자를 지원하는 대규모로 운영하며 수천 개의 동시 파이프라인을 실행합니다. 이러한 상황과 새로운 프레임워크 및 빅데이터 프로세싱 프레임워크의 최신 릴리스에 보조를 맞추기 위해 빅 데이터 플랫폼을 지속적으로 업데이트 및 확장해야 하는 필요성에 따라, 빅 데이터 플랫폼의 관리를 간소화할 뿐 아니라 빅 데이터 애플리케이션에 대한 간편한 액세스를 […]

Read More

Apache Airflow, Genie 및 Amazon EMR을 통한 빅데이터 워크플로 오케스트레이션 – 1부

AWS에서 빅 데이터 ETL 워크플로를 실행하는 대기업은 많은 내부 최종 사용자를 지원하는 대규모로 운영하며 수천 개의 동시 파이프라인을 실행합니다. 이러한 상황과 새로운 프레임워크 및 빅데이터 프로세싱 프레임워크의 최신 릴리스에 보조를 맞추기 위해 빅 데이터 플랫폼을 지속적으로 업데이트 및 확장해야 하는 필요성에 따라, 빅 데이터 플랫폼의 관리를 간소화할 뿐 아니라 빅 데이터 애플리케이션에 대한 간편한 액세스를 […]

Read More

Amazon Elasticsearch Service용 저비용 대용량 스토리지 UltraWarm 정식 출시 (서울 리전 포함)

지난 AWS re:Invent 2019에서 미리보기로 출시된 Amazon Elasticsearch Service용 UltraWarm을 오늘 정식 출시합니다. 새로운 이 저렴한 스토리지 티어는 기존 Amazon Elasticsearch Service 스토리지 티어 비용의 1/10에 불과한 비용으로 최대 3PB의 로그 데이터에 대한 신속한 대화식 분석을 제공합니다. UltraWarm은 Amazon Elasticsearch Service 고객이 기대하는 명확한 대화식 경험과 함께 오래되고 자주 액세스하지 않는 데이터를 위한 저렴한 스토리지를 […]

Read More

AWS Glue를 활용한 서버리스 스트리밍 ETL 기능 출시

데이터를 분석할 때, 가장 먼저 취하는 방법은 일괄(Batch) 처리 모델입니다. 일정 기간 동안 데이터를 수집한 다음, 분석 도구에 넣는 것입니다. 신속히 대응하려면 스트리밍(Streaming) 모델을 사용할 수 있습니다. 이 모델에서는 데이터가 도착하는 대로 처리하거나, 한 번에 레코드 하나씩 처리하거나, 10개, 100개, 1,000개 단위의 마이크로 배치로 레코드를 처리합니다. 연속적인 입력 파이프라인을 관리하고 즉석에서 데이터를 처리하는 작업은 상당히 […]

Read More

Amazon EMR Notebooks를 사용한 Python 라이브러리 설치 방법

작년에 AWS는 오픈소스 Jupyter 노트북 애플리케이션 기반의 관리형 노트북 환경인 Amazon EMR Notebooks를 소개했습니다.이 게시물에서는 EMR Notebooks를 사용하여 실행 중인 클러스터에서 직접 노트북 범위 라이브러리를 설치하는 방법을 알아봅니다. 이 기능이 도입되기 전에는 부트스트랩 작업에 의존하거나 사용자 지정 AMI를 사용하여 클러스터를 프로비저닝할 때 EMR AMI로 사전에 패키징되지 않은 추가 라이브러리를 설치해야 했습니다. 이 게시물에서는 EMR Notebooks […]

Read More

Amazon EMR 재구성을 통한 신속한 클러스터 수정

장기 실행 중인 Amazon EMR 클러스터를 사용하는 개발자 또는 데이터 과학자는 워크로드가 빠르게 변화하는 상황을 접하게 됩니다. 이러한 워크로드의 변화는 종종 클러스터에서 최적화된 실행을 위해 별도의 애플리케이션 구성을 필요로 합니다. 이제 재구성 기능을 사용해서 실행 중인 EMR 클러스터의 구성을 변경할 수 있습니다. EMR 릴리스 emr-5.21.0부터 이 기능을 사용해서 새 클러스터를 생성하거나 각 노드에 수동으로 SSH 접속하지 […]

Read More

Apache Spark용 Amazon EMR 런타임을 통한 질의 성능 최적화하기

Amazon EMR이 발표하는 Apache Spark용 Amazon EMR 실행 시간은 EMR 클러스터에서 기본적으로 활성화되는 Apache Spark를 위해 성능 최적화된 실행 시간 환경입니다. Spark용 EMR 실행 시간은 EMR 5.16보다 최대 32배 빠르며 오픈소스 Spark에 대한 100% API 호환성을 제공합니다. 즉, 워크로드가 더 빠르게 실행되므로 애플리케이션 변경 없이 컴퓨팅 비용을 절감할 수 있습니다. Amazon EMR은 EMR 5.24부터 Spark […]

Read More

Amazon Redshift, ra3.4xlarge 인스턴스 추가 업데이트 (서울 리전 포함)

Amazon Redshift를 클라우드 데이터 웨어하우스 서비스로 출시한 이후로 수만 명의 고객이 이를 사용하여 워크로드를 구축했습니다.  지난해 12월에는 3세대 RA3 노드 유형을 정식 출시하여 컴퓨팅 및 스토리지를 따로 확장하는 기능을 제공하기 시작했습니다. 이전 세대의 DS2 및 DC2 노드는 스토리지 용량이 고정되어 있어서 스토리지 용량을 늘리려면 더 많은 노드를 추가해야 했습니다. 새로운 RA3 노드에서는 워크로드를 지원하는 데 […]

Read More

쿼리 실행의 속도를 높여 주는 Amazon Redshift 구체화 보기 기능 출시

Amazon Redshift에서는 테이블에서 질의한 보기(View)는 Amazon QuickSight 또는 Tableau 같은 BI(비즈니스 인텔리전스) 도구를 위해 사용할 수 있습니다. 다만,  사용 편의성과 유연성을 제공하지만 데이터 액세스의 속도를 높여 주지 않습니다. 성능이 중요한 경우, 데이터 엔지니어는 CTAS(create table as)를 사용합니다. CTAS는 질의에 의해 정의된 테이블입니다. 질의는 테이블 생성 시점에 실행되며 애플리케이션은 CTAS를 일반 테이블과 같이 사용할 수 있습니다. […]

Read More

[기술 백서] Amazon EMR 마이그레이션 가이드

전 세계의 많은 비즈니스 영역에서 Apache Hadoop 및 Apache Spark 과 같은 새로운 빅 데이터 처리 및 분석 프레임워크를 도입을 시도해 왔으나 이러한 기술을 온프레미스 데이터 레이크 환경에서 운영하기 위해 해결해야 하는 과제들이 있습니다. 뿐만 아니라 현재 배포 공급업체와의 장기적인 문제도 고려가 필요합니다. 이러한 문제들을 다루기 위해 AWS는 Amazon EMR 마이그레이션 가이드 (2019년 6월에 초판 게시)를 […]

Read More