Amazon Web Services 한국 블로그
Category: AWS Big Data
데이터 엔지니어링 전문가 자격증: DeepLearning.AI 및 AWS의 새로운 실습 전문 과정
데이터 엔지니어는 최신 데이터 기반 환경에서 데이터 수집 및 처리부터 변환 및 서비스에 이르기까지 필수 작업을 관리하는 중요한 역할을 합니다. 데이터 엔지니어의 전문 지식은 방대한 데이터 세트의 가치를 활용하는 것이 가장 중요한 생성형 AI 시대에 특히 유용합니다. 경험이 풍부한 데이터 전문가를 지원하기 위해 DeepLearning.AI와 Amazon Web Services(AWS)는 파트너십을 맺고 Coursera에서 고급 전문가 자격증인 Data Engineering […]
Amazon EMR에서 spark-submit를 사용하여 사용자 애플리케이션 제출하기
빅 데이터로의 전환을 시작하는 고객은 종종 사용자 애플리케이션을 Amazon EMR에서 실행되는 Spark에 제출하는 방법에 대한 지침을 요청합니다. 예를 들어, 고객은 애플리케이션에 사용할 수 있는 메모리 및 계산 리소스의 크기를 조정하는 방법이나 사용 사례에 가장 적합한 리소스 할당 모델에 대한 지침에 대해 문의합니다. 이 게시물에서는 EMR에서 실행 중인 Spark에 제출된 애플리케이션에서 사용할 수 있는 메모리 및 […]
Amazon EMR에서 Apache Ranger를 사용하여 권한 부여 및 감사 구현
업데이트 날짜: 2020년 2월 14일: EMR 최신 버전 및 Apache Ranger 2.0을 지원하도록 업데이트 되었습니다. Apache Ranger 2.0을 필요로하는 Ranger Presto 플러그인에 대한 지원 추가됨. 참고: Ranger Presto 플러그인은 EMR 5.29 에서만 테스트 되었음. 업데이트 날짜: 2018년 9월 26일: EMR 및 Apache Ranger의 최신 버전을 지원하도록 업데이트 되었습니다. ————————————————– RBAC(역할 기반 액세스 제어)는 멀티 테넌트 […]
Apache Airflow, Genie 및 Amazon EMR을 통한 빅데이터 워크플로 오케스트레이션 – 2부
AWS에서 빅 데이터 ETL 워크플로를 실행하는 대기업은 많은 내부 최종 사용자를 지원하는 대규모로 운영하며 수천 개의 동시 파이프라인을 실행합니다. 이러한 상황과 새로운 프레임워크 및 빅데이터 프로세싱 프레임워크의 최신 릴리스에 보조를 맞추기 위해 빅 데이터 플랫폼을 지속적으로 업데이트 및 확장해야 하는 필요성에 따라, 빅 데이터 플랫폼의 관리를 간소화할 뿐 아니라 빅 데이터 애플리케이션에 대한 간편한 액세스를 […]
Apache Airflow, Genie 및 Amazon EMR을 통한 빅데이터 워크플로 오케스트레이션 – 1부
AWS에서 빅 데이터 ETL 워크플로를 실행하는 대기업은 많은 내부 최종 사용자를 지원하는 대규모로 운영하며 수천 개의 동시 파이프라인을 실행합니다. 이러한 상황과 새로운 프레임워크 및 빅데이터 프로세싱 프레임워크의 최신 릴리스에 보조를 맞추기 위해 빅 데이터 플랫폼을 지속적으로 업데이트 및 확장해야 하는 필요성에 따라, 빅 데이터 플랫폼의 관리를 간소화할 뿐 아니라 빅 데이터 애플리케이션에 대한 간편한 액세스를 […]
Amazon EMR Notebooks를 사용한 Python 라이브러리 설치 방법
작년에 AWS는 오픈소스 Jupyter 노트북 애플리케이션 기반의 관리형 노트북 환경인 Amazon EMR Notebooks를 소개했습니다.이 게시물에서는 EMR Notebooks를 사용하여 실행 중인 클러스터에서 직접 노트북 범위 라이브러리를 설치하는 방법을 알아봅니다. 이 기능이 도입되기 전에는 부트스트랩 작업에 의존하거나 사용자 지정 AMI를 사용하여 클러스터를 프로비저닝할 때 EMR AMI로 사전에 패키징되지 않은 추가 라이브러리를 설치해야 했습니다. 이 게시물에서는 EMR Notebooks […]
Amazon EMR 재구성을 통한 신속한 클러스터 수정
장기 실행 중인 Amazon EMR 클러스터를 사용하는 개발자 또는 데이터 과학자는 워크로드가 빠르게 변화하는 상황을 접하게 됩니다. 이러한 워크로드의 변화는 종종 클러스터에서 최적화된 실행을 위해 별도의 애플리케이션 구성을 필요로 합니다. 이제 재구성 기능을 사용해서 실행 중인 EMR 클러스터의 구성을 변경할 수 있습니다. EMR 릴리스 emr-5.21.0부터 이 기능을 사용해서 새 클러스터를 생성하거나 각 노드에 수동으로 SSH 접속하지 […]
Apache Spark용 Amazon EMR 런타임을 통한 질의 성능 최적화하기
Amazon EMR이 발표하는 Apache Spark용 Amazon EMR 실행 시간은 EMR 클러스터에서 기본적으로 활성화되는 Apache Spark를 위해 성능 최적화된 실행 시간 환경입니다. Spark용 EMR 실행 시간은 EMR 5.16보다 최대 32배 빠르며 오픈소스 Spark에 대한 100% API 호환성을 제공합니다. 즉, 워크로드가 더 빠르게 실행되므로 애플리케이션 변경 없이 컴퓨팅 비용을 절감할 수 있습니다. Amazon EMR은 EMR 5.24부터 Spark […]
[기술 백서] Amazon EMR 마이그레이션 가이드
전 세계의 많은 비즈니스 영역에서 Apache Hadoop 및 Apache Spark 과 같은 새로운 빅 데이터 처리 및 분석 프레임워크를 도입을 시도해 왔으나 이러한 기술을 온프레미스 데이터 레이크 환경에서 운영하기 위해 해결해야 하는 과제들이 있습니다. 뿐만 아니라 현재 배포 공급업체와의 장기적인 문제도 고려가 필요합니다. 이러한 문제들을 다루기 위해 AWS는 Amazon EMR 마이그레이션 가이드 (2019년 6월에 초판 게시)를 […]
Amazon EC2 스팟 인스턴스를 통한 EMR 기반 Apache Spark 활용 10가지 모범 사례
Apache Spark는 사용 편의성, 빠른 성능, 메모리 및 디스크 사용률과 내결함성 등 다양한 이유로 가장 인기 있는 오픈소스 빅데이터 분석 플랫폼이 되었습니다. 이러한 기능은 인스턴스의 폐기 및 삭제가 가능한 클라우드 컴퓨팅의 개념과 매우 깊은 관련이 있습니다. Amazon EMR은 EC2 인스턴스를 사용하여 방대한 양의 데이터를 쉽고 빠르고 경제적으로 처리할 수 있는 관리형 하둡 프레임워크를 제공합니다. Amazon […]