AWS Big Data | Amazon Web Services 한국 블로그

Amazon EMR에서 spark-submit를 사용하여 사용자 애플리케이션 제출하기

빅 데이터로의 전환을 시작하는 고객은 종종 사용자 애플리케이션을 Amazon EMR에서 실행되는 Spark에 제출하는 방법에 대한 지침을 요청합니다. 예를 들어, 고객은 애플리케이션에 사용할 수 있는 메모리 및 계산 리소스의 크기를 조정하는 방법이나 사용 사례에 가장 적합한 리소스 할당 모델에 대한 지침에 대해 문의합니다. 이 게시물에서는 EMR에서 실행 중인 Spark에 제출된 애플리케이션에서 사용할 수 있는 메모리 및 […]

Amazon EMR에서 Apache Ranger를 사용하여 권한 부여 및 감사 구현

업데이트 날짜: 2020년 2월 14일: EMR 최신 버전 및 Apache Ranger 2.0을 지원하도록 업데이트 되었습니다. Apache Ranger 2.0을 필요로하는 Ranger Presto 플러그인에 대한 지원 추가됨. 참고: Ranger Presto 플러그인은 EMR 5.29 에서만 테스트 되었음. 업데이트 날짜: 2018년 9월 26일: EMR 및 Apache Ranger의 최신 버전을 지원하도록 업데이트 되었습니다. ————————————————– RBAC(역할 기반 액세스 제어)는 멀티 테넌트 […]

Apache Airflow, Genie 및 Amazon EMR을 통한 빅데이터 워크플로 오케스트레이션 – 2부

AWS에서 빅 데이터 ETL 워크플로를 실행하는 대기업은 많은 내부 최종 사용자를 지원하는 대규모로 운영하며 수천 개의 동시 파이프라인을 실행합니다. 이러한 상황과 새로운 프레임워크 및 빅데이터 프로세싱 프레임워크의 최신 릴리스에 보조를 맞추기 위해 빅 데이터 플랫폼을 지속적으로 업데이트 및 확장해야 하는 필요성에 따라, 빅 데이터 플랫폼의 관리를 간소화할 뿐 아니라 빅 데이터 애플리케이션에 대한 간편한 액세스를 […]

Apache Airflow, Genie 및 Amazon EMR을 통한 빅데이터 워크플로 오케스트레이션 – 1부

AWS에서 빅 데이터 ETL 워크플로를 실행하는 대기업은 많은 내부 최종 사용자를 지원하는 대규모로 운영하며 수천 개의 동시 파이프라인을 실행합니다. 이러한 상황과 새로운 프레임워크 및 빅데이터 프로세싱 프레임워크의 최신 릴리스에 보조를 맞추기 위해 빅 데이터 플랫폼을 지속적으로 업데이트 및 확장해야 하는 필요성에 따라, 빅 데이터 플랫폼의 관리를 간소화할 뿐 아니라 빅 데이터 애플리케이션에 대한 간편한 액세스를 […]

Amazon EMR Notebooks를 사용한 Python 라이브러리 설치 방법

작년에 AWS는 오픈소스 Jupyter 노트북 애플리케이션 기반의 관리형 노트북 환경인 Amazon EMR Notebooks를 소개했습니다.이 게시물에서는 EMR Notebooks를 사용하여 실행 중인 클러스터에서 직접 노트북 범위 라이브러리를 설치하는 방법을 알아봅니다. 이 기능이 도입되기 전에는 부트스트랩 작업에 의존하거나 사용자 지정 AMI를 사용하여 클러스터를 프로비저닝할 때 EMR AMI로 사전에 패키징되지 않은 추가 라이브러리를 설치해야 했습니다. 이 게시물에서는 EMR Notebooks […]

Amazon EMR 재구성을 통한 신속한 클러스터 수정

장기 실행 중인 Amazon EMR 클러스터를 사용하는 개발자 또는 데이터 과학자는 워크로드가 빠르게 변화하는 상황을 접하게 됩니다. 이러한 워크로드의 변화는 종종 클러스터에서 최적화된 실행을 위해 별도의 애플리케이션 구성을 필요로 합니다. 이제 재구성 기능을 사용해서 실행 중인 EMR 클러스터의 구성을 변경할 수 있습니다. EMR 릴리스 emr-5.21.0부터 이 기능을 사용해서 새 클러스터를 생성하거나 각 노드에 수동으로 SSH 접속하지 […]

Apache Spark용 Amazon EMR 런타임을 통한 질의 성능 최적화하기

Amazon EMR이 발표하는 Apache Spark용 Amazon EMR 실행 시간은 EMR 클러스터에서 기본적으로 활성화되는 Apache Spark를 위해 성능 최적화된 실행 시간 환경입니다. Spark용 EMR 실행 시간은 EMR 5.16보다 최대 32배 빠르며 오픈소스 Spark에 대한 100% API 호환성을 제공합니다. 즉, 워크로드가 더 빠르게 실행되므로 애플리케이션 변경 없이 컴퓨팅 비용을 절감할 수 있습니다. Amazon EMR은 EMR 5.24부터 Spark […]

Amazon Web Services 한국 블로그

Category: AWS Big Data