Amazon Web Services 한국 블로그

Category: Amazon EMR

Apache Spark과 Amazon Redshift 통합 기능 정식 출시

Apache Spark는 빅 데이터 워크로드에 일반적으로 사용되는 오픈 소스 분산 처리 시스템입니다. Amazon EMR, Amazon SageMaker 및 AWS Glue에서 작업하는 Spark 애플리케이션 개발자는 Amazon Redshift로 데이터를 읽고 쓸 수 있는 타사 Apache Spark 커넥터를 사용하는 경우가 많습니다. 이러한 타사 커넥터는 다양한 버전의 Spark에서 정기적으로 유지 관리, 지원 또는 테스트되지 않습니다. 오늘 Apache Spark용 Amazon Redshift […]

최신 AWS 서울 리전 출시 소식 – AWS Cloud WAN, Amazon EMR Serverless 및 SageMaker Canvas 등

AWS는 200여개가 넘는 클라우드 서비스를 빠르게 서울 리전에 선보이도록 노력하고 있습니다. 지난 9월에도 다양한 신규 서비스가 서울 리전에 출시되었기에 여러분에게 정리해서 다시 한번 알려드립니다. Amazon DevOps Guru for RDS 서울 리전 출시 (9월 27일) Amazon DevOps Guru for RDS는 개발자 및 데브옵스 엔지니어가 Amazon RDS의 다양한 데이터베이스 관련 문제를 빠르게 탐지, 진단 및 해결하도록 설계된 […]

Amazon EMR Serverless 정식 출시 – 서버리스 빅 데이터 애플리케이션 실행하기

AWS re:Invent 2021에서 데이터 분석 서비스를 위한 세 가지 새로운 서버리스 옵션인 Amazon EMR Serverless, Amazon Redshift Serverless, 그리고 Amazon MSK Serverless을 소개했습니다. 기본 인프라를 구성, 크기 조정 또는 관리할 필요 없이 모든 크기의 데이터를 더욱 쉽게 분석할 수 있습니다. 오늘 클러스터나 서버를 구성, 관리 및 크기 조정하지 않고도 Apache Spark 및 Hive와 같은 오픈 […]

새로운 기능 – Amazon SageMaker Studio로 EMR 클러스터 및 Spark 작업 생성 및 관리

이제 Amazon SageMaker Studio 서비스에 세 가지 새로운 개선 사항을 제공하게 되어 매우 기쁩니다. 현재 SageMaker Studio의 사용자는 단일 AWS 계정 내에서 그리고 조직 전체의 공유 계정에서 실행되는 Amazon EMR 클러스터를 생성, 종료, 관리, 검색 및 연결할 수 있습니다. 이 모든 작업을 SageMaker Studio에서 직접 수행할 수 있습니다. 또한 SageMaker Studio Notebook 사용자는 SparkUI를 활용하여 […]

Amazon EMR on EKS, Apache Spark 애플리케이션을 위한 컨테이너 종속성 맞춤 조정 및 패키징 기능 출시 (서울 리전 포함)

지난 AWS re:Invent에서 Amazon EMR on Amazon Elastic Kubernetes Service(Amazon EKS) 정식 출시 소식을 발표한 바 있습니다. 이 서비스는 Amazon EMR의 새 배포 옵션으로, 고객이 Amazon EKS에서 Apache Spark 프로비저닝과 관리를 자동화할 수 있게 해줍니다. Amazon EMR on EKS를 사용하면 고객이 EMR 애플리케이션을 다른 유형의 애플리케이션과 같은 Amazon EKS 클러스터에 배포할 수 있으므로 자사 모든 […]

새로운 기능 — Amazon EMR on Amazon Elastic Kubernetes Service(EKS)

수만 명의 고객이 Amazon EMR을 사용하여 Apache Spark, Hive, HBase, Flink,Hudi 및 Presto와 같은 프레임워크에서 빅 데이터 분석 애플리케이션을 대규모로 실행합니다. EMR은 이러한 프레임워크의 프로비저닝 및 조정을 자동화하고 다양한 EC2 인스턴스 유형으로 성능을 최적화하여 가격 및 성능 요구 사항을 충족합니다. 이제 고객은 Kubernetes를 사용하여 조직 전체에서 컴퓨팅 풀을 통합하고 있습니다. Amazon Elastic Kubernetes Service(EKS)에서 Apache […]

Amazon EMR 6.0.0을 사용하여 Docker로 Spark 애플리케이션 실행하기

지난 4월 Amazon EMR 6.0.0 버전을 정식 출시했습니다. Amazon EMR 6.0.0을 사용하면, Spark 사용자가 Docker Hub 및 Amazon Elastic Container Registry(Amazon ECR)의 Docker 이미지를 사용하여 환경 및 라이브러리 종속성을 정의할 수 있습니다. 사용자는 Docker를 사용하여 종속성을 손쉽게 정의하고 개별 작업에 사용할 수 있으므로 개별 클러스터 호스트에 종속성을 설치할 필요가 없습니다. 이 글에서는 EMR 6.0.0에서 Docker를 […]

Amazon EMR에서 spark-submit를 사용하여 사용자 애플리케이션 제출하기

빅 데이터로의 전환을 시작하는 고객은 종종 사용자 애플리케이션을 Amazon EMR에서 실행되는 Spark에 제출하는 방법에 대한 지침을 요청합니다. 예를 들어, 고객은 애플리케이션에 사용할 수 있는 메모리 및 계산 리소스의 크기를 조정하는 방법이나 사용 사례에 가장 적합한 리소스 할당 모델에 대한 지침에 대해 문의합니다. 이 게시물에서는 EMR에서 실행 중인 Spark에 제출된 애플리케이션에서 사용할 수 있는 메모리 및 […]

Amazon EMR에서 Apache Ranger를 사용하여 권한 부여 및 감사 구현

업데이트 날짜: 2020년 2월 14일: EMR 최신 버전 및 Apache Ranger 2.0을 지원하도록 업데이트 되었습니다. Apache Ranger 2.0을 필요로하는 Ranger Presto 플러그인에 대한 지원 추가됨. 참고: Ranger Presto 플러그인은 EMR 5.29 에서만 테스트 되었음. 업데이트 날짜: 2018년 9월 26일: EMR 및 Apache Ranger의 최신 버전을 지원하도록 업데이트 되었습니다. ————————————————– RBAC(역할 기반 액세스 제어)는 멀티 테넌트 […]

Amazon EMR에서 Apache Knox를 사용하여 경계 보안 구현

경계 보안은 클러스터 외부에서 액세스하는 사용자에게 안전한 Apache 하둡 클러스터 리소스를 제공하는 데 도움이 됩니다. Apache 하둡 클러스터와의 모든 REST 및 HTTP 상호 작용을 위한 단일 액세스 지점을 제공하여 클라이언트와 클러스터의 상호 작용을 간소화합니다. 예를 들어 클라이언트 애플리케이션에서 Kerberos가 활성화된 클러스터의 서비스와 상호 작용하려면 Kinit 또는 SPNEGO를 사용하여 Kerberos 티켓을 받아야 합니다. 이 게시물에서는 Apache […]