Analytics | Amazon Web Services 한국 블로그

AWS Glue 버전 2.0 정식 출시 – Spark ETL 작업 시간 1/10로 단축 가능 (서울 리전 포함)

AWS Glue는 분석을 위한 데이터를 준비하고 로드할 때 사용할 수 있는 완전관리형 ETL(추출, 변환 및 로드) 서비스입니다. Glue는 “서버리스”이므로 리소스를 프로비저닝하거나 관리할 필요 없이 Glue가 실행될 때의 리소스 요금만 지불하면 됩니다. 이제, Spark ETL 작업을 10배 더 빠르게 시작할 수 있는 AWS Glue 버전 2.0이 정식 출시되었습니다. 시작 지연 시간이 감소함에 따라 전체 작업 완료 […]

Amazon EMR에서 Apache Ranger를 사용하여 권한 부여 및 감사 구현

업데이트 날짜: 2020년 2월 14일: EMR 최신 버전 및 Apache Ranger 2.0을 지원하도록 업데이트 되었습니다. Apache Ranger 2.0을 필요로하는 Ranger Presto 플러그인에 대한 지원 추가됨. 참고: Ranger Presto 플러그인은 EMR 5.29 에서만 테스트 되었음. 업데이트 날짜: 2018년 9월 26일: EMR 및 Apache Ranger의 최신 버전을 지원하도록 업데이트 되었습니다. ————————————————– RBAC(역할 기반 액세스 제어)는 멀티 테넌트 […]

Amazon EMR에서 Apache Knox를 사용하여 경계 보안 구현

경계 보안은 클러스터 외부에서 액세스하는 사용자에게 안전한 Apache 하둡 클러스터 리소스를 제공하는 데 도움이 됩니다. Apache 하둡 클러스터와의 모든 REST 및 HTTP 상호 작용을 위한 단일 액세스 지점을 제공하여 클라이언트와 클러스터의 상호 작용을 간소화합니다. 예를 들어 클라이언트 애플리케이션에서 Kerberos가 활성화된 클러스터의 서비스와 상호 작용하려면 Kinit 또는 SPNEGO를 사용하여 Kerberos 티켓을 받아야 합니다. 이 게시물에서는 Apache […]

Amazon QuickSight ML Insights을 통한 인공 지능 대시보드 활용 하기

AWS 고객이 생성하는 데이터의 양이 날마다 증가함에 따라, 비즈니스 통찰력을 얻기 위해 이러한 데이터를 활용하는 데 따르는 어려움도 갈수록 커져 가고 있습니다. Amazon QuickSight를 통해 고객은 숨겨진 데이터 추세를 발견하고, 주요 비즈니스 동인을 식별하고, 미래의 결과를 예측하고, 데이터를 읽기 쉬운 자연어 문장의 서술 형태로 요약하고, 분석 및 조사를 위한 수작업에 소요되는 시간을 대폭 절감할 수 […]

Amazon Athena 및 Amazon QuickSight를 활용한 2백년간 글로벌 기후 데이터 시각화

전 세계 기후 변화는 우리의 삶의 질에 심각한 영향을 미치고 있습니다. 이 때문에 향후 지속 가능성에 대한 조사도 증가하고 있습니다. 공공 및 민간 부문의 연구원은 기록된 기후의 역사를 연구하고 기후 예측 모델을 사용하여 미래를 계획하고 있습니다. 이 글은 기후 변화와 그 개념에 대한 설명을 돕기 위해 Global Historical Climatology Network Daily(GHCN-D)를 소개합니다. 그리고, Amazon Web […]

Apache Airflow, Genie 및 Amazon EMR을 통한 빅데이터 워크플로 오케스트레이션 – 2부

AWS에서 빅 데이터 ETL 워크플로를 실행하는 대기업은 많은 내부 최종 사용자를 지원하는 대규모로 운영하며 수천 개의 동시 파이프라인을 실행합니다. 이러한 상황과 새로운 프레임워크 및 빅데이터 프로세싱 프레임워크의 최신 릴리스에 보조를 맞추기 위해 빅 데이터 플랫폼을 지속적으로 업데이트 및 확장해야 하는 필요성에 따라, 빅 데이터 플랫폼의 관리를 간소화할 뿐 아니라 빅 데이터 애플리케이션에 대한 간편한 액세스를 […]

Apache Airflow, Genie 및 Amazon EMR을 통한 빅데이터 워크플로 오케스트레이션 – 1부

AWS에서 빅 데이터 ETL 워크플로를 실행하는 대기업은 많은 내부 최종 사용자를 지원하는 대규모로 운영하며 수천 개의 동시 파이프라인을 실행합니다. 이러한 상황과 새로운 프레임워크 및 빅데이터 프로세싱 프레임워크의 최신 릴리스에 보조를 맞추기 위해 빅 데이터 플랫폼을 지속적으로 업데이트 및 확장해야 하는 필요성에 따라, 빅 데이터 플랫폼의 관리를 간소화할 뿐 아니라 빅 데이터 애플리케이션에 대한 간편한 액세스를 […]

Amazon Elasticsearch Service용 저비용 대용량 스토리지 UltraWarm 정식 출시 (서울 리전 포함)

지난 AWS re:Invent 2019에서 미리보기로 출시된 Amazon Elasticsearch Service용 UltraWarm을 오늘 정식 출시합니다. 새로운 이 저렴한 스토리지 티어는 기존 Amazon Elasticsearch Service 스토리지 티어 비용의 1/10에 불과한 비용으로 최대 3PB의 로그 데이터에 대한 신속한 대화식 분석을 제공합니다. UltraWarm은 Amazon Elasticsearch Service 고객이 기대하는 명확한 대화식 경험과 함께 오래되고 자주 액세스하지 않는 데이터를 위한 저렴한 스토리지를 […]

AWS Glue를 활용한 서버리스 스트리밍 ETL 기능 출시

데이터를 분석할 때, 가장 먼저 취하는 방법은 일괄(Batch) 처리 모델입니다. 일정 기간 동안 데이터를 수집한 다음, 분석 도구에 넣는 것입니다. 신속히 대응하려면 스트리밍(Streaming) 모델을 사용할 수 있습니다. 이 모델에서는 데이터가 도착하는 대로 처리하거나, 한 번에 레코드 하나씩 처리하거나, 10개, 100개, 1,000개 단위의 마이크로 배치로 레코드를 처리합니다. 연속적인 입력 파이프라인을 관리하고 즉석에서 데이터를 처리하는 작업은 상당히 […]

Amazon EMR Notebooks를 사용한 Python 라이브러리 설치 방법

작년에 AWS는 오픈소스 Jupyter 노트북 애플리케이션 기반의 관리형 노트북 환경인 Amazon EMR Notebooks를 소개했습니다.이 게시물에서는 EMR Notebooks를 사용하여 실행 중인 클러스터에서 직접 노트북 범위 라이브러리를 설치하는 방법을 알아봅니다. 이 기능이 도입되기 전에는 부트스트랩 작업에 의존하거나 사용자 지정 AMI를 사용하여 클러스터를 프로비저닝할 때 EMR AMI로 사전에 패키징되지 않은 추가 라이브러리를 설치해야 했습니다. 이 게시물에서는 EMR Notebooks […]

Amazon Web Services 한국 블로그

Category: Analytics