AWS 기술 블로그
Category: AWS Big Data
AWS 분석 서비스에서 Apache Iceberg 활용하기
What is Iceberg? Apache Iceberg는 페타바이트 기반의 데이터를 위한 오픈소스 데이터 테이블 형식으로, Netflix에서 개발하여 2020년부터 아파치 재단의 오픈소스로서 활용되었습니다. Apache Iceberg의 가장 큰 특징은 데이터 레이크에 저장된 대규모 데이터 세트를 테이블로 관리하며 Upsert, 스키마 진화, Time Travel query 등의 데이터 처리를 지원한다는 것입니다. 이러한 기능은 Apache Iceberg가 ACID를 보장하기 때문에 가능합니다. 기존의 Apache Hive […]
Apache Atlas on Amazon EMR을 사용하여 Data Lineage 구성하기
데이터 거버넌스는 효율적인 데이터 관리를 위해 필수적인 요소입니다. 대부분의 데이터 지향 조직에서 데이터레이크의 메타데이터(Metadata) 관리, 카탈로깅(Cataloging), 데이터 리니지(Data Lineage), 데이터 분류(Classification) 등을 통해 효과적으로 그들의 데이터를 검색하고 활용하기를 원하고 있습니다. 이번 게시글에서는 Apache Atlas를 Amazon EMR 위에 설치하여, AWS Glue에서 관리되고 있는 카탈로그와 메타데이터를 포함하여 Apache Atlas에서 통합적으로 관리하고, 데이터 리니지 생성을 통해 데이터 흐름을 […]
AWS Glue DataBrew와 Amazon QuickSight를 이용한 반정형 중첩 JSON 데이터 분석
이 글은 AWS Big Data Blog에 게시된 Simplify semi-structured nested JSON data analysis with AWS Glue DataBrew and Amazon QuickSight by Sriharsh Adari, Amogh Gaikwad, and Rahul Sonawane을 한국어 번역 및 편집을 하였습니다. 산업이 성장하고 데이터양이 늘어나면서 빅데이터 분석이 데이터 분석이나 기계 학습(ML)에서 공통으로 사용되고 있습니다. 데이터는 정형, 반정형 및 비정형 형식의 다양한 소스에서 발생합니다. […]
Amazon EMR에서 Trino와 Apache Superset을 이용한 Federated Query 하기
최근 많은 기업들은 여러 데이터 소스, 즉 클라우드, 온프레미스, 멀티 클라우드 내에 있는 데이터로부터 쉽고 지속적으로 비즈니스 인사이트를 얻기 위해 단일 데이터 쿼리 플랫폼을 도입하려고 고민 중입니다. 더불어, 이 플랫폼에서 데이터 보안 및 거버넌스는 필수적인 요소이며, 기업들은 데이터 소유권을 각 비즈니스 도메인에 유지하면서 데이터를 제품으로서 지속적으로 생산 및 재활용하기를 원합니다. 이를 뒷바침하는 아키텍처로 Data Fabric […]
Apache Iceberg Connector for AWS Glue를 이용하여 데이터레이크 CRUD 하기
AWS Glue와 AWS Database Migration Service (DMS)는 온프레미스 데이터 소스를 Amazon Simple Storage Service (Amazon S3) 데이터레이크에 복제하는 도구로서 유용하게 사용되고 있습니다. 많은 고객들이 데이터 소스에서 업데이트가 발생할 때마다 데이터레이크에 반영되기를 원하지만, 관계형 데이터베이스 (RDB) 만큼 쉽게 데이터레이크에 UPDATE나 DELETE하는 것은 쉽지 않습니다. Apache Hudi, Delta Lake와 함께 Apache Iceberg는 데이터레이크 내의 데이터를 쉽게 수정하고 […]