AWS 기술 블로그

Category: AWS Glue

새로운 작업 관측성 지표를 사용하여 AWS Glue 작업에 대한 모니터링 및 디버깅 강화, 2부: Grafana를 사용한 실시간 모니터링

문제를 조기에 파악하고 중단을 최소화하려면 데이터 파이프라인을 실시간으로 모니터링하는 것이 중요합니다. AWS Glue는 AWS Glue를 기반으로 구축된 데이터 통합 파이프라인에 대한 귀중한 통찰력을 제공하는 AWS Glue 작업 관측성 지표 출시를 통해 이를 더욱 간단하게 만들었습니다. 그러나 여러 작업에 걸쳐 핵심 성과 지표를 추적해야 할 수도 있습니다. 이 경우 동일한 지표를 시각화하고 개별 문제를 드릴다운할 수 있는 대시보드가 대규모로 […]

새로운 작업 관측성 지표를 사용하여 AWS Glue 작업에 대한 모니터링 및 디버깅 강화

이 글은 AWS Big Data Blog에 게시된 Enhance monitoring and debugging for AWS Glue jobs using new job observability metrics by Noritaka Sekiyama를 한국어 번역 및 편집하였습니다. 현대의 데이터 중심 기업에서는 원활한 데이터 통합 파이프라인을 갖추는 것이 중요합니다. 이러한 파이프라인은 다양한 소스에서 데이터를 가져와 변환하고 분석 및 보고를 위해 대상 시스템에 적재합니다. 제대로 실행되면 시기적절하고 […]

AWS 분석 서비스에서 Apache Iceberg 활용하기

What is Iceberg? Apache Iceberg는 페타바이트 기반의 데이터를 위한 오픈소스 데이터 테이블 형식으로, Netflix에서 개발하여 2020년부터 아파치 재단의 오픈소스로서 활용되었습니다. Apache Iceberg의 가장 큰 특징은 데이터 레이크에 저장된 대규모 데이터 세트를 테이블로 관리하며 Upsert, 스키마 진화, Time Travel query 등의 데이터 처리를 지원한다는 것입니다. 이러한 기능은 Apache Iceberg가 ACID를 보장하기 때문에 가능합니다. 기존의 Apache Hive […]

AWS Glue와 Amazon Athena를 활용한 MongoDB 데이터 분석 방법 비교하기

IoT 디바이스 또는 웹/앱 애플리케이션에서 발생되는 데이터는 JSON 다큐먼트 형태로 주로 저장되고 있으며, 이 데이터에 대한 분석 요구가 증대됨에 따라 MongoDB와 같은 다큐먼트 지향 데이터베이스 사용도 늘어나고 있습니다. AWS에서 제공되는 분석 서비스는 완전관리형 또는 서버리스 형태로 제공되어 사용자의 분석패턴에 따라 다양한 서비스를 활용할 수 있습니다. 이번 게시글에서는 여러 분석 서비스 중 Amazon Athena를 활용하여 ad-hoc […]

AWS Glue Job 리소스 사용량에 대한 알람 및 리포팅 자동화

이 글은 AWS Big Data Blog에 게시된 ‘Automate alerting and reporting for AWS Glue job resource usage by Michael Hamilton and Angus Ferguson’을 한국어로 번역 및 편집하였습니다. 데이터 변환은 규모에 관계없이 모든 조직의 비즈니스에 필요한 데이터 인사이트를 제공하는데 핵심적인 역할을 합니다. 이러한 인사이트를 얻기 위해 고객들은 종종 소스 시스템에서 ETL(추출, 변환, 로드) 작업을 수행하여 보강된 […]

효율적인 AWS CloudTrail 검색을 위한 데이터 파이프라인 구성

AWS CloudTrail은 사용자, 역할 또는 AWS 서비스가 수행하는 작업을 이벤트로 기록하는 서비스입니다. 이벤트에는 AWS Management Console, AWS Command Line Interface 및 AWS SDK, API에서 수행되는 작업이 포함됩니다. 이벤트는 Amazon Simple Storage Service(S3)에 JSON 형식의 압축 파일로 기록됩니다. 이 파일을 직접 다운받아 조회하거나 전체 포맷을 변경하지 않고 검색하는것은 매우 어려운 일 입니다. 서버리스 데이터 통합 서비스인 […]

Apache Spark용 AWS Glue 4.0 자세히 살펴보기

2023년 7월: 이 글은 AWS Glue Studio 노트북 및 대화형 세션에서의 Glue 4.0 지원에 대해 검토 및 업데이트 되었습니다. 이 글은 AWS Big Data Blog에 게시된 ‘ Dive deep into AWS Glue 4.0 for Apache Spark by Gonzalo Herreros, Rajendra Gujja, Bo Li, Mohit Saxena, Noritaka Sekiyama, and Savio Dsouza’을 한국어 번역 및 편집하였습니다. 데이터로부터 인사이트를 […]

Apache Atlas on Amazon EMR을 사용하여 Data Lineage 구성하기

데이터 거버넌스는 효율적인 데이터 관리를 위해 필수적인 요소입니다. 대부분의 데이터 지향 조직에서 데이터레이크의 메타데이터(Metadata) 관리, 카탈로깅(Cataloging), 데이터 리니지(Data Lineage), 데이터 분류(Classification) 등을 통해 효과적으로 그들의 데이터를 검색하고 활용하기를 원하고 있습니다. 이번 게시글에서는 Apache Atlas를 Amazon EMR 위에 설치하여, AWS Glue에서 관리되고 있는 카탈로그와 메타데이터를 포함하여 Apache Atlas에서 통합적으로 관리하고, 데이터 리니지 생성을 통해 데이터 흐름을 […]

AWS Glue DataBrew와 Amazon QuickSight를 이용한 반정형 중첩 JSON 데이터 분석

이 글은 AWS Big Data Blog에 게시된 Simplify semi-structured nested JSON data analysis with AWS Glue DataBrew and Amazon QuickSight by Sriharsh Adari, Amogh Gaikwad, and Rahul Sonawane을 한국어 번역 및 편집을 하였습니다. 산업이 성장하고 데이터양이 늘어나면서 빅데이터 분석이 데이터 분석이나 기계 학습(ML)에서 공통으로 사용되고 있습니다. 데이터는 정형, 반정형 및 비정형 형식의 다양한 소스에서 발생합니다. […]

AWS Step Functions Workflows Collection을 활용하여 빠르게 비즈니스 워크플로 구성하기

AWS Serverless Developer Advocate 팀은 2022년 6월 29일에 Serverless Land 사이트에 AWS Step Functions 워크플로를 쉽게 검색, 배포 및 공유할 수 있도록 Workflows Collection을 새롭게 출시했습니다. 이 글에서는 AWS Step Functions 워크플로우가 무엇인지, 어떤 문제들을 해결해주는지를 소개하고, Step Functions 사용에 도움이 되는 플랫폼인 Workflows Collection을 소개합니다. 이를 통하여 서버리스 애플리케이션을 쉽게 구축하는 방법을 알게 되며, […]