Amazon EMR | AWS 기술 블로그

삼성전자 로봇 설비 데이터 인사이트 혁신, Part 1: Amazon Quick Sight 대시보드

이 블로그 포스트는 삼성전자의 최석원님과 함께 작성되었습니다. 개요 삼성전자에서는 다양한 방법으로 로봇과 설비가 협업 할 수 있는 방법에 대해 고민하고 있습니다. 특히 양팔 로봇, 협동로봇, AMR (Autonomous Mobile Robot) 등과 자동화 설비를 이용한 통합 시스템을 구성하기 위하여 노력 하고 있습니다. 초기 AWS IoT Core와 AWS IoT Greengrass를 사용 데이터를 수집한 뒤 MongoDB에 실시간으로 데이터를 저장하는 […]

AWS Glue ETL을 활용한 CRM 데이터의 효율적인 병렬처리 전략

노티플라이는 CRM 마케팅 솔루션으로서, 100여 개 이상의 다양한 고객사들의 마케팅 캠페인을 집행하고 결과를 분석하는 기능을 제공하고 있습니다. 마케팅 성과를 보다 정확하고 빠르게 분석하기 위해 캠페인과 관련된 사용자 이벤트 데이터를 수집하고 집계하여 실시간에 가깝게 통계 데이터를 제공해야 합니다. 노티플라이는 다음과 같은 요구사항을 해결하기 위해 AWS 서비스들로 구성된 효율적인 ETL 파이프라인을 구축했습니다. 고객사별 캠페인 성과 데이터의 정기적인 […]

자동차 산업을 위한 AWS re:Invent 2024 요약

이 글은 AWS for Industries 블로그에 게시된 글 (AWS re:Invent 2024 recap for the Automotive Industry)를 한국어로 번역 및 편집하였습니다. AWS의 대표적인 연례 컨퍼런스 AWS re:Invent 2024에서, 2024년 12월 2일부터 6일까지 한주 동안 AWS는 기조연설, 브레이크아웃 세션, 신제품 출시, 그리고 다양한 데모를 통하여 최신 혁신과 서비스를 공개하였습니다. 본 요약은 자동차 산업과 관련된 주요 발표 내용, […]

우아한형제들의 Data on EKS 중심의 데이터 플랫폼 구축 사례

우아한형제들은 ‘문 앞으로 배달되는 일상의 행복’ 이라는 비전을 실현하기 위해 데이터와 AI를 기반으로 ‘배달의 민족’ 서비스의 사용자 경험을 지속적으로 개선하고 있습니다. 팬데믹 이후 배달시장은 폭발적으로 성장하였고 데이터의 크기 또한 이전과 비교할 수 없을 정도로 증가하였습니다. 기존 데이터 플랫폼은 EC2를 기반으로 하는 EMR과 쿼리 엔진, 데이터 파이프라인 그리고 분석 도구들로 운영되고 있었습니다. EC2 기반의 데이터 플랫폼은 […]

Amazon EKS 환경에서 다양한 Spark 애플리케이션 제출 방법 비교하기

Amazon EKS 환경에서는 다양한 방법으로 Spark 애플리케이션을 제출할 수 있습니다. 현재 Amazon EKS 환경에서 지원하는 Spark 애플리케이션 제출 방법에는 spark-submit CLI를 활용하는 방법, Spark Operator를 활용하는 방법, AWS CLI 활용하는 방법, EMR Container Controller를 활용하는 방법, 총 4가지 방법이 존재합니다. 본 게시글에서는 Amazon EKS 환경에서 Spark 애플리케이션을 제출할 수 있는 4가지 방법에 대해서 소개하여, 고객분들이 […]

롯데ON 사례로 본 개인화 추천 시스템 구축하기, 1부 : Dynamic A/B Testing 아키텍처 구축

롯데ON은 풍부한 오프라인 쇼핑 인프라, 온라인 쇼핑 노하우로 세상에 없던 새로운 쇼핑 경험을 제공하는 온라인 쇼핑 플랫폼으로 발전하고 있습니다. 단순히 상품을 판매하는 플랫폼이 아닌 상품에 대한 경험을 제공할 수 있는 플랫폼을 목표로 고객이 원하고 만족하는 서비스를 만들기 위해 노력하고 있습니다. 롯데ON은 메인페이지, 상품상세, 검색, 장바구니, 주문완료 페이지에 이르는 롯데ON 고객의 여정 전반에 걸쳐 다양한 형태의 […]

Apache Atlas on Amazon EMR을 사용하여 Data Lineage 구성하기

데이터 거버넌스는 효율적인 데이터 관리를 위해 필수적인 요소입니다. 대부분의 데이터 지향 조직에서 데이터레이크의 메타데이터(Metadata) 관리, 카탈로깅(Cataloging), 데이터 리니지(Data Lineage), 데이터 분류(Classification) 등을 통해 효과적으로 그들의 데이터를 검색하고 활용하기를 원하고 있습니다. 이번 게시글에서는 Apache Atlas를 Amazon EMR 위에 설치하여, AWS Glue에서 관리되고 있는 카탈로그와 메타데이터를 포함하여 Apache Atlas에서 통합적으로 관리하고, 데이터 리니지 생성을 통해 데이터 흐름을 […]

Amazon EMR에서 Trino와 Apache Superset을 이용한 Federated Query 하기

최근 많은 기업들은 여러 데이터 소스, 즉 클라우드, 온프레미스, 멀티 클라우드 내에 있는 데이터로부터 쉽고 지속적으로 비즈니스 인사이트를 얻기 위해 단일 데이터 쿼리 플랫폼을 도입하려고 고민 중입니다. 더불어, 이 플랫폼에서 데이터 보안 및 거버넌스는 필수적인 요소이며, 기업들은 데이터 소유권을 각 비즈니스 도메인에 유지하면서 데이터를 제품으로서 지속적으로 생산 및 재활용하기를 원합니다. 이를 뒷바침하는 아키텍처로 Data Fabric […]

Apache Iceberg Connector for AWS Glue를 이용하여 데이터레이크 CRUD 하기

AWS Glue와 AWS Database Migration Service (DMS)는 온프레미스 데이터 소스를 Amazon Simple Storage Service (Amazon S3) 데이터레이크에 복제하는 도구로서 유용하게 사용되고 있습니다. 많은 고객들이 데이터 소스에서 업데이트가 발생할 때마다 데이터레이크에 반영되기를 원하지만, 관계형 데이터베이스 (RDB) 만큼 쉽게 데이터레이크에 UPDATE나 DELETE하는 것은 쉽지 않습니다. Apache Hudi, Delta Lake와 함께 Apache Iceberg는 데이터레이크 내의 데이터를 쉽게 수정하고 […]

AWS 기술 블로그

Category: Amazon EMR