AWS 기술 블로그

Category: AWS Glue

Amazon S3 데이터 레이크와 기계학습을 위한 Snowflake 통합 파이프라인 플랫폼 구축하기

인공지능과 기계학습 기술의 상용화로, 기업들은 대량의 데이터를 효과적으로 수집, 저장, 관리할 필요성을 점차 인식하고 있습니다. 데이터 레이크(Data Lake)는 이러한 필요성에 부응하여, 다양한 소스로부터 대규모의 데이터를 실시간으로 수집하고 저장함으로써 기업의 의사결정과 혁신을 지원합니다. 이제 데이터 레이크는 기업이 데이터 자산을 최대한 활용하고 비즈니스 가치를 창출하는 핵심 요소로 자리 잡고 있습니다. 정형, 반정형, 비정형 데이터 등 다양한 유형의 […]

AWS 서비스를 활용하여, 오픈소스 데이터베이스로 내 데이터 다시 담기

이 글은 SQL Server to Aurora MySQL in Game Development 시리즈 블로그의 일부로 작성이 되었습니다. 시리즈의 모든 글들은 아래 링크들을 따라가시면 읽어보실 수 있습니다. 저장 프로시저 중심 아키텍처에서 벗어나 클라우드 데이터베이스 적응하기 Aurora MySQL 성능 검증 직접 해보기 Game 개발시 Aurora MySQL을 사용하는 과정에서 SQL Server와 달라 주의할 점들에 대한 가이드 Amazon Aurora MySQL을 활용한 […]

Amazon Data Firehose를 활용한 실시간 OLTP to ICEBERG 구현하기

배경 기존의 빅데이터 프레임워크, 특히 HIVE 기반의 데이터레이크를 클라우드 환경에서 구성 할 경우 큰 규모의 데이터를 저장하고 분석하는 데 있어 효율적입니다. 그러나 트랜잭션을 지원하지 않는 관계로 데이터의 복잡성이 증가 할 경우 성능 저하 및 운영 복잡성을 초래할 수 있습니다. 이러한 기존의 데이터레이크의 한계를 극복하기 위해 오픈 테이블 포맷인 Apache Iceberg가 등장했습니다. Apache Iceberg는 스냅샷 기반의 […]

뉴넥스의 AWS 서비스를 활용한 검색 시스템 구축과 운영 사례

소개 뉴넥스(NEWNEX)는 2014년에 설립된 패션 이커머스 플랫폼 기업으로, IT 기술을 활용해 커머스와 물류 인프라를 통합하여 ‘하루배송’과 같은 최적의 쇼핑 경험을 제공하고 있습니다. 현재 1020 여성 패션 플랫폼 ‘브랜디’, 남성 쇼핑 플랫폼 ‘하이버’, 여성 브랜드 패션 플랫폼 ‘서울스토어’를 운영 중이며, 판매자에게 물류와 운영을 지원하는 통합 서비스인 ‘헬피’도 제공하고 있습니다. 뉴넥스는 2024년 기준 누적 거래액 1.8조 원, […]

CJ 올리브영의 서버리스 랭킹 시스템 구축기

글로벌 K-뷰티 트렌드를 선도하며 성장해 온 CJ올리브영은 1400만 명 이상의 멤버십 회원을 보유하고 있는 대한민국 대표 옴니채널 플랫폼입니다. 주력 카테고리인 뷰티를 넘어, 최근에는 웰니스(Wellness) 트렌드 선도 차원에서 건강, 라이프스타일 상품을 전국 매장과 온라인몰을 통해 선보이며 고객들에게 차별화된 리테일 경험을 제공하고 있습니다. 특히 올리브영 온라인몰에는 수만여 개의 상품이 전시돼 있습니다. 이를 돋보이게 해주는 ‘랭킹 시스템’은 고객의 […]

AWS Lake Formation과 Amazon S3 정책을 통한 안전한 액세스를 위한 AWS Glue Data Catalog의 하이브리드 액세스 모드 소개

이 글은 AWS Big Data Blog의 Introducing hybrid access mode for AWS Glue Data Catalog to secure access using AWS Lake Formation and IAM and Amazon S3 policies by Aarthi Srinivasan의 한국어 번역본입니다. AWS Lake Formation을 사용하면 분석과 머신 러닝을 위한 데이터를 중앙에서 관리하고, 보호하고, 전사적으로 공유할 수 있습니다. Lake Formation을 사용해서, 사용자는 Amazon Simple […]

새로운 작업 관측성 지표를 사용하여 AWS Glue 작업에 대한 모니터링 및 디버깅 강화, 3부: Amazon QuickSight를 사용한 시각화 및 추세 분석

이 글은 AWS Big Data Blog에 게시된 Enhance monitoring and debugging for AWS Glue jobs using new job observability metrics, Part 3: Visualization and trend analysis using Amazon QuickSight by Noritaka Sekiyama를 한국어 번역 및 편집하였습니다. 이 시리즈의 2부에서는 AWS Glue 작업 관측성 지표를 활성화하고 실시간 모니터링을 위해 Grafana와 통합하는 방법을 논의했습니다. Grafana는 파이프라인 상태를 볼 […]

새로운 작업 관측성 지표를 사용하여 AWS Glue 작업에 대한 모니터링 및 디버깅 강화, 2부: Grafana를 사용한 실시간 모니터링

이 글은 AWS Big Data Blog에 게시된 Enhance monitoring and debugging for AWS Glue jobs using new job observability metrics, Part 2: Real-time monitoring using Grafana by Noritaka Sekiyama를 한국어 번역 및 편집하였습니다. 문제를 조기에 파악하고 중단을 최소화하려면 데이터 파이프라인을 실시간으로 모니터링하는 것이 중요합니다. AWS Glue는 AWS Glue를 기반으로 구축된 데이터 통합 파이프라인에 대한 귀중한 통찰력을 […]

새로운 작업 관측성 지표를 사용하여 AWS Glue 작업에 대한 모니터링 및 디버깅 강화

이 글은 AWS Big Data Blog에 게시된 Enhance monitoring and debugging for AWS Glue jobs using new job observability metrics by Noritaka Sekiyama를 한국어 번역 및 편집하였습니다. 현대의 데이터 중심 기업에서는 원활한 데이터 통합 파이프라인을 갖추는 것이 중요합니다. 이러한 파이프라인은 다양한 소스에서 데이터를 가져와 변환하고 분석 및 보고를 위해 대상 시스템에 적재합니다. 제대로 실행되면 시기적절하고 […]

AWS 분석 서비스에서 Apache Iceberg 활용하기

What is Iceberg? Apache Iceberg는 페타바이트 기반의 데이터를 위한 오픈소스 데이터 테이블 형식으로, Netflix에서 개발하여 2020년부터 아파치 재단의 오픈소스로서 활용되었습니다. Apache Iceberg의 가장 큰 특징은 데이터 레이크에 저장된 대규모 데이터 세트를 테이블로 관리하며 Upsert, 스키마 진화, Time Travel query 등의 데이터 처리를 지원한다는 것입니다. 이러한 기능은 Apache Iceberg가 ACID를 보장하기 때문에 가능합니다. 기존의 Apache Hive […]