AWS 기술 블로그

Category: Analytics

새로운 작업 관측성 지표를 사용하여 AWS Glue 작업에 대한 모니터링 및 디버깅 강화

이 글은 AWS Big Data Blog에 게시된 Enhance monitoring and debugging for AWS Glue jobs using new job observability metrics by Noritaka Sekiyama를 한국어 번역 및 편집하였습니다. 현대의 데이터 중심 기업에서는 원활한 데이터 통합 파이프라인을 갖추는 것이 중요합니다. 이러한 파이프라인은 다양한 소스에서 데이터를 가져와 변환하고 분석 및 보고를 위해 대상 시스템에 적재합니다. 제대로 실행되면 시기적절하고 […]

AWS DMS를 이용한 CDC 데이터 실시간 수집 및 분석 데이터 파이프라인 구축하기

관계형 데이터베이스(RDBMS)는 데이터를 저장하고, 분석하고자 할 때 가장 많이 사용되는 솔루션 입니다. 하지만, RDBMS로 처리하기 어려울 만큼 많은 양의 데이터를 저장하고 관리해야 하는 상황이 자주 발생합니다. 또한, MSA (마이크로 서비스아키텍처)를 도입해서 비즈니스 도메인 단위로 RDBMS를 물리적으로 격리하는 경우에 데이터 분석을 위해서 여러 RDBMS의 데이터를 한 곳에 모아서 저장하고, 관리해야할 필요가 있습니다. 즉, 데이터 레이크를 구축해서 […]

AWS IoT FleetWise를 활용한 HL Mando의 실시간 차량 데이터 플랫폼 구축 사례

HL Mando는 ‘세상을 더 안전하고, 친환경적이며, 편리하게 모든 고객이 자유로워지는 내일’의 역사를 만들어 나가는 글로벌 자동차 부품 전문 기업입니다. 조향장치(Steering), 제동장치(Brake), 현가장치(Suspension)와 같은 자동차 핵심 부품 제조에서부터 최근에는 자율주행, 전기차와 같은 미래 모빌리티 역량과 e-Drive, 수소연료전지 컨버터 등 친환경차 솔루션 사업을 강화하고 있습니다. 2023년 기준 매출액은 약 7.5조 원을 기록했으며, 현재 CES 2024 최고혁신상을 수상한 […]

Amazon Redshift Serverless에서 SQL 쿼리 스케줄링하기

Amazon Redshift는 데이터를 쉽고 빠르게 비용 효율적으로 분석할 수 있게 해주는 페타바이트 규모의 완전 관리형 데이터 웨어하우스 서비스입니다. 데이터 웨어하우스의 특성상 통합 분석을 위해 다양한 데이터를 수집해야 하고 수집 주기나 방식 등도 달라질 수 있습니다. 최근에 AWS 에서는 이와 같은 작업을 손쉽게 수행할 수 있도록 ETL 툴을 사용하는 기존의 전통적인 수집 방안 이외에도 실시간으로 데이터를 […]

AWS 분석 서비스에서 Apache Iceberg 활용하기

What is Iceberg? Apache Iceberg는 페타바이트 기반의 데이터를 위한 오픈소스 데이터 테이블 형식으로, Netflix에서 개발하여 2020년부터 아파치 재단의 오픈소스로서 활용되었습니다. Apache Iceberg의 가장 큰 특징은 데이터 레이크에 저장된 대규모 데이터 세트를 테이블로 관리하며 Upsert, 스키마 진화, Time Travel query 등의 데이터 처리를 지원한다는 것입니다. 이러한 기능은 Apache Iceberg가 ACID를 보장하기 때문에 가능합니다. 기존의 Apache Hive […]

Amazon MSK에서 올바른 클러스터 유형을 선택하는 방법

이 글은 AWS Big Data Blog에 게시된 How to choose the right Amazon MSK cluster type for you by Ali Alemi을 한국어로 번역 및 편집하였습니다. Amazon Managed Streaming for Apache Kafka (Amazon MSK)는 Apache Kafka의 인프라 및 운영을 관리하는 AWS 스트리밍 데이터 서비스로, 개발자와 DevOps 관리자가 AWS에서 Apache Kafka 애플리케이션 및 커넥터를 쉽게 실행할 수 있도록 해줍니다. […]

한국어 Reranker를 활용한 검색 증강 생성(RAG) 성능 올리기

검색 증강 생성 (Retrieval-Augmented Generation, RAG)은 효율적인 데이터 검색과 대규모 언어 모델 (Large Language Model, LLM) 을 결합하여 정확하고 관련성 높은 응답을 생성하는 AI 기술로 부상했습니다. 특히, RAG 방식은 최신 정보를 반영하여 답변의 부정확성이나 환각을 줄인다는 면에서 많은 사용자들의 관심을 받고 있습니다. 그러나 RAG 시스템이 보다 복잡한 실제 애플리케이션에 적용 됨에 따라, 시멘틱 벡터 검색 […]

지니뮤직의 다중 계정 관리 방안과 통합 데이터 관리 및 시각화 전략

지니뮤직은? 지니뮤직(geniemusic)은 음악을 사랑하는 사람들의 삶을 보다 더 행복하게 해준다는 비전을 가지고 있는 음악 스트리밍 서비스 기업입니다. 안정적인 음악사업을 기반으로 공연, AI콘텐츠창작, 도서영역으로 사업다각화를 추진해 외연확장을 통한 성장을 이뤄내고 있으며, 앞으로 AI음악플랫폼 genie의 경쟁력 강화, 커넥티드 환경에서 음악 사용성 증대, AI창작기반 융합콘텐츠사업 혁신을 다각적으로 추진해 기업성장을 이끌 것입니다. 배경 자사 개발팀에서 Amazon EKS migration을 위한 […]

IAM을 활용하여 Amazon MSK 주제 접근 제어하기

배경 현대의 많은 기업과 서비스에서 Apache Kafka의 사용은 빠른 시간 내에 굉장히 보편화되었고, 그 목적과 중요도에 따라 높은 확장성과 고가용성을 요구합니다. Apache Kafka와 같이 분산 환경에서 실행되는 이벤트 브로커는 다양한 팀과 사용자가 같이 사용하는 형태이기에 보안은 굉장히 중요합니다. 하지만 이를 관리해야 하는 관리자의 입장에서는 이러한 요구 사항을 만족시키며 설정하는 것은 Apache Kafka에 대한 깊은 수준의 […]

Amazon MSK를 활용한 데이터베이스 간 CDC 구현하기

최근 많은 고객들이 디지털 전환을 위해 온프레미스의 모놀리식 아키텍처에서 MSA를 통한 클라우드로의 전환을 하기 위해 많은 노력을 하고 있습니다. 리스크가 있는 빅뱅 방식보다 점진적 전환 전략을 선택하다 보니 과도기적으로 온프레미스와 클라우드에 동시에 데이터베이스를 운영하게 되고 클라우드DB에서 온프레미스DB로 데이터를 동기화 해야 할 필요가 생기게 됩니다. 물론 마이그레이션이 완료되면 제거될 부분이지만 그 전까지는 서비스 중단을 예방하기 위해 […]