AWS 기술 블로그
Category: Analytics
동작 방식과 함께 알아보는 최적의 Amazon OpenSearch Service 사이징
서론 OpenSearch 는 Apache Lucene 검색 라이브러리로 구동되며, K-NN 검색, SQL, 이상 탐지, 전체 텍스트 검색 등 다양한 검색 및 분석 기능을 제공하는 Elasticsearch 에서 파생된 오픈 소스 입니다. 그리고 Amazon OpenSearch Service 는 OpenSearch 및 레거시 Elasticsearch OSS (7.10까지) 를 지원하는 관리형 오픈 소스 검색 엔진입니다. 이러한 OpenSearch Service 를 활용하기 위해서는 도메인이라고 불리는 […]
Amazon Redshift: 벤치마크 기반의 가격대비 성능 비교
이 글은 AWS Big Data Blog에 게시된 Amazon Redshift: Lower price, higher performance by tefan Gromoll, Aamer Shah, Orestis Polychroniou, Ravi Animi, and Sanket Hase 을 한국어 번역 및 편집하였습니다. 다른 모든 고객과 마찬가지로 여러분도 가능한 한 적은 비용으로 최상의 성능을 원할 것입니다. 이는 가격 대비 성능에 집중해야 한다는 것을 의미합니다. Amazon Redshift를 사용하면 두 마리 토끼를 모두 잡을 수 […]
새로운 작업 관측성 지표를 사용하여 AWS Glue 작업에 대한 모니터링 및 디버깅 강화, 2부: Grafana를 사용한 실시간 모니터링
이 글은 AWS Big Data Blog에 게시된 Enhance monitoring and debugging for AWS Glue jobs using new job observability metrics, Part 2: Real-time monitoring using Grafana by Noritaka Sekiyama를 한국어 번역 및 편집하였습니다. 문제를 조기에 파악하고 중단을 최소화하려면 데이터 파이프라인을 실시간으로 모니터링하는 것이 중요합니다. AWS Glue는 AWS Glue를 기반으로 구축된 데이터 통합 파이프라인에 대한 귀중한 통찰력을 […]
새로운 작업 관측성 지표를 사용하여 AWS Glue 작업에 대한 모니터링 및 디버깅 강화
이 글은 AWS Big Data Blog에 게시된 Enhance monitoring and debugging for AWS Glue jobs using new job observability metrics by Noritaka Sekiyama를 한국어 번역 및 편집하였습니다. 현대의 데이터 중심 기업에서는 원활한 데이터 통합 파이프라인을 갖추는 것이 중요합니다. 이러한 파이프라인은 다양한 소스에서 데이터를 가져와 변환하고 분석 및 보고를 위해 대상 시스템에 적재합니다. 제대로 실행되면 시기적절하고 […]
AWS DMS를 이용한 CDC 데이터 실시간 수집 및 분석 데이터 파이프라인 구축하기
관계형 데이터베이스(RDBMS)는 데이터를 저장하고, 분석하고자 할 때 가장 많이 사용되는 솔루션 입니다. 하지만, RDBMS로 처리하기 어려울 만큼 많은 양의 데이터를 저장하고 관리해야 하는 상황이 자주 발생합니다. 또한, MSA (마이크로 서비스아키텍처)를 도입해서 비즈니스 도메인 단위로 RDBMS를 물리적으로 격리하는 경우에 데이터 분석을 위해서 여러 RDBMS의 데이터를 한 곳에 모아서 저장하고, 관리해야할 필요가 있습니다. 즉, 데이터 레이크를 구축해서 […]
AWS IoT FleetWise를 활용한 HL Mando의 실시간 차량 데이터 플랫폼 구축 사례
HL Mando는 ‘세상을 더 안전하고, 친환경적이며, 편리하게 모든 고객이 자유로워지는 내일’의 역사를 만들어 나가는 글로벌 자동차 부품 전문 기업입니다. 조향장치(Steering), 제동장치(Brake), 현가장치(Suspension)와 같은 자동차 핵심 부품 제조에서부터 최근에는 자율주행, 전기차와 같은 미래 모빌리티 역량과 e-Drive, 수소연료전지 컨버터 등 친환경차 솔루션 사업을 강화하고 있습니다. 2023년 기준 매출액은 약 7.5조 원을 기록했으며, 현재 CES 2024 최고혁신상을 수상한 […]
Amazon Redshift Serverless에서 SQL 쿼리 스케줄링하기
Amazon Redshift는 데이터를 쉽고 빠르게 비용 효율적으로 분석할 수 있게 해주는 페타바이트 규모의 완전 관리형 데이터 웨어하우스 서비스입니다. 데이터 웨어하우스의 특성상 통합 분석을 위해 다양한 데이터를 수집해야 하고 수집 주기나 방식 등도 달라질 수 있습니다. 최근에 AWS 에서는 이와 같은 작업을 손쉽게 수행할 수 있도록 ETL 툴을 사용하는 기존의 전통적인 수집 방안 이외에도 실시간으로 데이터를 […]
AWS 분석 서비스에서 Apache Iceberg 활용하기
What is Iceberg? Apache Iceberg는 페타바이트 기반의 데이터를 위한 오픈소스 데이터 테이블 형식으로, Netflix에서 개발하여 2020년부터 아파치 재단의 오픈소스로서 활용되었습니다. Apache Iceberg의 가장 큰 특징은 데이터 레이크에 저장된 대규모 데이터 세트를 테이블로 관리하며 Upsert, 스키마 진화, Time Travel query 등의 데이터 처리를 지원한다는 것입니다. 이러한 기능은 Apache Iceberg가 ACID를 보장하기 때문에 가능합니다. 기존의 Apache Hive […]
Amazon MSK에서 올바른 클러스터 유형을 선택하는 방법
이 글은 AWS Big Data Blog에 게시된 How to choose the right Amazon MSK cluster type for you by Ali Alemi을 한국어로 번역 및 편집하였습니다. Amazon Managed Streaming for Apache Kafka (Amazon MSK)는 Apache Kafka의 인프라 및 운영을 관리하는 AWS 스트리밍 데이터 서비스로, 개발자와 DevOps 관리자가 AWS에서 Apache Kafka 애플리케이션 및 커넥터를 쉽게 실행할 수 있도록 해줍니다. […]
한국어 Reranker를 활용한 검색 증강 생성(RAG) 성능 올리기
검색 증강 생성 (Retrieval-Augmented Generation, RAG)은 효율적인 데이터 검색과 대규모 언어 모델 (Large Language Model, LLM) 을 결합하여 정확하고 관련성 높은 응답을 생성하는 AI 기술로 부상했습니다. 특히, RAG 방식은 최신 정보를 반영하여 답변의 부정확성이나 환각을 줄인다는 면에서 많은 사용자들의 관심을 받고 있습니다. 그러나 RAG 시스템이 보다 복잡한 실제 애플리케이션에 적용 됨에 따라, 시멘틱 벡터 검색 […]