AWS 기술 블로그

Category: Analytics

AWS Lake Formation과 Amazon S3 정책을 통한 안전한 액세스를 위한 AWS Glue Data Catalog의 하이브리드 액세스 모드 소개

이 글은 AWS Big Data Blog의 Introducing hybrid access mode for AWS Glue Data Catalog to secure access using AWS Lake Formation and IAM and Amazon S3 policies by Aarthi Srinivasan의 한국어 번역본입니다. AWS Lake Formation을 사용하면 분석과 머신 러닝을 위한 데이터를 중앙에서 관리하고, 보호하고, 전사적으로 공유할 수 있습니다. Lake Formation을 사용해서, 사용자는 Amazon Simple […]

새로운 작업 관측성 지표를 사용하여 AWS Glue 작업에 대한 모니터링 및 디버깅 강화, 3부: Amazon QuickSight를 사용한 시각화 및 추세 분석

이 글은 AWS Big Data Blog에 게시된 Enhance monitoring and debugging for AWS Glue jobs using new job observability metrics, Part 3: Visualization and trend analysis using Amazon QuickSight by Noritaka Sekiyama를 한국어 번역 및 편집하였습니다. 이 시리즈의 2부에서는 AWS Glue 작업 관측성 지표를 활성화하고 실시간 모니터링을 위해 Grafana와 통합하는 방법을 논의했습니다. Grafana는 파이프라인 상태를 볼 […]

Amazon OpenSearch Service의 AI/ML 커넥터로 Neural 검색 강화

OpenSearch 2.9에서 Amazon OpenSearch Service의 Neural 검색 기능이 출시되며, AI/ML 모델과 통합하여 시맨틱 검색 및 다양한 검색 기능을 손쉽게 강화할 수 있습니다. OpenSearch Service는 2020년에 k-NN(k-최근접 이웃) 기능을 도입한 이래 어휘 검색과 벡터 검색을 모두 지원해 왔지만, 시맨틱 검색을 구성하려면 머신 러닝(ML) 모델을 통합하여 색인 및 검색할 수 있는 프레임워크를 구축해야 했습니다. Neural 검색 기능은 […]

Amazon SageMaker와 통합된 Amazon DataZone으로 머신러닝 거버넌스를 간소화하기

Amazon SageMaker는 머신러닝(ML) 모델을 구축, 학습 및 배포하기 위한 다양한 도구와 기능을 제공하는 완전 관리형 ML 서비스입니다. Amazon DataZone은 고객이 AWS, 온프레미스 및 타사 소스에 저장된 데이터를 더 빠르고 쉽게 카탈로그화, 검색, 공유 및 관리할 수 있도록 지원하는 데이터 관리 서비스입니다. 저희는 오늘 보안 제어 기능을 갖춘 인프라를 설정하고, 머신러닝 (ML) 프로젝트에서 협업하고, 데이터 및 […]

Amazon OpenSearch Service Integration 기능을 활용한 손쉬운 임베딩 파이프라인 구성

서론 최근 자체적인 생성형 AI를 만들기 위한 여러가지 노력들이 있습니다. 특히 검색 증강 생성(Retrieval Augmented Generation, RAG) 모델을 활용하여 외부 소스의 정보를 사전에 지식 데이터베이스로 사용하며 생성형 AI 모델의 정확성과 신뢰성을 향상시키기 위해 다양한 방법으로 실험이 진행 되고 있습니다. Amazon OpenSearch Service는 Vector Database로 많은 사랑을 받고 있으며 2.9 버전부터 Neural Search 기능이 출시됨에 따라 […]

동작 방식과 함께 알아보는 최적의 Amazon OpenSearch Service 사이징

서론 OpenSearch 는 Apache Lucene 검색 라이브러리로 구동되며, K-NN 검색, SQL, 이상 탐지, 전체 텍스트 검색 등 다양한 검색 및 분석 기능을 제공하는  Elasticsearch 에서 파생된 오픈 소스 입니다. 그리고 Amazon OpenSearch Service 는 OpenSearch 및 레거시 Elasticsearch OSS (7.10까지) 를 지원하는 관리형 오픈 소스 검색 엔진입니다. 이러한 OpenSearch Service 를 활용하기 위해서는 도메인이라고 불리는 […]

Amazon Redshift: 벤치마크 기반의 가격대비 성능 비교

이 글은 AWS Big Data Blog에 게시된 Amazon Redshift: Lower price, higher performance by tefan Gromoll, Aamer Shah, Orestis Polychroniou, Ravi Animi, and Sanket Hase 을 한국어 번역 및 편집하였습니다. 다른 모든 고객과 마찬가지로 여러분도 가능한 한 적은 비용으로 최상의 성능을 원할 것입니다. 이는 가격 대비 성능에 집중해야 한다는 것을 의미합니다. Amazon Redshift를 사용하면 두 마리 토끼를 모두 잡을 수 […]

새로운 작업 관측성 지표를 사용하여 AWS Glue 작업에 대한 모니터링 및 디버깅 강화, 2부: Grafana를 사용한 실시간 모니터링

이 글은 AWS Big Data Blog에 게시된 Enhance monitoring and debugging for AWS Glue jobs using new job observability metrics, Part 2: Real-time monitoring using Grafana by Noritaka Sekiyama를 한국어 번역 및 편집하였습니다. 문제를 조기에 파악하고 중단을 최소화하려면 데이터 파이프라인을 실시간으로 모니터링하는 것이 중요합니다. AWS Glue는 AWS Glue를 기반으로 구축된 데이터 통합 파이프라인에 대한 귀중한 통찰력을 […]

새로운 작업 관측성 지표를 사용하여 AWS Glue 작업에 대한 모니터링 및 디버깅 강화

이 글은 AWS Big Data Blog에 게시된 Enhance monitoring and debugging for AWS Glue jobs using new job observability metrics by Noritaka Sekiyama를 한국어 번역 및 편집하였습니다. 현대의 데이터 중심 기업에서는 원활한 데이터 통합 파이프라인을 갖추는 것이 중요합니다. 이러한 파이프라인은 다양한 소스에서 데이터를 가져와 변환하고 분석 및 보고를 위해 대상 시스템에 적재합니다. 제대로 실행되면 시기적절하고 […]

AWS DMS를 이용한 CDC 데이터 실시간 수집 및 분석 데이터 파이프라인 구축하기

관계형 데이터베이스(RDBMS)는 데이터를 저장하고, 분석하고자 할 때 가장 많이 사용되는 솔루션 입니다. 하지만, RDBMS로 처리하기 어려울 만큼 많은 양의 데이터를 저장하고 관리해야 하는 상황이 자주 발생합니다. 또한, MSA (마이크로 서비스아키텍처)를 도입해서 비즈니스 도메인 단위로 RDBMS를 물리적으로 격리하는 경우에 데이터 분석을 위해서 여러 RDBMS의 데이터를 한 곳에 모아서 저장하고, 관리해야할 필요가 있습니다. 즉, 데이터 레이크를 구축해서 […]