AWS 기술 블로그
Category: Analytics
효율적인 Amazon Redshift 감사 로그 검색을 위한 데이터 파이프라인 구성
Amazon Redshift는 엑사바이트 규모의 데이터를 분석하고 복잡한 분석 쿼리를 실행하여 널리 사용되는 클라우드 데이터 웨어하우스입니다. Amazon Redshift는 보안 및 문제 해결을 목적으로 데이터베이스를 모니터링 할 수 있도록 감사 로그를 제공하고 있습니다. 감사 로그는 Amazon Redshift의 STL 시스템 뷰를 통해 최대 7일 미만의 로그를 조회할 수 있습니다. 만약 7일 이상의 로그를 보관하기 위해서는 Amazon CloudWatch나 Amazon […]
Amazon EKS 환경에서 다양한 Spark 애플리케이션 제출 방법 비교하기
Amazon EKS 환경에서는 다양한 방법으로 Spark 애플리케이션을 제출할 수 있습니다. 현재 Amazon EKS 환경에서 지원하는 Spark 애플리케이션 제출 방법에는 spark-submit CLI를 활용하는 방법, Spark Operator를 활용하는 방법, AWS CLI 활용하는 방법, EMR Container Controller를 활용하는 방법, 총 4가지 방법이 존재합니다. 본 게시글에서는 Amazon EKS 환경에서 Spark 애플리케이션을 제출할 수 있는 4가지 방법에 대해서 소개하여, 고객분들이 […]
AWS Glue와 Amazon Athena를 활용한 MongoDB 데이터 분석 방법 비교하기
IoT 디바이스 또는 웹/앱 애플리케이션에서 발생되는 데이터는 JSON 다큐먼트 형태로 주로 저장되고 있으며, 이 데이터에 대한 분석 요구가 증대됨에 따라 MongoDB와 같은 다큐먼트 지향 데이터베이스 사용도 늘어나고 있습니다. AWS에서 제공되는 분석 서비스는 완전관리형 또는 서버리스 형태로 제공되어 사용자의 분석패턴에 따라 다양한 서비스를 활용할 수 있습니다. 이번 게시글에서는 여러 분석 서비스 중 Amazon Athena를 활용하여 ad-hoc […]
롯데ON 사례로 본 개인화 추천 시스템 구축하기, 1부 : Dynamic A/B Testing 아키텍처 구축
롯데ON은 풍부한 오프라인 쇼핑 인프라, 온라인 쇼핑 노하우로 세상에 없던 새로운 쇼핑 경험을 제공하는 온라인 쇼핑 플랫폼으로 발전하고 있습니다. 단순히 상품을 판매하는 플랫폼이 아닌 상품에 대한 경험을 제공할 수 있는 플랫폼을 목표로 고객이 원하고 만족하는 서비스를 만들기 위해 노력하고 있습니다. 롯데ON은 메인페이지, 상품상세, 검색, 장바구니, 주문완료 페이지에 이르는 롯데ON 고객의 여정 전반에 걸쳐 다양한 형태의 […]
AWS에서의 Transactional Data Lake를 위한 오픈 테이블 형식(Open table format) 선택 가이드
이 글은 AWS Big Data Blog의 Choosing an open table format for your transactional data lake on AWS by Shana Schipers, Ian Meyers, and Carlos Rodrigues의 한국어 번역 및 편집본입니다. 2023년 8월: 이 게시물은 Amazon Redshift의 Apache Iceberg 지원을 포함하도록 업데이트되었습니다. 참고사항 – 오픈 테이블 형식(Open table format) 에 대한 AWS 서비스 지원의 급속한 발전으로 […]
Amazon SageMaker JumpStart와 Vector Store를 이용하여 Llama 2로 Chatbot 만들기
Llama 2의 대규모 언어 모델(Large Language Models)을 이용하여 질문/답변(Question/Answering)을 수행하는 chatbot을 vector store를 이용하여 구현합니다. 대량의 데이터로 사전학습(pretrained)한 대규모 언어 모델(LLM)은 학습되지 않은 질문에 대해서도 가장 가까운 답변을 맥락(context)에 맞게 찾아 답변할 수 있습니다. 이는 기존의 Rule 방식보다 훨씬 정답에 가까운 답변을 제공하지만, 때로는 매우 그럴듯한 잘못된 답변(hallucination)을 할 수 있습니다. 이런 경우에 파인 튜닝(fine tuning)을 통해 […]
AWS Glue Job 리소스 사용량에 대한 알람 및 리포팅 자동화
이 글은 AWS Big Data Blog에 게시된 ‘Automate alerting and reporting for AWS Glue job resource usage by Michael Hamilton and Angus Ferguson’을 한국어로 번역 및 편집하였습니다. 데이터 변환은 규모에 관계없이 모든 조직의 비즈니스에 필요한 데이터 인사이트를 제공하는데 핵심적인 역할을 합니다. 이러한 인사이트를 얻기 위해 고객들은 종종 소스 시스템에서 ETL(추출, 변환, 로드) 작업을 수행하여 보강된 […]
농심 켈로그의 Amazon Comprehend 감성분석을 활용한 SNS 대시보드 및 알림 구축 사례
농심 켈로그는? 호랑이 기운이 솟아나는 콘푸로스트로 잘 알려진 농심 켈로그는 세계 최대의 시리얼 기업인 켈로그와 식품회사인 농심의 합작으로 1981년 설립되었습니다. 국내에 안성공장을 보유하고 있으며 콘푸로스트, 첵스초코, 리얼 그래놀라, 아몬드 푸레이크 등 대표 제품이 있고 프링글스, 켈로그 바, 프로틴 그래놀라 등으로 제품 포트폴리오를 확장하고 있습니다. 농심 켈로그는 ‘Be the 1st choice of breakfast, snacks and people’ 이라는 비전을 기반으로 소비자의 니즈 충족과 건강한 라이프 스타일 확대를 위해 적극적으로 노력하고 있습니다. 배경 B2C 기업은 다양한 채널에서 발생하는 제품 리뷰와 포스팅을 모니터링하고 비즈니스에 활용하고자 하나, 이런 환경을 구축하는 것은 쉽지 않습니다. 제한된 인력으로 다양한 채널에서 발생하는 리뷰 및 포스팅을 모두 확인하고 분석하는 데는 상당한 시간이 소요되며, 모니터링 채널이 증가할 경우 업무 부하가 […]
효율적인 AWS CloudTrail 검색을 위한 데이터 파이프라인 구성
AWS CloudTrail은 사용자, 역할 또는 AWS 서비스가 수행하는 작업을 이벤트로 기록하는 서비스입니다. 이벤트에는 AWS Management Console, AWS Command Line Interface 및 AWS SDK, API에서 수행되는 작업이 포함됩니다. 이벤트는 Amazon Simple Storage Service(S3)에 JSON 형식의 압축 파일로 기록됩니다. 이 파일을 직접 다운받아 조회하거나 전체 포맷을 변경하지 않고 검색하는것은 매우 어려운 일 입니다. 서버리스 데이터 통합 서비스인 […]
삼성전자 사례로 보는 엔터프라이즈 클라우드 여정
이번 AWS Korea 테크 블로그에서는 ‘Moving a Galaxy into Cloud’시리즈를 통해서 대한민국의 엔터프라이즈 기업에서 AWS 클라우드를 도입해왔던 역사와 여정을 살펴봄으로써 클라우드 도입을 검토하고 있는 기업들에 도움이 될 수 있도록 몇차례의 블로그 포스팅을 계획하고 있습니다. 클라우드 전환의 비즈니스 가치는 분명합니다. 이는 모든 엔터프라이즈가 다 아는 사실입니다. 기업마다 차이가 있다면 대상과 시기입니다. 일단 클라우드 전환이 시작되면 우선순위에 […]