Data Lake on AWS
AWS 및 파트너 솔루션을 사용하여 데이터 레이크를 빠르게 구축, 테스트, 배포합니다.
개요
기존의 데이터 스토리지와 분석 도구로는 관련 비즈니스 인사이트를 제공하는 데 필요한 민첩성과 유연성을 더 이상 제공할 수 없습니다. 이것이 바로 많은 조직이 데이터 레이크 아키텍처로 전환하는 이유입니다. AWS와 컴피턴시 파트너는 데이터 레이크 빠른 시작과 고객 지원 솔루션을 활용하여 데이터 레이크를 더 빠르고 쉽게 구축할 수 있도록 지원합니다. 데이터 레이크는 대량의 데이터를 중앙 위치에 저장하여 조직 내 다양한 그룹에서 쉽게 분류, 처리, 분석, 사용할 수 있도록 하는 아키텍처 접근 방식입니다. 데이터를 사전 정의된 스키마로 변환할 필요 없이 그대로 저장할 수 있고, 더 이상 데이터에 대해 어떤 질문을 할지 사전에 알아야 할 필요가 없습니다.
AWS의 데이터 레이크는 다음과 같은 이점을 제공합니다.
-
규모에 관계없이 모든 유형의 데이터를 저렴한 비용으로 수집 및 저장
-
데이터 보안과 무단 액세스 방지
-
중앙 리포지토리에서 관련 데이터를 카탈로깅, 검색, 찾기
-
새로운 유형의 데이터 분석을 빠르고 쉽게 수행
-
애드혹 분석, 실시간 스트리밍, 예측 분석, 인공 지능(AI), 기계 학습을 위한 광범위한 분석 엔진 세트 사용
또한 데이터 레이크는 기존 데이터 웨어하우스를 보완하고 확장할 수 있습니다. 이미 데이터 웨어하우스를 사용 중이거나 데이터 웨어하우스를 구현하려는 경우, 데이터 레이크를 정형 데이터와 비정형 데이터의 소스로 사용할 수 있습니다.
AWS에서 데이터 레이크 구축하기
Data Lake on AWS의 이점
-
Amazon Kinesis, AWS Import/Export Snowball, AWS Direct Connect 등의 활용을 포함하여 다양한 방식으로 데이터를 손쉽게 수집합니다. Amazon Simple Storage Service(S3)를 사용하여 볼륨이나 형식에 상관없이 모든 데이터를 저장합니다.
-
필요한 인프라를 거의 즉시 배포합니다. 팀은 생산적을 높이고, 보다 수월하게 새로운 것을 시도할 수 있으며 프로젝트를 더 빨리 시작할 수 있습니다.
-
AWS는 시설, 네트워크, 소프트웨어, 비즈니스 프로세스 전반에서 엄격한 요구 사항을 충족할 수 있는 기능을 제공합니다. 환경은 ISO 27001, FedRAMP, DoD SRG, PCI DSS와 같은 인증에 대해 지속해서 감사를 받습니다.
-
사실상 모든 빅 데이터 애플리케이션을 구축할 수 있으며, 데이터의 볼륨, 속도 및 종류와 관계없이 모든 워크로드를 지원합니다. 매년 50개 이상의 서비스와 수백 개의 기능을 추가하고 있는 AWS에서는 클라우드에서 빅 데이터를 수집, 저장, 처리, 분석 및 시각화하는 데 필요한 모든 것이 제공됩니다.
eBook 다운로드
대량의 이기종 데이터를 AWS의 데이터 레이크로 마이그레이션한 후 이 데이터를 빠르고 간단하게 활용하여 중요한 비즈니스 인사이트를 얻도록 AWS와 APN 컴피턴시 파트너가 여러 조직을 어떻게 지원했는지 알아보세요.
주요 APN 기술 파트너
Attunity
인기 있는 스포츠 의류 웹사이트이자 팬 기어 판매업체인 Fanatics는 거래, 전자 상거래, 백오피스 시스템 등 여러 기록 및 스트리밍 소스에서 Amazon S3의 데이터 레이크로 테라바이트 규모의 데이터를 수집해야 했습니다. 수집된 데이터는 분석을 거쳐 Fanatics가 300개 이상의 온라인 및 오프라인 매장에서 제공하는 제품과 관련한 고객 니즈를 더 효과적으로 식별, 예측, 충족하는 데 활용됩니다.
이를 위해 Fanatics는 여러 소스의 데이터를 Amazon S3의 데이터 레이크로 실시간 스트리밍하기 위한 지속적 데이터 캡처(CDC) 및 병렬 스레딩 기능을 갖춘 소프트웨어 솔루션인 Attunity Replicate를 선택했습니다. 그런 다음 Apache Kafka에서 데이터를 사용하여 실시간 분석을 수행할 수 있습니다. Attunity는 Fanatics가 여러 다른 소스에서 수동으로 데이터를 추출하는 번거로움을 피하고 조직이 실시간으로 결과를 확인할 수 있도록 지원합니다.
웨비나 제목: Fanatics, AWS의 데이터 레이크로 스트리밍 데이터 수집
고객 발표자: Alan Chang, Fanatics Senior Product Manager
Attunity 발표자: Jordan Martz, Technology Director
AWS 발표자: Paul Sears, Solutions Architect
Databricks
데이터 레이크, 데이터 웨어하우스, 스트리밍 등 다양한 소스의 데이터에 대해 데이터 과학 워크로드를 수행하면, 데이터를 활용해 운영 및 제품 개선을 추진해야 하는 조직에 여러 과제를 초래합니다. 교과서 출판사인 McGraw-Hill은 디지털 학습에 대한 관심이 높아지는 추세에 맞춰 비즈니스 모델을 혁신하기 위해 이러한 데이터 사일로를 없애야 했습니다. 특히 이 회사는 복잡한 분석 작업을 신속하게 수행하고 비즈니스 분석가, 데이터 엔지니어 및 데이터 과학자 간의 협업을 가능하게 하는 기능을 원했습니다.
McGraw-Hill은 통합 분석 플랫폼인 Databricks를 배포했습니다. Databricks는 스트리밍 데이터와 Amazon S3의 데이터 레이크 및 여러 데이터 웨어하우스에 저장된 기록 데이터를 효율적으로 사용할 수 있게 해줍니다. 이 웨비나에서는 Apache Spark™의 최초 제작자가 개발한 Databricks를 사용하여 McGraw-Hill이 이전 솔루션으로는 제공할 수 없었던 규모와 속도로 스트리밍 및 기록 데이터를 분석하는 방법을 알아봅니다. 몇 주가 걸리던 데이터 과학 워크로드가 이제는 몇 시간이면 처리됩니다.
웨비나 제목: Databricks로 분석 워크로드를 최적화하는 McGraw-Hill
고객 발표자: Matthew Ashbourne, McGraw-Hill Education Lead Software Engineer
Databricks 발표자: Brian Dirking, Partner Marketing 부문 Sr Director
AWS 발표자: Pratap Ramamurthy, Partner Solutions Architect
Qubole
빅 데이터 기술은 복잡할 뿐만 아니라, 시간이 많이 걸리는 수동 프로세스를 필요로 할 수 있습니다. 빅 데이터 운영을 지능적으로 자동화하는 조직은 비용을 낮추고, 팀의 생산성을 높이고, 더 효율적으로 규모를 조정하고, 장애 위험을 줄입니다.
이 웨비나에서는 TV 콘텐츠를 위한 디지털 녹화 플랫폼을 만든 TiVo의 담당자가 변화하는 수요에 따라 동적으로 스케일 인되는 새로운 빅 데이터 및 분석 플랫폼을 구현한 방법을 설명합니다. TiVo가 Amazon Simple Storage Service(Amazon S3)의 데이터 레이크에서 데이터를 읽는 Amazon Elastic Cloud Compute(Amazon EC2) 및 Amazon EC2 스팟 인스턴스를 사용하여 빅 데이터 클러스터를 쉽게 오케스트레이션하는 데 이 솔루션이 어떻게 활용되는지, 그리고 이를 통해 네트워크 및 광고주 사용자를 지원하는 데 필요한 개발 비용과 노력을 어떻게 절감하는지 알아봅니다. TiVo는 수백만 가구에서 생성되는 테라바이트 규모의 스트리밍 데이터와 일괄 시청률 데이터를 경제적으로 빠르게 수집 및 처리하고 분석에 사용할 수 있도록 하는 것과 관련하여 알게 된 교훈과 모범 사례를 공유할 예정입니다.
웨비나 제목: Tivo: AWS의 데이터 레이크와 Qubole로 신제품을 확장하는 방법
고객 발표자: Ashish Mrig, TiVo Big Data Analytics 부문 Senior Manager
Qubole 발표자: Harsh Jetly, Solutions Architect
AWS 발표자: Paul Sears, Solutions Architect
Talend
AWS에서 개발 시간을 줄이고 혁신하는 방법을 알아보세요. 이 웨비나에서는 피트니스, 체중 감량, 근력 단련을 위한 홈 트레이닝 동영상을 판매하는 Beachbody가 Talend를 사용하여 AWS의 데이터 레이크 아키텍처로 마이그레이션한 경험에 대해 이야기합니다. Beachbody는 직원들이 안전하고 잘 관리된 데이터에 액세스할 수 있도록 하고, 전사적으로 DevOps 효율성을 높이는 개방형 엔터프라이즈 데이터 플랫폼을 만든 방법을 설명합니다.
웨비나에 참여하여 Beachbody가 다양한 비정형 데이터와 정형 데이터 소스를 데이터 레이크로 마이그레이션하고, 개발 및 테스트 주기를 단축하고, 실시간 데이터에서 흔히 발생하는 복잡한 배포 문제를 해결하는 데 Talend와 AWS가 어떻게 도움이 되었는지 알아보세요.
웨비나 제목: 엔터프라이즈를 위한 오픈 데이터 레이크 설계
Talend 발표자: Ashwin Viswanath, Cloud Product Marketing, Director
고객 발표자: Eric Anderson, Beachbody, Data, Executive Director
AWS 발표자: Pratap Ramamurthy, Solutions Architect
Informatica
Informatica 지능형 데이터 레이크 관리 솔루션을 사용하면 대량의 원시 데이터를 AWS의 신뢰할 수 있는 데이터 레이크로 수집, 정리, 처리, 통제, 보호할 수 있습니다. Informatica의 메타데이터 기반 AI 및 엔터프라이즈 카탈로그 기능은 분석가와 같은 비즈니스 이해 관계자가 적시에 관련 비즈니스 인사이트를 얻기 위해 데이터를 신속하게 검색, 프로파일링, 준비, 보호할 수 있도록 합니다. 간단히 말해, Informatica는 기업이 AWS에서 데이터 레이크의 이점을 활용하고 혁신과 판매를 촉진하는 데 도움이 되는 빅 데이터 인사이트를 활용하도록 지원합니다.
Looker
오늘날의 비즈니스는 빅 데이터를 기반으로 운영되며 이러한 데이터로 생성된 지표를 중앙에서 정의하고 완전하게 액세스할 수 있어야 실질적인 이점을 얻을 수 있습니다. 오늘 소개할 솔루션은 회사 내 모든 사람이 의사 결정에 필요한 데이터를 찾고 탐색할 수 있게 해주는 최신 데이터 플랫폼인 Looker입니다. Looker는 Amazon Web Services(AWS)와 같은 클라우드 플랫폼용으로 구축되었으며, 데이터 레이크와 같은 최신 클라우드 데이터베이스를 직접 쿼리할 수 있습니다. 고객은 Looker를 내부 분석 용도로 사용할 뿐만 아니라, 고객, 파트너, 공급업체에 데이터를 제공하는 데에도 활용합니다.