AWS 기반 데이터 레이크 및 분석

데이터 레이크 및 분석 솔루션 구축을 위한 가장 포괄적이고 안전하고 확장 가능하며 비용 효율적인 서비스 포트폴리오

AWS는 분석을 위해 데이터 레이크를 빠르고 쉽게 구축하고 관리하는 데 필요한 모든 것을 제공하는 통합 서비스 제품군을 제공합니다. AWS 기반의 데이터 레이크는 기존의 데이터 사일로 및 데이터 웨어하우스가 수행할 수 없는 방식으로 다양한 유형의 데이터와 분석 기법을 결합하여 보다 심층적인 통찰력을 얻기 위해 필요한 규모, 민첩성 및 유연성을 처리할 수 있습니다. AWS는 보안 또는 거버넌스를 저하하지 않으면서 모든 관련 데이터에 쉽게 액세할 수 있는 가장 광범위한 분석 및 기계 학습 서비스를 고객에게 제공합니다.

AWS는 데이터 레이크와 분석을 갖춘 조직을 그 어디보다 많이 보유하고 있습니다. NASDAQ, Zillow, Yelp, iRobot 및 FINRA와 같은 고객은 AWS가 그들의 비즈니스 크리티컬 분석 워크로드를 실행할 수 있다고 믿고 맡깁니다.

AWS 기반 데이터 레이크 및 분석

AWS 기반 데이터 레이크 및 분석

데이터 레이크 및 분석 솔루션을 구축할 수 있도록 AWS는 데이터를 이동, 저장 및 분석할 수 있는 가장 포괄적인 서비스를 제공합니다.

aws-datalake-diagram-simplified

데이터 이동

온프레미스에서 실시간으로 데이터를 가져옵니다.

데이터 레이크

기가바이트에서 엑사바이트까지 모든 유형의 데이터를 안전하게 저장합니다.

분석

가장 광범위한 분석 서비스를 사용하여 데이터를 분석합니다.

Machine Learning

미래의 결과를 예측하고 신속한 대응을 위한 조치를 알려줍니다.

데이터 이동

AWS 기반 데이터 레이크를 구축하는 첫 번째 단계는 데이터를 클라우드로 이동하는 것입니다. 대역폭 및 전송 속도의 물리적 한계로 인해 주요 중단 이벤트 없이 많은 비용과 시간을 들이지 않고서 데이터를 이동하는 능력이 제한됩니다. 간편하고 유연한 데이터 전송을 위해 AWS는 데이터를 클라우드로 전송하는 가장 광범위한 옵션을 제공합니다.

데이터 레이크에 대한 ETL 작업 및 ML Transforms를 구축하려면, AWS Lake Formation에 대해 알아보십시오.

온프레미스 데이터 이동

AWS는 데이터 센터에서 AWS로 데이터를 이동하는 여러 방법을 제공합니다. 고객의 네트워크와 AWS 간에 전용 네트워크 연결을 설정하려면AWS Direct Connect를 사용할 수 있습니다. 물리적 어플라이언스를 사용하여 페타바이트에서 엑사바이트의 데이터로 AWS로 이동하려면 AWS SnowballAWS Snowmobile을 사용할 수 있습니다. 온프레미스 애플리케이션이 데이터를 AWS에 직접 저장하도록 하려면, AWS Storage Gateway를 사용할 수 있습니다.  

실시간 데이터 이동

AWS는 웹 사이트, 모바일 앱 및 인터넷 연결 디바이스와 같은 새로운 소스에서 생성된 실시간 데이터를 수집하는 여러 방법을 제공합니다. 스트리밍 데이터 또는 IoT 디바이스 데이터를 쉽게 캡처하고 로드할 수 있게 하려면, Amazon Kinesis Data Firehose, Amazon Kinesis Video StreamsAWS IoT Core를 사용할 수 있습니다.  

데이터 레이크

데이터가 클라우드에 대한 준비가 되면 AWS에서 Amazon S3 및 Amazon Glacier를 사용하여 데이터를 모든 형식으로 안전하게 그리고 방대한 규모로 쉽게 저장할 수 있습니다. 최종 사용자가 분석에 사용할 관련 데이터를 쉽게 찾을 수 있도록 AWS Glue는 사용자가 검색하고 쿼리할 수 있는 단일 카탈로그를 자동으로 생성합니다.

더 빠르게 안전한 데이터 레이크를 구축하려면 AWS Lake Formation에 대해 자세히 알아보십시오.

객체 스토리지

Amazon S3

Amazon S3는 데이터 액세스를 위한 안전하고 확장성이 뛰어나고 밀리초 지연 시간의 객체 스토리지입니다. S3는 웹 사이트에서 모바일 앱, 기업 애플리케이션, IoT 센서나 디바이스의 데이터에 이르기까지 어디서나 모든 유형의 데이터를 저장하고 검색할 수 있도록 구축되었습니다. 이 제품은 모든 양의 데이터를 저장 및 검색할 수 있도록 탁월한 가용성을 갖추고 제작되었으며 99.999999999%(7개의 9)의 내구성을 제공하도록 기초부터 제작되었습니다. S3 Select는 데이터 읽기 및 검색에 중점을 둠으로써 응답 시간을 최대 400%까지 단축합니다. S3는 가장 엄격한 규제 요구 사항까지도 충족하는 포괄적인 보안 및 규정 준수 기능을 제공합니다.  

백업 및 아카이브

Amazon Glacier

Amazon Glacier는 데이터를 수 분 내에 액세스할 수 있는 장기 백업 및 아카이브를 위한 안전하고 내구성 있는 매우 저렴한 스토리지이고, Glacier Select는 유사한 방식으로 필요한 데이터만 읽고 검색합니다.. 99.999999999%(7개의 9)의 안정성을 제공하도록 설계되었으며, 가장 엄격한 규제 요구 사항도 충족할 수 있는 종합적인 보안 및 규정 준수 기능을 제공합니다. 고객은 월별 GB당 0.004 USD의 저렴한 요금으로 데이터를 저장할 수 있으므로 온프레미스 솔루션과 비교하면 상당한 비용 절감을 기대할 수 있습니다.

데이터 카탈로그

AWS Glue

AWS Glue는 데이터 레이크의 데이터를 검색할 수 있도록 데이터 카탈로그를 제공하고 분석을 위해 데이터를 준비하도록 추출, 변환 및 로드(ETL)를 수행할 수 있는 완전관리형 서비스입니다. 데이터 카탈로그는 모든 데이터 자산에 대한 영구 메타데이터 스토리지로 자동 생성되므로 모든 데이터를 검색 및 쿼리할 수 있습니다.

분석

AWS는 데이터 레이크에서 실행되는 가장 광범위하고 비용 효율적인 분석 서비스 세트를 제공합니다. 각 분석 서비스는 대화식 분석, Apache Spark 및 Hadoop을 사용하는 빅 데이터 처리, 데이터 웨어하우징, 실시간 분석, 운영 분석, 대시보드 및 시각화와 같은 광범위한 분석 사용 사례에 대해 특별히 구축되었습니다.

분석 서비스를 위해 데이터 레이크의 데이터에 대한 안전한 셀프 서비스 액세스를 관리하려면 AWS Lake Formation에 대해 자세히 알아보십시오.

대화식 분석

Amazon Athena

대화식 분석의 경우, Amazon Athena는 표준 SQL 쿼리를 사용해 S3과 Glacier에 있는 데이터를 직접 간편하게 분석할 수 있게 해 줍니다. Athena는 서버리스이므로, 설정하거나 관리할 인프라가 없습니다. 데이터를 즉시 쿼리하고, 몇 초 내에 결과를 얻고, 실행한 쿼리에 대해서만 비용을 지불합니다. Amazon S3에 저장된 데이터를 가리키고 스키마를 정의한 후 표준 SQL을 사용하여 쿼리를 시작하기만 하면 됩니다. 그러면 대부분 결과가 수 초 이내에 제공됩니다.  

빅 데이터 처리

Amazon EMR

Spark 및 Hadoop 프레임워크를 사용한 빅 데이터 처리의 경우, Amazon EMR은 관리형 서비스로서 대량의 데이터를 쉽고 빠르며 비용 효율적으로 처리할 수 있습니다. Amazon EMR은 데이터 엔지니어링, 데이터 과학 개발 및 협업을 위한 관리형 EMR Notebooks로 Hadoop, Spark, HBasePresto를 비롯하여 19가지 오픈소스 프로젝트를 지원합니다. 각 프로젝트는 버전 릴리스 후 30일 이내에 EMR에서 업데이트되므로 커뮤니티로부터 가장 최신의 최고 프로젝트를 손쉽게 얻을 수 있습니다.

데이터 웨어하우징

Amazon Redshift

데이터 웨어하우징의 경우, Amazon Redshift는 페타바이트의 정형 데이터에 대해 복잡한 분석 쿼리를 실행할 수 있는 기능을 제공하며 불필요한 데이터 이동 없이 S3의 정형 또는 비정형 데이터에 대해 직접 SQL 쿼리를 실행하는Redshift Spectrum을 포함합니다. Amazon Redshift는 기존 솔루션 비용의 10분의 1도 되지 않습니다. 시간당 0.25 USD로 작은 규모로 시작한 후 테라바이트당 연간 1,000 USD의 페타바이트 규모의 데이터로 확장하십시오.

실시간 분석

Amazon Kinesis

실시간 분석의 경우, Amazon Kinesis를 사용하면 IoT 텔레메트리데이터, 애플리케이션 로그 웹 사이트 클릭스트림과 같은 스트리밍 데이터를 간편하게 수집, 처리 및 분석할 수 있습니다. 이로써 모든 데이터가 수집된 후에야 처리를 시작할 수 있는 것이 아니라 데이터 레이크에 데이터가 수신되는 대로 처리 및 분석하여 실시간으로 대응할 수 있습니다.

운영 분석

Amazon Elasticsearch Service

애플리케이션 모니터링, 로그 분석 및 클릭스트림 분석과 같은 운영 분석의 경우, Amazon Elasticsearch Service를 사용하면 거의 실시간으로 데이터를 검색, 탐색, 필터링, 집계 및 시각화할 수 있습니다. Amazon Elasticsearch Service는 Elasticsearch의 간편한 API 및 실시간 분석 기능과 더불어 프로덕션 워크로드에 필요한 가용성, 확장성, 보안성을 제공합니다.

 

대시보드 및 시각화

Amazon QuickSight

대시보드 및 시각화의 경우, Amazon QuickSight는 빠르고 강력한 클라우드 기반 비즈니스 분석 서비스를 제공하므로 모든 브라우저 또는 모바일 장치에서 액세스할 수 있는 멋진 시각화 및 풍부한 대시보드를 간편하게 작성할 수 있습니다.

 

Machine Learning

예측 분석 사용 사례의 경우, AWS는 AWS의 데이터 레이크에서 실행되는 광범위한 기계 학습 서비스 및 도구를 제공합니다. AWS 서비스는 Amazon에서 구축한 지식과 역량에 기반을 두고 있으며 ML은 Amazon.com의 추천 엔진, 공급망, 예측, 이행 센터 및 용량 계획을 지원합니다.  

프레임워크 및 인터페이스

전문적인 기계 학습 전문가 및 데이터 과학자를 위해 AWS는 딥 러닝 모델을 쉽게 작성하고 ML 및 DL 최적화된 GPU 인스턴스로 클러스터를 구축하는 AWS Deep Learning AMIs를 제공합니다. AWS는 Apache MXNet, TensorFlow, Caffe2 등 주요 기계 학습 프레임워크를 모두 지원하므로 원하는 어떤 모델이건 가져오거나 개발할 수 있습니다. 이러한 기능은 딥 러닝 및 기계 학습 워크로드에 필요한 최고의 성능, 속도 및 효율성을 제공합니다.

플랫폼 서비스

ML을 심층적으로 사용하고자 하는 개발자를 위해 Amazon SageMaker는 교육 데이터에 연결하고, 최상의 알고리즘을 선택 및 최적화하고, 모델을 Amazon EC2의 Auto-Scaling 클러스터에서 배포하는 데 필요한 모든 것을 제공하여 ML 모델을 구축, 교육 및 배포하는 전체 프로세스를 손쉽게 수행할 수 있도록 해 주는 플랫폼 서비스입니다. SageMaker에는 또한 Amazon S3에 저장된 학습 데이터를 손쉽게 탐색하고 시각화할 수 있는 호스팅 Jupyter 노트북이 포함되어 있습니다.

애플리케이션 서비스

사전 구축된 AI 기능을 앱에 플러그인하려는 개발자를 위해 AWS는 컴퓨터 비전 및 자연어 처리를 위한 솔루션 중심 API를 제공합니다. 이러한 애플리케이션 서비스를 통해 개발자는 자체 모델을 개발해서 교육할 필요 없이 애플리케이션에 인텔리전스를 추가할 수 있습니다.

AWS를 기반으로 구축된 데이터 레이크 및 분석이 그 어디보다 많음

왜 AWS 기반 데이터 레이크 및 분석?

유연성 및 선택권

AWS는 개방형 형식과 개방형 표준을 사용하여 데이터를 분석하는 가장 광범위한 분석 도구와 엔진 세트를 제공합니다. CSV, ORC, Grok, Avro 및 Parquet과 같은 표준 기반 데이터 형식으로 데이터를 저장할 수 있고 데이터 웨어하우징, 대화식 SQL 쿼리, 실시간 분석 및 빅 데이터 처리 기능과 같은 다양한 방식으로 하루를 분석하는 유연성을 가지게 됩니다. AWS에서 데이터와 함께 사용할 수 있는 광범위한 분석 서비스를 통해 기존 및 미래의 분석 사용 사례에 대한 요구 사항을 충족할 수 있습니다.

탁월한 확장성 및 가용성

Amazon 3는 모든 양의 데이터를 저장 및 검색할 수 있도록 탁월한 가용성을 갖추고 제작되었으며 99.999999999%(7개의 9)의 내구성을 제공하도록 기초부터 제작되었습니다. 이것은 단일 데이터 센터 문제에 대한 탁월한 복원력을 가지도록 단일 AWS 리전 내의 세 가용 영역에 걸쳐 여러 데이터 센터에 데이터를 저장할 수 있는 유일한 스토리지 제품이며 리전 간 데이터를 원활하게 복제하는 유일한 스토리지 제품입니다.

뛰어난 보안

S3는 계정 및 객체 수준에서 액세스, 로그 및 감사 정책을 적용할 수 있게 해 주는 유일한 클라우드 스토리지 플랫폼입니다. S3는 자동 서버 측 암호화, AWS Key Management Service(KMS)가 관리하는 키를 사용한 암호화 및 사용자가 관리하는 키를 사용한 암호화를 제공합니다. S3는 여러 리전에 걸쳐 복제할 때 전송 중 데이터를 암호화하고 소스 및 대상 리전에 대해 별도의 계정을 사용할 수 있도록 하여 악의적 내부자 삭제를 방지합니다. 초기 단계의 공격을 사전에 감지하려면, ML이 지원하는 보안 서비스인 Amazon Macie는 비정상적인 데이터 액세스 활동을 지속적으로 모니터링하여 무단 액세스 또는 의도하지 않은 데이터 유출 위험이 감지될 경우 상세한 알림을 생성합니다.

비용 효율성

AWS에서 구축된 데이터 레이크가 가장 경제적입니다. 드물게 사용되는 데이터는 매우 저렴한 비용으로 장기 백업 및 아카이브를 제공하는 Amazon Glacier로 이동할 수 있습니다. Amazon S3 관리 기능은 객체 액세스 패턴을 분석하여 자주 사용하지 않는 데이터를 온디맨드로 또는 수명 주기 정책과 함께 자동으로 Glacier에 이동시킬 수 있습니다. 쿼리되는 GB당 0.005 USD의 적은 비용으로 Amazon Athena에서 데이터 쿼리를 시작할 수 있습니다. 기타 분석 및 기계 학습 서비스는 소비하는 리소스에 대해 사용량에 따라 지불하는 방식으로 요금이 부과됩니다.

빠른 성능

Amazon Redshift 및 Amazon Athena와 같은 AWS 분석 서비스는 빠른 대화식 쿼리 성능을 위해 구축되어 다수의 동시 대화식 쿼리를 지원합니다. Amazon S3 Select를 사용하여 AWS의 광범위한 분석 및 기계 학습 서비스 포트폴리오를 실행하면 객체 내에 필요한 데이터의 하위 집합만 반환되므로 쿼리를 최대 400% 더 빠르게 훨씬 더 저렴한 비용으로 제공할 수 있습니다. Glacier Select는 유사한 기능을 제공하여 사용자는 아카이브 데이터를 보다 신속하게 검색할 수 있고 데이터 레이크 상의 분석 기능을 확장시켜 아카이브 스토리지를 포함할 수 있습니다.  

 

최대의 파트너 네트워크

AWS Partner Network (APN)는 전 세계의 컨설팅 및 독립적 소프트웨어 공급업체를 비롯하여 수만 명의 파트너를 갖추어 다른 어느 회사보다 두 배나 많은 수의 파트너 통합이 되어 있습니다. 이러한 이유로 고객이 사용하고 선호하는 다수의 많은 도구들과 손쉽게 작업하고 통합할 수 있습니다. AWS 솔루션 아키텍트와 파트너가 개발한 Data Lake Quick Starts는 몇 가지 간단한 단계로 보안 및 고가용성에 대한 AWS 모범 사례를 기반으로 데이터 레이크 솔루션을 구축, 테스트 및 배포 할 수 있도록 도와줍니다. 

 

AWS 시작하기

Step 1 - Sign up for an AWS account

AWS 계정에 가입

AWS Free Tier에 즉시 액세스할 수 있습니다.
 
icon2

며칠 만에 안전한 데이터 레이크 구축

AWS Lake Formation에 대해 읽어보기

 
icon3

AWS를 사용하여 구축 시작

AWS에서 데이터 레이크 시작하기

AWS Quick Starts로 데이터 레이크 배포하기
추가 질문이 있으십니까?
AWS에 문의