AWS 빅 데이터 블로그는 솔루션스 아키텍트, 데이터 과학자 및 개발자가 빅 데이터 모범 사례를 알아보고, 어떤 관리형 AWS 빅 데이터 서비스가 자신의 사용 사례에 가장 잘 맞는지 찾아보고, AWS 빅 데이터 서비스를 시작하고 더 심층적으로 활용할 수 있도록 지원하기 위해 제작되었습니다. 누구든지 모든 규모의 데이터 수집, 저장, 처리, 분석 및 시각화를 위한 새로운 방법을 찾아볼 수 있는 허브 역할을 하는 것이 이 블로그의 목표입니다. 독자는 코드 샘플이 있는 짧은 자습서, AWS에서 빅 데이터로 작업함에 따른 고유의 장점을 설명한 사례 연구, 새로운 기능 발표, 파트너 및 고객이 생성한 데모 및 자습서는 물론 AWS 빅 데이터 서비스와 관련한 정보 및 모범 사례를 찾아볼 수 있습니다.



Amazon 퍼블릭 데이터세트 프로그램은 혁신을 늘리고 과학 및 연구 발전을 돕기 위해 누구에게나 무료로 제공되는 흥미로운 데이터세트를 호스팅하기 위해 제작되었습니다. 따라서 Common Crawl 공개 웹 코퍼스를 마이닝하든 유전자 배열을 지정하든, NASA에서 공개한 이미지를 둘러보든지 간에 AWS는 고객이 구축하고 실행하는 데 필요한 데이터, 서비스 및 인프라를 제공합니다.


Amazon DynamoDB는 빠르고 완벽하게 관리되는 NoSQL 데이터베이스 서비스로, 간단하고 비용 효율적인 방법으로 원하는 양의 데이터를 저장 및 검색하고 원하는 수준의 요청 트래픽을 처리합니다. 이 서비스는 안정적인 처리량과 한 자릿수 밀리초 수준의 지연 시간을 보장하기 때문에 게임, 광고 기술, 모바일 및 기타 다양한 애플리케이션에 이상적입니다.

Amazon Elastic MapReduce(EMR)는 대량의 데이터를 쉽고 빠르고 경제적으로 처리할 수 있도록 지원하는 웹 서비스입니다.

Amazon EMR은 Hadoop이라는 오픈 소스 프레임워크를 사용하여 Amazon EC2 인스턴스의 크기 조정 가능한 클러스터 전체에 데이터와 프로세싱을 배포합니다. Amazon EMR은 로그 분석, 웹 인덱싱, 데이터 웨어하우징, 기계 학습, 금융 분석, 과학적 시뮬레이션 및 생물정보학을 비롯한 다양한 애플리케이션에 사용됩니다. 고객들은 매년 수백만 개의 Amazon EMR 클러스터를 시작합니다.

Amazon Kinesis는 AWS에 의해 완전하게 관리되는 서비스로 방대한 규모의 스트리밍 데이터를 실시간으로 처리합니다. Amazon Kinesis는 방대한 소스에서 시간당 수백 테라바이트에 이르는 데이터를 수집 및 처리합니다. 사용자는 이를 활용하여 웹 사이트 클릭 스트림, 마케팅 및 금융 정보, 제조 장비 및 소셜 미디어, 운영 로그 및 검침 데이터와 같은 소스의 정보를 실시간으로 처리하는 애플리케이션을 손쉽게 작성할 수 있습니다.

Amazon Kinesis 애플리케이션을 활용하여 실시간 대시보드를 구축하고 예외를 캡처하며 알림을 생성할 수 있습니다. 추천을 이끌어내고 다른 실시간 비즈니스 또는 운영 결정을 내릴 수도 있습니다. 또한, Amazon Simple Storage Service(S3), Amazon DynamoDB 또는 Amazon Redshift와 같은 다양한 서비스로 데이터를 손쉽게 전송할 수 있습니다. 몇 번의 클릭과 몇 줄의 코드만으로 규모에 상관없이 데이터 스트림의 변동 사항에 대해 몇 초 만에 대응할 수 있는 애플리케이션의 구축을 시작할 수 있습니다. 그리고 사용한 리소스에 대해서만 지불하면 됩니다.

Amazon S3는 인터넷용 스토리지이자 AWS를 기반으로 한 모든 빅 데이터 아키텍처의 기본적인 구성 요소이기도 합니다. 개발자가 보다 쉽게 웹 규모의 컴퓨팅 작업을 할 수 있도록 설계되었습니다.

Amazon S3는 언제든지, 웹상 어디에서나 용량과 관계없이 데이터를 저장하고 검색하는 데 사용할 수 있는 간단한 웹 서비스 인터페이스를 제공합니다. 따라서 개발자들은 Amazon이 자체 글로벌 웹 사이트 네트워크를 운영할 때 사용하는 것과 동일한 수준의 높은 확장성과 신뢰성을 제공하면서도 안전하고 빠르고 비용 효율적인 인프라를 활용할 수 있습니다. 이 서비스의 목적은 규모의 이점을 최대화하여 개발자에게 제공하는 것입니다.

Amazon Redshift는 신속하며 완전히 관리되는 페타바이트 규모의 데이터 웨어하우스 서비스로 간단하고 비용 효율적으로 모든 데이터를 기존 비즈니스 인텔리전스 도구를 사용하여 분석할 수 있게 해 줍니다. 확약금이나 선수금 없이 시간당 0.25 USD에 작은 규모로 시작하여 대부분의 다른 데이터 웨어하우스 솔루션 비용의 10%보다 적은 연간 테라바이트당 1,000 USD에 페타바이트 이상의 규모로 확장할 수 있습니다.