O blog sobre big data da AWS permite que arquitetos de soluções, cientistas de dados e desenvolvedores aprendam práticas recomendadas para big data, descubram quais serviços gerenciados de big data da AWS são a melhor opção para o caso de uso e os ajuda os leitores a começar a usar e a se especializar nesses serviços. O objetivo do blog é ser um centro para que qualquer pessoa descubra novas formas de coletar, armazenar, processar, analisar e visualizar dados em qualquer escala. Os leitores encontrarão tutoriais rápidos com amostras de código, estudos de caso que demonstram os benefícios exclusivos de trabalhar com big data na AWS, anúncios de novos recursos, demonstrações e tutoriais gerados por parceiros e clientes, dicas e práticas para usar os serviços de big data da AWS.



O programa de conjuntos de dados públicos é destinado a hospedar conjuntos de dados interessantes livremente disponíveis a todos para ajudar a aumentar a inovação e o avanço na ciência e na pesquisa. Então, se você estiver pensando em minerar o corpus aberto na web da Common Crawl, alinhar alguns genomas, ou explorar imagens da NASA, a AWS fornece os dados, os serviços e a infraestrutura necessários para você iniciar.


O DynamoDB é um serviço de banco de dados NoSQL rápido e totalmente gerenciado que permite armazenar e recuperar qualquer quantidade de dados e atender a qualquer nível de tráfego de solicitações com facilidade e economia. A sua taxa de transferência confiável e latência inferior a 10 milissegundos o tornam uma ótima opção para jogos, tecnologia de anúncios, mobilidade e diversos outros aplicativos.

O Amazon Elastic MapReduce (Amazon EMR) é um serviço da web que facilita o processamento de grandes quantidades de dados com rapidez e economia.

O Amazon EMR usa Hadoop, uma estrutura de código aberto, para distribuir os dados e processá-los em um cluster redimensionável de instâncias do Amazon EC2. O Amazon EMR é usado em diversos aplicativos, que incluem análises de registros, indexação da web, armazenamento de dados, aprendizagem automática, análises financeiras, simulações científicas e bioinformática. Os clientes executam milhões de clusters do Amazon EMR a cada ano.

O Amazon Kinesis é um serviço totalmente gerenciado para processamento em tempo real de dados de streaming em altíssima escala. O Amazon Kinesis pode coletar e processar centenas de terabytes de dados por hora, de centenas a milhares de origens, permitindo que você escreva facilmente aplicativos que processem informações em tempo real, de origens como fluxo de cliques em websites, informações de marketing e financeiras, instrumentação de fabricação e mídia social, e logs operacionais e dados de medição.

Com os aplicativos do Amazon Kinesis, você pode criar painéis em tempo real, capturar exceções e gerar alertas, fornecer recomendações e conduzir outros negócios ou tomar decisões operacionais em tempo real. Você também pode facilmente enviar dados para uma variedade de outros serviços como o Amazon Simple Storage Service (Amazon S3), o Amazon DynamoDB ou o Amazon Redshift. Em alguns poucos cliques e algumas linhas de código, você pode começar a criar aplicativos que respondem a mudanças em sua transferência de dados em segundos, em qualquer escala, enquanto paga apenas pelos recursos que usar.

O Amazon S3 é armazenamento para a Internet e também é um pilar fundamental de todas as arquiteturas de big data na AWS. Ele foi projetado para facilitar a computação em escala na web para os desenvolvedores.

O Amazon S3 fornece uma interface simples de serviços da web que pode ser usada para armazenar e recuperar qualquer quantidade de dados, a qualquer momento e de qualquer lugar na web. Ele concede acesso a todos os desenvolvedores para a mesma infraestrutura altamente escalável, confiável, segura, rápida e econômica que a Amazon utiliza para executar sua própria rede global de sites da web. O serviço visa maximizar os benefícios de escala e poder passar esses benefícios para os desenvolvedores.

O Amazon Redshift é um serviço de armazém de dados rápido, totalmente gerenciado e em escala de petabytes, que torna mais simples e acessível a análise eficiente de todos os seus dados usando as ferramentas de Business Intelligence de que você dispõe. Você pode começar de forma mais modesta, com apenas 0,25 USD por hora, sem compromissos ou custos iniciais, e expandir para um petabyte ou mais por 1.000 USD por terabyte por ano, que é menos de um décimo da maioria das outras soluções de warehouse de dados.