Nuvem AWS
Conceitos básicos do Amazon Redshift

Um data warehouse é um repositório central de informações que pode ser analisado para tomar decisões mais embasadas. Os dados fluem de sistemas transacionais, bancos de dados relacionais e de outras fontes para o data warehouse, normalmente com uma cadência regular. Analistas de negócios, cientistas de dados e tomadores de decisões acessam os dados por meio de ferramentas de inteligência de negócios (BI), clientes SQL e outros aplicativos de análise.

Dados e análises se tornaram indispensáveis para que as empresas se mantenham competitivas. As empresas usam ferramentas de relatórios, painéis e análises para extrair insights dos dados, monitorar o desempenho dos negócios e apoiar a tomada de decisões. Essas ferramentas de relatórios, painéis e análises são baseadas em armazéns de dados, que armazenam dados com eficiência para minimizar a E/S e entregar resultados de consultas com rapidez incrível a centenas e milhares de usuários ao mesmo tempo.

Faça o download do whitepaper Enterprise Data Warehousing on AWS

Uma arquitetura de data warehouse consiste em três camadas. A camada inferior da arquitetura é o servidor de banco de dados, onde os dados são carregados e armazenados. A camada intermediária consiste no mecanismo de análise, usado para acessar e analisar os dados. A camada superior é o cliente do front-end, que apresenta os resultados por meio de ferramentas de relatórios, análises e mineração de dados.

Um data warehouse funciona organizando os dados em um esquema que descreve o layout e o tipo dos dados, como inteiros, campos de dados ou strings. Os dados consumidos são armazenados em diversas tabelas, descritas pelo esquema. As ferramentas de consulta usam o esquema para determinar as tabelas de dados que serão acessadas e analisadas.

Os benefícios de um data warehouse são:

  • Melhor tomada de decisões
  • Consolidação de dados de várias fontes
  • Qualidade, consistência e precisão de dados
  • Inteligência histórica
  • Separa o processamento de análises dos bancos de dados transacionais, aumentando a performance nos dois sistemas

 

Um data warehouse é projetado especificamente para análises de dados, que envolvem a leitura de grandes quantidades de dados para compreender relações e tendências entre os dados. Um banco de dados é usado para capturar e armazenar dados, como o registro de detalhes de uma transação.

Características Data warehouse Banco de dados transacional
Cargas de trabalho adequadas Análises, relatórios e big data  Processamento de transações
Fonte de dados Dados coletados e normalizados de diversas fontes Dados capturados no estado em que se encontram, de uma única fonte, como um sistema transacional
Captura de dados Operações de gravação em massa, executadas normalmente em uma programação de lotes pré-determinada

Otimizado para operações contínuas de gravação à medida que novos dados são disponibilizados para maximizar o throughput das transações

Normalização de dados Esquemas desnormalizados, como Star ou Snowflake Esquemas estáticos altamente normalizados
Armazenamento físico de dados Otimizado para simplicidade de acesso e alta performance de consultas usando armazenamento colunar Otimizado para operações de gravação de alto throughput em um único bloco físico orientado a linhas
Acesso aos dados Otimizado para minimizar a E/S e maximizar o throughput de dados Grandes volumes de pequenas operações de leitura

Ao contrário de um data warehouse, um data lake é um repositório centralizado para todos os dados, incluindo dados estruturados e não estruturados. Um data warehouse utiliza um esquema pré-definido, otimizado para análises. Em um data lake, o esquema não é definido, o que permite tipos adicionais de análises, como análises de big data, pesquisas de texto completo, análises em tempo real e Machine Learning.

Características Data warehouse Data lake
Dados Dados relacionais de sistemas transacionais, bancos de dados operacionais e aplicativos de linha de negócios Dados não relacionais e relacionais de dispositivos da IoT, sites, aplicativos móveis, mídia social e aplicativos corporativos
Esquema Definido antes da implementação do data warehouse (esquema na gravação) Gravado no momento da análise (esquema na leitura)
Preço/performance Resultados de consulta mais rápidos, usando armazenamento de maior custo Resultados de consulta ficando mais rápidos, usando armazenamento de menor custo
Qualidade dos dados Dados altamente organizados, que representam a versão central da verdade Quaisquer dados, organizados ou não (ou seja, dados brutos)
Usuários Analistas de negócios, cientistas de dados e desenvolvedores de dados Cientistas de dados, desenvolvedores de dados e analistas de negócios (usando dados organizados)
Análises Geração de relatórios em lote, BI e visualizações Machine Learning, análises preditivas, descoberta de dados e criação de perfis

Um data mart é um data warehouse que atende às necessidades de uma equipe ou unidade de negócios específica, como finanças, marketing ou vendas. O data mart é menor, mais focado e pode conter resumos de dados para atender melhor à comunidade de usuários.

Características Data warehouse Data mart
Escopo Várias áreas centralizadas e integradas Uma área específica e descentralizada
Usuários De toda a organização Uma única comunidade ou departamento
Fonte de dados Muitas fontes Uma ou poucas fontes, ou uma parte dos dados já coletados em um data warehouse
Tamanho Grandes, pode variar de centenas de gigabytes a petabytes Pequenos, normalmente até algumas dezenas de gigabytes
Projeto De cima para baixo De baixo para cima
Detalhes dos dados Dados completos e detalhados Pode manter dados resumidos

A AWS permite aproveitar todos os benefícios essenciais associados à computação sob demanda, como acesso a capacidades praticamente ilimitadas de armazenamento e computação e a possibilidade de escalar o sistema em paralelo ao crescimento do volume de dados coletados, armazenados e consultados. E você paga apenas pelos recursos provisionados. Além disso, a AWS oferece um amplo conjunto de recursos gerenciados integrados diretamente entre si, o que permite implantar rapidamente uma solução completa de análises e data warehousing.

A ilustração a seguir mostra as principais etapas de uma cadeia completa de processos de análise e os serviços gerenciados disponíveis na AWS para cada etapa:

Pipeline de análises na AWS

O Amazon Redshift é um data warehouse rápido, gerenciado e econômico que oferece data warehousing na escala de petabytes e análises de data lake na escala de exabytes, reunidos em um único serviço.

O Amazon Redshift é até dez vezes mais rápido que data warehouses tradicionais no local. Obtenha insights únicos consultando petabytes de dados no Redshift e exabytes de dados estruturados ou de formatos de arquivos abertos no Amazon S3, sem necessidade de movimentar ou transformar os dados.

O Redshift custa um décimo do custo das soluções tradicionais de data warehouse no local. Você pode começar aos poucos, por apenas 0,25 USD por hora, sem compromissos, e depois escalar horizontalmente para petabytes de dados por 250 USD a 333 USD por terabyte não compactado por ano e estender as análises a um data lake no Amazon S3 por apenas 0,05 USD para cada 10 gigabytes de dados acessados. Saiba mais