Comece a usar o projeto

7 etapas  |  60 minutos

P: O que é o armazém de dados?

As análises estão em todos os lugares. Todos nós usamos relatórios e painéis para gerenciar nosso trabalho, relatar nosso progresso às partes envolvidas e executamos análises ad-hoc para apoiar a tomada de decisões. Internamente, essas ferramentas de relatórios, painéis e BI são baseadas em armazéns de dados, que armazenam dados com eficiência para minimizar a E/S e entregar resultados de consultas com rapidez incrível a centenas e milhares de usuários ao mesmo tempo. Ao contrário dos bancos de dados transacionais, os armazéns de dados são arquiteturas e armazenamento especializados para desempenho rápido de consultas e carga de dados. Além disso, os armazéns de dados precisam ser altamente escaláveis para que seja possível adicionar mais fontes de dados a todos os momentos para proporcionar análises e insights mais sofisticados. Por fim, os armazéns de dados devem se integrar diretamente com ferramentas de inteligência de negócios e cliente SQL de terceiros, bem como ser compatíveis com SQL padrão para que os usuários possam usa as habilidades que já têm.

P: Por que devo executar o armazém de dados na AWS?

O Amazon Redshift, nossa solução de armazém de dados, é rápido, fácil de usar e totalmente gerenciado. Ele automatiza o provisionamento de infraestrutura e tarefas administrativas como backups, replicação e aplicação de patches. Além disso, ele se integra diretamente a ferramentas de BI e ETL de terceiros para que você possa obter o primeiro relatório em alguns minutos. E não há limite para a quantidade de dados que pode ser carregada e analisada. Conforme os dados crescem, você não precisa se preocupar com atualizações de sistema dispendiosas ou baixo desempenho. O Amazon Redshift é rápido em qualquer escala porque usa armazenamento colunar e diversas técnicas de otimização. Amazon Redshift também é econômico e você paga apenas pelo que usa. O bottom line é que você pode ter um número ilimitado de usuários realizando análises ilimitadas em todos os dados por apenas 1.000 USD por terabyte por ano. 

P: O que é o Amazon Redshift?

O Amazon Redshift é um armazém de dados rápido, totalmente gerenciado e em escala de petabytes que torna mais simples e econômica a análise de todos os seus dados usando as ferramentas de inteligência de negócios de que você já dispõe. Comece aos poucos, por apenas 0,25 USD por hora, sem compromissos, e aumente a escala até petabytes por 1.000 USD por terabyte por ano, menos de um décimo do custo das soluções tradicionais. Normalmente, os clientes relatam uma compactação de 3x, que reduz seus custos para 333 USD por terabyte não compactado por ano.

P: Como o desempenho do Amazon Redshift se compara aos bancos de dados mais tradicionais de armazém de dados e dados analíticos?

O Amazon Redshift utiliza uma variedade de inovações para obter até dez vezes mais de desempenho mais elevado do que os bancos de dados de warehouse de dados e cargas de trabalho analíticas:

  • Armazenamento de dados colunar: Em vez de armazenar dados em séries de linhas, o Amazon Redshift organiza os dados por colunas. Ao contrário dos sistemas baseados em linhas, que são ideais para o processamento de transações, os sistemas baseados em colunas são ideais para warehouse de dados e análises, onde as consultas sempre envolvem agregados realizados em relação a grandes conjuntos de dados. Como somente as colunas envolvidas nas consultas são processadas e os dados colunares são armazenados em sequência na mídia de armazenamento, os sistemas baseados em colunas exigem muito menos E/Ss, melhorando o desempenho da consulta.
  • Compressão Avançada: O armazenamento de dados colunares pode ser muito mais compactado que o armazenamento de dados baseado em linhas, pois os dados semelhantes são armazenados em sequência no disco. O Amazon Redshift emprega várias técnicas de compactação e muitas vezes pode alcançar uma compactação significante em comparação ao armazenamento de dados relacional tradicional. Além disso, o Amazon Redshift não exige índices ou visualizações materializadas e, portanto, utiliza menos espaço que os sistemas de bancos de dados relacionais tradicionais. Ao carregar dados para uma tabela vazia, o Amazon Redshift coleta uma amostra de seus dados e seleciona o esquema de compactação mais apropriado.
  • Processamento maciçamente paralelo (MPP): o Amazon Redshift distribui automaticamente a carga de dados e consultas entre todos os nós. O Amazon Redshift facilita a adição de nós a seu armazém de dados e permite manter o rápido desempenho das consultas à medida que o armazém de dados cresce.

P: Como posso acessar meu cluster de armazém de dados em execução?

Após seu cluster de warehouse de dados estar disponível, é possível recuperar seu endpoint e a string de conexão JBDC e OBDC do AWS Management Console ou usando as APIs Redshift. Você pode utilizar esta string de conexão com sua ferramenta de banco de dados favorita, linguagem de programação ou ferramenta de Business Intelligence (BI). Será necessário autorizar solicitações de rede para seu cluster de warehouse de dados em execução. Para uma explicação mais detalhada, consulte nosso Guia de conceitos básicos.

P: O Amazon Redshift é compatível com meu pacote preferido de software de Business Intelligence e ferramentas ETL?

O Amazon Redshift utiliza SQL padrão da indústria e é acessado usando unidades JBDC e OBDC padrão. Os drivers JDBC e ODBC personalizados para o Amazon Redshift estão disponíveis para download na guia Connect Client do nosso console. Validamos integrações com fornecedores consagrados de BI e ETL, diversos dos quais oferecem testes gratuitos para ajudar você a começar a carregar e analisar dados. Também é possível acessar o AWS Marketplace para implantar e configurar soluções projetadas para funcionar com o Amazon Redshift em poucos minutos.

P: Como começo a usar o Amazon Redshift?

Você pode testar gratuitamente o Amazon Redshift. Se você nunca criou um cluster do Amazon Redshift, está qualificado para testar gratuitamente nosso nó DC1.Large por dois meses. Você recebe 750 horas gratuitas por mês, suficientes para executar continuamente um nó DC1.Large com 160 GB de armazenamento SSD compactado. Também é possível criar clusters com vários nós para testar conjuntos de dados maiores, acelerando o consumo das horas gratuitas. Após a expiração de seu teste gratuito de dois meses ou se o uso exceder 750 horas por mês, você poderá encerrar o cluster para qualquer cobrança, ou mantê-lo em execução com nossa taxa sob demanda padrão.

Comece a usar o projeto