Teste o Amazon Redshift gratuitamente

Iniciar o teste gratuito
Saiba mais

Obtenha 750 horas de DC2.Large gratuitas por mês durante dois meses. Para iniciar o teste:

1. Crie uma conta da AWS e faça login no console do Amazon Redshift

2. Execute um cluster do Amazon Redshift e selecione DC2.Large como Node Type

Além disso, veja como consumir dados e gerar gratuitamente relatórios com esses dados em nossa página Testes gratuitos de parceiros.


P: O que é o Amazon Redshift?

O Amazon Redshift é um data warehouse rápido e gerenciado que torna simples e econômica a análise de todos os seus dados usando ferramentas SQL padrão, como também ferramentas de BI (Business intelligence – Inteligência de negócios) de que você já dispõe. Ele permite executar consultas complexas de análise em petabytes de dados estruturados, usando otimização de consulta avançada, armazenamento colunar em discos locais de alto desempenho e execução maciçamente paralela de consultas. A maioria dos resultados é disponibilizado em alguns segundos. Com o Redshift, você pode começar aos poucos, por apenas 0,25 USD por hora, sem compromissos, e aumentar a escala até petabytes de dados por 1.000 USD por TB ao ano, menos de um décimo do custo de soluções tradicionais. O Amazon Redshift também inclui o Amazon Redshift Spectrum que permite executar diretamente consultas SQL em exabytes de dados não estruturados no Amazon S3. Não é preciso executar cargas ou transformações, e são permitidos formatos de dados abertos como Avro, CSV, Grok, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile e TSV. O Redshift Spectrum escala automaticamente a capacidade computacional de consultas com base nos dados que estão sendo recuperados. Desta forma, as consultas no Amazon S3 são executadas de maneira rápida, independentemente do tamanho do conjunto de dados.

Os warehouses de dados tradicionais exigem bastante tempo e recurso para administrar, especialmente para grandes conjuntos de dados. Além disso, o custo financeiro associado à construção, manutenção e crescimento autogerenciável de warehouses de dados local é muito alto. À medida que os dados aumentarem, será necessário trocar constantemente quais dados carregar no data warehouse e quais dados arquivar no armazenamento para gerenciar custos, manter a complexidade de ETL baixa e proporcionar uma boa performance. O Amazon Redshift não apenas reduz significativamente o custo e a sobrecarga operacional de um data warehouse, como também torna fácil, usando o Redshift Spectrum, analisar grandes quantidade de dados em seus formatos nativos sem a necessidade carregá-los.

O Amazon Redshift oferece recursos de consulta rápida com dados estruturados usando clientes SQL e ferramentas de Business Intelligence (BI) com conexões padrão OBDC e JDBC. As consultas são distribuídas e paralelizadas entre vários recursos físicos. É possível escalar facilmente um warehouse de dados da Amazon Redshift para cima ou para baixo com alguns cliques no AWS Management Console ou com uma única chamada de API. O Amazon Redshift corrige e faz backup automaticamente de seu warehouse de dados, armazenando os backups de um período de retenção definido pelo usuário. O Amazon Redshift utiliza replicação e backups contínuos para aprimorar a disponibilidade e melhorar a duração dos dados e pode também recuperar automaticamente a partir de componentes e falhas de nós. Além disso, o Amazon Redshift fornece suporte para Amazon Virtual Private Cloud (Amazon VPC), SSL, criptografia AES-256 e Módulos de segurança de hardware (HSMs) para proteger seus dados ociosos e em trânsito.

Assim como todos os serviços da Amazon Web Services, não há investimentos iniciais e você paga somente pelos recursos que utilizar. Com o Amazon Redshift, você só paga o que utilizar. Você pode até mesmo experimentar o Amazon Redshift gratuitamente.

P: O que é o Amazon Redshift Spectrum?

O Amazon Redshift Spectrum é um recurso do Amazon Redshift que permite executar consultas em exabytes de dados não estruturados no Amazon S3, sem necessidade de carregamento ou ETL. Quando você emite uma consulta, ela é enviada para o endpoint SQL do Amazon Redshift, que cria e otimiza um plano de consulta. O Amazon Redshift determina quais dados são locais e o que consta no Amazon S3, cria um plano para minimizar a quantidade de dados do Amazon S3 que precisam ser lidos, como também solicita que operadores do Redshift Spectrum de um grupo de recursos compartilhados leiam e processsem os dados do Amazon S3.

O Redshift Spectrum aumenta a escala para milhares de instâncias se for necessário, por isso, as consultas são executadas mais rapidamente, não importa o tamanho dos dados. Além disso, você pode usar exatamente os mesmos dados do SQL for Amazon S3 que usaria para as suas consultas do Amazon Redshift no momento, bem como conectar-se ao mesmo endpoint do Amazon Redshift usando suas mesmas ferramentas de BI. O Redshift Spectrum permite separar armazenamento e computação, o que possibilita ajustar a escala de cada um de modo independente. Você pode configurar quantos clusters do Amazon Redshift precisar para consultar seu data lake do Amazon S3, o que proporciona alta disponibilidade e simultaneidade ilimitada. O Redshift Spectrum oferece a você a liberdade de armazenar dados onde desejar, no formato que quiser e tê-los disponíveis para processamento quando forem necessários.

P: O que o Amazon Redshift pode gerenciar por mim?

O Amazon Redshift gerencia o trabalho necessário para configurar, operar e dimensionar um warehouse de dados, desde o provisionamento da capacidade de infraestrutura até a automação de tarefas administrativas contínuas, como backups e correções. O Amazon Redshift monitora automaticamente seus nós e unidades para ajudar na recuperação de falhas. O Amazon Redshift gerencia para o Redshift Spectrum toda a infraestrutura de computação, balanceamento de carga, planejamento, programação e execução de consultas nos dados armazenados no Amazon S3.

P: Como o desempenho do Amazon Redshift se compara aos bancos de dados mais tradicionais de armazém de dados e dados analíticos?

O Amazon Redshift utiliza uma variedade de inovações para obter até dez vezes mais de desempenho mais elevado do que os bancos de dados de warehouse de dados e cargas de trabalho analíticas:

  • Armazenamento de dados colunar: Em vez de armazenar dados em séries de linhas, o Amazon Redshift organiza os dados por colunas. Ao contrário dos sistemas baseados em linhas, que são ideais para o processamento de transações, os sistemas baseados em colunas são ideais para warehouse de dados e análises, onde as consultas sempre envolvem agregados realizados em relação a grandes conjuntos de dados. Como somente as colunas envolvidas nas consultas são processadas e os dados colunares são armazenados em sequência na mídia de armazenamento, os sistemas baseados em colunas exigem muito menos E/Ss, melhorando o desempenho da consulta.
  • Compactação avançada: O armazenamento de dados colunares pode ser muito mais compactado que o armazenamento de dados baseado em linhas, pois os dados semelhantes são armazenados em sequência no disco. O Amazon Redshift emprega várias técnicas de compactação e muitas vezes pode alcançar uma compactação significante em comparação ao armazenamento de dados relacional tradicional. Além disso, o Amazon Redshift não exige índices ou visualizações materializadas e, portanto, utiliza menos espaço que os sistemas de bancos de dados relacionais tradicionais. Ao carregar dados para uma tabela vazia, o Amazon Redshift coleta uma amostra de seus dados e seleciona o esquema de compactação mais apropriado.
  • Processamento Maciçamente Paralelo (MPP): o Amazon Redshift distribui automaticamente a carga de dados e consultas entre todos os nós. O Amazon Redshift facilita a inclusão de nós a seu armazém de dados e permite manter um desempenho de consulta rápido, enquanto seu armazém de dados aumenta.
  • Redshift Spectrum: o Redshift Spectrum permite que você execute consultas em exabytes de dados no Amazon S3. Não há necessidade de carregamento nem ETL. Mesmo se você não armazenar nenhum dado no Amazon Redshift, ainda poderá usar o Redshift Spectrum para consultar conjuntos de dados de até um exabyte no Amazon S3. Quando você emite uma consulta, ela é enviada para o endpoint SQL do Amazon Redshift, que cria um plano de consulta. O Redshift determina quais dados são locais e o que consta no Amazon S3, cria um plano para minimizar a quantidade de dados do Amazon S3 que precisam ser lidos, solicita que operadores do Amazon Redshift Spectrum de um grupo de recursos compartilhados leiam e processsem os dados do Amazon S3 e, por fim, envia os resultados de volta para o cluster do Amazon Redshift para que sejam executados os processamentos restantes necessários.

P: Como começo a usar o Amazon Redshift?

Você pode se conectar e começar a usar o serviço em alguns minutos na página de detalhes do Amazon Redshift ou por meio do Console de Gerenciamento da AWS. Caso não tenha uma conta da AWS, o sistema pedirá que você crie uma.

Para usar o Redshift Spectrum, é necessário primeiro armazenar os dados no Amazon S3. Depois disso, você poderá definir os metadados sobre os dados em questão no cluster do Amazon Redshift ou registrar os metadados que tiver no Hive Metastore com o cluster. Você poderá emitir o comando CREATE EXTERNAL SCHEMA SQL no cluster do Amazon Redshift para definir ou registrar um banco de dados no seu catálogo como um schema externo dentro do Amazon Redshift. Depois, será possível emitir consultas no Amazon S3 usando o mesmo SQL utilizado para tabelas locais e qualquer ferramenta de BI que apoie o Amazon Redshift no momento. A definição de banco de dados externo criada usando o Amazon Redshift SQL será registrada no mesmo catálogo de dados usado pelo Amazon Athena. Como opção, você poderá gerenciar a definição do banco de dados externo por meio do catálogo do Amazon Athena também. 

Acesse a nossa página de Conceitos básicos para saber como testar o Amazon Redshift gratuitamente.

P: Em quais regiões da AWS o Amazon Redshift está disponível?

Para obter informações sobre a disponibilidade regional do Amazon Redshift, consulte a seção Region Table na página AWS Global Infrastructure.

P: Em quais regiões da AWS o Redshift Spectrum está disponível?

O Amazon Redshift Spectrum está disponível nas seguintes regiões da AWS: Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Oregon), UE (Frankfurt), UE (Irlanda), Ásia-Pacífico (Seul), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney) e Ásia-Pacífico (Tóquio).

P: Como posso criar um cluster de armazém de dados do Amazon Redshift?

Você pode criar facilmente um cluster de armazém de dados do Amazon Redshift usando o AWS Management Console ou as APIs do Amazon Redshift. Você pode começar com um armazém de dados de um único nó e 160 GB e expandir até um petabyte ou mais com apenas alguns cliques no AWS Console ou uma única chamada de API.

A configuração do único nó permite que você comece a usar o Amazon Redshift de forma rápida e com bom custo/benefício, além de permitir escalar a configuração de vários nós conforme sua necessidade aumenta. A configuração de vários nós exige um nó principal, que gerencia conexões de clientes e recebe consultas, e dois nós computacionais, que armazenam dados e realizam pesquisas e computações. O nó principal é provisionado automaticamente e você não será cobrado por isso.

Basta especificar sua Zona de Disponilibidade ideal (opcional), a quantidade e os tipos de nós, um nome mestre e uma senha, grupos de segurança, suas preferências para retenção de backup e outras configurações de sistema. Após ter escolhido a configuração desejada, o Amazon Redshift provisionará os recursos exigidos e configurará seu cluster de warehouse de dados.

P: O que um nó principal faz? O que um nó computacional faz?

Um nó principal recebe consultas de aplicativos clientes, analisa as consultas e desenvolve planos de execução, que são um conjunto ordenado de etapas para processar essas consultas. Em seguida, o nó principal cordena a execução paralela desses planos com os nós computacionais, agrega os resultados intermediários desses nós e finalmente retorna os resultados para os aplicativos clientes.

Os nós computacionais executam as etapas especificadas nos planos de execução e transmitem dados entre si para servir essas consultas. Os resultados intermediários são enviados para o nó principal para agregação antes de ser enviado novamente para os aplicativos clientes.

P: Qual é a capacidade máxima de armazenamento em cada nó computacional? Qual é a quantidade recomendada de dados por nó computacional para o desempenho otimizado?

Você pode criar um cluster usando tipos de nós de armazenamento denso (DS) ou computação densa (DC). Os tipos de nós de armazenamento denso permitem criar data warehouses muito grandes usando discos rígidos (HDDs) por um preço bastante reduzido. Os tipos de nós de computação densa permitem criar data warehouses de altíssimo desempenho usando CPUs rápidas, grandes quantidades de RAM e discos de estado sólido (SSDs).

Os tipos de nós de armazenamento denso (DS) estão disponíveis em dois tamanhos, extragrande e óctuplo extragrande. O nó extragrande (XL) tem 3 HDDs com um total de 2 TB de armazenamento magnético. O nó óctuplo extragrande (8XL) tem 24 HDDs com um total de 16 TB de armazenamento magnético. O DS2.8XLarge tem 36 núcleos virtuais Intel Xeon E5-2676 v3 (Haswell) e 244 GiB de RAM e o DS2.XL tem 4 núcleos virtuais Intel Xeon E5-2676 v3 (Haswell) e 31 GiB de RAM. Consulte a nossa página de definição de preço para obter mais detalhes. Você pode começar com um warehouse de dados de um único nó Extragrande de 2 TB por 0,85 USD por hora e expandir até um petabyte ou mais. Você pode pagar por hora ou usar definições de preços de instância reservada para diminuir seu preço para menos de 1.000 USD por TB por ano.

Os tipos de nós de computação densa (DC) também estão disponíveis em dois tamanhos. O Grande tem 160 GB de armazenamento em SSD, 2 núcleos virtuais Intel Xeon E5-2670v2 (Ivy Bridge) e 15 GiB de RAM. O Óctuplo extragrande é 16 vezes maior, com 2,56 TB de armazenamento em SSD, 32 núcleos virtuais Intel Xeon E5-2670v2 e 244 GiB de RAM. Você pode começar com um único nó DC2.Large por 0,25 USD por hora e escalar até 128 nós óctuplos extragrandes com 326 TB de armazenamento em SSD, 3.200 núcleos virtuais e 24 TiB de RAM.

Com a arquitetura MPP do Amazon Redshift, você pode elevar o desempenho ao aumentar a quantidade de nós em seu cluster de warehouse de dados. A quantidade de dados ideal por nó computacional depende das características de seu aplicativo e das necessidades do desempenho de consulta.

P: Quantos nós posso especificar por cluster de armazém de nós do Amazon Redshift?

Um cluster de armazém de dados do Amazon Redshift pode conter de 1 a 128 nós de computação, dependendo do tipo de nó. Para obter detalhes, consulte a nossa documentação.

P: Como posso acessar meu cluster de armazém de dados em execução?

Após seu cluster de warehouse de dados estar disponível, é possível recuperar seu endpoint e a string de conexão JBDC e OBDC do AWS Management Console ou usando as APIs Redshift. Você pode utilizar esta string de conexão com sua ferramenta de banco de dados favorita, linguagem de programação ou ferramenta de Business Intelligence (BI). Será necessário autorizar solicitações de rede para seu cluster de warehouse de dados em execução. Para uma explicação mais detalhada, consulte nosso Guia de conceitos básicos.

P: Quando devo usar o Amazon Redshift frente ao Amazon RDS?

O Amazon Redshift e o Amazon RDS permitem que você execute bancos de dados relacionais tradicionais na nuvem, o que reduz a sobrecarga de administração do banco de dados. Os clientes utilizam os bancos de dados do Amazon RDS para processamento de transação on-line (OLTP) e para relatório e análise. O Amazon Redshift aproveita a escala e os recursos de vários nós e utiliza a variedade de otimizações para fornecer ordem de melhorias de magnitude sobre bancos de dados tradicionais para cargas de trabalho analíticas e de relatório com conjuntos de dados muito grandes. O Amazon Redshift oferece uma excelente opção de escalabilidade conforme seus dados e a complexidade de suas consultas aumentam ou caso você deseje impedir o processamento analítico e de relatório de interferir com o desempenho de sua carga de trabalho do OLTP.

P: Quando devo usar o Amazon Redshift no lugar do Amazon EMR?

Você deve usar o Amazon EMR se usar código personalizado para processar e analisar conjuntos de dados extremamente grandes com estruturas de processamento de big data, como Apache Spark, Hadoop, Presto ou Hbase. O Amazon EMR oferece controle completo sobre a configuração dos clusters e do software instalado neles.

Os data warehouses, como o Amazon Redshift, foram criados para um tipo totalmente diferente de análise. Os data warehouses foram criados para reunir dados de diversas fontes diferentes, como inventário, finanças e sistemas de vendas ao varejo. Para garantir que o fluxo de informações seja constantemente preciso em toda uma empresa, os data warehouses armazenam dados de maneira altamente estruturada. Essa estrutura cria regras de uniformidade de dados nas tabelas do banco de dados.

O Amazon Redshift é o melhor serviço a usar quando você precisa executar consultas complexas em grandes conjuntos de dados estruturados e obter uma performance super-rápida.

P: O Redshift Spectrum pode substituir o Amazon EMR?

Não. Embora o Redshift Spectrum seja excelente para execução de consultas em dados no Amazon Redshift e no S3, ele realmente não é indicado para os tipos de casos de uso que grandes empresas geralmente solicitam de estruturas de processamento, como o Amazon EMR.
O Amazon EMR vai muito além da simples execução de consultas SQL. O Amazon EMR é um serviço gerenciado que permite processar e analisar conjuntos de dados extremamente grandes usando as versões mais recentes de estruturas conhecidas de processamento de big data, como Spark, Hadoop e Presto, em clusters totalmente personalizáveis. Com o Amazon EMR, você pode executar diversas tarefas de processamento de dados com aumento de escala para aplicações, como Machine Learning, análise de gráficos, transformação de dados, streaming de dados e praticamente qualquer coisa que você puder codificar. Você também pode usar o Redshift Spectrum juntamente com o EMR. O Amazon Redshift Spectrum usa a mesma abordagem para armazenar definições de tabela como Amazon EMR. Portanto, se você já estiver usando o EMR para processar um grande armazenamento de dados, poderá usar o Redshift Spectrum para consultar os dados em questão corretamente ao mesmo tempo sem interferir com os seus trabalhos do Amazon EMR.

Serviços de consulta, data warehouses e estruturas complexas de processamento de dados têm seu lugar específico e são usados para coisas diferentes. Você só precisa escolher a ferramenta certa para o trabalho.

P: Quando devo usar o Amazon Athena no lugar do Redshift Spectrum?

O Amazon Athena é a maneira mais simples de permitir que qualquer funcionário faça consultas ad-hoc nos dados do Amazon S3. O Athena não usa servidor, de forma que não existe uma infraestrutura para configurar ou gerenciar, e você pode começar a analisar os dados imediatamente.

Se você tiver dados acessados com frequência, que precisem ser armazenados em um formato uniforme e altamente estruturado, recomendamos usar um data warehouse como o Amazon Redshift. Assim, você terá a flexibilidade de armazenar dados estruturados e acessados com frequência no Amazon Redshift e usar o Redshift Spectrum para estender consultas do Amazon Redshift a todo o universo de dados no data lake do Amazon S3. Além disso, você também terá liberdade de armazenar dados onde desejar, no formato que quiser e tê-los disponíveis para processamento quando forem necessários.

P: Posso usar o Redshift Spectrum para fazer consultas de dados que processo usando o Amazon EMR?

Sim. O Redshift Spectrum pode oferecer suporte ao mesmo Apache Hive Metastore usado pelo Amazon EMR para localizar dados e definições de tabela. Se você estiver usando o Amazon EMR e já tiver um Hive Metastore, deverá apenas configurar o cluster do Amazon Redshift para usá-lo. Depois, poderá começar a fazer consultas dos dados em questão imediatamente junto com seus trabalhos do Amazon EMR.

P: Por que eu deveria usar o Amazon Redshift em vez de executar meu próprio cluster de armazém de dados MPP no Amazon EC2?

O Amazon Redshift gerencia automaticamente várias das tarefas demoradas associadas ao gerenciamento de seu próprio armazém de dados, como:

  • Configuração: Com o Amazon Redshift, basta criar um cluster de armazém de dados, definir seu schema e começar a carregar e consultar seus dados. O provisionamento, a configuração e a correção são todos gerenciados para você.
  • Durabilidade dos dados: O Amazon Redshift replica seus dados dentro de seu cluster de armazém de dados e continuamente faz backup de seus dados para o Amazon S3, que foi projetado para onze nonos de durabilidade. O Amazon Redshift espelha os dados de cada unidade para outros nós dentro do seu cluster. Se uma unidade falhar, suas consultas continuarão com um ligeiro aumento de latência enquanto o Redshift reconstrói sua unidade das réplicas. Em caso de falhas no nó, o Amazon Redshift fornece automaticamente novos nós e começa a restaurar dados de outras unidades dentro do cluster ou do Amazon S3. Ele dá prioridade à restauração de seus dados mais consultados para que suas consultas mais executadas se tornem eficazes rapidamente.
  • Escalabilidade: Você pode adicionar ou remover nós de seu cluster de armazém de dados do Amazon Redshift com uma única chamada de API ou com alguns cliques no AWS Management Console conforme suas necessidades de capacidade e desempenho mudarem.
  • Atualizações e correções automáticas: O Amazon Redshift aplica automaticamente atualizações e correções ao seu armazém de dados para que você possa se concentrar em seu aplicativo e não na sua administração.
  • Recurso de consulta na escala de exabytes: o Redshift Spectrum permite que você execute consultas em exabytes de dados no Amazon S3. Não há necessidade de carregamento nem ETL. Mesmo se você não armazenar nenhum dado no Amazon Redshift, ainda poderá usar o Redshift Spectrum para consultar conjuntos de dados de até um exabyte no Amazon S3.

Voltar ao início »

P: Como serei cobrado pela utilização do Amazon Redshift?

Você paga somente pelo que for usado e não há taxas mínimas ou de instalação. Você é cobrado baseado em:

  • Horas de nós computacionais – As horas de nós computacionais são o número total de horas que você executa por meio de todos os seus nós computacionais para o período de faturamento. Haverá cobrança de 1 unidade por nó, por hora. Então, um cluster de warehouse de dados de 3 nós executando persistentemente por um mês inteiro, incorreria 2.160 horas de instâncias. Não haverá cobrança para horas de nó principal; somente nós computacionais terão custos.
  • Armazenamento de Backup – O armazenamento de backup é o armazenamento associado a seus snapshots automatizados e manuais para seu warehouse de dados. Aumentar o período de retenção do backup ou tirar outros snapshots aumenta o armazenamento de backup consumido pelo seu armazém de dados. Não há custo adicional para armazenamento de backup de até 100% do seu armazenamento provisionado para um cluster ativo de warehouse de dados. Por exemplo, se você tiver um cluster de warehouse de dados ativo de nó individual XL com 2 TB de armazenamento de instância local, forneceremos até 2 TB por mês de armazenamento de backup sem custo adicional. O armazenamento de backup acima do tamanho de armazenamento fornecido e o armazenamento de backups após a conclusão de seu cluster são cobrados de acordo com as taxas padrão do Amazon S3.
  • Transferência de dados – Não há cobrança de transferência de dados de/para o Amazon Redshift e o Amazon S3 na mesma região da AWS. Para todas as outras transferências de dados para dentro e para fora do Amazon Redshift, você será cobrado de acordo com as taxas de transferência de dados padrão da AWS.
  • Dados verificados: com o Redshift Spectrum, você será cobrado pela quantidade de dados do Amazon S3 verificados para executar sua consulta. Não haverá cobranças referentes ao Redshift Spectrum quando você não estiver executando consultas. Se você armazenar dados em um formato colunar, como Parquet ou RC, suas cobranças serão reduzidas, pois o Redshift Spectrum só verificará as colunas necessárias para a consulta, em vez de processar linhas inteiras. Da mesma forma, se você compactar seus dados usando um dos formatos aceitos pelo Redshift Spectrum, os custos também serão reduzidos. Você paga as taxas padrão do Amazon S3 pelo armazenamento físico de dados e as taxas de instância do Amazon Redshift para o cluster utilizado.

Para obter mais informações, visite a página de definição de preços do Amazon Redshift.

P: Quando começa e termina o faturamento de meus clusters de armazém de dados do Amazon Redshift?

O faturamento começa para um cluster de warehouse de dados assim que este fica disponível. O faturamento continua até o cluster do warehouse de dados ser encerrado, o que pode ocorrer após sua exclusão ou caso ocorra falha na instância.

P: O que define as horas de instâncias faturáveis do Amazon Redshift?

As horas de uso do nó são cobradas por cada hora que seu cluster de warehouse de dados está sendo executado em um estado disponível. Se você não desejar mais ser cobrado em relação ao seu cluster de warehouse de dados, deverá encerrá-lo para evitar o faturamento das horas de nós adicionais. Horas parciais de consumo de nó são cobradas como horas completas.

P: Os preços incluem impostos?

Salvo indicação em contrário, nossos preços excluem impostos e taxas aplicáveis, incluindo o IVA e o imposto de vendas aplicável. Para clientes com endereço de pagamento no Japão, o uso da AWS está sujeito ao imposto sobre consumo japonês. Saiba mais.

Voltar ao início »


P: Como posso carregar dados para meu armazém de dados do Amazon Redshift?

Você pode carregar dados no Amazon Redshift de diversas fontes, inclusive Amazon S3, Amazon DynamoDB, Amazon EMR, AWS Data Pipeline e/ou qualquer host habilitado para SSH no Amazon EC2 ou no local do cliente. O Amazon Redshift tenta carregar seus dados em paralelo para cada nó computacional para maximizar a taxa na qual você pode inserir dados em seu cluster de warehouse de dados. Para obter mais detalhes sobre como carregar dados para o Amazon Redshift, consulte nosso Guia de conceitos básicos.

P: Posso carregar dados usando instruções SQL "INSERT"?

Sim, os clientes podem se conectar ao Amazon Redshift usando OBDC ou JDBC e emitir comandos SQL "insert" para inserir os dados. Observe que esse procedimento é mais lento do que usar o S3 ou o DynamoDB, pois esses métodos carregam dados em paralelo para cada nó computacional, enquanto as instruções de inserção do SQL carregam por meio de um único nó principal.

P: Como posso carregar dados de minhas fontes de dados existentes do Amazon RDS, Amazon EMR, Amazon DynamoDB e Amazon EC2 para o Amazon Redshift?

Você pode usar nosso comando COPY para carregar dados em paralelo diretamente no Amazon Redshift do Amazon EMR, do Amazon DynamoDB ou de qualquer host habilitado para SSH. O Redshift Spectrum também permite carregar dados do Amazon S3 para o seu cluster com um simples comando INSERT INTO. Isso permite carregar dados de vários formatos, como Parquet e RC no seu cluster. Observe que, se você usar essa abordagem, acumulará cobranças do Redshift Spectrum para os dados verificados no Amazon S3.

Além disso, muitas empresas de ETL certificaram o Amazon Redshift para uso com suas ferramentas, e diversas delas estão oferecendo testes gratuitos para ajudar você a começar a carregar seus dados. O AWS Data Pipeline fornece uma solução de alto desempenho, confiável e tolerante a falhas para carregar dados de uma variedade de fontes de dados da AWS. Você pode usar o AWS Data Pipeline para especificar a fonte de dados, as transformações de dados desejadas e executar um script de importação pré-gravado para carregar dados no Amazon Redshift. Além disso, o AWS Glue é um serviço totalmente gerenciado do tipo Extract, Transform and Load (ETL – Extração, transformação e carregamento) que permite que os clientes preparem e carreguem facilmente dados para análises. É possível criar e executar um trabalho ETL do AWS Glue com apenas alguns cliques no Console de Gerenciamento da AWS.

P: Tenho vários dados de carregamento inicial para o Amazon Redshift. Transferir através da Internet levaria muito tempo. Como posso carregar esses dados?

É possível utilizar o AWS Import/Export para transferir os dados para o Amazon S3 usando dispositivos de armazenamento portáteis. Além disso, você pode utilizar o AWS Direct Connect para estabelecer uma conexão de rede privada entre sua rede ou Datacenter e o AWS. Você pode escolher portas de conexão de 1 GB/s ou 10 GB/s para transferir seus dados.

Voltar ao início »


P: Como o Amazon Redshift mantém meus dados seguros?

O Amazon Redshift criptografa e mantém seus dados seguros em trânsito e em repouso usando técnicas de criptografia padrão da indústria. Para manter os dados seguros em trânsito, o Amazon Redshift tem suporte para conexões habilitadas por SSL entre o aplicativo cliente e seu cluster de warehouse de dados do Redshift. Para manter seus dados seguros em repouso, o Amazon Redshift criptografa cada bloco usando AES-256 acelerado por hardware conforme é gravado no disco. Isso ocorre a um nível baixo no subsistema de E/S, que criptografa tudo o que está gravado no disco, incluindo resultados de consultas intermediárias. Os blocos são copiados da mesma forma, o que significa que os backups também são criptografados. Por padrão, o Amazon Redshift cuida do gerenciamento de chaves, mas você pode optar por gerenciar suas chaves usando os seus próprios módulos de segurança de hardware (HSMs) ou o AWS Key Management Service.

O Redshift Spectrum apoia a SSE (Server Side Encryption – Criptografia no lado do servidor) do Amazon S3 usando a chave padrão da sua conta gerenciada utilizada pelo AWS Key Management Service (KMS).

P: Posso usar o Amazon Redshift no Amazon Virtual Private Cloud (Amazon VPC)?

Sim, é possível usar o Amazon Redshift como parte de sua configuração VPC. Com a Amazon VPC, é possível definir uma topologia de rede virtual muito semelhante a uma rede tradicional em operação no seu próprio datacenter. Isso proporciona controle total sobre quem pode acessar seu cluster de warehouse de dados do Amazon Redshift.

Você pode usar o Redshift Spectrum com um cluster do Amazon Redshift que faz parte da sua VPC. Observe que, no momento, o Redshift Spectrum não apoia o roteamento otimizado da VPC.

P: Posso acessar meus nós computacionais do Amazon Redshift diretamente?

Não. Seus nós computacionais do Amazon Redshift estão em um espaço de rede privado e só podem ser acessados a partir do nó principal de seu cluster de warehouse de dados. Isso proporciona uma camada adicional de segurança para seus dados.

Voltar ao início »


P: O que acontece à disponibilidade e durabilidade de meu cluster de armazém de dados se uma unidade de um de meus nós falhar?

Seu cluster de warehouse de dados do Amazon Redshift continuará disponível caso haja uma falha na unidade. No entanto, pode haver um pequeno declínio no desempenho para algumas consultas. Caso haja uma falha na unidade, o Amazon Redshift irá usar claramente uma réplica dos dados na unidade que está armazenada em outras unidades dentro do nó. Além disso, o Amazon Redshift tentará transferir seus dados para uma unidade saudável ou substituirá seu nó, caso a transferência seja impossível.Clusters de um único nó não fornecem suporte para replicação de dados. Em caso de falha em uma unidade, será necessário restaurar o cluster do snapshot no S3. Recomendamos usar pelo menos dois nós para produção.

P: O que acontece à disponibilidade e durabilidade de meu cluster de armazém de dados se um nó individual falhar?

O Amazon Redshift irá automaticamente detectar e substituir um nó com falha em seu cluster de armazém de dados. O cluster de armazém de dados ficará indisponível para consultas e atualizações até um nó de substituição ser provisionado e adicionado ao banco de dados. O Amazon Redshift disponibiliza imediatamente o nó de substituição e carrega os dados acessados com mais frequência do S3 para permitir que você volte a consultar os dados com a maior rapidez possível.Clusters de um único nó não fornecem suporte para replicação de dados. Em caso de falha em uma unidade, será necessário restaurar o cluster do snapshot no S3. Recomendamos usar pelo menos dois nós para produção.

P: O que acontece com a disponibilidade e durabilidade dos dados do meu cluster de armazém de dados se a Zona de disponibilidade (AZ) do meu cluster de armazém de dados sofrer uma interrupção?

Caso a Zona de disponibilidade de seu cluster de warehouse de dados do Amazon Redshift fique indisponível, não será possível utilizar seu cluster até que a alimentação e o acesso à rede da AZ sejam restaurados. Os dados de seu cluster de warehouse de dados são preservados, para que você possa começar a utilizar seu warehouse de dados do Amazon Redshift assim que a AZ estiver disponível novamente. Além disso, também é possível optar por restaurar os snapshots existentes para uma nova AZ na mesma Região. O Amazon Redshift irá restaurar seus dados acessados com maior frequência para que você possa retomar suas consultas o mais rápido possível.

P: O Amazon Redshift tem suporte para Implantações Multi-AZ?

Atualmente, o Amazon Redshift tem suporte somente para implantações Single-AZ. Você pode executar clusters de warehouse de dados em várias AZs carregando dados para dois clusters de warehouse de dados do Amazon Redshift em AZs separadas do mesmo conjunto de arquivos de entrada do Amazon S3. Com o Redshift Spectrum, você pode ativar vários clusters nas AZs e acessar dados no Amazon S3 sem ter que carregá-los no seu cluster. Além disso, também é possível restaurar um cluster de data warehouse para uma AZ diferente de seus snapshots de cluster de data warehouse.

Voltar ao início »


P: Como o Amazon Redshift faz o backup de meus dados?

O Amazon Redshift replica todos os dados dentro de seu cluster de armazém de dados quando ele é carregado e também faz continuamente um backup de seus dados para o S3. O Amazon Redshift sempre tenta manter pelo menos três cópias de seus dados (a original, a réplica nos nós computacionais e uma cópia de backup no Amazon S3). O Redshift também pode replicar de forma assíncrona seus snapshots para o S3 em outra região, para fins de recuperação de desastres.

P: Por quanto tempo o Amazon Redshift retém os backups? Ele é configurável?

Por padrão, o Amazon Redshift armazena os backups por um dia. Você pode configurar essa opção e alterar para até 35 dias.

P: Como posso restaurar meu cluster de armazém de dados do Amazon Redshift por meio de um backup?

Você tem acesso a todos os backups automatizados dentro de sua janela de retenção de backup. Após escolher um backup do qual restaurar, iremos disponibilizar um novo cluster de armazém de dados e restaurar seus dados para ele.

P: É necessário ativar backups do meu cluster de armazém de dados ou isso é feito automaticamente?

Por padrão, o Amazon Redshift habilita os backups automatizados de seu cluster de warehouse de dados com um período de retenção de um dia. O armazenamento de backup gratuito é limitado ao tamanho total de armazenamento nos nós no cluster de warehouse de dados e apenas se aplica aos clusters de warehouse de dados ativos. Por exemplo, se você tiver um armazenamento de warehouse de dados total de 8 TB, forneceremos no máximo 8 TB de armazenamento de backup sem custos adicionais. Se você quiser estender seu período de retenção de backup além de um dia, é possível fazê-lo utilizando o AWS Management Console ou as APIs Amazon Redshift Para obter mais informações sobre snapshots automatizados, consulte o Amazon Redshift Management Guide. O Amazon Redshift apenas faz backups de dados que foram alterados. Assim, a maioria dos snapshots usa somente uma pequena quantidade de seu armazenamento de backup gratuito.

P: Como posso gerenciar a retenção de meus backups automatizados e de meus snapshots?

Você pode utilizar o AWS Management Console ou a API ModifyCluster para gerenciar por quanto tempo seus backups automatizados serão mantidos, modificando o parâmetro RetentionPeriod. Se você deseja desativar completamente os backups automatizados, isso é possível ao configurar o período de retenção para 0 (não recomendado).

P: O que acontece aos meus backups se eu excluir meu cluster de armazém de dados?

Ao excluir um cluster de armazém de dados, é possível especificar se um snapshot final é criado após essa ação, o que permite uma restauração do cluster de armazém de dados excluído em uma data posterior. Todos os snapshots manuais do cluster de armazém de dados criados anteriormente serão retidos e cobrados de acordo com as taxas padrão do Amazon S3, a menos que você opte por excluí-los.

Voltar ao início »


P: Como posso escalar o tamanho e o desempenho de meu cluster de armazém de dados do Amazon Redshift?

Se desejar aumentar o desempenho da consulta ou responder à superutilização de CPU, memória ou E/S, é possível aumentar o número de nós dentro de seu cluster de armazém de dados por meio do AWS Management Console ou da API ModifyCluster. Quando você modifica o seu cluster de warehouse de dados, as alterações solicitadas serão aplicadas imediatamente. As métricas de utilização computacional, utilização de armazenamento e tráfego de leitura/gravação do cluster de armazém de dados do Amazon Redshift são disponibilizadas gratuitamente no Console de Gerenciamento da AWS ou usando as APIs do Amazon CloudWatch. Também é possível adicionar métricas definidas pelo usuário por meio da funcionalidade de métricas personalizadas do Amazon Cloudwatch.

Com o Redshift Spectrum, é possível executar vários clusters do Amazon Redshift acessando os mesmos dados no Amazon S3. Você poderá usar clusters diversos para casos de uso diferentes. Por exemplo, é possível usar um cluster para a geração de relatórios padrão e outro para consultas de ciência de dados. Equipes de marketing podem usar seus próprios clusters diferentes dos clusters de equipes de operações. Dependendo do tipo e do número de nós no seu cluster local, e do número de arquivos necessários a serem processados para a sua consulta, o Redshift Spectrum distribuirá automaticamente a execução da consulta para vários operadores do Redshift Spectrum de um grupo de recursos compartilhados para ler e processar dados do Amazon S3, e retornará os resultados para o cluster do Amazon Redshift para fazer qualquer processamento remanescente.

P: O meu cluster de armazém de dados continuará disponível durante a escalabilidade?

Meu cluster de armazém de dados atual continua disponível para operações de leitura enquanto um novo cluster de armazém de dados é criado durante as operações de escalabilidade. Quando o novo cluster de armazém de dados estiver pronto, seu cluster de armazém de dados existente ficará temporariamente indisponível enquanto a gravação do nome canônico do cluster de armazém de dados existente é alternado para apontar para o novo cluster de armazém de dados. Esse período de indisponibilidade geralmente tem duração de apenas alguns minutos e ocorrerá durante a janela de manutenção para seu cluster de warehouse de dados, a não ser que você especifique que a modificação deva ser aplicada imediatamente. O Amazon Redshift move dados em paralelo dos nós computacionais em seu cluster de warehouse de dados existente para os nós computacionais em seu novo cluster. Isso habilita sua operação para concluir o mais rápido possível.

Voltar ao início »


P: O Amazon Redshift é compatível com meu pacote preferido de software de Business Intelligence e ferramentas ETL?

O Amazon Redshift utiliza SQL padrão da indústria e é acessado usando unidades JBDC e OBDC padrão. Os drivers JDBC e ODBC personalizados para o Amazon Redshift estão disponíveis para download na guia Connect Client do nosso console. Nós validamos integrações com fornecedores populares de BI e ETL, diversos dos quais estão oferecendo testes gratuitos para ajudar você a começar a carregar e analisar seus dados. Também é possível acessar o AWS Marketplace para implementar e configurar soluções projetadas para funcionar com o Amazon Redshift em questão de minutos.

P: Que tipos de consultas são compatíveis com o Redshift Spectrum?

Você usa exatamente a mesma sintaxe de consulta e tem os mesmos recursos de consulta para acessar tabelas no Redshift Spectrum disponíveis para tabelas no armazenamento local do seu cluster. As tabelas externas são mencionadas usando o nome do schema definido no comando CREATE EXTERNAL SCHEMA em que foram registradas.

P: O que acontece se uma tabela no meu armazenamento local tiver o mesmo nome de uma tabela externa?

Assim como ocorre com tabelas locais, você pode usar o nome do schema para escolher exatamente aquele que deseja ao usar schema_name.table_name na sua consulta.

P: Quais ferramentas de BI e clientes SQL são aceitos pelo Redshift Spectrum?

O Redshift Spectrum aceita todas as ferramentas de cliente do Amazon Redshift. As ferramentas de cliente podem continuar a estabelecer conexão com o endpoint do cluster do Amazon Redshift usando as conexões ODBC ou JDBC. Não é exigida nenhuma alteração.

P: Que formatos de dados são compatíveis com o Redshift Spectrum?

No momento, o Redshift Spectrum oferece suporte a diversos formatos de dados de código aberto, incluindo Avro, CSV, Grok, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile e TSV.

P: Que formatos de compactação são aceitos pelo Redshift Spectrum?

No momento, o Redshift Spectrum aceita os formatos de compactação Gzip e Snappy.

P: Eu uso um Hive Metastore para armazenar metadados sobre meu data lake do S3. Posso usar o Redshift Spectrum?

Sim. O comando CREATE EXTERNAL SCHEMA aceita o Hive Metastore. No momento, não aceitamos o DDL no Hive Metastore.

P: Como posso obter uma lista das tabelas externas de banco de dados criadas no meu cluster?

Você pode consultar a tabela do sistema SVV_EXTERNAL_TABLES para obter essas informações.


P: Como posso monitorar o desempenho de meu cluster de armazém de dados do Amazon Redshift?

As métricas de utilização computacional, utilização de armazenamento e tráfego de leitura/gravação do cluster de data warehouse do Amazon Redshift são disponibilizadas gratuitamente no Console de Gerenciamento da AWS ou usando as APIs do Amazon CloudWatch. Também é possível adicionar métricas adicionais definidas pelo usuário por meio da funcionalidade de métrica personalizada do Amazon Cloudwatch. Além das métricas do CloudWatch, o Amazon Redshift também fornece informações sobre o desempenho do cluster e da consulta por meio do AWS Management Console. Essas informações permitem que você visualize quais usuários e consultas estão consumindo os problemas de recursos do sistema e de desempenho do diagnóstico. Além disso, é possível visualizar a utilização do recurso de cada um de seus nós computacionais para garantir que você tem dados e consultas que estão bem equilibrados entre todos os nós.

P: Percebi que algumas consultas acessando dados no meu cluster estão sendo executadas mais lentamente do que minhas consultas do Redshift Spectrum. Por que isso está acontecendo?

As consultas do Amazon Redshift são executadas nos seus recursos de cluster no disco local. As consultas do Redshift Spectrum são executadas usando recursos por consulta com aumento de escala nos dados do S3. Para a maioria das consultas, o disco local será mais rápido, mas para consultas que verificam muitos dados e realizam um processamento computacional mínimo, podemos aplicar vários operadores do Redshift Spectrum e concluí-las rapidamente.


P: O que é uma janela de manutenção? O meu cluster de armazém de dados estará disponível durante a manutenção do software?

O Amazon Redshift executa periodicamente manutenções para aplicar correções, aprimoramentos e novos recursos ao seu cluster. Você pode alterar as janelas de manutenção agendadas modificando o cluster por meio de programação ou usando o console do Amazon Redshift. Durante essas janelas de manutenção o cluster do Amazon Redshift não está disponível para operações normais. Para obter mais informações sobre as janelas de manutenção e os agendamentos por região, consulte Maintenance Windows no Amazon Redshift Management Guide.

Voltar ao início »