Geral

P: O que é o Amazon Redshift?

O Amazon Redshift é um data warehouse rápido e gerenciado que torna simples e econômica a análise de todos os seus dados usando ferramentas SQL padrão, como também ferramentas de BI (Business intelligence – Inteligência de negócios) de que você já dispõe. Ele permite executar consultas complexas de análise em petabytes de dados estruturados, usando otimização de consulta avançada, armazenamento colunar em discos locais de alta performance e execução maciçamente paralela de consultas. A maioria dos resultados é disponibilizado em alguns segundos. Com o Redshift, você pode começar aos poucos, por apenas 0,25 USD por hora, sem compromissos, e aumentar a escala até petabytes de dados por 1.000 USD por TB por ano, menos de um décimo do custo de soluções tradicionais. O Amazon Redshift também inclui o Amazon Redshift Spectrum, que permite executar diretamente consultas SQL em exabytes de dados não estruturados no Amazon S3. Não é preciso executar cargas ou transformações e você pode usar formatos de dados abertos como Avro, CSV, Grok, Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile e TSV. O Redshift Spectrum escala automaticamente a capacidade computacional de consultas com base nos dados que estão sendo recuperados. Desta forma, as consultas no Amazon S3 são executadas de maneira rápida, independentemente do tamanho do conjunto de dados.

Os data warehouses tradicionais exigem bastante tempo e recurso para administrar, especialmente para grandes conjuntos de dados. Além disso, o custo financeiro associado à construção, manutenção e crescimento autogerenciável de data warehouses no local é muito alto. À medida que os dados aumentarem, será necessário trocar constantemente quais dados carregar no data warehouse e quais dados arquivar no armazenamento para gerenciar custos, manter a complexidade de ETL baixa e proporcionar uma boa performance. O Amazon Redshift não apenas reduz significativamente o custo e a sobrecarga operacional de um data warehouse, como também torna fácil, usando o Redshift Spectrum, analisar grandes quantidade de dados em seus formatos nativos sem a necessidade carregá-los.

O Amazon Redshift oferece recursos de consulta rápida com dados estruturados usando clientes SQL e ferramentas de Business Intelligence (BI) com conexões padrão OBDC e JDBC. As consultas são distribuídas e paralelizadas entre vários recursos físicos. Você pode aumentar ou reduzir facilmente a escala um data warehouse do Amazon Redshift com alguns cliques no Console de Gerenciamento da AWS ou com uma única chamada de API. O Amazon Redshift corrige e faz backup automaticamente de seu data warehouse, armazenando os backups de um período de retenção definido pelo usuário. O Amazon Redshift utiliza replicação e backups contínuos para aprimorar a disponibilidade e melhorar a duração dos dados e pode também recuperar automaticamente a partir de componentes e falhas de nós. Além disso, o Amazon Redshift fornece suporte para Amazon Virtual Private Cloud (Amazon VPC), SSL, criptografia AES-256 e Módulos de segurança de hardware (HSMs) para proteger seus dados ociosos e em trânsito.

Assim como todos os serviços da Amazon Web Services, não há investimentos adiantados, e você paga somente pelos recursos que utilizar. Com o Amazon Redshift, você só paga conforme usar. Você pode até mesmo experimentar o Amazon Redshift gratuitamente.

Para obter informações sobre a disponibilidade regional do Amazon Redshift, consulte a Tabela de regiões da AWS.

P: O que é o Redshift Spectrum?

O Redshift Spectrum é um recurso do Amazon Redshift que permite executar consultas em exabytes de dados não estruturados no Amazon S3, sem necessidade de carregamento ou ETL. Quando você emite uma consulta, ela é enviada para o endpoint SQL do Amazon Redshift, que cria e otimiza um plano de consulta. O Amazon Redshift determina quais dados são locais e o que consta no Amazon S3, cria um plano para minimizar a quantidade de dados do Amazon S3 que precisam ser lidos, como também solicita que operadores do Redshift Spectrum de um grupo de recursos compartilhados leiam e processem os dados do Amazon S3.

O Redshift Spectrum aumenta a escala para milhares de instâncias se for necessário, por isso, as consultas são executadas mais rapidamente, não importa o tamanho dos dados. Além disso, você pode usar exatamente os mesmos dados do SQL for Amazon S3 que usaria para as suas consultas do Amazon Redshift no momento, bem como conectar-se ao mesmo endpoint do Amazon Redshift usando suas mesmas ferramentas de BI. O Redshift Spectrum permite separar armazenamento e computação, o que possibilita ajustar a escala de cada um de modo independente. Você pode configurar quantos clusters do Amazon Redshift precisar para consultar seu data lake do Amazon S3, o que proporciona alta disponibilidade e simultaneidade ilimitada. O Redshift Spectrum oferece a você a liberdade de armazenar dados onde desejar, no formato que quiser e tê-los disponíveis para processamento quando forem necessários.

Para obter mais informações sobre a disponibilidade regional do Redshift Spectrum, consulte a página de definição de preço do Amazon Redshift.

P: O que o Amazon Redshift pode gerenciar por mim?

O Amazon Redshift gerencia o trabalho necessário para configurar, operar e dimensionar um data warehouse, desde o provisionamento da capacidade de infraestrutura até a automação de tarefas administrativas contínuas, como backups e aplicação de patches. O Amazon Redshift monitora automaticamente seus nós e unidades para ajudar na recuperação de falhas. O Amazon Redshift gerencia para o Redshift Spectrum toda a infraestrutura de computação, balanceamento de carga, planejamento, programação e execução de consultas nos dados armazenados no Amazon S3.

P: Como a performance do Amazon Redshift se compara à performance da maioria dos bancos de dados tradicionais para data warehousing e análises?

O Amazon Redshift utiliza diversas inovações para obter uma performance até dez vezes maior que os bancos de dados para cargas de trabalho de data warehousing e análises:

  • Armazenamento de dados colunar: Em vez de armazenar dados em séries de linhas, o Amazon Redshift organiza os dados por colunas. Ao contrário dos sistemas baseados em linhas, que são ideais para o processamento de transações, os sistemas baseados em colunas são ideais para data warehousing e análises, onde as consultas sempre envolvem agregados realizados em relação a grandes conjuntos de dados. Como somente as colunas envolvidas nas consultas são processadas e os dados colunares são armazenados em sequência na mídia de armazenamento, os sistemas baseados em colunas exigem muito menos E/Ss, melhorando a performance da consulta.
  • Compactação avançada: Os datastores colunares podem ser muito mais compactados que os datastores baseado em linhas, pois os dados semelhantes são armazenados em sequência no disco. O Amazon Redshift emprega várias técnicas de compactação e muitas vezes pode alcançar uma compactação significante em comparação aos datastores relacionais tradicionais. Além disso, o Amazon Redshift não exige índices ou visualizações materializadas e, portanto, utiliza menos espaço que os sistemas de bancos de dados relacionais tradicionais. Ao carregar dados para uma tabela vazia, o Amazon Redshift coleta uma amostra de seus dados e seleciona o esquema de compactação mais apropriado.
  • Processamento maciçamente paralelo (MPP): o Amazon Redshift distribui automaticamente a carga de dados e consultas entre todos os nós. O Amazon Redshift facilita a adição de nós a seu data warehouse e permite manter a rápida performance das consultas à medida que o data warehouse cresce.
  • Redshift Spectrum: o Redshift Spectrum permite que você execute consultas em exabytes de dados no Amazon S3. Não há necessidade de carregamento nem ETL. Mesmo se você não armazenar nenhum dado no Amazon Redshift, ainda poderá usar o Redshift Spectrum para consultar conjuntos de dados de até um exabyte no Amazon S3. Quando você emite uma consulta, ela é enviada para o endpoint SQL do Amazon Redshift, que cria um plano de consulta. O Redshift determina quais dados são locais e o que consta no Amazon S3, cria um plano para minimizar a quantidade de dados do Amazon S3 que precisam ser lidos, solicita que operadores do Amazon Redshift Spectrum de um grupo de recursos compartilhados leiam e processem os dados do Amazon S3 e, por fim, envia os resultados de volta para o cluster do Amazon Redshift para que sejam executados os processamentos restantes necessários.

P: Como faço para começar a usar o Amazon Redshift?

Você pode se cadastrar e começar a usar em alguns minutos na página de detalhes do Amazon Redshift ou por meio do Console de Gerenciamento da AWS. Caso não tenha uma conta da AWS, o sistema pedirá que você crie uma.

Para usar o Redshift Spectrum, é necessário primeiro armazenar os dados no Amazon S3. Depois disso, você poderá definir os metadados sobre os dados em questão no cluster do Amazon Redshift ou registrar os metadados que tiver no Hive Metastore com o cluster. Você poderá emitir o comando CREATE EXTERNAL SCHEMA SQL no cluster do Amazon Redshift para definir ou registrar um banco de dados no seu catálogo como um esquema externo dentro do Amazon Redshift. Depois, será possível emitir consultas no Amazon S3 usando o mesmo SQL utilizado para tabelas locais e qualquer ferramenta de BI que apoie o Amazon Redshift no momento. A definição de banco de dados externo criada usando o Amazon Redshift SQL será registrada no mesmo catálogo de dados usado pelo Amazon Athena. Como opção, você poderá gerenciar a definição do banco de dados externo por meio do catálogo do Amazon Athena também.

Acesse a nossa página de conceitos básicos para saber como testar o Amazon Redshift gratuitamente.

P: Como faço para criar e acessar um cluster de data warehouse do Amazon Redshift?

Você pode criar facilmente um cluster de data warehouse do Amazon Redshift usando o Console de Gerenciamento da AWS ou as APIs do Amazon Redshift. Você pode começar com um data warehouse de um único nó e 160 GB e escalar até um petabyte ou mais com apenas alguns cliques no Console AWS ou uma única chamada de API.

A configuração de um único nó permite que você comece a usar o Amazon Redshift com rapidez e economia, além de permitir escalar a configuração para vários nós para acompanhar o crescimento das suas necessidades. Um cluster de data warehouse do Redshift pode conter de 1 a 128 nós de computação, dependendo do tipo de nó. Para obter detalhes, consulte a nossa documentação.

A configuração de vários nós exige um nó principal, que gerencia conexões de clientes e recebe consultas, e dois nós computacionais, que armazenam dados e realizam pesquisas e computações. O nó principal é provisionado automaticamente e você não será cobrado por isso.

Basta especificar sua zona de disponibilidade ideal (opcional), a quantidade e os tipos de nós, um nome mestre e uma senha, grupos de segurança, suas preferências para retenção de backup e outras configurações de sistema. Após ter escolhido a configuração desejada, o Amazon Redshift provisionará os recursos exigidos e configurará seu cluster de data warehouse.

Após a disponibilização do cluster de data warehouse, você poderá recuperar o endpoint e a string de conexão JDBC e ODBC no Console de Gerenciamento da AWS ou usando as APIs do Redshift. Você pode utilizar esta string de conexão com sua ferramenta de banco de dados favorita, linguagem de programação ou ferramenta de Business Intelligence (BI). Será necessário autorizar solicitações de rede para seu cluster de data warehouse em execução. Para uma explicação mais detalhada, consulte nosso Guia de conceitos básicos.

P: O que um nó principal faz? O que um nó computacional faz?

Um nó principal recebe consultas de aplicativos clientes, analisa as consultas e desenvolve planos de execução, que são um conjunto ordenado de etapas para processar essas consultas. Em seguida, o nó principal coordena a execução paralela desses planos com os nós computacionais, agrega os resultados intermediários desses nós e finalmente retorna os resultados para os aplicativos clientes.

Os nós computacionais executam as etapas especificadas nos planos de execução e transmitem dados entre si para servir essas consultas. Os resultados intermediários são enviados para o nó principal para agregação antes de ser enviado novamente para os aplicativos clientes.

P: Qual é a capacidade de armazenamento máxima por nó computacional? Qual é a quantidade de dados recomendada por nó computacional para uma performance ideal?

Você pode criar um cluster usando tipos de nós de armazenamento denso (DS) ou computação densa (DC). Os tipos de nós de armazenamento denso permitem criar data warehouses muito grandes usando discos rígidos (HDDs) por um preço bastante reduzido. Os tipos de nós de computação densa permitem criar data warehouses de altíssima performance usando CPUs rápidas, grandes quantidades de RAM e discos de estado sólido (SSDs).

Os tipos de nós de armazenamento denso (DS) estão disponíveis em dois tamanhos, extragrande e óctuplo extragrande. O nó extragrande (XL) tem 3 HDDs com um total de 2 TB de armazenamento magnético. O nó óctuplo extragrande (8XL) tem 24 HDDs com um total de 16 TB de armazenamento magnético. O DS2.8XLarge tem 36 núcleos virtuais Intel Xeon E5-2676 v3 (Haswell) e 244 GiB de RAM e o DS2.XL tem 4 núcleos virtuais Intel Xeon E5-2676 v3 (Haswell) e 31 GiB de RAM. Consulte a nossa página de definição de preço para obter mais detalhes. Você pode começar com um data warehouse de um único nó Extragrande de 2 TB por 0,85 USD por hora e expandir até um petabyte ou mais. Você pode pagar por hora ou usar definições de preços de instância reservada para diminuir seu preço para menos de 1.000 USD por TB por ano.

Os tipos de nós de computação densa (DC) também estão disponíveis em dois tamanhos. O Grande tem 160 GB de armazenamento em SSD, 2 núcleos virtuais Intel Xeon E5-2670v2 (Ivy Bridge) e 15 GiB de RAM. O Óctuplo extragrande é 16 vezes maior, com 2,56 TB de armazenamento em SSD, 32 núcleos virtuais Intel Xeon E5-2670v2 e 244 GiB de RAM. Você pode começar com um único nó DC2.Large por 0,25 USD por hora e escalar até 128 nós 8XL com 326 TB de armazenamento em SSD, 3.200 núcleos virtuais e 24 TiB de RAM.

Com a arquitetura MPP do Amazon Redshift, você pode melhorar a performance aumentando a quantidade de nós em um cluster de data warehouse. A quantidade de dados ideal por nó computacional depende das características de seu aplicativo e das necessidades da performance de consulta. Um cluster de data warehouse do Amazon Redshift pode conter de 1 a 128 nós de computação, dependendo do tipo de nó. Para obter detalhes, consulte a nossa documentação.

P: Quando devo usar o Amazon Redshift em vez do Amazon RDS?

O Amazon Redshift e o Amazon RDS permitem que você execute bancos de dados relacionais tradicionais na nuvem, o que reduz a sobrecarga de administração do banco de dados. Os clientes utilizam os bancos de dados do Amazon RDS para processamento de transação online (OLTP) e para relatório e análise. O Amazon Redshift aproveita a escala e os recursos de vários nós e utiliza a variedade de otimizações para fornecer ordem de melhorias de magnitude sobre bancos de dados tradicionais para cargas de trabalho analíticas e de relatório com conjuntos de dados muito grandes. O Amazon Redshift oferece uma excelente opção de escalabilidade conforme seus dados e a complexidade de suas consultas aumentam ou caso você deseje impedir o processamento analítico e de relatório de interferir com a performance de sua carga de trabalho do OLTP.

P: Quando devo usar o Amazon Redshift ou o Redshift Spectrum em vez do Amazon EMR?

Você deve usar o Amazon EMR se utilizar código personalizado para processar e analisar conjuntos de dados extremamente grandes com estruturas de processamento de big data como Apache Spark, Hadoop, Presto ou Hbase. O Amazon EMR oferece controle completo sobre a configuração dos clusters e do software instalado neles.

Os data warehouses, como o Amazon Redshift, foram criados para um tipo totalmente diferente de análise. Os data warehouses foram criados para reunir dados de diversas fontes diferentes, como inventário, finanças e sistemas de vendas ao varejo. Para garantir que o fluxo de informações seja constantemente preciso em toda uma empresa, os data warehouses armazenam dados de maneira altamente estruturada. Essa estrutura cria regras de consistência de dados nas tabelas do banco de dados. O Amazon Redshift é o melhor serviço a usar quando você precisa executar consultas complexas em grandes conjuntos de dados estruturados e obter uma performance super-rápida.

Embora o Redshift Spectrum seja excelente para execução de consultas em dados no Amazon Redshift e no S3, ele realmente não é indicado para os tipos de casos de uso que grandes empresas geralmente solicitam de estruturas de processamento, como o Amazon EMR. O Amazon EMR vai muito além da simples execução de consultas SQL. O Amazon EMR é um serviço gerenciado que permite processar e analisar conjuntos de dados extremamente grandes usando as versões mais recentes de estruturas conhecidas de processamento de big data, como Spark, Hadoop e Presto, em clusters totalmente personalizáveis. Com o Amazon EMR, você pode executar diversas tarefas de processamento de dados com escalabilidade horizontal para aplicativos como machine learning, análise de gráficos, transformação de dados, streaming de dados e praticamente qualquer coisa que você puder codificar.

Você pode usar o Redshift Spectrum juntamente com o EMR. O Redshift Spectrum usa a mesma abordagem para armazenar definições de tabela como o Amazon EMR. O Redshift Spectrum pode oferecer suporte ao mesmo Apache Hive Metastore usado pelo Amazon EMR para localizar dados e definições de tabela. Se você estiver usando o Amazon EMR e já tiver um Hive Metastore, deverá apenas configurar o cluster do Amazon Redshift para usá-lo. Depois, poderá começar a fazer consultas dos dados em questão imediatamente junto com seus trabalhos do Amazon EMR. Portanto, se você já estiver usando o EMR para processar um grande datastore, poderá usar o Redshift Spectrum para consultar os dados em questão corretamente ao mesmo tempo sem interferir com os seus trabalhos do Amazon EMR.

Serviços de consulta, data warehouses e estruturas complexas de processamento de dados têm seu lugar específico e são usados para coisas diferentes. Você só precisa escolher a ferramenta certa para o trabalho.

 

P: Quando devo usar o Amazon Athena em vez do Redshift Spectrum?

O Amazon Athena é a maneira mais simples de permitir que qualquer funcionário faça consultas ad-hoc nos dados do Amazon S3. O Athena não usa servidor, de forma que não existe uma infraestrutura para configurar ou gerenciar, e você pode começar a analisar os dados imediatamente.

Se você tiver dados acessados com frequência, que precisem ser armazenados em um formato consistente e altamente estruturado, recomendamos usar um data warehouse como o Amazon Redshift. Assim, você terá a flexibilidade de armazenar dados estruturados e acessados com frequência no Amazon Redshift e usar o Redshift Spectrum para estender consultas do Amazon Redshift a todo o universo de dados no data lake do Amazon S3. Além disso, você também terá liberdade de armazenar dados onde desejar, no formato que quiser e tê-los disponíveis para processamento quando forem necessários.

P: Por que eu deveria usar o Amazon Redshift em vez de executar meu próprio cluster de data warehouse MPP no Amazon EC2?

O Amazon Redshift gerencia automaticamente várias das tarefas demoradas associadas ao gerenciamento de seu próprio data warehouse, como:

  • Configuração: com o Amazon Redshift, basta criar um cluster de data warehouse, definir um esquema e começar a carregar e consultar os dados. O provisionamento, a configuração e a correção são todos gerenciados para você.
  • Resiliência dos dados: o Amazon Redshift replica os dados dentro do cluster de data warehouse e executa continuamente o backup dos dados para o Amazon S3, que foi projetado para oferecer onze noves de resiliência. O Amazon Redshift espelha os dados de cada unidade para outros nós dentro do seu cluster. Se uma unidade falhar, suas consultas continuarão com um ligeiro aumento de latência enquanto o Redshift reconstrói sua unidade das réplicas. Em caso de falhas no nó, o Amazon Redshift fornece automaticamente novos nós e começa a restaurar dados de outras unidades dentro do cluster ou do Amazon S3. Ele dá prioridade à restauração de seus dados mais consultados para que suas consultas mais executadas se tornem eficazes rapidamente.
  • Escalabilidade: você pode adicionar ou remover nós do cluster de data warehouse do Amazon Redshift com uma única chamada de API ou com alguns cliques no Console de Gerenciamento da AWS para acompanhar a evolução das necessidades de capacidade e performance.
  • Atualizações e correções automáticas: o Amazon Redshift aplica automaticamente atualizações e patches no data warehouse para que você possa se concentrar no aplicativos e não na administração.
  • Recurso de consulta na escala de exabytes: o Redshift Spectrum permite que você execute consultas em exabytes de dados no Amazon S3. Não há necessidade de carregamento nem ETL. Mesmo se você não armazenar nenhum dado no Amazon Redshift, ainda poderá usar o Redshift Spectrum para consultar conjuntos de dados de até um exabyte no Amazon S3.

Faturamento

P: Como serei cobrado e faturado pela utilização do Amazon Redshift?

Você paga somente pelo que usa, sem taxas mínimas ou de configuração. O faturamento de um cluster de data warehouse começa assim que ele for disponibilizado. O faturamento continua até o cluster do data warehouse ser encerrado, o que pode ocorrer após sua exclusão ou caso ocorra falha na instância. Você é cobrado com base em:

  • Horas de nós de computação: as horas de nós de computação são o número total de horas de execução de todos os nós de computação durante o período de faturamento. As horas de uso do nó são cobradas por cada hora que seu cluster de data warehouse está sendo executado em um estado disponível. Se você não desejar mais ser cobrado em relação ao seu cluster de data warehouse, deverá encerrá-lo para evitar o faturamento das horas de nós adicionais. Horas parciais de consumo de nó são cobradas como horas completas. Haverá cobrança de 1 unidade por nó, por hora. Então, um cluster de data warehouse de 3 nós executando persistentemente por um mês inteiro, incorreria 2.160 horas de instâncias. Não haverá cobrança para horas de nó principal; somente nós computacionais terão custos.
  • Armazenamento de backup: o armazenamento de backup é o armazenamento associado a snapshots automatizados e manuais para o data warehouse. Aumentar o período de retenção do backup ou tirar outros snapshots aumenta o armazenamento de backup consumido pelo seu data warehouse. Não há custo adicional para armazenamento de backup de até 100% do seu armazenamento provisionado para um cluster ativo de data warehouse. Por exemplo, se você tiver um cluster de data warehouse ativo de nó individual XL com 2 TB de armazenamento de instâncias local, forneceremos até 2 TB por mês de armazenamento de backup sem custo adicional. O armazenamento de backup acima do armazenamento provisionado e backups armazenados após seu cluster estar concluído são cobrados de acordo com as taxas do Amazon S3.
  • Transferência de dados: não há cobrança de transferência de dados de/para o Amazon Redshift e o Amazon S3 na mesma região da AWS. Para todas as outras transferências de dados para dentro e para fora do Amazon Redshift, você será cobrado de acordo com as taxas de transferência de dados padrão da AWS.
  • Dados verificados: com o Redshift Spectrum, você será cobrado pela quantidade de dados do Amazon S3 verificados para executar sua consulta. Não haverá cobranças referentes ao Redshift Spectrum quando você não estiver executando consultas. Se você armazenar dados em um formato colunar, como Parquet ou RC, suas cobranças serão reduzidas, pois o Redshift Spectrum só verificará as colunas necessárias para a consulta, em vez de processar linhas inteiras. Da mesma forma, se você compactar seus dados usando um dos formatos aceitos pelo Redshift Spectrum, os custos também serão reduzidos. Você paga as taxas padrão do Amazon S3 pelo armazenamento físico de dados e as taxas de instância do Amazon Redshift para o cluster utilizado.

Salvo indicação em contrário, nossos preços excluem impostos e taxas aplicáveis, incluindo o IVA e o imposto de vendas aplicável. Para clientes com endereço de pagamento no Japão, o uso da AWS está sujeito ao imposto sobre consumo japonês. Saiba mais.

Para obter mais informações, consulte a página de definição de preço do Amazon Redshift.

Integração e carregamento de dados

P: Como posso carregar dados para um data warehouse do Amazon Redshift?

Você pode carregar dados no Amazon Redshift de diversas fontes de dados, incluindo os serviços Amazon S3, Amazon DynamoDB, Amazon EMR, AWS Glue e AWS Data Pipeline, bem como de qualquer host habilitado para SSH no Amazon EC2 ou no local. O Amazon Redshift tenta carregar seus dados em paralelo para cada nó computacional para maximizar a taxa na qual você pode consumir dados em seu cluster de data warehouse. Para obter mais detalhes sobre como carregar dados para o Amazon Redshift, consulte nosso Guia de conceitos básicos.

Sim, os clientes podem se conectar ao Amazon Redshift usando ODBC ou JDBC e emitir comandos “insert” do SQL para inserir os dados. Observe que esse procedimento é mais lento do que usar o S3 ou o DynamoDB, pois esses métodos carregam dados em paralelo para cada nó computacional, enquanto as instruções de inserção do SQL carregam por meio de um único nó principal.

P: Como posso carregar dados de minhas fontes de dados existentes do Amazon RDS, Amazon EMR, Amazon DynamoDB e Amazon EC2 para o Amazon Redshift?

Você pode usar nosso comando COPY para carregar dados em paralelo diretamente no Amazon Redshift do Amazon EMR, do Amazon DynamoDB ou de qualquer host habilitado para SSH. O Redshift Spectrum também permite carregar dados do Amazon S3 para um cluster com um simples comando INSERT INTO. Isso permite carregar dados de vários formatos, como Parquet e RC no seu cluster. Observe que, se você usar essa abordagem, acumulará cobranças do Redshift Spectrum para os dados verificados no Amazon S3.

Além disso, muitas empresas de ETL certificaram o Amazon Redshift para uso com suas ferramentas, e diversas delas estão oferecendo testes gratuitos para ajudar você a começar a carregar seus dados. O AWS Data Pipeline fornece uma solução de alta performance, confiável e tolerante a falhas para carregar dados de uma variedade de fontes de dados da AWS. Você pode usar o AWS Data Pipeline para especificar a fonte de dados, transformações de dados desejadas e, em seguida, executar um script de importação pré-gravado para carregar seus dados para o Amazon Redshift. Além disso, o AWS Glue é um serviço gerenciado do tipo Extract, Transform and Load (ETL – Extração, transformação e carregamento) que permite que os clientes preparem e carreguem facilmente dados para análises. É possível criar e executar um trabalho ETL do AWS Glue com apenas alguns cliques no Console de Gerenciamento da AWS.

P: Tenho vários dados de carregamento inicial para o Amazon Redshift. A transferência pela Internet seria muito demorada. Como posso carregar esses dados?

É possível utilizar o AWS Import/Export para transferir os dados para o Amazon S3 usando dispositivos de armazenamento portáteis. Além disso, você pode utilizar o AWS Direct Connect para estabelecer uma conexão de rede privada entre sua rede ou Datacenter e o AWS. Você pode escolher portas de conexão de 1 GB/s ou 10 GB/s para transferir seus dados.

Segurança

P: Como o Amazon Redshift mantém meus dados seguros?

O Amazon Redshift criptografa e mantém seus dados seguros em trânsito e ociosos usando técnicas de criptografia padrão da indústria. Para manter os dados seguros em trânsito, o Amazon Redshift tem suporte para conexões habilitadas por SSL entre o aplicativo cliente e seu cluster de data warehouse do Redshift. Para manter seus dados ociosos seguros, o Amazon Redshift criptografa cada bloco usando AES-256 acelerado por hardware conforme é gravado no disco. Isso ocorre a um nível baixo no subsistema de E/S, que criptografa tudo o que está gravado no disco, incluindo resultados de consultas intermediárias. Os blocos são copiados da mesma forma, o que significa que os backups também são criptografados. Por padrão, o Amazon Redshift cuida do gerenciamento de chaves, mas você pode optar por gerenciar suas chaves usando os seus próprios módulos de segurança de hardware (HSMs) ou o AWS Key Management Service.

O Redshift Spectrum oferece suporte à Server Side Encryption (SSE – Criptografia no lado do servidor) do Amazon S3 usando a chave padrão da sua conta gerenciada pelo AWS Key Management Service (KMS).

P: Posso usar o Amazon Redshift no Amazon Virtual Private Cloud (Amazon VPC)?

Sim, é possível usar o Amazon Redshift como parte de sua configuração VPC. Com o Amazon VPC, é possível definir uma topologia de rede virtual que lembra muito uma rede tradicional que você poderá operar no seu próprio Datacenter. Isso proporciona controle total sobre quem pode acessar seu cluster de data warehouse do Amazon Redshift.

Você pode usar o Redshift Spectrum com um cluster do Amazon Redshift que faz parte da sua VPC. Observe que, no momento, o Redshift Spectrum não apoia o roteamento otimizado da VPC.

P: Posso acessar diretamente nós de computação do Amazon Redshift?

Não. Seus nós computacionais do Amazon Redshift estão em um espaço de rede privado e só podem ser acessados a partir do nó principal de seu cluster de data warehouse. Isso proporciona uma camada adicional de segurança para seus dados.

Disponibilidade e resiliência

P: O que acontece com a disponibilidade e a resiliência de um cluster de data warehouse em caso de falha de uma unidade em um dos nós?

Seu cluster de data warehouse do Amazon Redshift continuará disponível caso haja uma falha na unidade. No entanto, pode haver um pequeno declínio na performance para algumas consultas. Caso haja uma falha na unidade, o Amazon Redshift irá usar claramente uma réplica dos dados na unidade que está armazenada em outras unidades dentro do nó. Além disso, o Amazon Redshift tentará transferir seus dados para uma unidade saudável ou substituirá seu nó, caso a transferência seja impossível. Clusters de um único nó não oferecem suporte à replicação de dados. Em caso de falha em uma unidade, será necessário restaurar o cluster do snapshot no S3. Recomendamos usar pelo menos dois nós para produção.

P: O que acontece com a disponibilidade e a resiliência de um cluster de data warehouse em caso de falha de um nó individual?

O Amazon Redshift irá automaticamente detectar e substituir um nó com falha em seu cluster de data warehouse. O cluster de data warehouse ficará indisponível para consultas e atualizações até um nó de substituição ser provisionado e adicionado ao banco de dados. O Amazon Redshift disponibiliza imediatamente o nó de substituição e carrega os dados acessados com mais frequência do S3 para permitir que você volte a consultar os dados com a maior rapidez possível. Clusters de um único nó não oferecem suporte à replicação de dados. Em caso de falha em uma unidade, será necessário restaurar o cluster do snapshot no S3. Recomendamos usar pelo menos dois nós para produção.

P: O que acontece com a disponibilidade e a resiliência de um cluster de data warehouse em caso de interrupção da zona de disponibilidade (AZ) do data warehouse?

Caso a zona de disponibilidade de seu cluster de data warehouse do Amazon Redshift fique indisponível, não será possível utilizar seu cluster até que a alimentação e o acesso à rede da AZ sejam restaurados. Os dados de seu cluster de data warehouse são preservados, para que você possa começar a utilizar seu data warehouse do Amazon Redshift assim que a AZ estiver disponível novamente. Além disso, também é possível optar por restaurar os snapshots existentes para uma nova AZ na mesma Região. O Amazon Redshift irá restaurar seus dados acessados com maior frequência para que você possa retomar suas consultas o mais rápido possível.

P: O Amazon Redshift oferece suporte a implantações Multi-AZ?

Atualmente, o Amazon Redshift tem suporte somente para implantações Single-AZ. Você pode executar clusters de data warehouse em várias AZs carregando dados para dois clusters de data warehouse do Amazon Redshift em AZs separadas do mesmo conjunto de arquivos de entrada do Amazon S3. Com o Redshift Spectrum, você pode ativar vários clusters nas AZs e acessar dados no Amazon S3 sem ter que carregá-los no seu cluster. Além disso, também é possível restaurar um cluster de data warehouse para uma AZ diferente de seus snapshots de cluster de data warehouse.

Backup e restauração

P: Como o Amazon Redshift faz o backup dos dados? Como faço para restaurar um cluster de um backup?

O Amazon Redshift replica todos os dados dentro de seu cluster de data warehouse quando ele é carregado e também faz continuamente um backup de seus dados para o S3. O Amazon Redshift sempre tenta manter pelo menos três cópias de seus dados (a original, a réplica nos nós computacionais e uma cópia de backup no Amazon S3). O Redshift também pode replicar de forma assíncrona seus snapshots para o S3 em outra região, para fins de recuperação de desastres.

Por padrão, o Amazon Redshift habilita os backups automatizados de um cluster de data warehouse com um período de retenção de um dia. Você pode configurar essa opção para períodos de até 35 dias.

O armazenamento de backup gratuito é limitado ao tamanho total de armazenamento nos nós no cluster de data warehouse e apenas se aplica aos clusters de data warehouse ativos. Por exemplo, se você tiver um armazenamento de data warehouse total de 8 TB, forneceremos no máximo 8 TB de armazenamento de backup sem custos adicionais. Se você quiser ampliar o período de retenção de backup além de um dia, poderá fazê-lo usando o Console de Gerenciamento da AWS ou as APIs do Amazon Redshift. Para obter mais informações sobre snapshots automatizados, consulte o Guia de gerenciamento do Amazon Redshift. O Amazon Redshift somente faz backup de dados alterados. Assim, a maioria dos snapshots usa apenas uma pequena quantidade do armazenamento de backup gratuito.

Quando você precisa restaurar um backup, pode acessar todos os backups automatizados dentro da janela de retenção de backups. Após escolher um backup para a restauração, provisionaremos um novo cluster de data warehouse e restauraremos os dados nesse novo cluster.

P: Como faço para gerenciar a retenção de backups e snapshots automatizados?

Você pode usar o Console de Gerenciamento da AWS ou a API ModifyCluster para gerenciar o período de retenção de backups automatizados por meio da modificação do parâmetro RetentionPeriod. Se você quiser desativar completamente os backups automatizados, poderá configurar o período de retenção para 0 (não recomendado).

P: O que acontece com os backups se eu excluir um cluster de data warehouse?

Ao excluir um cluster de data warehouse, é possível especificar se um snapshot final é criado após essa ação, o que permite uma restauração do cluster de data warehouse excluído em uma data posterior. Todos os snapshots manuais do cluster de data warehouse criados anteriormente serão retidos e cobrados de acordo com as taxas padrão do Amazon S3, a menos que você opte por excluí-los.

Escalabilidade

P: Como faço para escalar o tamanho e a performance de um cluster de data warehouse do Amazon Redshift?

Se quiser aumentar a performance das consultas ou responder à superutilização de CPU, memória ou E/S, você poderá aumentar o número do cluster de data warehouse por meio do Console de Gerenciamento da AWS ou da API ModifyCluster. Quando você modifica um cluster de data warehouse, as alterações solicitadas são aplicadas imediatamente. As métricas de utilização computacional, utilização de armazenamento e tráfego de leitura/gravação do cluster de data warehouse do Amazon Redshift são disponibilizadas gratuitamente no Console de Gerenciamento da AWS ou usando as APIs do Amazon CloudWatch. Também é possível adicionar métricas definidas pelo usuário por meio da funcionalidade de métricas personalizadas do Amazon CloudWatch.

Com o Redshift Spectrum, é possível executar vários clusters do Amazon Redshift acessando os mesmos dados no Amazon S3. Você poderá usar clusters diversos para casos de uso diferentes. Por exemplo, é possível usar um cluster para a geração de relatórios padrão e outro para consultas de ciência de dados. Equipes de marketing podem usar seus próprios clusters diferentes dos clusters de equipes de operações. Dependendo do tipo e do número de nós no seu cluster local, e do número de arquivos necessários a serem processados para a sua consulta, o Redshift Spectrum distribuirá automaticamente a execução da consulta para vários operadores do Redshift Spectrum de um grupo de recursos compartilhados para ler e processar dados do Amazon S3, e retornará os resultados para o cluster do Amazon Redshift para fazer qualquer processamento remanescente.

P: O cluster de data warehouse continua disponível durante operações de escalabilidade?

Meu cluster de data warehouse atual continua disponível para operações de leitura enquanto um novo cluster de data warehouse é criado durante as operações de escalabilidade. Quando o novo cluster de data warehouse estiver pronto, seu cluster de data warehouse existente ficará temporariamente indisponível enquanto o registro do nome canônico do cluster de data warehouse existente é alternado para apontar para o novo cluster de data warehouse. Esse período de indisponibilidade geralmente tem duração de apenas alguns minutos e ocorrerá durante a janela de manutenção para seu cluster de data warehouse, a não ser que você especifique que a modificação deva ser aplicada imediatamente. O Amazon Redshift move dados em paralelo dos nós computacionais em seu cluster de data warehouse existente para os nós computacionais em seu novo cluster. Isso habilita sua operação para concluir o mais rápido possível.

Consultas e análises

P: O Amazon Redshift e o Redshift Spectrum são compatíveis com meu pacote de software de inteligência de negócios e com minhas ferramentas de ETL preferidas?

O Amazon Redshift utiliza SQL padrão do setor e é acessado usando drivers JDBC e ODBC padrão. Os drivers JDBC e ODBC personalizados para o Amazon Redshift estão disponíveis para download na guia Connect Client do console do Redshift. Validamos integrações com fornecedores consagrados de BI e ETL. Vários deles oferecem testes gratuitos para ajudar você a começar a carregar e analisar dados. Também é possível acessar o AWS Marketplace para implantar e configurar em poucos minutos soluções projetadas para funcionar com o Amazon Redshift.

O Redshift Spectrum aceita todas as ferramentas de cliente do Amazon Redshift. As ferramentas de cliente podem continuar a estabelecer conexão com o endpoint do cluster do Amazon Redshift usando as conexões ODBC ou JDBC. Não é exigida nenhuma alteração.

Você usa exatamente a mesma sintaxe de consulta e tem os mesmos recursos de consulta para acessar tabelas no Redshift Spectrum disponíveis para tabelas no armazenamento local de um cluster do Redshift. As tabelas externas são mencionadas usando o nome do esquema definido no comando CREATE EXTERNAL SCHEMA em que foram registradas.

P: Para quais formatos de dados e compactação o Redshift Spectrum oferece suporte?

No momento, o Redshift Spectrum oferece suporte a diversos formatos de dados de código aberto, incluindo Avro, CSV, Grok, Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile e TSV.

No momento, o Redshift Spectrum oferece suporte aos formatos de compactação Gzip e Snappy.

P: O que acontece se uma tabela no armazenamento local tiver o mesmo nome de uma tabela externa?

Assim como ocorre com tabelas locais, você pode usar o nome do esquema para escolher exatamente aquele que deseja ao usar schema_name.table_name na sua consulta.

P: Eu uso um Hive Metastore para armazenar metadados sobre um data lake do S3. Posso usar o Redshift Spectrum?

Sim. O comando CREATE EXTERNAL SCHEMA aceita o Hive Metastore. No momento, não aceitamos o DDL no Hive Metastore.

P: Como faço para obter uma lista das tabelas externas de banco de dados em um cluster?

Você pode consultar a tabela do sistema SVV_EXTERNAL_TABLES para obter essas informações.

Monitoramento

P: Como faço para monitorar a performance de um cluster de data warehouse do Amazon Redshift?

As métricas de utilização computacional, utilização de armazenamento e tráfego de leitura/gravação do cluster de data warehouse do Amazon Redshift são disponibilizadas gratuitamente no Console de Gerenciamento da AWS ou usando as APIs do Amazon CloudWatch. Também é possível acrescentar métricas definidas pelo usuário por meio da funcionalidade de métricas personalizadas do Amazon CloudWatch. Além das métricas do CloudWatch, o Amazon Redshift também fornece informações sobre a performance do cluster e da consulta por meio do Console de Gerenciamento da AWS. Essas informações permitem que você visualize quais usuários e consultas estão consumindo os problemas de recursos do sistema e de performance do diagnóstico. Além disso, é possível visualizar a utilização do recurso de cada um de seus nós computacionais para garantir que você tem dados e consultas que estão bem equilibrados entre todos os nós.

P: Percebi que algumas consultas acessando dados em um cluster executam mais lentamente que as consultas do Redshift Spectrum. Por que isso está acontecendo?

As consultas do Amazon Redshift são executadas nos seus recursos de cluster no disco local. As consultas do Redshift Spectrum são executadas usando recursos por consulta com aumento de escala nos dados do S3. Para a maioria das consultas, o disco local será mais rápido, mas para consultas que verificam muitos dados e realizam um processamento computacional mínimo, podemos aplicar vários operadores do Redshift Spectrum e concluí-las rapidamente.

Manutenção

P: O que é uma janela de manutenção? Um cluster de data warehouse continua disponível durante manutenções de software?

O Amazon Redshift executa periodicamente manutenções para aplicar correções, aprimoramentos e novos recursos ao seu cluster. Você pode alterar as janelas de manutenção programadas modificando o cluster por meio de programação ou usando o console do Redshift. Durante essas janelas de manutenção, o cluster do Amazon Redshift não está disponível para operações normais. Para obter mais informações sobre as janelas de manutenção e as programações por região, consulte Janelas de manutenção no Guia de gerenciamento do Amazon Redshift.

Saiba mais sobre a definição de preço do Amazon Redshift

Acesse a página de definição de preço