Geral

Saiba mais sobre as novidades do Amazon Redshift na página denovidades.
Veja informações mais detalhadas e orientações de uso na documentação.

P: O que é o Amazon Redshift?

Amazon Redshift é o data warehouse mais popular e rápido na cloud. O Amazon Redshift torna simples e econômico analisar todos os seus dados usando suas ferramentas SQL padrão e as ferramentas BI (Business Intelligence) existentes. Ele permite fazer consultas analíticas complexas comparando terabytes com petabytes de dados estruturados e semiestruturados usando a otimização sofisticada de consultas, o armazenamento em colunas de alto desempenho e uma execução paralela de consultas extensa. A maioria dos resultados é disponibilizada em segundos. Com o Redshift, você pode começar aos poucos, por apenas 0,25 USD por hora, sem compromissos, e aumentar a escala até petabytes de dados por 1.000 USD por TB por ano, menos de um décimo do custo de soluções tradicionais no local. O Amazon Redshift também inclui o Amazon Redshift Spectrum, que permite fazer consultas SQL diretamente em exabytes de dados não estruturados em data lakes do Amazon S3. Não é preciso executar cargas nem transformações, e você pode usar formatos de dados abertos, como Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text, Hudi, Delta e TSV. O Redshift Spectrum escala automaticamente a capacidade computacional de consultas com base nos dados recuperados, de modo que as consultas no Amazon S3 sejam executadas rápido, independentemente do tamanho do conjunto de dados.

O Amazon Redshift oferece recursos de consultas rápidas de dados estruturados usando clientes SQL e ferramentas de inteligência de negócios (BI) usando conexões ODBC e JDBC padrão. As consultas são distribuídas e paralelizadas entre vários recursos físicos. É possível aumentar ou reduzir facilmente a escala de um data warehouse do Amazon Redshift com alguns cliques no Console de gerenciamento da AWS ou com uma única chamada de API. O Amazon Redshift corrige e faz backup automaticamente de seu data warehouse, armazenando os backups de um período de retenção definido pelo usuário. O Amazon Redshift utiliza replicação e backups contínuos para aprimorar a disponibilidade e a resiliência dos dados, além de recuperar automaticamente situações de falha de componentes e nós. Além disso, o Amazon Redshift oferece suporte à segurança líder do setor com integração do AWS IAM, federação de identidades, controle de acesso no nível da coluna, Amazon Virtual Private Cloud (Amazon VPC), SSL, criptografia AES-256 e integração do AWS KMS integrado para proteger seus dados em trânsito e em repouso. Todos os recursos de segurança do Amazon Redshift estão incluídos sem custos adicionais.

O Amazon Redshift integra-se com o AWS CloudTrail para possibilitar a auditoria de todas as chamadas de API do Redshift. O Redshift registra em log todas as operações de SQL, inclusive tentativas de conexão, consultas e alterações no data warehouse. Você pode acessar esses logs usando consultas SQL em tabelas do sistema ou optar por salvar os logs em um local seguro no Amazon S3. O Amazon Redshift está em conformidade com os requisitos de Nível 1 de SOC1, SOC2, SOC3 e PCI DSS.

Assim como todos os Amazon Web Services, não há investimentos adiantados, e você paga somente pelos recursos que utilizar. Com o Amazon Redshift, você só paga conforme usar. Você pode até mesmo experimentar o Amazon Redshift gratuitamente.

Para obter informações sobre a disponibilidade regional do Amazon Redshift, consulte a tabela de regiões da AWS.

P: Por que devo usar o Amazon Redshift em vez de um data warehouse no local?

Os data warehouses no local exigem bastante tempo e recursos para administrar, especialmente para grandes conjuntos de dados. Além disso, o custo financeiro associado às atividades de criação, manutenção e crescimento de data warehouses no local autogerenciáveis é muito alto. À medida que os dados aumentam, você precisa ponderar constantemente quais dados são carregados no data warehouse e quais são arquivados no armazenamento para poder gerenciar custos, manter uma baixa complexidade de ETL e oferecer um bom desempenho. Além de reduzir significativamente o custo e a sobrecarga operacional de um data warehouse, o Amazon Redshift e o Redshift Spectrum facilitam a análise de grandes quantidades de dados em seus formatos nativos, sem a necessidade de carregá-los.

P: O que é o AQUA (Advanced Query Accelerator) para o Amazon Redshift?

O AQUA é um novo cache distribuído e acelerado por hardware que permite executar o Redshift até 10x mais rápido que qualquer outro data warehouse na nuvem corporativa. As arquiteturas existentes de data warehousing com armazenamento centralizado exigem que os dados sejam movidos para calcular os clusters para o processamento. À medida que os data warehouses continuam a crescer nos próximos anos, a largura de banda da rede necessária para mover todos esses dados se torna um gargalo no desempenho da consulta.

O AQUA utiliza uma nova abordagem para o data warehousing na nuvem. O AQUA traz a computação para o armazenamento, realizando uma parte substancial do processamento de dados no cache inovador. Além disso, ele usa processadores projetados pela AWS e uma arquitetura de expansão para acelerar o processamento de dados além do que as CPUs tradicionais conseguem hoje. Saiba mais.

P: Quais tipos de nós são compatíveis com o AQUA?

O AQUA é compatível com os tipos de nó RA3 .16XL e RA3 .4XL. Se você estiver usando os tipos de nó DS2 ou DC2, deve primeiro atualizar para os tipos de nó RA3 .16XL ou RA3 .4XL para aproveitar as vantagens da aceleração de consulta do AQUA.

P: Como serei cobrado e faturado pelo uso do AQUA?

O AQUA está incluído no tipo de instância do Redshift RA3 sem nenhum custo adicional. Detalhes sobre o preço do nó RA3 estão disponíveis aqui.

P: Como habilito/desabilito o AQUA para meu data warehouse do Redshift?

Para clusters do Redshift em execução em nós RA3, você pode ativar/desativar o AQUA no nível do cluster usando o console do Redshift, CLI ou API. O cluster terá que ser reiniciado para que a configuração entre em vigor. Para clusters do Redshift em execução em DC, DS ou nós de geração mais antigos, você deve fazer upgrade para os nós RA3 primeiro e ativar/desativar o AQUA. A configuração padrão do AQUA é automática, dessa forma, o Redshift determina se o AQUA está ativado/desativado. Essa configuração é uma propriedade no nível do cluster, então, uma vez definida, ela se aplica a todos os bancos de dados, esquemas e consultas no cluster.

P: Quais tipos de consultas são aceleradas pelo AQUA?

O AQUA agiliza as consultas analíticas ao executar tarefas intensivas de dados, como verificações, filtragem e agregação mais perto da camada de armazenamento, usando hardware desenvolvido com essa finalidade. Você verá a melhoria de desempenho mais perceptível em consultas que exigem grandes verificações, especialmente aquelas com predicados LIKE e SIMILAR_TO. Com o tempo, os tipos de consultas que são aceleradas pelo AQUA aumentarão.

P: Como o AQUA mantém meus dados seguros?

O AQUA oferece suporte para autenticação, criptografia, isolamento e conformidade para manter seus dados em repouso e em movimento com segurança. A autenticação é controlada pelo Redshift usando o serviço de autenticação do AWS IAM. Para criptografia, o AQUA usa o canal criptografado TLS junto com as chaves fornecidas pelo cliente a fim de manter os dados em movimento e em repouso no cache seguro.

P: Como posso saber quais consultas no meu cluster do Redshift são aceleradas pelo AQUA?

Você pode consultar as tabelas do sistema para ver as consultas aceleradas pelo AQUA.

P: O que é o Redshift Spectrum?

O Redshift Spectrum é um recurso do Amazon Redshift que permite executar consultas em exabytes de dados não estruturados no Amazon S3, sem necessidade de carregamento ou ETL. Quando você emite uma consulta, ela é enviada para o endpoint SQL do Amazon Redshift, que cria e otimiza um plano de consulta. O Amazon Redshift determina quais dados são locais e o que consta no Amazon S3, cria um plano para minimizar a quantidade de dados do Amazon S3 que precisam ser lidos, como também solicita que operadores do Redshift Spectrum de um grupo de recursos compartilhados leiam e processem os dados do Amazon S3.

Se necessário, o Redshift Spectrum aumenta a escala horizontal para milhares de instâncias para que as consultas sejam executadas rapidamente com qualquer volume de dados. Além disso, você pode usar exatamente o mesmo SQL usado para dados do Amazon S3, bem como conectar-se ao mesmo endpoint do Amazon Redshift usando as mesmas ferramentas de BI. O Redshift Spectrum permite separar armazenamento e computação, o que permite escalar cada um deles separadamente. Você pode configurar quantos clusters do Amazon Redshift precisar para consultar seu data lake do Amazon S3, o que proporciona alta disponibilidade e simultaneidade ilimitada. O Redshift Spectrum oferece a liberdade de armazenar dados onde quiser, no formato que quiser e disponibilizá-los para processamento quando forem necessários. Para mais informações sobre a disponibilidade regional do Redshift Spectrum, consulte a página de definição de preço do Amazon Redshift.

P: Qual é a diferença entre o AQUA e o Redshift Spectrum?

O Redshift Spectrum foi projetado para permitir consultas em formatos abertos armazenados no Amazon S3. Os formatos abertos podem ser consultados por vários mecanismos, incluindo o Amazon EMR, que é compatível com o Apache Spark, ou o Amazon Athena, que possibilita uma experiência sem servidor. O Redshift Spectrum não é compatível com atualizações transacionais e com o formato nativo do Redshift otimizado usado para armazenar dados ingeridos no Redshift. Usar o Redshift Spectrum requer a definição explícita de uma tabela externa, enquanto o AQUA opera em tabelas Redshift nativas. O Spectrum é ótimo para executar consultas pouco frequentes em dados frios de maneira integrada a partir de seu cluster do Redshift.

O AQUA acelera a capacidade do Redshift de VERIFICAR e AGREGAR grandes volumes de dados que fazem parte do banco de dados do Redshift. Mesmo ao usar o AQUA, o Redshift mantém o apoio a transações, e o AQUA sempre operará com os dados mais recentes.

P: O que é armazenamento gerenciado do Amazon Redshift?

O armazenamento gerenciado do Amazon Redshift está disponível com tipos de nó RA3 e permite escalar e pagar por computação e armazenamento, de forma independente, para que você possa dimensionar seu cluster com base apenas em suas necessidades de computação. Ele usa automaticamente o armazenamento local baseado em SSD de alto desempenho como cache de camada 1 e aproveita otimizações como temperatura do bloco de dados, idade do bloco de dados e padrões de carga de trabalho para oferecer alto desempenho enquanto dimensiona o armazenamento automaticamente no Amazon S3, quando necessário, sem a necessidade de ação.

P: Como uso o armazenamento gerenciado Amazon Redshift?

Se já estiver usando nós do Amazon Redshift DS ou DC, será possível atualizar os clusters existentes para a nova instância de computação RA3 para usar o armazenamento gerenciado. Você também pode criar um novo cluster com base na instância RA3 e o armazenamento gerenciado é incluído automaticamente. Nenhuma outra ação é necessária para usar esse recurso.

P: Como o Amazon Redshift simplifica o gerenciamento de data warehouse?

O Amazon Redshift gerencia o trabalho necessário para configurar, operar e dimensionar um data warehouse. Por exemplo, provisionando a capacidade da infraestrutura, automatizando tarefas administrativas em andamento, como backups e patches, e monitorando nós e unidades para se recuperar de falhas. O Redshift também tem capacidades de ajuste automáticas e recomendações de superfície para gerenciar seu warehouse no Redshift Advisor. Para o Redshift Spectrum, o Amazon Redshift gerencia toda a infraestrutura de computação, balanceamento de carga, planejamento, programação e execução de suas consultas nos dados armazenados no Amazon S3.

P: Como o desempenho do Amazon Redshift se compara à maioria dos bancos de dados no local para data warehousing e análise?

O Amazon Redshift utiliza diversas inovações para alcançar um desempenho até dez vezes maior que bancos de dados tradicionais para cargas de trabalho de data warehousing e análises, incluindo o seguinte:

  • Armazenamento de dados colunar: em vez de armazenar dados em séries de linhas, o Amazon Redshift organiza os dados por colunas. Ao contrário dos sistemas baseados em linhas, que são ideais para o processamento de transações, os sistemas baseados em colunas são ideais para data warehousing e análises, onde as consultas sempre envolvem agregados realizados em relação a grandes conjuntos de dados. Como somente as colunas envolvidas nas consultas são processadas e os dados colunares são armazenados em sequência na mídia de armazenamento, os sistemas baseados em colunas exigem muito menos E/Ss, melhorando a performance da consulta.
  • Compactação avançada: Os datastores colunares podem ser muito mais compactados que os datastores baseado em linhas, pois os dados semelhantes são armazenados em sequência no disco. O Amazon Redshift usa várias técnicas de compactação e pode frequentemente obter uma compactação significante em comparação aos datastores relacionais tradicionais. Quando carrega dados para uma tabela vazia, o Amazon Redshift amostra automaticamente esses dados e seleciona o esquema de compactação mais apropriado.
  • Processamento maciçamente paralelo (MPP): o Amazon Redshift distribui automaticamente a carga de dados e consultas entre todos os nós. O Amazon Redshift facilita a adição de nós a seu data warehouse e permite manter a rápida performance das consultas à medida que o data warehouse cresce.
  • Redshift Spectrum: o Redshift Spectrum permite que você execute consultas em exabytes de dados no Amazon S3. Não há necessidade de carregamento nem ETL. Mesmo que você não armazene nenhum dado no Amazon Redshift, poderá usar o Redshift Spectrum para consultar conjuntos de dados de até um exabyte no Amazon S3. Quando você emite uma consulta, ela é enviada para o endpoint SQL do Amazon Redshift, que cria um plano de consulta. O Amazon Redshift determina quais dados são locais e quais estão no Amazon S3, cria um plano para minimizar a quantidade de dados a serem lidos no Amazon S3, solicita que os operadores do Redshift Spectrum de um grupo de recursos compartilhados leiam e processem os dados do Amazon S3 e envia os resultados de volta ao cluster do Amazon Redshift para qualquer processamento restante.
  • Visualizações materializadas: elas oferecem um desempenho de consultas bem mais rápido para cargas de trabalho analíticas repetidas e previsíveis, como painéis, consultas de ferramentas de BI e processamento de dados ELT (extração, carga e transformação). Usando visualizações materializadas, você pode armazenar os resultados pré-calculados das consultas e mantê-los de forma eficiente processando de forma incremental as alterações mais recentes feitas nas tabelas de origem. As consultas subsequentes que referenciam as visualizações materializadas usam os resultados pré-calculados para uma execução mais rápida e as capacidades de atualização e regravação da consulta para simplificar e automatizar o uso das exibições materializadas. As visualizações materializadas podem ser criadas com base em uma ou mais tabelas de origem usando filtros, projeções, junções internas, agregações, agrupamentos, funções e outras construções de SQL.
  • Escalabilidade: a capacidade de computação e armazenamento dos data warehouses locais é limitada pelas restrições do hardware no local. O Redshift oferece a capacidade de dimensionar a computação e o armazenamento, conforme necessário, para atender às mudanças nas cargas de trabalho.
  • Otimização Automática de Tabelas (ATO) é uma capacidade de autoajuste que ajuda a conseguir benefícios de desempenho das chaves de classificação e distribuição sem um esforço manual. A ATO observa continuamente como as consultas interagem com as tabelas e usa o machine learning para selecionar as melhores chaves de classificação e distribuição para otimizar o desempenho da carga de trabalho do cluster. Se o Redshift determinar que aplicar uma chave melhorará o desempenho do cluster, as tabelas serão alteradas automaticamente em algumas horas, sem precisar da intervenção do administrador. As otimizações feitas pelo recurso ATO mostraram um aumento no desempenho do cluster de 24% e 34% usando o benchmark TPC-DS de 3TB e 30TB, respectivamente, versus um cluster sem ATO. Recursos adicionais como Automatic Vacuum Delete, Automatic Table Sort e Automatic Analyze eliminam a necessidade da manutenção manual e ajuste dos clusters Redshift para conseguir o melhor desempenho para novos clusters e cargas de trabalho de produção.
  • Amazon Redshift Advisor desenvolve recomendações personalizadas para aumentar o desempenho e otimizar os custos analisando sua carga de trabalho e a métrica de uso do cluster. Inicie a seção no console Amazon Redshift para ver as recomendações do Advisor. Para ter mais informações, consulte Como trabalhar com recomendações do Amazon Redshift Advisor.

P: Como começo a usar o Amazon Redshift?

Você pode se cadastrar e começar a usar em alguns minutos na página de detalhes do Amazon Redshift ou por meio do Console de gerenciamento da AWS. Caso ainda não tenha uma conta da AWS, o sistema pedirá que você crie uma. Acesse a nossa página de Conceitos básicos para saber como testar o Amazon Redshift gratuitamente.

P: Como faço para criar e acessar um cluster de data warehouse do Amazon Redshift?

Você pode criar facilmente um cluster de data warehouse do Amazon Redshift usando o Console de gerenciamento da AWS ou as APIs do Amazon Redshift. Você pode começar com um data warehouse de um único nó e 160 GB e escalar até um petabyte ou mais com apenas alguns cliques no Console da AWS ou uma única chamada de API.

A configuração de nó único, que é mais adequada para cargas de trabalho de avaliação ou desenvolvimento/teste, permite que você inicie o Amazon Redshift com rapidez e economia, além de escalar para uma configuração de vários nós, à medida que suas necessidades aumentam. Um cluster de data warehouse do Redshift pode conter de 1 a 128 nós de computação, dependendo do tipo de nó. Para o tipo de nó da última geração, RA3, o número mínimo de nós é dois. Para obter detalhes, consulte nossa documentação.

A configuração de vários nós exige um nó principal, que gerencia conexões de clientes e recebe consultas, e dois nós computacionais, que armazenam dados e realizam atividades de pesquisa e computação. O nó líder, que é do mesmo tamanho que o nó de computação, é provisionado automaticamente e você não é cobrado por isso.

Basta especificar sua zona de disponibilidade ideal (opcional), a quantidade e os tipos de nós, um nome mestre e uma senha, grupos de segurança, suas preferências para retenção de backup e outras configurações de sistema. Após ter escolhido a configuração desejada, o Amazon Redshift provisionará os recursos exigidos e configurará seu cluster de data warehouse.

Quando seu cluster de data warehouse estiver disponível, você poderá recuperar o endpoint e a string de conexão JDBC e ODBC correspondentes no Console de gerenciamento de AWS ou usando as APIs de Redshift. Você pode utilizar esta string de conexão com sua ferramenta de banco de dados favorita, linguagem de programação ou ferramenta de Business Intelligence (BI). Será necessário autorizar solicitações de rede para o cluster de data warehouse em execução. Para uma explicação mais detalhada, consulte nosso Guia de conceitos básicos.

P: Qual é a capacidade de armazenamento máxima por nó computacional? Qual é a quantidade de dados recomendada por nó computacional para uma performance ideal?

Você pode criar um cluster usando tipos de nó RA3, DC ou DS. Os tipos de nós RA3 permitem escalar e pagar separadamente por computação e armazenamento. Você escolhe o número de instâncias necessárias com base nos requisitos de performance e paga apenas pelo armazenamento gerenciado utilizado.

Os tipos de nós RA3 estão disponíveis em três tamanhos: RA3.16XL, RA3.4XL e RA3.XLPLUS. Cada nó RA3.16XL possui 48 vCPUs, 384 GiB de memória e suporta 8 GB/s de E/S. Os clusters RA3.16XL e RA3.4XL são executados com no mínimo dois nós e o cluster RA3.16XL ou RA3.4XL de tamanho mínimo de dois nós oferece 256 TB de armazenamento gerenciado. A cota de armazenamento gerenciado para RA3.16XL e RA3.4XL por nó é 128 TB. Os clusters RA3.16XL podem escalar até 128 nós, o que permite a criação de um cluster com até 16 petabytes no armazenamento gerenciado. Um nó RA3.4XL possui 12 vCPUs, 96 GiB de memória e suporta 2 GB/s de E/S. Os clusters RA3.4XL podem ter até 64 nós, o que permite criar um cluster com até 4 petabytes de armazenamento gerenciado. Um nó RA3.XLPLUS tem 4 vCPUs, 32 GiB de memória e suporta 650 MB de E/S. Os clusters RA3.XLPLUS podem ter até 32 nós, o que permite criar um cluster com até 5 petabytes de armazenamento gerenciado. Observação: todos os tamanhos de armazenamento gerenciado mencionados aqui são para dados compactados. O Redshift comprime os dados 3-4X para que os tamanhos de dados não compactados sejam 3-4x maiores do que os mencionados aqui.

Os tipos de nós DC também estão disponíveis em dois tamanhos. O nó grande tem 160 GB de armazenamento em SSD, 2 núcleos virtuais Intel Xeon E5-2670v2 (Ivy Bridge) e 15 GiB de RAM. O óctuplo extragrande é 16 vezes maior com 2,56 TB de armazenamento SSD, 32 núcleos virtuais Intel Xeon E5-2670v2 e 244 GiB de RAM. Você pode começar com um único nó DC2.Large por 0,25 USD por hora e escalar até 128 nós 8XL com 326 TB de armazenamento em SSD, 3.200 núcleos virtuais e 24 TiB de RAM.

Os tipos de nós DS estão disponíveis em dois tamanhos, extragrande e óctuplo extragrande. O extragrande (XL) possui três HDDs com um total de dois TB de armazenamento magnético, enquanto o óctuplo extragrande (8XL) possui 24 HDDs com um total de 16 TB de armazenamento magnético. O DS2.8XLarge possui 36 núcleos virtuais Intel Xeon E5-2676 v3 (Haswell) e 244GiB de RAM e o DS2.XL possui quatro núcleos virtuais Intel Xeon E5-2676 v3 (Haswell) e 31 GiB de RAM.

Consulte nossa página de Definição de preço para obter mais detalhes.

P: Quando deve usar o Amazon Redshift em vez do Amazon RDS?

O Amazon Redshift e o Amazon RDS permitem que você execute bancos de dados relacionais tradicionais na nuvem, enquanto descarrega a administração do banco de dados. Os clientes usam os bancos de dados do Amazon RDS principalmente para cargas de trabalho de processamento de transações on-line (OLTP) e o Redshift é usado principalmente para relatórios e análises. As cargas de trabalho OLTP exigem a consulta rápida de informações específicas e o suporte a transações como inserção, atualização e exclusão e são melhor tratadas pelo Amazon RDS. O Amazon Redshift aproveita a escala e os recursos de vários nós e usa diversas otimizações para fornecer melhorias de ordem de magnitude em relação aos bancos de dados tradicionais para cargas de trabalho analíticas e de geração de relatórios com conjuntos de dados muito grandes. Se você quiser impedir que o processamento de análises e relatórios interfira no desempenho das cargas de trabalho OLTP, o Amazon Redshift fornece uma excelente opção de expansão à medida que a complexidade dos dados e das consultas aumenta. Agora, com o novo recurso de consultas federadas, você pode consultar facilmente dados em serviços de banco de dados do Amazon RDS ou do Aurora com o Amazon Redshift.

P: Quando devo usar o Amazon Redshift ou o Redshift Spectrum em vez do Amazon EMR?

Você deverá usar o Amazon EMR se utilizar código personalizado para processar e analisar conjuntos de dados extremamente grandes com estruturas de processamento de big data como Apache Spark, Hadoop, Presto ou Hbase. O Amazon EMR oferece controle completo sobre a configuração dos clusters e do software instalado neles.

Os data warehouses, como o Amazon Redshift, foram criados para um tipo totalmente diferente de análise. Os data warehouses foram criados para reunir dados de diversas fontes diferentes, como inventário, finanças e sistemas de vendas ao varejo. Para garantir que o fluxo de informações seja constantemente preciso em toda uma empresa, os data warehouses armazenam dados de maneira altamente estruturada. Essa estrutura cria regras de consistência de dados diretamente nas tabelas do banco de dados. O Amazon Redshift é o melhor serviço a ser usado quando você precisa executar consultas complexas em grandes conjuntos de dados estruturados e semiestruturados e obter um desempenho super-rápido.

Embora o recurso Redshift Spectrum seja excelente para execução de consultas em dados no Amazon Redshift e no S3, ele realmente não é indicado para os tipos de casos de uso que grandes empresas geralmente solicitam de estruturas de processamento como o Amazon EMR. O Amazon EMR vai muito além da simples execução de consultas SQL. O Amazon EMR é um serviço gerenciado que permite processar e analisar conjuntos de dados extremamente grandes usando as versões mais recentes de estruturas conhecidas de processamento de big data, como Spark, Hadoop e Presto, em clusters totalmente personalizáveis. Com o Amazon EMR, você pode executar diversas tarefas de processamento de dados com escalabilidade horizontal para aplicativos como machine learning, análise de gráficos, transformação de dados, streaming de dados e praticamente qualquer coisa que você puder codificar.

Você pode usar o Redshift Spectrum juntamente com o EMR. O Redshift Spectrum usa a mesma abordagem para armazenar definições de tabela como o Amazon EMR. O Redshift Spectrum pode oferecer suporte ao mesmo Apache Hive Metastore usado pelo Amazon EMR para localizar dados e definições de tabela. Se você estiver usando o Amazon EMR e já tiver um Hive Metastore, deverá apenas configurar o cluster do Amazon Redshift para usá-lo. Em seguida, pode começar imediatamente a consultar esses dados juntamente com tarefas do Amazon EMR. Portanto, se você já estiver usando o EMR para processar um grande datastore, poderá usar o Redshift Spectrum para consultar simultaneamente esses dados sem interferir nas tarefas do Amazon EMR.

Serviços de consulta, data warehouses e estruturas complexas de processamento de dados têm todos sua utilidade específica e são usados para coisas diferentes. Você só precisa escolher a ferramenta certa para a tarefa.

P: Quando devo usar o Amazon Athena em vez do Redshift Spectrum?

O Amazon Athena é a maneira mais simples de permitir que qualquer funcionário faça consultas ad-hoc nos dados do Amazon S3. O Athena não usa servidor, de forma que não existe uma infraestrutura para configurar ou gerenciar, e você pode começar a analisar os dados imediatamente.

Se você tiver dados acessados com frequência, que precisem ser armazenados em um formato consistente e altamente estruturado, recomendamos usar um data warehouse como o Amazon Redshift. Assim, você terá a flexibilidade de armazenar dados estruturados e acessados com frequência no Amazon Redshift e usar o Redshift Spectrum para estender consultas do Amazon Redshift a todo o universo de dados no data lake do Amazon S3. Além disso, você terá a liberdade de armazenar dados onde quiser, no formato que quiser e disponibilizá-los para processamento quando forem necessários.

P: Por que eu deveria usar o Amazon Redshift em vez de executar meu próprio cluster de data warehouse MPP no Amazon EC2?

O Amazon Redshift gerencia automaticamente várias tarefas demoradas associadas ao gerenciamento de seu próprio data warehouse, como:
  • Configuração: com o Amazon Redshift, basta criar um cluster de data warehouse, definir um esquema e começar a carregar e consultar os dados. Você não precisa gerenciar o provisionamento, a configuração ou a aplicação de patches.
  • Durabilidade dos dados: o Amazon Redshift replica os dados dentro do cluster de data warehouse e executa continuamente o backup dos dados para o Amazon S3, que foi projetado para oferecer onze noves de durabilidade. O Amazon Redshift espelha os dados de cada unidade para outros nós dentro do seu cluster. Se uma unidade falhar, suas consultas continuarão com um ligeiro aumento de latência enquanto o Redshift reconstrói sua unidade das réplicas. Em caso de falhas no nó, o Amazon Redshift fornece automaticamente novos nós e começa a restaurar dados de outras unidades dentro do cluster ou do Amazon S3. Ele dá prioridade à restauração de seus dados mais consultados para que suas consultas mais executadas se tornem eficazes rapidamente.
  • Escalabilidade: você pode adicionar ou remover nós do cluster de data warehouse do Amazon Redshift com uma única chamada de API ou com alguns cliques no Console de Gerenciamento da AWS para acompanhar a evolução das necessidades de capacidade e performance. Você também pode programar operações de escalabilidade e redimensionamento usando o recurso de programação do Redshift.
  • Atualizações e correções automáticas: o Amazon Redshift aplica automaticamente atualizações e patches no data warehouse para que você possa se concentrar nos aplicativos e não na administração.
  • Recurso de consulta na escala de exabytes: o Redshift Spectrum permite que você execute consultas em exabytes de dados no Amazon S3. Não há necessidade de carregamento nem ETL. Mesmo que você não armazene nenhum dado no Amazon Redshift, poderá usar o Redshift Spectrum para consultar conjuntos de dados de até um exabyte no Amazon S3.

Faturamento

P: Como serei cobrado e faturado pela utilização do Amazon Redshift?

Você paga somente pelo que usa, sem taxas mínimas ou de configuração. Agora, o Amazon Redshift pode pausar e retomar um cluster, permitindo que os clientes suspendam facilmente o faturamento sob demanda enquanto o cluster não estiver em uso. Por exemplo, um cluster usado para desenvolvimento agora pode ter o faturamento computacional suspenso quando não estiver em uso. Enquanto o cluster estiver pausado, você será cobrado apenas pelo armazenamento do cluster. Para cargas de trabalho de produção estáveis, você consegue bons descontos em relação à definição de preço sob demanda alternando para instâncias reservadas.

O faturamento de um cluster de data warehouse começa assim que ele é disponibilizado. O faturamento continua até o cluster do data warehouse ser encerrado, o que pode ocorrer após sua exclusão ou caso ocorra falha na instância. Você é cobrado com base em:

  • Horas de nós de computação: as horas de nós de computação são o número total de horas de execução de todos os nós de computação durante o período de faturamento. As horas de uso do nó são cobradas por cada hora que seu cluster de data warehouse está sendo executado em um estado disponível. Se você não desejar mais ser cobrado em relação ao seu cluster de data warehouse, deverá encerrá-lo para evitar o faturamento das horas de nós adicionais. Horas parciais de consumo de nó são cobradas como horas completas. Haverá cobrança de 1 unidade por nó, por hora. Então, um cluster de data warehouse de 3 nós executando persistentemente por um mês inteiro, incorreria 2.160 horas de instâncias. Não haverá cobrança para horas de nó principal; somente nós computacionais terão custos.
  • Armazenamento gerenciado: você paga pelos dados armazenados no armazenamento gerenciado, de acordo com uma taxa fixa de GB/mês para a sua região. O armazenamento gerenciado é fornecido exclusivamente com tipos de nós RA3 e você paga a mesma taxa reduzida para o armazenamento gerenciado do Redshift, independentemente do tamanho dos dados. O uso do armazenamento gerenciado é calculado a cada hora, com base no total de dados existentes no armazenamento gerenciado. Você pode monitorar a quantidade de dados em um cluster RA3 por meio do Amazon CloudWatch ou do Console de gerenciamento da AWS. Não se paga nenhuma taxa de transferência de dados entre os nós RA3 e o armazenamento gerenciado. As taxas de armazenamento gerenciado não incluem taxas de armazenamento de backup devido a snapshots automáticos e manuais. Após o encerramento do cluster, você continuará a ser cobrado pela retenção dos backups manuais.
  • Armazenamento de backup: o armazenamento de backup é o armazenamento associado com snapshots tirados para o data warehouse. Aumentar o período de retenção do backup ou usar outros snapshots aumenta o armazenamento de backup consumido pelo data warehouse. O Redshift cobra por snapshots manuais que você tira usando o console, API ou CLI. Os snapshots Redshift Automated, que são criados usando o recurso de agendamento de snapshots do Redshift, não são cobrados. Dados armazenados em clusters RA3 fazem parte do Redshift Managed Storage (RMS) e são cobrados nas taxas do RMS, mas os snapshots manuais tirados para clusters RA3 são cobrados como armazenamento de backup nas taxas padrão do Amazon S3 descritas nesta página. Por exemplo, se o seu cluster RA3 tiver 10 TB de dados e 30 TB de snapshots manuais, você será cobrado por 10 TB de RMS e 30 TB de armazenamento de backup. Com clusters de computação densa (DC) e armazenamento denso (DS), o armazenamento é incluído no cluster e não é cobrado separadamente, mas os backups são armazenados de forma externa no S3. O armazenamento de backup além do tamanho de armazenamento fornecido nos clusters DC e DS é cobrado como armazenamento de backup nas taxas padrão do Amazon S3. Os snapshots são cobrados até seu vencimento ou exclusão, inclusive quando o cluster é pausado ou excluído.
  • Transferência de dados: não há cobrança de transferência de dados de/para o Amazon Redshift e o Amazon S3 na mesma região da AWS. Para todas as outras transferências de dados para dentro e para fora do Amazon Redshift, você será cobrado, de acordo com as taxas de transferência de dados padrão da AWS.
  • Dados verificados: com o Redshift Spectrum, você será cobrado pela quantidade de dados do Amazon S3 verificados para executar sua consulta. Não haverá cobranças referentes ao Redshift Spectrum quando você não estiver executando consultas. Se você armazenar dados em um formato colunar, como Parquet ou RC, suas cobranças serão reduzidas, pois o Redshift Spectrum só verificará as colunas necessárias para a consulta, em vez de processar linhas inteiras. Da mesma forma, se você compactar seus dados usando um dos formatos aceitos pelo Redshift Spectrum, os custos também serão reduzidos. Você paga taxas padrão do Amazon S3 para o armazenamento de dados e taxas de instância do Amazon Redshift para o cluster utilizado.
  • Escalabilidade de simultaneidade: O Amazon Redshift adiciona automaticamente essa capacidade para provisionar um desempenho rápido e consistente, mesmo com milhares de usuários e consultas simultâneos. Não é preciso gerenciar recursos, não há custos antecipados e você não é cobrado pelos tempos de inicialização ou término dos clusters temporários. Você pode acumular uma hora de créditos de cluster de escalabilidade de simultaneidade a cada 24 horas durante a execução do cluster principal. É cobrada uma taxa sob demanda por segundo para um cluster de escalabilidade de concorrência usado além dos créditos gratuitos, exclusivamente para atender suas consultas, com uma cobrança mínima de um minuto a cada vez que um cluster de escalabilidade de simultaneidade for ativado. A taxa sob demanda por segundo é baseada no tipo e no número de nós em um cluster do Amazon Redshift.

Salvo indicação em contrário, nossos preços excluem impostos e taxas aplicáveis, incluindo o IVA e o imposto de vendas aplicável. Para clientes com endereço de pagamento no Japão, o uso da AWS está sujeito ao imposto sobre consumo japonês. Saiba mais.

Para obter informações de definição de preço, consulte a página Definição de preço do Amazon Redshift.

Integração e carregamento de dados

P: Como posso carregar dados para o meu data warehouse do Amazon Redshift?

Você pode carregar dados no Amazon Redshift de diversas fontes de dados, incluindo os serviços Amazon S3, Amazon RDSAmazon DynamoDB, Amazon EMR, AWS Glue, AWS Data Pipeline, bem como de qualquer host habilitado para SSH no Amazon EC2 ou no local. O Amazon Redshift tenta carregar os dados em paralelo em cada nó computacional para maximizar a taxa de consumo de dados em seu cluster de data warehouse. Os clientes podem se conectar ao Amazon Redshift usando ODBC ou JDBC e emitir comandos “insert” do SQL para inserir os dados. Observe que esse procedimento é mais lento do que usar o S3 ou o DynamoDB, pois esses métodos carregam dados em paralelo para cada nó computacional, enquanto as instruções de inserção do SQL carregam dados por meio de um único nó principal. Para obter mais detalhes sobre como carregar dados para o Amazon Redshift, consulte nosso Guia de conceitos básicos.

P: Como posso carregar dados de fontes de dados existentes do Amazon RDS, Amazon EMR, Amazon DynamoDB e Amazon EC2 para o Amazon Redshift?

Você pode usar nosso comando COPY para carregar dados em paralelo diretamente no Amazon Redshift do Amazon EMR, do Amazon DynamoDB ou de qualquer host habilitado para SSH. O Redshift Spectrum também permite carregar dados do Amazon S3 para um cluster com um simples comando INSERT INTO. Isso permite carregar dados de vários formatos, como Parquet e RC no seu cluster. Observe que, se você usar essa abordagem, acumulará cobranças do Redshift Spectrum para os dados verificados no Amazon S3. 

Além disso, muitas empresas de ETL certificaram o Amazon Redshift para usar com suas ferramentas e diversas delas oferecem testes gratuitos para ajudá-lo a começar a carregar dados. O AWS Data Pipeline fornece uma solução de alto desempenho, confiável e tolerante a falhas para carregar dados de uma variedade de fontes de dados da AWS, como Amazon RDS para Redshift. Você pode usar o AWS Data Pipeline para especificar a fonte de dados, as transformações de dados desejadas e então executar um script de importação predefinido para carregar dados no Amazon Redshift. Além disso, o AWS Glue é um serviço gerenciado do tipo Extract, Transform and Load (ETL – Extração, transformação e carregamento) que permite que os clientes preparem e carreguem facilmente dados para análises. É possível criar e executar uma tarefa de ETL do AWS Glue com apenas alguns cliques no Console de Gerenciamento da AWS.

P: Tenho vários dados para carregamento inicial para o Amazon Redshift. A transferência pela Internet seria muito demorada. Como posso carregar esses dados?

O AWS Snowball pode ser usado para transferir os dados para o Amazon S3 usando dispositivos de armazenamento portáteis. Além disso, você pode utilizar o AWS Direct Connect para estabelecer uma conexão de rede privada entre sua rede ou o datacenter e a AWS. Você pode escolher portas de conexão de 1 Gbit/s ou 10 GBit/s para transferir os dados.

Segurança

P: Como o Amazon Redshift mantém meus dados seguros?

O Amazon Redshift oferece suporte à segurança líder do setor com integração do IAM da AWS, federação de identidade para SSO (Logon único), autenticação multifatorial, controle de acesso no nível da coluna, Amazon Virtual Private Cloud (Amazon VPC) e fornece integração do KMS da AWS para proteger seus dados em trânsito e em repouso. O Amazon Redshift criptografa e mantém seus dados seguros em trânsito e ociosos usando técnicas de criptografia padrão da indústria. Para manter os dados seguros em trânsito, o Amazon Redshift tem suporte para conexões habilitadas por SSL entre o aplicativo cliente e seu cluster de data warehouse do Redshift. Para manter seus dados ociosos seguros, o Amazon Redshift criptografa cada bloco usando AES-256 acelerado por hardware conforme é gravado no disco. Isso ocorre a um nível baixo no subsistema de E/S, que criptografa tudo o que está gravado no disco, incluindo resultados de consultas intermediárias. Os blocos passam por backup igualmente, o que significa que os backups também são criptografados. Por padrão, o Amazon Redshift cuida do gerenciamento de chaves, mas você pode optar por gerenciar suas chaves usando o AWS Key Management Service. Todos os recursos de segurança do Amazon Redshift são oferecidos sem custos adicionais. O Redshift Spectrum oferece suporte a SSE (Server Side Encryption) do Amazon S3 usando a chave padrão da sua conta gerenciada pelo AWS Key Management Service (KMS).

P: O Redshift suporta controles de acesso granulares, como segurança no nível da coluna?

Sim. Os controles de segurança de linha e coluna granulares garantem que os usuários vejam somente os dados aos quais têm acesso. O Amazon Redshift oferece suporte ao controle de acesso no nível da coluna para tabelas locais, para que você possa controlar o acesso a colunas individuais de uma tabela ou exibição, concedendo/revogando privilégios no nível da coluna a um usuário ou grupo de usuários. O Redshift é integrado ao AWS Lake Formation, assegurando que os controles de acesso no nível da coluna do Lake Formation também são aplicados às consultas do Redshift nos dados do data lake.

P: O Amazon Redshift suporta a máscara ou o token dos dados?

As funções definidas pelo usuário (UDFs) do Amazon Lambda permitem que você use uma função do AWS Lambda como uma UDF no Amazon Redshift e a chame a partir das consultas SQL do Redshift. Essa funcionalidade permite escrever extensões personalizadas para sua consulta SQL para obter uma integração maior com outros serviços ou produtos de terceiros. Você pode escrever Lambda UDFs para permitir a tokenização externa, o mascaramento dos dados, a identificação ou não dos dados integrando com revendedores como Protegrity, e proteger ou não dados confidenciais com base nas permissões de um usuário e grupos na hora da consulta.

P: O Redshift suporta o logon único?

Sim. Os clientes que desejam usar seus provedores de identidade corporativa, como o Microsoft Azure Active Directory, os Serviços de Federação do Active Directory, Okta, Ping Federate ou outros provedores de identidade compatíveis com SAML, podem configurar o Amazon Redshift para fornecer logon único.

P: Como o Redshift oferece suporte ao logon único com o Microsoft Azure Active Directory?

É possível fazer login no cluster do Amazon Redshift com identidades do Microsoft Azure Active Directory(AD). Isso permite que você possa entrar no Redshift sem duplicar as identidades do Azure Active Directory no Redshift.

P: O Amazon Redshift agora oferece suporte à autenticação multifator (MFA).

Sim. Você pode usar a autenticação multifator (MFA) para obter segurança adicional ao se autenticar no cluster do Amazon Redshift.

P: Posso usar o Amazon Redshift no Amazon Virtual Private Cloud (Amazon VPC)?

Sim, é possível usar o Amazon Redshift como parte de sua configuração VPC. Com o Amazon VPC, é possível definir uma topologia de rede virtual que lembra muito uma rede tradicional que você poderá operar no seu próprio datacenter. Isso proporciona controle total sobre quem pode acessar seu cluster de data warehouse do Amazon Redshift. Você pode usar o Redshift Spectrum com um cluster do Amazon Redshift que faz parte de uma VPC.

P: Posso acessar diretamente nós de computação do Amazon Redshift?

Não. Seus nós computacionais do Amazon Redshift estão em um espaço de rede privado e só podem ser acessados a partir do nó principal de seu cluster de data warehouse. Isso oferece uma camada adicional de segurança para os seus dados.

Disponibilidade e resiliência

P: O que acontece com a disponibilidade e a durabilidade do meu cluster de data warehouse em caso de falha de uma unidade em um dos nós?

O Amazon Redshift vai automaticamente detectar e substituir um nó com falha em seu cluster de data warehouse. O cluster de data warehouse ficará indisponível para consultas e atualizações até um nó de substituição ser provisionado e adicionado ao banco de dados. O Amazon Redshift disponibiliza imediatamente o nó de substituição e carrega os dados acessados com mais frequência do S3 para permitir que você volte a consultar os dados com a maior rapidez possível. Clusters de um único nó não oferecem suporte à replicação de dados. Em caso de falha em uma unidade, será necessário restaurar o cluster do snapshot no S3. Recomendamos usar pelo menos dois nós para produção.

P: O que acontece com a disponibilidade e a resiliência de dados de um cluster de data warehouse em caso de falha de um nó individual?

O Amazon Redshift vai automaticamente detectar e substituir um nó com falha em seu cluster de data warehouse. O cluster de data warehouse ficará indisponível para consultas e atualizações até um nó de substituição ser provisionado e adicionado ao banco de dados. O Amazon Redshift disponibiliza imediatamente o nó de substituição e carrega os dados acessados com mais frequência do S3 para permitir que você volte a consultar os dados com a maior rapidez possível. Clusters de um único nó não oferecem suporte à replicação de dados. Em caso de falha em uma unidade, será necessário restaurar o cluster do snapshot no S3. Recomendamos usar pelo menos dois nós para produção.

P: O que acontece com a disponibilidade do meu cluster do data warehouse e a durabilidade dos dados se a zona de disponibilidade (AZ) desse cluster tem uma interrupção?

Se a zona de disponibilidade do cluster do data warehouse do Amazon Redshift ficar inacessível, o Amazon Redshift moverá automaticamente seu cluster para outra zona de disponibilidade AWS sem nenhuma perda de dados ou mudanças na aplicação. Para ativar isso, você deve habilitar a capacidade de realocação nas definições de configuração do cluster.

P: O Amazon Redshift oferece suporte a implantações Multi-AZ?

Atualmente, o Amazon Redshift tem suporte somente para implantações Single-AZ. Você pode executar clusters de data warehouse em várias AZs carregando dados para dois clusters de data warehouse do Amazon Redshift em AZs separadas do mesmo conjunto de arquivos de entrada do Amazon S3. Com o Redshift Spectrum, você pode ativar vários clusters nas AZs e acessar dados no Amazon S3 sem ter que carregá-los no seu cluster. Além disso, também é possível restaurar um cluster de data warehouse para uma AZ diferente usando snapshots do cluster de data warehouse.

Backup e restauração

P: Como o Amazon Redshift faz o backup dos meus dados? Como faço para restaurar um cluster de um backup?

O Amazon Redshift replica todos os dados dentro de um cluster de data warehouse quando é carregado e também faz continuamente um backup dos dados para o Amazon S3. O Amazon Redshift sempre tenta manter pelo menos três cópias de seus dados (a original, a réplica nos nós computacionais e uma cópia de backup no Amazon S3). O Redshift também pode replicar de forma assíncrona seus snapshots para o S3 em outra região, para fins de recuperação de desastres.

Por padrão, o Amazon Redshift habilita os backups automatizados de um cluster de data warehouse com um período de retenção de um dia. Você pode configurar essa opção para períodos de até 35 dias.

O armazenamento de backup gratuito é limitado ao tamanho total de armazenamento nos nós no cluster de data warehouse e apenas se aplica aos clusters de data warehouse ativos. Por exemplo, se você tiver um armazenamento de data warehouse total de 8 TB, forneceremos no máximo 8 TB de armazenamento de backup sem custos adicionais. Se você quiser ampliar o período de retenção de backup para mais de um dia, pode fazer isso usando o Console de gerenciamento da AWS ou as APIs do Amazon Redshift. Para obter mais informações sobre snapshots automatizados, consulte o Guia de gerenciamento do Amazon Redshift. O Amazon Redshift somente faz backup de dados alterados. Assim, a maioria dos snapshots usa apenas uma pequena quantidade do armazenamento de backup gratuito.

Quando você precisa restaurar um backup, pode acessar todos os backups automatizados dentro da janela de retenção de backups. Após escolher um backup para a restauração, provisionaremos um novo cluster de data warehouse e restauraremos os dados nesse novo cluster.

P: Como faço para gerenciar a retenção de backups e snapshots automatizados?

Você pode usar o Console de Gerenciamento da AWS ou a API ModifyCluster para gerenciar o período de retenção de backups automatizados modificando o parâmetro RetentionPeriod. Se quiser desativar completamente os backups automatizados, você poderá configurar o período de retenção para 0 (não recomendado).

P: O que acontece com os backups se eu excluir um cluster de data warehouse?

Quando exclui um cluster de data warehouse, você pode especificar se um snapshot final será criado no momento da exclusão. Isso permite restaurar posteriormente o cluster de data warehouse excluído. Todos os snapshots manuais do cluster de data warehouse criados anteriormente serão retidos e cobrados de acordo com as taxas padrão do Amazon S3, a menos que você opte por excluí-los.

Escalabilidade

P: Como faço para escalar o tamanho e a performance de um cluster de data warehouse do Amazon Redshift?

Se quiser aumentar a performance das consultas ou responder à utilização excessiva de CPU, memória ou E/S, você poderá aumentar o número de nós do cluster de data warehouse usando o redimensionamento elástico por meio do Console de Gerenciamento da AWS ou da API ModifyCluster. Quando você modifica um cluster de data warehouse, as alterações solicitadas são aplicadas imediatamente. As métricas de utilização computacional, utilização de armazenamento e tráfego de leitura/gravação para o cluster de data warehouse do Amazon Redshift são disponibilizados gratuitamente no Console de Gerenciamento da AWS ou nas APIs do Amazon CloudWatch. Também é possível adicionar métricas definidas pelo usuário por meio da funcionalidade de métricas personalizadas do Amazon CloudWatch.

Com o recurso de escalabilidade de simultaneidade, você pode oferecer suporte a um número praticamente ilimitado de usuários e consultas simultâneos, com uma performance de consulta rápida e consistente. Quando a escalabilidade de simultaneidade é habilitada, o Amazon Redshift adiciona automaticamente capacidade adicional de cluster quando necessária para processar um aumento nas consultas de leitura simultâneas.

Com o Redshift Spectrum, é possível executar vários clusters do Amazon Redshift acessando os mesmos dados no Amazon S3. Você poderá usar clusters diversos para casos de uso diferentes. Por exemplo, é possível usar um cluster para a geração de relatórios padrão e outro para consultas de ciência de dados. Equipes de marketing podem usar seus próprios clusters diferentes dos clusters de equipes de operações. O Redshift Spectrum distribui automaticamente a execução da consulta para vários operadores do Redshift Spectrum de um grupo de recursos compartilhados para ler e processar dados do Amazon S3, e retornará os resultados para o cluster do Amazon Redshift para executar qualquer processamento remanescente.

P: O cluster de data warehouse continua disponível durante operações de escalabilidade?

Depende. Quando você usa o recurso de escalabilidade de simultaneidade, o cluster fica totalmente disponível para leitura e gravação durante a alteração de escala da simultaneidade. Com o redimensionamento elástico, o cluster fica indisponível por quatro a oito minutos do período de redimensionamento. Com a elasticidade de armazenamento do Redshift RA3, o cluster fica totalmente disponível e os dados são movidos automaticamente entre o armazenamento gerenciado e os nós de computação.

P: O que é compartilhamento de dados do Amazon Redshift

O compartilhamento de dados do Amazon Redshift permite compartilhar dados em tempo real pelo Redshift de modo fácil e seguro. O compartilhamento de dados melhora a agilidade das organizações lhes dando um acesso granular e com alta performance aos dados em qualquer cluster Redshift sem precisar copiá-los ou movê-los, e fornece acesso ao vivo aos dados para que os usuários possam ver as informações mais atualizadas e consistentes conforme são atualizadas no cluster. Com o compartilhamento de dados, é possível incorporar rapidamente novas cargas de trabalho analíticas e fornecê-las com recursos computacionais separados para atender a seus SLAs de desempenho específicos da carga, permitindo que possam acessar conjuntos de dados comuns. Além de compartilhar dados com organizações, o compartilhamento de dados também permite uma colaboração segura e controlada nas organizações e com terceiros externos. Os casos de uso comuns para o compartilhamento de dados incluem configurar um cluster ETL central para compartilhar dados com muitos clusters BI para fornecer uma separação e uma restituição da carga de trabalho de leitura, oferecer dados como serviço e compartilhamento de dados com clientes externos, vários grupos comerciais em uma organização que compartilham e colaboram com dados para ter insights diferenciados, e compartilhar dados entre os ambientes de desenvolvimento, teste e produção. Para saber mais e começar, visite a documentação do Redshift.  

P: O que são consultas entre bancos de dados no Redshift?

Com essas consultas, você pode consultar e unir consultas sem problemas a partir de qualquer banco de dados Redshift ao qual tenha acesso, não importando a qual banco de dados está conectado. Isso pode incluir bancos de dados locais no cluster e também conjuntos de dados compartilhados disponíveis em clusters remotos. As consultas entre bancos de dados fornecem flexibilidade para organizar os dados como bancos de dados separados para dar suporte a configurações com vários locatários.

P: Quando os clientes devem usar a escalabilidade de simultaneidade e quando devem usar o compartilhamento de dados?

O compartilhamento de dados e a escalabilidade de simultaneidade são recursos complementares. Na escalabilidade de simultaneidade, o Redshift permite escalar automaticamente uma ou mais cargas de trabalho em um único cluster para lidar com a alta simultaneidade e os picos de consulta. O Redshift prepara de modo elástico e automático a capacidade em segundos para lidar com os aumentos de atividade do usuário e diminui quando a atividade acalma. As aplicações continuam a interagir com o Redshift usando um único endpoint da aplicação. O compartilhamento de dados permite escalar diversas cargas de trabalho com implantações com vários clusters e várias contas. Isso permite o isolamento da carga de trabalho, a colaboração de cobrança entre grupos em ambientes descentralizados e a capacidade de oferecer dados como um serviço para interessados internos e externos. Você pode habilitar a escalabilidade de simultaneidade nos clusters do produtor e do consumidor do compartilhamento de dados.

Simultaneidade

P: Como gerencio recursos para garantir que meu cluster Redshift possa provisionar performance rápida e consistente durante períodos de alta simultaneidade?

Um data warehouse típico tem variação significativa no uso de consultas simultâneas ao longo de um dia. É mais econômico adicionar recursos apenas durante o período em que eles são necessários, em vez de provisionar a demanda máxima. O Amazon Redshift lida com isso automaticamente por você.

A escalabilidade de simultaneidade é um recurso no Amazon Redshift que oferece performance de consulta rápida e consistente, mesmo com milhares de consultas simultâneas. Com esse recurso, o Amazon Redshift adiciona automaticamente capacidade temporária quando necessária para lidar com uma demanda pesada. O Amazon Redshift roteia automaticamente consultas para escalabilidade de clusters, que são provisionados em segundos e começam a processar as consultas imediatamente.

Esse recurso é gratuito para a maioria dos clientes. Cada cluster do Amazon Redshift recebe até uma hora de créditos de escalabilidade da simultaneidade gratuita por dia. Isso proporciona previsibilidade dos custos mensais, mesmo durante períodos de demanda analítica oscilante.

P: O que é o redimensionamento elástico e qual a diferença entre ele e a escalabilidade de simultaneidade?

O Redimensionamento elástico adiciona e remove nós de um único cluster do Redshift em minutos para gerenciar a taxa de transferência de consulta. Por exemplo, uma carga de trabalho de ETL para determinadas horas em um relatório do dia ou de fim de mês pode precisar de recursos adicionais do Redshift para conclusão no prazo. A escalabilidade de simultaneidade adiciona recursos de cluster para aumentar a simultaneidade geral da consulta.

P: Posso acessar diretamente os clusters de escalabilidade de simultaneidade?

Não. A escalabilidade de simultaneidade é um grupo amplamente escalável de recursos do Redshift, ao qual os clientes não têm acesso direto.

Consultas e análises

P: O Amazon Redshift e o Redshift Spectrum são compatíveis com meu pacote de software BI e minhas ferramentas de ETL preferidos?

Sim, o Amazon Redshift utiliza o SQL padrão do setor e é acessado por drivers JDBC e ODBC padrão. Os drivers JDBC e ODBC personalizados para o Amazon Redshift estão disponíveis para download na guia Connect Client do console do Redshift. Validamos integrações com fornecedores de BI e ETL populares. Vários deles oferecem testes gratuitos para ajudar você a começar a carregar e analisar seus dados. Também é possível acessar o AWS Marketplace para implantar e configurar em poucos minutos soluções projetadas para funcionar com o Amazon Redshift.

O Redshift Spectrum aceita todas as ferramentas de cliente do Amazon Redshift. As ferramentas de cliente podem continuar a estabelecer conexão com o endpoint do cluster do Amazon Redshift usando as conexões ODBC ou JDBC. Não é exigida nenhuma alteração.

Você usa exatamente a mesma sintaxe de consulta e tem os mesmos recursos de consulta para acessar tabelas no Redshift Spectrum disponíveis para tabelas no armazenamento local de um cluster do Redshift. As tabelas externas são mencionadas usando o nome do esquema definido no comando CREATE EXTERNAL SCHEMA em que foram registradas.

P: Para quais formatos de dados e compactação o Redshift Spectrum oferece suporte?

No momento, o Redshift Spectrum oferece suporte a diversos formatos de dados de código aberto, incluindo Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text e TSV.

No momento, o Redshift Spectrum oferece suporte aos formatos de compactação Gzip e Snappy.

P: O que acontece se uma tabela no armazenamento local tiver o mesmo nome de uma tabela externa?

Assim como ocorre com tabelas locais, você pode usar o nome do esquema para escolher exatamente aquele que deseja usando schema_name.table_name na sua consulta.

P: Eu uso um Hive Metastore para armazenar metadados sobre um data lake do S3. Posso usar o Redshift Spectrum?

Sim. O comando CREATE EXTERNAL SCHEMA aceita o Hive Metastore. No momento, não aceitamos o DDL no Hive Metastore.

P: Como faço para obter uma lista das tabelas externas de banco de dados em um cluster?

Você pode consultar a tabela do sistema SVV_EXTERNAL_TABLES para obter essas informações.

P: O Redshift suporta a capacidade de usar machine learning com o SQL?

Sim, o recurso Amazon Redshift ML facilita que os usuários do SQL criem, treinem e implantem modelos ML (machine learning) usando comandos do SQL conhecidos. O Amazon Redshift ML permite que os clientes utilizem seus dados no Amazon Redshift com o Amazon SageMaker, um serviço de machine learning totalmente gerenciado.

P: O Amazon Redshift fornece uma API para consultar dados?

O Amazon Redshift fornece uma Data API que permite acessar dados no Amazon Redshift sem complicações com todos os tipos de aplicações baseadas em serviços da web nativos da cloud, conteinerizadas e sem servidor, assim como aplicações baseadas em eventos. A API Data simplifica o acesso ao Amazon Redshift porque não é necessário configurar drivers e gerenciar conexões de banco de dados. Pelo contrário, você precisa executar comandos SQL para um cluster Amazon Redshift simplesmente chamando um endpoint da API protegido fornecido pela Data API. A Data API cuida do gerenciamento das conexões do banco de dados e do buffer dos dados. A Data API é assíncrona para que você possa recuperar seus resultados mais tarde. Os resultados da consulta são armazenados por 24 horas.

P: Quais tipos de credenciais posso usar com a Data API do Amazon Redshift?

A Data API suporta as credenciais IAM e o uso de uma chave secreta do AWS Secrets Manager. A Data API federa as credenciais AWS Identity and Access Management (IAM) para que você possa usar provedores como Okta ou Azure Active Directory, ou as credenciais do banco de dados armazenadas no Secrets Manager sem passar as credenciais do banco de dados nas chamadas da API.

P: Posso usar a Data API do Amazon Redshift a partir da AWS CLI?

Sim, você pode usar a Data API da AWS CLI usando a opção da linha de comando aws redshift-data.

P: A Data API do Redshift é integrada em outros serviços AWS?

Você pode usar a Data API de outros serviços, como AWS Lambda, AWS Cloud9, AWS AppSync e Amazon EventBridge.

P: Tenho que pagar separado para usar a Data API do Amazon Redshift?

Não há nenhuma cobrança separada para usar a Data API.

Monitoramento

P: Como faço para monitorar a performance de um cluster de data warehouse do Amazon Redshift?

As métricas de utilização computacional, utilização de armazenamento e tráfego de leitura/gravação para o cluster de data warehouse do Amazon Redshift são disponibilizados gratuitamente no Console de Gerenciamento da AWS ou nas APIs do Amazon CloudWatch. Também é possível acrescentar outras métricas definidas pelo usuário por meio da funcionalidade de métricas personalizadas do Amazon CloudWatch. O Console de Gerenciamento da AWS oferece um painel de monitoramento que ajuda a monitorar a integridade e a performance de todos os clusters. O Amazon Redshift também fornece informações sobre o desempenho das consultas e do cluster, por meio do Console de gerenciamento da AWS. Essas informações permitem que você visualize quais usuários e consultas consomem mais recursos do sistema e diagnostique problemas de desempenho, visualizando planos de consulta e estatísticas de execução. Além disso, é possível visualizar a utilização de recursos de cada um dos nós computacionais para garantir que os dados e as consultas estejam bem balanceadas entre todos os nós.

Manutenção

P: O que é uma janela de manutenção? Um cluster de data warehouse continua disponível durante manutenções de software?

O Amazon Redshift executa periodicamente manutenções para aplicar correções, aprimoramentos e novos recursos ao seu cluster. Você pode alterar as janelas de manutenção programadas modificando o cluster por meio de programação ou usando o console do Redshift. Durante essas janelas de manutenção, o cluster do Amazon Redshift não está disponível para operações normais. Para obter mais informações sobre as janelas de manutenção e as programações por região, consulte Janelas de manutenção no Guia de gerenciamento do Amazon Redshift.

Saiba mais sobre a definição de preço do Amazon Redshift

Acesse a página de definição de preço
Pronto para criar?
Comece a usar o Amazon Redshift
Tem outras dúvidas?
Entre em contato conosco