Geral

Saiba mais sobre as novidades do Amazon Redshift na página denovidades.
Veja informações mais detalhadas e orientações de uso na documentação.

P: O que é o Amazon Redshift?

Amazon Redshift é um data warehouse em nuvem totalmente gerenciado e escalável que acelera o tempo de insights com análises rápidas, fáceis e seguras em escala. Milhares de clientes usam o Amazon Redshift para analisar dados de terabytes a petabytes e executar consultas analíticas complexas. Você pode obter real-time insights e análises preditivas em todos os seus dados em seus bancos de dados operacionais, data lake, data warehouse e conjuntos de dados de terceiros. O Amazon Redshift oferece tudo isso com performance de preço até três vezes melhor do que outros data warehouses em nuvem prontos para uso, ajudando a manter seus custos previsíveis.

O Amazon Redshift Serverless facilita a execução de análises em escala de petabyte em segundos para obter insights rápidos sem a necessidade de configurar e gerenciar seus clusters de data warehouse. O Amazon Redshift Serverless provisiona e escala automaticamente a capacidade do data warehouse para oferecer alta performance para workloads exigentes e imprevisíveis, e você paga apenas pelos recursos que usa.

P: Quais são os principais motivos pelos quais os clientes escolhem o Amazon Redshift?

Milhares de clientes escolhem o Amazon Redshift para acelerar o tempo dos insights porque é fácil de usar, oferece performance em qualquer escala e permite analisar todos os dados. O Amazon Redshift é um serviço totalmente gerenciado e oferece opções provisionadas e sem servidor, facilitando executar e escalar análises sem a necessidade de gerenciar seu data warehouse. Você pode escolher a opção provisionada para workloads previsíveis ou a opção Amazon Redshift Serverless para provisionar e escalar automaticamente a capacidade do data warehouse, para oferecer alta performance para workloads exigentes e imprevisíveis. Ele oferece performance em qualquer escala com preço até três vezes melhor do que outros data warehouses em nuvem prontos para uso, ajudando a manter seus custos previsíveis. O Amazon Redshift permite obter insights da execução de análises preditivas e em tempo real em todos os dados em seus bancos de dados operacionais, data lake, data warehouse e milhares de conjuntos de dados de terceiros. O Amazon Redshift mantém seus dados seguros em repouso e em trânsito e atende aos requisitos de conformidade internos e externos. Ele é compatível com a segurança líder do setor para proteger seus dados em trânsito e em repouso e com os requisitos SOC1, SOC2, SOC3 e PCI DSS Nível 1. Todos os recursos de segurança e conformidade do Redshift estão incluídos sem custo adicional.

P: Como o Amazon Redshift simplifica o gerenciamento de data warehouse?

O Amazon Redshift é totalmente gerenciado pela AWS, portanto, você não precisa mais se preocupar com tarefas de gerenciamento de data warehouse, como provisionamento de hardware, patch de software, instalação, configuração, monitoramento de nós e drives para recuperação de falhas ou backups. A AWS gerencia o trabalho necessário para configurar, operar e escalar um data warehouse em seu nome, liberando você para se concentrar na construção de aplicações. O Amazon Redshift também tem capacidades de ajuste automático e recomendações de superfície para gerenciar seu warehouse no Redshift Advisor. Para o Redshift Spectrum, o Amazon Redshift gerencia toda a infraestrutura de computação, balanceamento de carga, planejamento, programação e execução de suas consultas nos dados armazenados no Amazon S3. A opção sem servidor provisiona e escala automaticamente a capacidade do data warehouse para oferecer alta performance para workloads exigentes e imprevisíveis, e você paga apenas pelos recursos que usa.

P: Como a performance do Amazon Redshift se compara à de outros data warehouses?

Os resultados do benchmark TPC-DS mostram que o Amazon Redshift oferece o melhor performance de preço pronto para uso, mesmo para um conjunto de dados comparativamente pequeno de 3 TB. O Amazon Redshift oferece performance de preço até três vezes melhor em comparação a outros data warehouses na nuvem Isso significa que você pode se beneficiar da performance de preço líder do Amazon Redshift desde o início, sem ajuste manual. Obtenha performance de preço até três vezes melhor com o Amazon Redshift do que com outros data warehouses de nuvem | Blog de big data da AWS.

O Amazon Redshift usa uma variedade de inovações para alcançar performance até dez vezes melhor do que os bancos de dados tradicionais para armazenamento de dados e workloads analíticas, incluindo data warehousing colunar compactado e otimizado para leitura eficiente com clusters de computação de processamento paralelo massivo (MPP) que escalam linearmente para centenas de nós. Em vez de armazenar dados em séries de linhas, o Amazon Redshift organiza os dados por colunas. Quando carrega dados para uma tabela vazia, o Amazon Redshift amostra automaticamente esses dados e seleciona o esquema de compactação mais apropriado.

O Redshift Spectrum permite que você execute consultas em exabytes de dados no Amazon S3. Não é necessário executar trabalhos de carregamento ou extração, transformação e carregamento (ETL). Mesmo que você não armazene nenhum dado no Amazon Redshift, poderá usar o Redshift Spectrum para consultar conjuntos de dados de até um exabyte no Amazon S3. Visualizações materializadas oferecem performance de consultas significativamente mais rápida para workloads analíticas repetidas e previsíveis, como painéis, consultas de ferramentas de business intelligence (BI) e processamento de dados de ETL. Usando visualizações materializadas, você pode armazenar os resultados pré-calculados das consultas e mantê-los de forma eficiente, processando de forma incremental as alterações mais recentes feitas nas tabelas de origem. As consultas subsequentes que referenciam as visualizações materializadas usam os resultados pré-calculados para uma execução mais rápida, e as capacidades de atualização e regravação da consulta para simplificar e automatizar o uso das exibições materializadas.

A capacidade de computação e armazenamento dos data warehouses on-premises é limitada pelas restrições do hardware on-premises. O Amazon Redshift oferece a capacidade de escalar a computação e o armazenamento de forma independente, conforme necessário, para atender às mudanças nas workloads. Com o Redshift Managed Storage (RMS), agora você tem a capacidade de escalar o armazenamento para petabytes usando o armazenamento do Amazon S3.

A Otimização Automática de Tabelas (ATO) é uma capacidade de autoajuste que ajuda a conseguir benefícios de performance da criação de chaves de classificação e distribuição ideais sem um esforço manual. A ATO observa como as consultas interagem com as tabelas e usa o machine learning (ML) para selecionar as melhores chaves de classificação e distribuição para otimizar a performance da workload do cluster. As otimizações da ATO mostraram um aumento na performance do cluster de 24% e 34% usando benchmarks TPC-DS de 3 TB e 30 TB, respectivamente, em comparação a um cluster sem ATO. Recursos adicionais, como Automatic Vacuum Delete, Automatic Table Sort e Automatic Analyze, eliminam a necessidade da manutenção manual e ajuste dos clusters do Redshift para conseguir a melhor performance para novos clusters e workloads de produção.

O gerenciamento da workload permite encaminhar consultas para um conjunto de filas definidas para gerenciar a simultaneidade e a utilização de recursos do cluster. Hoje, o Amazon Redshift tem tipos de configuração automática e manual. Com as configurações manuais do WLM, você é responsável por definir a quantidade de memória alocada em cada fila e o número máximo de consultas (com uma fração dessa memória para cada uma) que podem ser executadas em cada uma das filas. As configurações manuais do WLM não se adaptam às mudanças na workload e exigem um conhecimento mais detalhado da utilização dos recursos de suas consultas para acertar. O Amazon Redshift Auto WLM não exige que você defina a utilização de memória ou simultaneidade para filas. Em vez disso, ele ajusta a simultaneidade dinamicamente para otimizar a taxa de transferência. Ou você pode definir prioridades de fila para fornecer alocação de recursos preferenciais a consultas com base na prioridade dos negócios. O Auto WLM também fornece ferramentas poderosas para permitir o gerenciamento da workload. Prioridades de fila permitem definir prioridades para as workloads, para que possam obter tratamento preferencial no Amazon Redshift, incluindo mais recursos durante horários de pico para performance de consulta consistente, e as regras de monitoramento de consulta oferecem formas de gerenciar situações inesperadas, como detectar e evitar que consultas fora de controle ou caras consumam recursos do sistema. Veja a seguir as principais áreas do Auto WLM com melhorias de performance de simultaneidade adaptativa: alocação adequada de memória, eliminação de particionamento estático de memória entre filas e taxa de transferência aprimorada.

Amazon Redshift Advisor desenvolve recomendações personalizadas para aumentar a performance e otimizar os custos, analisando a workload e a métrica de uso do cluster. Inicie a seção no console Amazon Redshift para ver as recomendações do Advisor. Para ter mais informações, consulte Como trabalhar com recomendações do Amazon Redshift Advisor.

P: Como começo a usar o Amazon Redshift?

Com apenas alguns cliques no Console de Gerenciamento da AWS, você pode começar a consultar dados. Os conjuntos de dados de amostra pré-carregados podem ser usados com conjuntos de dados de referência TPC-H, TPC-DS e outras consultas de amostra para iniciar a análise imediatamente. Você pode criar bancos de dados, esquemas e tabelas, carregar dados do Amazon S3, acessar compartilhamentos de dados do Amazon Redshift ou restaurar um snapshot de cluster provisionado de um Amazon Redshift existente. Você também pode consultar dados diretamente em formatos abertos, como Parquet ou ORC, data lake do Amazon S3, ou consultar dados em bancos de dados operacionais, como Amazon Aurora, Amazon RDS PostgreSQL e MySQL.

Para começar a usar o Amazon Redshift Serverless, escolha “Experimentar o Amazon Redshift Serverless” e comece a consultar os dados. O Amazon Redshift Serverless é escalado automaticamente para atender a qualquer aumento nas workloads.

P: Posso obter ajuda para saber mais e fazer a integração com o Amazon Redshift?

R: Sim, os especialistas do Amazon Redshift estão disponíveis para responder perguntas e fornecer suporte. Entre em contato conosco e você receberá nossa resposta em um dia útil para discutir como a AWS pode ajudar sua organização.

P: O que é Advanced Query Accelerator (AQUA) para Amazon Redshift?

O Advanced Query Accelerator (AQUA) é um novo cache distribuído e acelerado por hardware que permite que o Amazon Redshift seja executado até 10 vezes mais rápido do que outros data warehouses de nuvem corporativa, impulsionando automaticamente certos tipos de consultas. O AQUA está disponível com os nós RA3.16xlarge, RA3.4xlarge ou RA3.xlplus sem custo adicional e sem alterações de código.

P: Como habilito/desabilito o AQUA para meu data warehouse do Redshift?

Para clusters do Redshift em execução em nós RA3, você pode ativar/desativar o AQUA no nível do cluster usando o console do Redshift, Interface de linha de comando da AWS (CLI) ou API. Para clusters do Redshift em execução em DC, DS ou nós de geração mais antigos, você deve fazer upgrade para os nós RA3 primeiro e ativar/desativar o AQUA.

P: Quais tipos de consultas são aceleradas pelo AQUA?

O AQUA agiliza as consultas analíticas ao executar tarefas intensivas de dados, como verificações, filtragem e agregação, mais perto da camada de armazenamento. Você verá a melhoria de performance mais perceptível em consultas que exigem grandes verificações, especialmente aquelas com predicados LIKE e SIMILAR_TO. Com o tempo, os tipos de consulta que são acelerados pelo AQUA aumentarão.

P: Como posso saber quais consultas no meu cluster do Redshift são aceleradas pelo AQUA?

Você pode consultar as tabelas do sistema para ver as consultas aceleradas pelo AQUA.

P: O que é armazenamento gerenciado do Amazon Redshift?

O armazenamento gerenciado do Amazon Redshift está disponível com tipos de nó RA3 e sem servidor e permite escalar e pagar por computação e armazenamento, de forma independente, para que você possa dimensionar seu cluster com base apenas nas necessidades de computação. Ele usa automaticamente o armazenamento local baseado em SSD de alta performance como cache de camada 1 e aproveita otimizações como temperatura do bloco de dados, idade do bloco de dados e padrões de workload para oferecer alta performance ao escalar o armazenamento automaticamente no Amazon S3, quando necessário, sem a necessidade de ação.

P: Como uso o armazenamento gerenciado Amazon Redshift?

Se você já estiver usando Amazon Redshift Dense Storage ou nós Dense Compute, pode usar Elastic Resize para atualizar os clusters existentes para a nova instância de computação RA3. O Amazon Redshift Serverless e os clusters que usam a instância RA3 usam automaticamente o armazenamento gerenciado pelo Redshift para armazenar dados. Nenhuma outra ação além do uso de instâncias do Amazon Redshift Serverless ou RA3 é necessária para usar esse recurso.

P: O que é o Amazon Redshift Spectrum?

O Amazon Redshift Spectrum é um recurso do Amazon Redshift que permite executar consultas em seu data lake no Amazon S3 sem a necessidade de carregamento de dados ou ETL. Quando você emite uma consulta SQL, ela é enviada para o endpoint do Amazon Redshift, que cria e otimiza um plano de consulta. O Amazon Redshift determina quais dados são locais e o que consta no Amazon S3, cria um plano para minimizar a quantidade de dados do S3 que precisam ser lidos e solicita que operadores do Amazon Redshift Spectrum de um grupo de recursos compartilhados leiam e processem os dados do S3.

P: Quando devo considerar o uso de instâncias RA3?

Considere a escolha de tipos de nós RA3 nestes casos:

  • Você precisa de flexibilidade para escalar e pagar por computação separada do armazenamento.
  • Você consulta uma fração de seus dados totais.
  • Seu volume de dados está crescendo rapidamente ou há a expectativa de que cresça rapidamente.
  • Você deseja flexibilidade para dimensionar o cluster com base apenas em suas necessidades de performance.

Conforme a escala de dados continua a crescer, alcançando petabytes, a quantidade de dados que você ingere no data warehouse do Amazon Redshift também cresce. Você pode estar procurando maneiras econômicas de analisar todos os seus dados.

Com as novas instâncias RA3 do Amazon Redshift com armazenamento gerenciado, você pode escolher o número de nós com base em seus requisitos de performance e pagar apenas pelo armazenamento gerenciado que usar. Isso proporciona flexibilidade para dimensionar seu cluster RA3 com base na quantidade de dados que você processa diariamente, sem aumentar os custos de armazenamento. Construídas no sistema AWS Nitro, as instâncias RA3 com armazenamento gerenciado usam SSDs de alta performance para seus dados quentes e Amazon S3 para seus dados frios, proporcionando facilidade de uso, armazenamento econômico e performance de consulta rápida.

P: Quando deve usar o Amazon Redshift em vez do Amazon RDS? 

O Amazon Redshift e o Amazon Relational Database Service RDS permitem que você execute bancos de dados relacionais tradicionais na nuvem e, ao mesmo tempo, simplifique a administração do banco de dados. Os clientes usam os bancos de dados do Amazon RDS principalmente para workloads de processamento de transações online (OLTP), enquanto o Amazon Redshift é usado principalmente para relatórios e análises. As workloads OLTP exigem a consulta rápida de informações específicas e o suporte a transações como inserção, atualização e exclusão e são melhor tratadas pelo Amazon RDS. O Amazon Redshift aproveita a escala e os recursos de vários nós e usa diversas otimizações para fornecer melhorias de ordem de magnitude em relação aos bancos de dados tradicionais para workloads analíticas e de geração de relatórios com conjuntos de dados muito grandes. Se você quiser impedir que o processamento de análises e relatórios interfira na performance das workloads OLTP, o Amazon Redshift fornece uma excelente opção de expansão à medida que a complexidade dos dados e das consultas aumenta. Agora, com o novo recurso de consultas federadas, você pode consultar facilmente dados em serviços de banco de dados do Amazon RDS ou do Aurora com o Amazon Redshift.

P: Quando devo usar o Amazon Redshift ou o Redshift Spectrum em vez do Amazon EMR?

Você deverá usar o Amazon EMR se utilizar código personalizado para processar e analisar conjuntos de dados extremamente grandes com estruturas de processamento de big data como Apache Spark, Hadoop, Presto ou Hbase. O Amazon EMR oferece controle completo sobre a configuração dos clusters e do software instalado neles.

Os data warehouses, como o Amazon Redshift, foram criados para um tipo totalmente diferente de análise. Os data warehouses foram criados para reunir dados de diversas fontes diferentes, como inventário, finanças e sistemas de vendas ao varejo. Para garantir que o fluxo de informações seja constantemente preciso em toda uma empresa, os data warehouses armazenam dados de maneira altamente estruturada. Essa estrutura cria regras de consistência de dados diretamente nas tabelas do banco de dados. O Amazon Redshift é o melhor serviço a ser usado quando você precisa executar consultas complexas em grandes conjuntos de dados estruturados e semiestruturados e obter uma performance super-rápida.

Embora o recurso Redshift Spectrum seja excelente para execução de consultas em dados no Amazon Redshift e no S3, ele realmente não é indicado para os tipos de casos de uso que grandes empresas geralmente solicitam de estruturas de processamento como o Amazon EMR. O Amazon EMR vai muito além da simples execução de consultas SQL. O Amazon EMR é um serviço gerenciado que permite processar e analisar conjuntos de dados extremamente grandes usando as versões mais recentes de estruturas conhecidas de processamento de big data, como Spark, Hadoop e Presto, em clusters totalmente personalizáveis. Com o Amazon EMR, você pode executar diversas tarefas de processamento de dados com escalabilidade horizontal para aplicativos como machine learning, análise de gráficos, transformação de dados, streaming de dados e praticamente qualquer coisa que você puder codificar.

Você pode usar o Redshift Spectrum juntamente com o EMR. O Redshift Spectrum usa a mesma abordagem para armazenar definições de tabela como o Amazon EMR. O Redshift Spectrum pode oferecer suporte ao mesmo Apache Hive Metastore usado pelo Amazon EMR para localizar dados e definições de tabela. Se você estiver usando o Amazon EMR e já tiver um Hive Metastore, deverá apenas configurar o cluster do Amazon Redshift para usá-lo. Em seguida, pode começar imediatamente a consultar esses dados juntamente com tarefas do Amazon EMR. Portanto, se você já estiver usando o EMR para processar um grande datastore, poderá usar o Redshift Spectrum para consultar simultaneamente esses dados sem interferir nas tarefas do Amazon EMR.

Serviços de consulta, data warehouses e estruturas complexas de processamento de dados têm todos sua utilidade específica e são usados para coisas diferentes. Você só precisa escolher a ferramenta certa para a tarefa.

P: Quando devo usar o Amazon Athena em vez do Amazon Redshift Spectrum?

O Amazon Athena é um serviço de consultas interativas que facilita a análise de dados no Amazon S3 usando SQL padrão. O Athena é fácil de usar. Basta apontar para os dados no S3, definir o esquema e iniciar as consultas usando SQL padrão.

O Redshift Spectrum é um recurso do Amazon Redshift. Se você precisa analisar os dados acessados com frequência com a mais alta performance e Acordo de Nível de Serviço (SLA) estrito, você deve usar o Amazon Redshift. Você pode usar o Redshift Spectrum para estender as consultas do Amazon Redshift para dados acessados com menos frequência em seu data lake do Amazon S3. Além disso, terá a liberdade de armazenar dados onde quiser, no formato que quiser, e disponibilizá-los para processamento quando forem necessários.

P: Por que eu deveria usar o Amazon Redshift em vez de executar meu próprio cluster de data warehouse MPP no Amazon EC2?

O Amazon Redshift gerencia automaticamente várias tarefas demoradas associadas ao gerenciamento de seu próprio data warehouse, como:
  • Configuração: com o Amazon Redshift, basta criar um cluster de data warehouse, definir um esquema e começar a carregar e consultar os dados. Você não precisa gerenciar o provisionamento, a configuração ou a aplicação de patches.
  • Durabilidade dos dados: o Amazon Redshift replica os dados dentro do cluster de data warehouse e executa continuamente o backup dos dados para o Amazon S3, que foi projetado para oferecer onze noves de durabilidade. O Amazon Redshift espelha os dados de cada unidade para outros nós dentro do seu cluster. Se uma unidade falhar, suas consultas continuarão com um ligeiro aumento de latência enquanto o Redshift reconstrói sua unidade das réplicas. Em caso de falhas no nó, o Amazon Redshift fornece automaticamente novos nós e começa a restaurar dados de outras unidades dentro do cluster ou do Amazon S3. Ele dá prioridade à restauração de seus dados mais consultados para que suas consultas mais executadas se tornem eficazes rapidamente.
  • Escalabilidade: você pode adicionar ou remover nós do cluster de data warehouse do Amazon Redshift com uma única chamada de API ou com alguns cliques no Console de Gerenciamento da AWS para acompanhar a evolução das necessidades de capacidade e performance. Você também pode programar operações de escalabilidade e redimensionamento usando o recurso de programação do Amazon Redshift.
  • Atualizações e correções automáticas: o Amazon Redshift aplica automaticamente atualizações e patches no data warehouse para que você possa se concentrar nas aplicações, e não na administração.
  • Recurso de consulta na escala de exabytes: o Amazon Redshift Spectrum permite que você execute consultas em exabytes de dados no Amazon S3. Não há necessidade de carregamento nem ETL. Mesmo que você não armazene nenhum dado no Amazon Redshift, poderá usar o Redshift Spectrum para consultar conjuntos de dados de até um exabyte no Amazon S3.

P: Como faço para criar e acessar um cluster de data warehouse do Amazon Redshift?

Você pode criar facilmente um cluster de data warehouse do Amazon Redshift usando o Console de Gerenciamento da AWS ou as APIs do Amazon Redshift. Você pode começar com um data warehouse de um único nó e 160 GB e escalar até petabytes ou mais com apenas alguns cliques no Console AWS ou uma única chamada de API.

A configuração de nó único, que é mais adequada para workloads de avaliação ou desenvolvimento/teste, permite que você inicie o Amazon Redshift com rapidez e economia, além de escalar para uma configuração de vários nós, à medida que suas necessidades aumentam. Um cluster de data warehouse do Redshift pode conter de 1 a 128 nós de computação, dependendo do tipo de nó. Para o tipo de nó da última geração, RA3, o número mínimo de nós é dois. Para obter detalhes, consulte a documentação.

A configuração de vários nós exige um nó principal, que gerencia conexões de clientes e recebe consultas, e dois nós computacionais, que armazenam dados e realizam atividades de pesquisa e computação. O nó líder, que é do mesmo tamanho que o nó de computação, é provisionado automaticamente e você não é cobrado por isso.

Basta especificar sua zona de disponibilidade preferencial (opcional), o número de nós, os tipos de nós, um nome e uma senha primários, grupos de segurança, suas preferências para retenção de backup e outras configurações de sistema. Depois que você escolher a configuração desejada, o Amazon Redshift provisionará os recursos exigidos e configurará o cluster de data warehouse.

Quando seu cluster de data warehouse estiver disponível, você poderá recuperar o endpoint e a string de conexão JDBC e ODBC correspondentes no Console de Gerenciamento da AWS ou usando as APIs do Redshift. Você pode utilizar esta string de conexão com sua ferramenta de banco de dados favorita, linguagem de programação ou ferramenta de Business Intelligence (BI). Será necessário autorizar solicitações de rede para o cluster de data warehouse em execução. Para obter uma explicação mais detalhada, consulte nosso Guia de conceitos básicos.

P: Por que devo usar o Amazon Redshift Spatial?

O Amazon Redshift espacial oferece análises baseadas em localização para insights valiosos de seus dados. Ele integra perfeitamente dados espaciais e de negócios para fornecer análises para a tomada de decisões. O Amazon Redshift iniciou a compatibilidade com o processamento de dados espaciais nativos em novembro de 2019, com um tipo de dado polimórfico GEOMETRY e várias funções espaciais SQL importantes. Agora oferecemos compatibilidade com tipo de dado GEOGRAPHY, e nossa biblioteca de funções espaciais SQL cresceu para 80. Temos compatibilidade com todos os padrões e tipos de dados espaciais comuns, incluindo Shapefiles, GeoJSON, WKT, WKB, eWKT e eWKB. Para saber mais, acesse a página de documentação no Tutorial espacial do Amazon Redshift.

P: O que é o aprimoramento do performance da consulta fria e o que o Amazon Redshift faz para aprimorar a performance da consulta fria?

O Amazon Redshift pode processar consultas até duas vezes mais rápido quando elas precisam ser compiladas. Esta melhoria oferece melhor performance de consulta quando você cria um novo cluster Redshift, a bordo de uma nova workload em um cluster existente ou após uma atualização de software de um cluster existente. Essas melhorias de performance de consulta estão disponíveis sem custo adicional e nenhuma ação é necessária para habilitá-las em seus clusters.

Com a performance de consulta fria, as compilações de consulta são escaladas para um serviço de compilação sem servidor além dos recursos de computação do nó líder de seu cluster. O Amazon Redshift é compatível com um cache ilimitado para armazenar objetos compilados, a fim de aumentar as ocorrências de cache de 99,60% para 99,95% quando as consultas essenciais à missão são enviadas ao Amazon Redshift.

Quando as consultas são enviadas ao Amazon Redshift, o mecanismo de execução da consulta a compila em código de máquina e a distribui para os nós do cluster. O código compilado é executado mais rápido porque elimina a sobrecarga do uso de um intérprete. Para um novo cluster sem cache de código ou após a atualização de um cluster existente com a versão mais recente, o cache de código é liberado e as consultas devem ser submetidas à compilação de consultas. Como resultado, a latência de uma consulta pode variar, o que pode não atender aos requisitos de algumas cargas de trabalho. Com essa atualização, o cache ilimitado minimiza a necessidade de compilar código e, quando a compilação é necessária, uma fazenda de compilação escalável a realiza em paralelo para acelerar as workloads. A magnitude do aumento da velocidade depende da complexidade e da simultaneidade da workload. Para saber mais sobre a compilação de código, consulte o Processamento de Consulta no Guia do desenvolvedor de banco de dados.

Sem servidor

P: O que é Amazon Redshift Serverless (previsualização)?

O Amazon Redshift Serverless (previsualização) é uma opção sem servidor do Amazon Redshift que facilita executar e escalar análises em segundos, sem a necessidade de configurar e gerenciar a infraestrutura de data warehouse. Com o Redshift Serverless, qualquer usuário pode obter insights dos dados simplesmente carregando e consultando dados no data warehouse, isso inclui analistas de dados, desenvolvedores, profissionais de negócios e cientistas de dados.

P: Como começo a usar o Amazon Redshift Serverless (previsualização)?

Com apenas alguns cliques no Console de Gerenciamento da AWS, você pode escolher “configure Amazon Redshift Serverless” (“configurar Amazon Redshift Serverless”) e começar a consultar dados. Você pode tirar proveito de conjuntos de dados de amostra pré-carregados, como dados meteorológicos, dados de censo e conjuntos de dados de referência, junto de consultas de amostra, para iniciar a análise imediatamente. Você pode criar bancos de dados, esquemas e tabelas, carregar seus próprios dados do Amazon S3, acessar dados em compartilhamentos do Amazon Redshift ou restaurar um snapshot de cluster provisionado do Redshift. Você também pode consultar dados diretamente em formatos abertos (como Parquet ou ORC) no data lake do Amazon S3 ou consultar dados em bancos de dados operacionais, como Amazon Aurora, Amazon RDS PostgreSQL e MySQL.

P: Quais recursos o Amazon Redshift Serverless (previsualização) oferece?

Os benefícios oferecidos pelo Amazon Redshift Serverless incluem:

  • A capacidade de obter insights rapidamente sem provisionar e gerenciar clusters.
  • Escalabilidade inteligente e automática com base nas demandas de workload, sem a necessidade de provisionar recursos em excesso.
  • Disponibilidade de serviço contínuo para escalabilidade e atualizações de versão.
  • Performance de consulta rápida e pronta para uso para dados carregados no data warehouse, formatos abertos no data lake do Amazon S3 e dados em bancos de dados operacionais sem a necessidade de ajuste do banco de dados.
  • Análise avançada de SQL, durabilidade e garantias transacionais do Amazon Redshift.
  • Eficiência de custos, pagando apenas pela capacidade usada e redução da complexidade do data warehouse.

P: Quais são os benefícios de usar o Amazon Redshift Serverless (previsualização)? 

Se você não tem experiência em gerenciamento de data warehouse, não precisa se preocupar em instalar, configurar, gerenciar clusters ou ajustar o warehouse. Você pode se concentrar em derivar insights significativos dos dados ou entregar os principais resultados de negócios por meio de dados. Você paga apenas pelo que usa, mantendo os custos gerenciáveis. Você continua a se beneficiar de toda a performance de alto nível do Amazon Redshift, recursos avançados do SQL, integração perfeita com data lakes e data warehouses operacionais e recursos integrados de análise preditiva e compartilhamento de dados. Se você precisa de um controle detalhado de seu data warehouse, pode provisionar clusters do Redshift.

P: Como o Amazon Redshift Serverless (previsualização) funciona com outros serviços da AWS?

Você pode continuar a usar toda a funcionalidade analítica avançada do Amazon Redshift, como junções complexas, consultas diretas a dados no data lake e bancos de dados operacionais do Amazon S3, visualizações materializadas, procedimentos armazenados, suporte a dados semiestruturados e ML, assim como alta performance em escala. Todos os serviços relacionados com os quais o Amazon Redshift se integra (como Amazon Kinesis, AWS Lambda, Amazon QuickSight, Amazon SageMaker, Amazon EMR, AWS Lake Formation e AWS Glue) continuam a funcionar com o Amazon Redshift Serverless.

P: Com quais casos de uso posso lidar com o Amazon Redshift Serverless (previsualização)?

Você pode continuar executando todos os casos de uso de análise. Com um fluxo de trabalho de introdução simples, escalabilidade automática e a capacidade de pagar pelo uso, a experiência sem servidor do Amazon Redshift agora torna ainda mais fácil e econômica para a execução de ambientes de desenvolvimento e teste que precisam começar rapidamente, análises de negócios ad-hoc, workloads com necessidades de computação variadas e imprevisíveis e workloads intermitentes ou esporádicas.

P: Em que o Amazon Athena é diferente do Amazon Redshift Serverless?

O Amazon Athena e o Amazon Redshift atendem a diferentes necessidades e casos de uso, mesmo se ambos os serviços forem sem servidor. Um data warehouse como o Amazon Redshift é a melhor escolha se você precisa da melhor performance de preço para workloads de BI e análises complexas que exigem alta performance em qualquer escala. O Amazon Redshift também oferece a capacidade de consultar dados armazenados no Amazon S3 e combiná-los com os dados armazenados no data warehouse. Em comparação, o Athena é mais adequado para análise interativa em qualquer armazenamento de dados sem se preocupar com a ingestão e formatação de dados. A análise do Athena é desacoplada do armazenamento, portanto, oferece flexibilidade para usar outras ferramentas e serviços, como Spark, Flink e Kafka, para enriquecer ainda mais a análise e o processamento de dados nos mesmos dados analisados pelo Athena.

Compartilhamento de dados

P: O que é compartilhamento de dados do Amazon Redshift

O compartilhamento de dados do Amazon Redshift permite compartilhar dados ao vivo no Amazon Redshift para compartilhar dados com segurança e facilidade, com a finalidade de leitura com outros clusters Redshift dentro e entre contas da AWS e com serviços analíticos da AWS usando data lake. Com o compartilhamento de dados, você pode consultar instantaneamente dados ao vivo de qualquer cluster do Redshift, desde que eles tenham permissão de acesso, sem a complexidade e os atrasos associados às cópias e à movimentação de dados. O Amazon Redshift permite compartilhar e consultar dados ao vivo em toda a organização, contas e até mesmo regiões.

P: Quais são os casos de uso para compartilhamento de dados?

Os principais casos de uso incluem:

  • Um cluster ETL central que compartilha dados com muitos clusters de BI/análise para fornecer isolamento da workload de leitura e capacidade de carga opcional.
  • Um provedor de dados que compartilha dados com consumidores externos.
  • Compartilhamento de conjuntos de dados comuns, como clientes, produtos em diferentes grupos de negócios e colaboração para ampla análise e ciência de dados.
  • Descentralização de um data warehouse para simplificar o gerenciamento.
  • Compartilhamento de dados entre ambientes de desenvolvimento, teste e produção.
  • Acesso a dados do Redshift de outros serviços analíticos da AWS.

P: O que são consultas entre bancos de dados no Amazon Redshift?

Com essas consultas, você pode consultar e unir consultas sem problemas a partir de qualquer banco de dados Redshift ao qual tenha acesso, não importando a qual banco de dados está conectado. Isso pode incluir bancos de dados locais no cluster e também conjuntos de dados compartilhados disponíveis em clusters remotos. As consultas entre bancos de dados fornecem flexibilidade para organizar os dados como bancos de dados separados para dar suporte a configurações multlocatárias.

P: O que é AWS Data Exchange for Amazon Redshift?

O AWS Data Exchange for Amazon Redshift permite encontrar e assinar dados de terceiros no AWS Data Exchange que você pode consultar em um data warehouse do Redshift em minutos. Você também pode licenciar facilmente seus dados no Amazon Redshift por meio do AWS Data Exchange. O acesso é concedido automaticamente quando um cliente assina seus dados e revogado automaticamente quando a assinatura termina. As faturas são geradas automaticamente, e os pagamentos são coletados e desembolsados automaticamente por meio da AWS. Esse recurso permite consultar, analisar e criar aplicações rapidamente com dados de terceiros.

P: Quem são os principais usuários do AWS Data Exchange?

O AWS Data Exchange facilita para os clientes da AWS trocar e usar dados de terceiros com segurança na AWS. Analistas de dados, gerentes de produto, gerentes de portfólio, cientistas de dados, quants, técnicos de testes clínicos e desenvolvedores em quase todos os setores gostariam de acessar mais dados para conduzir análises, treinar modelos de ML e tomar decisões orientadas por dados. Mas não há um lugar único para encontrar dados de vários provedores nem consistência em como os provedores entregam dados, provocando uma mistura de mídia física enviada, credenciais de FTP e chamadas de API sob medida. Por outro lado, muitas organizações gostariam de disponibilizar seus dados para fins comerciais ou de pesquisa, mas é muito difícil e caro construir e manter a entrega de dados, direitos e tecnologia de cobrança, o que reduz ainda mais o fornecimento de dados valiosos.

P: Em quais regiões da AWS o AWS Data Exchange está disponível?

O AWS Data Exchange tem um único catálogo de produtos disponível oferecido globalmente por provedores. Você pode ver o mesmo catálogo, independentemente da região que está usando. Os recursos adjacentes ao produto (conjuntos de dados, revisões e ativos) são recursos regionais gerenciados programaticamente ou por meio do console do AWS Data Exchange em regiões específicas da AWS. Consulte a tabela Disponibilidade regional da AWS para ver uma lista das regiões da AWS em que o AWS Data Exchange está disponível no momento.

P: Qual é a diferença entre AWS Data Exchange e o registro de dados abertos na AWS?

Existem cinco diferenças principais entre o AWS Data Exchange e o registro de dados abertos na AWS:

  • Primeiro, o AWS Data Exchange é compatível com produtos de dados gratuitos e comerciais, com a aplicação de qualquer taxa comercial à sua fatura da AWS. O registro de dados abertos na AWS oferece acesso a uma lista selecionada de conjuntos de dados abertos e gratuitos. 
  • Em segundo lugar, o AWS Data Exchange exige que você concorde explicitamente com o Plano de assinatura de dados que define os termos que o provedor de dados definiu ao publicar seu produto. Os dados do registro de dados abertos na AWS não possuem termos de uso. 
  • Em terceiro, você deve usar a API do AWS Data Exchange para copiar dados do AWS Data Exchange para o local do Amazon S3 desejado. O registro de dados abertos em conjuntos de dados da AWS é acessado via APIs do S3. 
  • Em quarto lugar, o AWS Data Exchange oferece aos provedores de dados acesso a relatórios diários, semanais e mensais detalhando a atividade de assinatura. Com o registro de dados abertos na AWS, os provedores de dados devem analisar seus próprios registros para monitorar o uso de dados. 
  • Por fim, para se tornar um provedor de dados no AWS Data Exchange, os clientes qualificados devem se inscrever como provedor de dados no AWS Marketplace para serem qualificados para listar produtos gratuitos e comerciais. No entanto, qualquer cliente pode adicionar dados gratuitos ao registro de dados abertos na AWS por meio do GitHub e se inscrever no Programa de conjunto de dados públicos da AWS para ter patrocínio da AWS para os custos de armazenamento e largura de banda de conjuntos de dados abertos selecionados.

P: O que é o Amazon Redshift Query Editor V2?

O Amazon Redshift Query Editor v2 é uma aplicação cliente SQL baseada na Web que pode ser usada para criar e executar consultas no data warehouse do Redshift. Você pode visualizar os resultados da consulta com gráficos e colaborar compartilhando consultas com membros da equipe. O Query Editor v2 oferece vários recursos, como a capacidade de navegar e explorar vários bancos de dados, tabelas externas, visualizações, procedimentos armazenados e funções definidas pelo usuário. Ele fornece assistentes para criar esquemas, tabelas e funções definidas pelo usuário. Você também pode carregar dados no Amazon Redshift do Amazon S3 usando um assistente visual. Ele simplifica o gerenciamento e a colaboração de consultas salvas. Você também pode obter insights mais rápidos, visualizando os resultados com um único clique. Com a versão de previsualização mais recente, os analistas de dados podem compartilhar consultas e colaborar por meio de uma interface comum chamada Query Doc, que os permite incorporar código/consultas SQL, anotações, resultados e visualizações.

P: Por que devo usar o Query Editor V2?

Se você é analista de dados, cientista de dados ou engenheiro de dados, agora pode usar o Query Editor V2 para navegar, criar esquemas e tabelas, carregar dados e criar consultas SQL, procedimentos armazenados e UDFs por meio de uma interface baseada na Web. Você também pode realizar uma análise visual dos dados no local sem sair da ferramenta. Além de agendar suas consultas de longa duração ou consultas para uma finalidade de relatório simples, como relatórios diários.

P: Quais recursos estão incluídos no Query Editor v2?

O Query Editor v2 permite que você:

  • Crie visualmente esquemas e tabelas e carregue dados do Amazon S3.
  • Crie consultas e obtenha insights mais rápido com um editor intuitivo para a criação de consultas SQL.
  • Realize a análise dos resultados e baixe os resultados nos formatos JSON/CSV para seu desktop.
  • Gerencie automaticamente diferentes versões de consultas.
  • Colabore com outros usuários para compartilhar consultas, análises e resultados.
  • Execute consultas em segundo plano, mesmo se o navegador estiver fechado.

Escalabilidade e simultaneidade

P: Como faço para escalar o tamanho e a performance de um cluster de data warehouse do Amazon Redshift?

Se quiser aumentar a performance das consultas ou responder à utilização excessiva de CPU, memória ou E/S, você poderá aumentar o número de nós do cluster de data warehouse usando o redimensionamento elástico por meio do Console de Gerenciamento da AWS ou da API ModifyCluster. Quando você modifica um cluster de data warehouse, as alterações solicitadas são aplicadas imediatamente. Métricas de utilização computacional, utilização de armazenamento e tráfego de leitura/gravação para o seu cluster de data warehouse do Redshift estão disponíveis gratuitamente no Console de Gerenciamento da AWS ou nas APIs do Amazon CloudWatch. Também é possível adicionar métricas definidas pelo usuário por meio da funcionalidade de métricas personalizadas do Amazon CloudWatch.

Com o recurso de escalabilidade de simultaneidade, você pode oferecer suporte a um número praticamente ilimitado de usuários e consultas simultâneos, com uma performance de consulta rápida e consistente. Quando a escalabilidade de simultaneidade é habilitada, o Amazon Redshift adiciona automaticamente capacidade de cluster quando suas experiências de cluster aumentam no enfileiramento de consultas.

Com o Amazon Redshift Spectrum, é possível executar vários clusters do Redshift acessando os mesmos dados no Amazon S3. Você poderá usar clusters diversos para casos de uso diferentes. Por exemplo, é possível usar um cluster para a geração de relatórios padrão e outro para consultas de ciência de dados. Equipes de marketing podem usar seus próprios clusters diferentes dos clusters de equipes de operações. O Redshift Spectrum distribui automaticamente a execução da consulta para vários operadores do Redshift Spectrum de um grupo de recursos compartilhados para ler e processar dados do Amazon S3, e retornará os resultados para o cluster do Redshift para executar qualquer processamento remanescente.

P: O cluster de data warehouse continua disponível durante operações de escalabilidade?

Depende. Quando você usa o recurso de escalabilidade de simultaneidade, o cluster fica totalmente disponível para leitura e gravação durante a alteração de escala da simultaneidade. Com o redimensionamento elástico, o cluster fica indisponível por quatro a oito minutos do período de redimensionamento. Com a elasticidade de armazenamento do Redshift RA3, o cluster fica totalmente disponível e os dados são movidos automaticamente entre o armazenamento gerenciado e os nós de computação.

P: Quando devo usar a escalabilidade de simultaneidade e quando devo usar o compartilhamento de dados?

O compartilhamento de dados e a escalabilidade de simultaneidade são recursos complementares. Na escalabilidade de simultaneidade, o Amazon Redshift permite escalar automaticamente uma ou mais workloads em um único cluster para lidar com a alta simultaneidade e os picos de consulta. O Amazon Redshift prepara de forma elástica e automática a capacidade em segundos para lidar com os aumentos de atividade do usuário e diminui quando a atividade acalma. As aplicações continuam a interagir com o Amazon Redshift usando um único endpoint da aplicação. O compartilhamento de dados permite escalar diversas workloads com implantações com vários clusters e várias contas. Isso permite o isolamento da workload, a colaboração de cobrança entre grupos em ambientes descentralizados e a capacidade de oferecer dados como um serviço para interessados internos e externos. Você pode habilitar a escalabilidade de simultaneidade nos clusters do produtor e do consumidor do compartilhamento de dados.

P: Como gerencio recursos para garantir que meu cluster do Amazon Redshift possa provisionar performance rápida e consistente durante períodos de alta simultaneidade?

Um data warehouse típico tem variação significativa no uso de consultas simultâneas ao longo de um dia. É mais econômico adicionar recursos apenas durante o período em que eles são necessários, em vez de provisionar a demanda máxima. O Amazon Redshift lida com isso automaticamente por você.

A escalabilidade de simultaneidade é um recurso no Amazon Redshift que oferece performance de consulta rápida e consistente, mesmo com milhares de consultas simultâneas. Com esse recurso, o Amazon Redshift adiciona automaticamente capacidade temporária quando necessária para lidar com uma demanda pesada. O Amazon Redshift roteia automaticamente consultas para escalabilidade de clusters, que são provisionados em segundos e começam a processar as consultas imediatamente.

Esse recurso é gratuito para a maioria dos clientes. Cada cluster do Amazon Redshift recebe até uma hora de créditos de escalabilidade da simultaneidade gratuita por dia. Isso proporciona previsibilidade dos custos mensais, mesmo durante períodos de demanda analítica oscilante.

P: O que é o redimensionamento elástico e qual a diferença entre ele e a escalabilidade de simultaneidade?

O Redimensionamento elástico adiciona e remove nós de um único cluster do Redshift em minutos para gerenciar a taxa de transferência de consulta. Por exemplo, uma workload de ETL para determinadas horas em um relatório do dia ou de fim de mês pode precisar de recursos adicionais do Amazon Redshift para conclusão no prazo. A escalabilidade de simultaneidade adiciona recursos de cluster para aumentar a simultaneidade geral da consulta.

P: Posso acessar diretamente os clusters de escalabilidade de simultaneidade?

Não. A escalabilidade de simultaneidade é um grupo amplamente escalável de recursos do Amazon Redshift ao qual os clientes não têm acesso direto.

Integração e carregamento de dados

P: Como posso carregar dados para o meu data warehouse do Amazon Redshift?

Você pode carregar dados no Amazon Redshift de diversas fontes de dados, incluindo os serviços Amazon S3, Amazon RDSAmazon DynamoDB, Amazon EMR, AWS Glue, AWS Data Pipeline, bem como de qualquer host habilitado para SSH no Amazon EC2 ou no local. O Amazon Redshift tenta carregar os dados em paralelo em cada nó computacional para maximizar a taxa de consumo de dados em seu cluster de data warehouse. Os clientes podem se conectar ao Amazon Redshift usando ODBC ou JDBC e emitir comandos “insert” do SQL para inserir os dados. Observe que esse procedimento é mais lento do que usar o S3 ou o DynamoDB, pois esses métodos carregam dados em paralelo para cada nó computacional, enquanto as instruções de inserção do SQL carregam dados por meio de um único nó principal. Para obter mais detalhes sobre como carregar dados para o Amazon Redshift, consulte nosso Guia de conceitos básicos.

P: Como posso carregar dados de fontes de dados existentes do Amazon RDS, Amazon EMR, Amazon DynamoDB e Amazon EC2 para o Amazon Redshift?

Você pode usar nosso comando COPY para carregar dados em paralelo diretamente no Amazon Redshift do Amazon EMR, do Amazon DynamoDB ou de qualquer host habilitado para SSH. O Amazon Redshift Spectrum também permite carregar dados do Amazon S3 para um cluster com um simples comando INSERT INTO. Com isso, é possível carregar dados de vários formatos, como Parquet e ORC, no seu cluster. Observe que, se você usar essa abordagem, acumulará cobranças do Redshift Spectrum para os dados verificados no Amazon S3. 

O AWS Data Pipeline fornece uma solução de alta performance, confiável e tolerante a falhas, para carregar dados de uma variedade de fontes de dados da AWS, como Amazon RDS para Redshift. Você pode usar o AWS Data Pipeline para especificar a origem dos dados e as transformações de dados desejadas, e então executar um script de importação predefinido para carregar dados no Amazon Redshift. Além disso, o AWS Glue é um serviço totalmente gerenciado do tipo Extract, Transform and Load (ETL – Extrair, transformar e carregar) que permite que os clientes preparem e carreguem facilmente dados para análises. É possível criar e executar um trabalho de ETL do AWS Glue com apenas alguns cliques no Console de Gerenciamento da AWS. Além disso, muitas empresas de ETL certificaram o Amazon Redshift para uso com suas ferramentas, e diversas delas estão oferecendo testes gratuitos para ajudar a começar a carregar seus dados. Alguns desses recursos também implementaram integração mais profunda com o console do Redshift para facilitar a descoberta e o monitoramento de pipelines de dados no Amazon Redshift de uma grande variedade de fontes de terceiros.

P: Tenho vários dados para carregamento inicial para o Amazon Redshift. A transferência pela Internet seria muito demorada. Como posso carregar esses dados?

O AWS Snowball pode ser usado para transferir os dados para o Amazon S3 usando dispositivos de armazenamento portáteis. Além disso, você pode utilizar o AWS Direct Connect para estabelecer uma conexão de rede privada entre sua rede ou o datacenter e a AWS. Você pode escolher portas de conexão de 1 Gbit/s ou 10 GBit/s para transferir os dados.

Segurança

P: Como o Amazon Redshift mantém meus dados seguros?

O Amazon Redshift oferece suporte à segurança líder do setor com integração do IAM da AWS, federação de identidade para SSO (Logon único), autenticação multifatorial, controle de acesso no nível da coluna, Amazon Virtual Private Cloud (Amazon VPC) e fornece integração do KMS da AWS para proteger seus dados em trânsito e em repouso. O Amazon Redshift criptografa e mantém seus dados seguros em trânsito e ociosos usando técnicas de criptografia padrão da indústria. Para manter os dados seguros em trânsito, o Amazon Redshift tem suporte para conexões habilitadas por SSL entre o aplicativo cliente e seu cluster de data warehouse do Redshift. Para manter seus dados ociosos seguros, o Amazon Redshift criptografa cada bloco usando AES-256 acelerado por hardware conforme é gravado no disco. Isso ocorre a um nível baixo no subsistema de E/S, que criptografa tudo o que está gravado no disco, incluindo resultados de consultas intermediárias. Os blocos passam por backup igualmente, o que significa que os backups também são criptografados. Por padrão, o Amazon Redshift cuida do gerenciamento de chaves, mas você pode optar por gerenciar suas chaves usando o AWS Key Management Service. Todos os recursos de segurança do Amazon Redshift são oferecidos sem custos adicionais. O Redshift Spectrum oferece suporte a SSE (Server Side Encryption) do Amazon S3 usando a chave padrão da sua conta gerenciada pelo AWS Key Management Service (KMS).

P: O Redshift suporta controles de acesso granulares, como segurança no nível da coluna?

Sim. Os controles de segurança de linha e coluna granulares garantem que os usuários vejam somente os dados aos quais têm acesso. O Amazon Redshift oferece suporte ao controle de acesso no nível da coluna para tabelas locais, para que você possa controlar o acesso a colunas individuais de uma tabela ou exibição, concedendo/revogando privilégios no nível da coluna a um usuário ou grupo de usuários. O Redshift é integrado ao AWS Lake Formation, assegurando que os controles de acesso no nível da coluna do Lake Formation também são aplicados às consultas do Redshift nos dados do data lake.

P: O Amazon Redshift suporta o mascaramento ou a tokenização dos dados?

As funções definidas pelo usuário (UDFs) do AWS Lambda permitem usar uma função do AWS Lambda como UDF no Amazon Redshift e chamá-la a partir das consultas SQL do Redshift. Essa funcionalidade permite escrever extensões personalizadas para sua consulta SQL para obter uma integração maior com outros serviços ou produtos de terceiros. Você pode escrever Lambda UDFs para permitir a tokenização externa, o mascaramento dos dados, a identificação ou não dos dados integrando com revendedores como Protegrity e proteger ou não dados sigilosos com base nas permissões de um usuário e grupos na hora da consulta.

P: O Amazon Redshift é compatível com o logon único?

Sim. Os clientes que desejam usar seus provedores de identidade corporativa, como o Microsoft Azure Active Directory, os Serviços de Federação do Active Directory, Okta, Ping Federate ou outros provedores de identidade compatíveis com SAML, podem configurar o Amazon Redshift para fornecer logon único.

P: Como o Amazon Redshift é compatível com o logon único com o Microsoft Azure Active Directory?

É possível fazer login no cluster do Amazon Redshift com identidades do Microsoft Azure Active Directory (AD). Isso permite que você possa entrar no Redshift sem duplicar as identidades do Azure Active Directory no Redshift.

P: O Amazon Redshift agora oferece suporte à autenticação multifator (MFA).

Sim. Você pode usar a autenticação multifator (MFA) para obter segurança adicional ao se autenticar no cluster do Amazon Redshift.

P: Posso usar o Amazon Redshift no Amazon Virtual Private Cloud (Amazon VPC)?

Sim. É possível usar o Amazon Redshift como parte de sua configuração VPC. Com o Amazon VPC, é possível definir uma topologia de rede virtual que lembra muito uma rede tradicional que você poderá operar no seu próprio datacenter. Isso proporciona controle total sobre quem pode acessar seu cluster de data warehouse do Redshift. Você pode usar o Redshift Spectrum com um cluster do Redshift que faz parte de uma Amazon VPC.

O Amazon Redshift é compatível com endpoints da VPC (desenvolvido pelo AWS PrivateLink) para se conectar ao cluster do Redshift em uma VPC. Com um endpoint gerenciado pelo Amazon Redshift, você pode acessar de maneira privada o seu data warehouse do Redshift dentro da sua VPC a partir das aplicações cliente em outra VPC na mesma conta ou em outra conta da AWS e em execução on-premises sem usar IPs públicos ou exigir tráfego para atravessar a Internet.

P: Posso acessar diretamente nós de computação do Amazon Redshift?

Não. Seus nós computacionais do Amazon Redshift estão em um espaço de rede privado e só podem ser acessados a partir do nó principal de seu cluster de data warehouse. Isso oferece uma camada adicional de segurança para os seus dados.

P: O Redshift é compatível com controle de acesso baseado em função no banco de dados? (pré-anúncio)

O Amazon Redshift terá compatibilidade com controle de acesso baseado em função em breve.

Disponibilidade e resiliência

P: O que acontece com a disponibilidade e a durabilidade do meu cluster de data warehouse em caso de falha de uma unidade em um dos nós?

Nesses casos, o Amazon Redshift detectará uma falha de unidade ou nó e substituirá o nó do cluster automaticamente. Em clusters Dense Compute (DC) e Dense Storage (DS2), os dados são armazenados nos nós de computação para garantir alta durabilidade dos dados. Quando um nó é substituído, os dados são atualizados a partir da cópia espelhada no outro nó.

Os clusters do RA3 e do Redshift sem servidor não são afetados da mesma forma, uma vez que os dados são armazenados no Amazon S3 e a unidade local é usada apenas como cache de dados. No caso de substituição de um nó, os dados são recuperados do Amazon S3. Amazon S3 oferece garantia de resiliência dos dados de 99,9999%. No caso de uma falha de vários nós ou de um cluster completo, uma cópia atualizada dos dados está disponível no S3 e o cluster pode ser recuperado na mesma AZ ou em outra AZ sem qualquer perda de dados.

O cluster de data warehouse ficará indisponível para consultas e atualizações até um nó de substituição ser provisionado e adicionado ao banco de dados. O Amazon Redshift disponibiliza o nó de substituição imediatamente e carrega seus dados acessados com mais frequência do Amazon S3 no RA3 e sem servidor, e do espelho no DS2 e Amazon Dense Compute (DC2). Clusters de um único nó DC2 e DS2 não são compatíveis com replicação de dados. Em caso de falha em uma unidade, será necessário restaurar o cluster de um snapshot no S3. Os clusters do RA3.XLPLUS de nó único podem ser recriados sem perda de dados usando os dados armazenados no S3 com a ajuda do AWS Support. Recomendamos o uso de pelo menos dois nós para produção para maximizar a disponibilidade.

P: O que acontece com a disponibilidade e a resiliência de dados de um cluster de data warehouse em caso de falha de um nó individual?

O Amazon Redshift vai automaticamente detectar e substituir um nó com falha em seu cluster de data warehouse. O cluster de data warehouse ficará indisponível para consultas e atualizações até um nó de substituição ser provisionado e adicionado ao banco de dados. O Amazon Redshift disponibiliza imediatamente o nó de substituição e carrega os dados acessados com mais frequência do S3 para permitir que você volte a consultar os dados com a maior rapidez possível. Clusters de um único nó não oferecem suporte à replicação de dados. Em caso de falha em uma unidade, será necessário restaurar o cluster do snapshot no S3. Recomendamos usar pelo menos dois nós para produção.

P: O que acontece com a disponibilidade do meu cluster do data warehouse e a durabilidade dos dados se a zona de disponibilidade (AZ) desse cluster tem uma interrupção?

Se a zona de disponibilidade do cluster do data warehouse do Amazon Redshift ficar inacessível, o Amazon Redshift moverá automaticamente seu cluster para outra zona de disponibilidade AWS sem nenhuma perda de dados ou mudanças na aplicação. Para ativar isso, você deve habilitar a capacidade de realocação nas definições de configuração do cluster.

P: O Amazon Redshift oferece suporte a implantações Multi-AZ?

Atualmente, o Amazon Redshift é compatível somente para implantações Mono-AZ. Para definir uma configuração de recuperação de desastre (DR), você pode habilitar a cópia do snapshot entre regiões em seu cluster. Isso replicará todos os snapshots de seu cluster para outra região da AWS. No caso de um evento de DR, os snapshots na região da réplica podem ser restaurados para criar um novo cluster. O Amazon Redshift também é compatível com o compartilhamento de dados entre regiões, em que um cluster de consumidor pode acessar dados ao vivo em um cluster de produtor em outra região. Ele é compatível apenas com Amazon Redshift Serverless e RA3.

Consultas e análises

P: O Amazon Redshift e o Redshift Spectrum são compatíveis com meu pacote de software BI e minhas ferramentas de ETL preferidos?

Sim, o Amazon Redshift utiliza o SQL padrão do setor e é acessado por drivers JDBC e ODBC padrão. Os drivers JDBC e ODBC personalizados para o Amazon Redshift estão disponíveis para download na guia Connect Client do console do Redshift. Validamos integrações com fornecedores de BI e ETL populares. Vários deles oferecem testes gratuitos para ajudar você a começar a carregar e analisar seus dados. Você também pode acessar o AWS Marketplace para implantar e configurar em poucos minutos soluções projetadas para funcionar com o Amazon Redshift.

O Amazon Redshift Spectrum é compatível com todas as ferramentas de cliente do Amazon Redshift. As ferramentas de cliente podem continuar a estabelecer conexão com o endpoint do cluster do Amazon Redshift usando as conexões ODBC ou JDBC. Não é exigida nenhuma alteração.

Você usa exatamente a mesma sintaxe de consulta e tem os mesmos recursos de consulta para acessar tabelas no Redshift Spectrum disponíveis para tabelas no armazenamento local de um cluster do Redshift. As tabelas externas são mencionadas usando o nome do esquema definido no comando CREATE EXTERNAL SCHEMA em que foram registradas.

P: Com quais formatos de dados e compactação o Amazon Redshift Spectrum é compatível?

No momento, o Amazon Redshift Spectrum é compatível com diversos formatos de dados de código aberto, inclusive Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text e TSV.

No momento, o Amazon Redshift Spectrum é competível com os formatos de compactação Gzip e Snappy.

P: O que acontece se uma tabela no armazenamento local tiver o mesmo nome de uma tabela externa?

Assim como ocorre com tabelas locais, você pode usar o nome do esquema para escolher exatamente aquele que deseja usando schema_name.table_name na sua consulta.

P: Eu uso um Hive Metastore para armazenar metadados sobre um data lake do S3. Posso usar o Redshift Spectrum?

Sim. O comando CREATE EXTERNAL SCHEMA aceita o Hive Metastore. No momento, não aceitamos o DDL no Hive Metastore.

P: Como faço para obter uma lista das tabelas externas de banco de dados em um cluster?

Você pode consultar a tabela do sistema SVV_EXTERNAL_TABLES para obter essas informações.

P: O Redshift suporta a capacidade de usar machine learning com o SQL?

Sim, o recurso Amazon Redshift ML facilita que os usuários do SQL criem, treinem e implantem modelos ML (machine learning) usando comandos do SQL conhecidos. O Amazon Redshift ML permite utilizar seus dados no Amazon Redshift com o Amazon SageMaker, um serviço de ML totalmente gerenciado. O Amazon Redshift é competível com aprendizado não supervisionado (K-Means) e aprendizado supervisionado (Autopilot, XGBoost, algoritmos MLP). Você também pode usar os serviços de IA para idiomas da AWS para traduzir, ocultar e analisar campos de texto em consultas SQL com funções pré-criadas do Lambda UDF – consulte a postagem do blog.

P: O Amazon Redshift fornece uma API para consultar dados?

O Amazon Redshift fornece uma Data API que permite acessar dados no Amazon Redshift sem complicações com todos os tipos de aplicações baseadas em serviços da Web nativos da nuvem, conteinerizadas e sem servidor, assim como aplicações baseadas em eventos. A API Data simplifica o acesso ao Amazon Redshift porque não é necessário configurar drivers e gerenciar conexões de banco de dados. Pelo contrário, você precisa executar comandos SQL para um cluster Amazon Redshift simplesmente chamando um endpoint da API protegido fornecido pela API Data. A Data API cuida do gerenciamento das conexões do banco de dados e do buffer dos dados. A Data API é assíncrona para que você possa recuperar seus resultados mais tarde. Os resultados da consulta são armazenados por 24 horas.

P: Quais tipos de credenciais posso usar com a Data API do Amazon Redshift?

A Data API suporta as credenciais IAM e o uso de uma chave secreta do AWS Secrets Manager. A Data API federa as credenciais AWS Identity and Access Management (IAM) para que você possa usar provedores como Okta ou Azure Active Directory, ou as credenciais do banco de dados armazenadas no Secrets Manager sem passar as credenciais do banco de dados nas chamadas da API.

P: Posso usar a Data API do Amazon Redshift a partir da AWS CLI?

Sim, você pode usar a Data API da AWS CLI usando a opção da linha de comando aws redshift-data.

P: A Data API do Redshift é integrada em outros serviços AWS?

Você pode usar a Data API de outros serviços, como AWS Lambda, AWS Cloud9, AWS AppSync e Amazon EventBridge.

P: Tenho que pagar separado para usar a Data API do Amazon Redshift?

Não há nenhuma cobrança separada para usar a API Data.

Backup e restauração

P: Como o Amazon Redshift faz o backup dos meus dados? Como faço para restaurar um cluster de um backup?

Clusters do RA3 do Amazon Redshift e do Amazon Redshift Serverless usam Redshift Managed Storage, que sempre tem a cópia mais recente dos dados disponíveis. Os clusters DS2 e DC2 espelham os dados no cluster para garantir que a cópia mais recente esteja disponível em caso de falha. Os backups são criados automaticamente em todos os tipos de cluster do Redshift e mantidos por 24 horas, e em pontos de recuperação sem servidor são fornecidos nas últimas 24 horas.

Você também pode criar seus próprios backups, que podem ser retidos indefinidamente. Esses backups podem ser criados a qualquer momento, e os backups automatizados do Amazon Redshift ou pontos de recuperação do Amazon Redshift Serverless podem ser convertidos em um backup do usuário para uma retenção mais longa.

O Amazon Redshift também pode replicar de forma assíncrona os snapshots ou pontos de recuperação para o Amazon S3 em outra região para recuperação de desastres.

Em um cluster DS2 ou DC2, o armazenamento de backup gratuito é limitado ao tamanho total de armazenamento nos nós no cluster de data warehouse e se aplica apenas aos clusters de data warehouse ativos.

Por exemplo, se você tiver um armazenamento de data warehouse total de 8 TB, forneceremos no máximo 8 TB de armazenamento de backup sem custos adicionais. Se você quiser ampliar o período de retenção de backup para mais de um dia, pode fazer isso usando o Console de Gerenciamento da AWS ou as APIs do Amazon Redshift. Para obter mais informações sobre snapshots automatizados, consulte o Guia de gerenciamento do Amazon Redshift.

O Amazon Redshift somente faz backup de dados alterados. Assim, a maioria dos snapshots usa apenas uma pequena quantidade do armazenamento de backup gratuito. Quando você precisa restaurar um backup, pode acessar todos os backups automatizados dentro da janela de retenção de backups. Após escolher um backup para a restauração, provisionaremos um novo cluster de data warehouse e restauraremos os dados nesse novo cluster.

P: Como faço para gerenciar a retenção de backups e snapshots automatizados?

Você pode usar o Console de Gerenciamento da AWS ou a API ModifyCluster para gerenciar o período de retenção de backups automatizados modificando o parâmetro RetentionPeriod. Se quiser desativar completamente os backups automatizados, você poderá configurar o período de retenção para 0 (não recomendado).

P: O que acontece com os backups se eu excluir um cluster de data warehouse?

Quando exclui um cluster de data warehouse, você pode especificar se um snapshot final será criado no momento da exclusão. Isso permite restaurar posteriormente o cluster de data warehouse excluído. Todos os snapshots manuais do cluster de data warehouse criados anteriormente serão retidos e cobrados de acordo com as taxas padrão do Amazon S3, a menos que você opte por excluí-los.

Monitoramento e manutenção

P: Como faço para monitorar a performance de um cluster de data warehouse do Amazon Redshift?

As métricas de utilização computacional, utilização de armazenamento e tráfego de leitura/gravação para o cluster de data warehouse do Amazon Redshift são disponibilizados gratuitamente no Console de Gerenciamento da AWS ou nas APIs do Amazon CloudWatch. Também é possível acrescentar outras métricas definidas pelo usuário por meio da funcionalidade de métricas personalizadas do Amazon CloudWatch. O Console de Gerenciamento da AWS oferece um painel de monitoramento que ajuda a monitorar a integridade e a performance de todos os clusters. O Amazon Redshift também fornece informações sobre a performance das consultas e do cluster, por meio do Console de gerenciamento da AWS. Essas informações permitem que você visualize quais usuários e consultas consomem mais recursos do sistema e diagnostique problemas de performance, visualizando planos de consulta e estatísticas de execução. Além disso, é possível visualizar a utilização de recursos de cada um dos nós computacionais para garantir que os dados e as consultas estejam bem balanceadas entre todos os nós.

P: O que é uma janela de manutenção? Um cluster de data warehouse continua disponível durante manutenções de software?

O Amazon Redshift executa periodicamente manutenções para aplicar correções, aprimoramentos e novos recursos ao seu cluster. Você pode alterar as janelas de manutenção programadas modificando o cluster por meio de programação ou usando o console do Redshift. Durante essas janelas de manutenção, o cluster do Amazon Redshift não está disponível para operações normais. Para obter mais informações sobre as janelas de manutenção e as programações por região, consulte Janelas de manutenção no Guia de gerenciamento do Amazon Redshift.

Saiba mais sobre a definição de preço do Amazon Redshift

Acesse a página de definição de preço
Pronto para criar?
Comece a usar o Amazon Redshift
Tem outras dúvidas?
Entre em contato conosco