O Amazon Redshift Spectrum permite que você execute consultas SQL do Amazon Redshift em exabytes de dados no Amazon S3. Com o Redshift Spectrum, você pode estender a capacidade de análise do Amazon Redshift além dos dados armazenados em discos locais no seu data warehouse para consultar grandes quantidades de dados não estruturados no "data lake" do Amazon S3, sem ter que carregar ou transformar nenhum dado. O Redshift Spectrum aplica uma otimização de consulta avançada, ajustando a escala do processamento em milhares de nós. Por conta disso, os resultados são rápidos, até mesmo com grandes conjuntos de dados e consultas complexas.

O Redshift Spectrum consulta diretamente dados no Amazon S3 utilizando os formatos de dados abertos que você já usa, incluindo Avro, CSV, Grok, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile e TSV. Como o Redshift Spectrum aceita a mesma sintaxe de SQL do Amazon Redshift, é possível executar consultas avançadas usando as mesmas ferramentas de BI (Business inteligence – Inteligência de negócios) que você usa atualmente. Também é possível executar consultas que abranjam os dados acessados com frequência armazenados localmente no Amazon Redshift e os conjuntos de dados completos armazenados de maneira econômica no Amazon S3.

O Redshift Spectrum oferece a você liberdade de armazenar dados onde desejar, no formato que quiser e tê-los disponíveis para processamento quando forem necessários. Não há pagamentos adiantados nem compromissos antecipados com o Redshift Spectrum: você paga apenas pelas consultas que executar.

Você está pronto para começar a consultar?

Conceitos básicos do Amazon Redshift
Dory_Feature_Start_Querying_Instantly

Com o Amazon Redshift Spectrum, você pode começar a consultar seus dados do Amazon S3 imediatamente, sem transformações ou carregamentos exigidos. Basta registrar o Amazon Athena, o AWS Glue Data Catalog ou o Apache Hive Metastore como um schema externo. Você pode usar o mesmo SQL utilizado para consultar tabelas do Amazon Redshift e qualquer ferramenta de BI que aceite o Redshift no momento.

Dory_Feature_Fast_Performance

O Amazon Redshift disponibiliza uma performance super-rápida tanto para análise ad-hoc de grandes conjuntos de dados não estruturados no Amazon S3 quanto para análise frequente de conjuntos de dados estruturados nas tabelas do Redshift. Você pode manter dados ativos nos seus clusters do Amazon Redshift para obter a performance de discos locais. Já o Amazon Redshift Spectrum pode ser usado para estender suas consultas a dados inativos armazenados no Amazon S3 com o objetivo de obter escalabilidade ilimitada e baixos custos. O otimizador de consultas do Amazon Redshift determinará automaticamente como minimizar dados verificados no Amazon S3 e o número de nós do Redshift Spectrum a serem usados na consulta.

Dory_Feature_Scalable

Com o Amazon Redshift Spectrum, você não precisa se preocupar com a escalabilidade do seu cluster. Ele permite separar armazenamento e computação, o que possibilita ajustar a escala de cada um de modo independente. Você pode até mesmo executar vários clusters do Amazon Redshift no mesmo data lake do Amazon S3, o que permite simultaneidade ilimitada. O Redshift Spectrum aumenta automaticamente a escala para milhares de instâncias, se for necessário, para que as consultas possam ser executadas rapidamente, independentemente de você estar processando um terabyte, um petabyte ou um exabyte de dados.

Dory_Feature_Pay_per_query

Com o Amazon Redshift Spectrum, só as consultas executadas são cobradas. Serão cobrados 5 USD por cada terabyte de dados processados para executar a sua consulta. O Redshift Spectrum pode consultar dados compactados. Você pode economizar de 30% a 90% em custos por consulta e melhorar a performance ao compactar, particionar e converter seus dados em um formato colunar. Não haverá cobranças referentes ao Redshift Spectrum quando você não estiver executando consultas. Pague as taxas padrão do Amazon S3 referentes ao armazenamento físico de dados e as taxas de instância do Amazon Redshift relacionadas aos cluster usados.