Publicado: Nov 29, 2022
A integração do Amazon Redshift para Apache Spark ajuda os desenvolvedores a criar e executar de forma integrada aplicações do Apache Spark com dados do Amazon Redshift. Se você usa serviços de análises e machine learning (ML) da AWS, como Amazon EMR, AWS Glue e Amazon SageMaker, já pode criar aplicações do Apache Spark que leem e gravam dados no data warehouse do Amazon Redshift, sem comprometer a performance das demais aplicações ou a consistência transacional dos dados. A integração do Amazon Redshift para Apache Spark é baseada em um projeto de conector de código aberto e o aprimora para oferecer melhor performance e segurança, proporcionando aos clientes ganhos de até dez vezes na performance das aplicações. Agradecemos aos colaboradores originais do projeto, que nos ajudaram a concretizar o nosso conector. As melhorias adicionais que desenvolvermos serão contribuídas para o projeto de código aberto original.
A integração do Amazon Redshift para Apache Spark minimiza o processo trabalhoso e, muitas vezes, manual de configuração de um conector de código aberto entre Spark e Redshift. Além disso, reduz o tempo de preparação necessário para tarefas de análises e ML. Para começar a trabalhar com dados do Amazon Redshift em aplicações baseadas no Apache Spark, basta especificar a conexão ao data warehouse. Você pode usar vários recursos de delegação para operações como classificação, agregação, limite, associação e funções escalares para que somente os dados relevantes sejam transferidos do data warehouse do Amazon Redshift para a aplicação do Spark que consome os dados. Dessa forma, você pode aprimorar a performance das aplicações. Também é possível aumentar a segurança das aplicações usando credenciais do AWS Identity Access and Management (IAM) para conexão ao Amazon Redshift.
Para começar a usar, acesse o Amazon EMR 6.9, EMR Sem Servidor ou AWS Glue 4.0, use um quadro de dados ou código SQL do Spark em um trabalho ou caderno do Apache Spark para conexão ao data warehouse do Amazon Redshift e comece a executar consultas em questão de minutos. Para saber mais, consulte o Amazon Redshift ou a integração do Amazon Redshift para Apache Spark.