Integrazione di Amazon Redshift per Apache Spark

Crea applicazioni Apache Spark che leggono e scrivono dati da Amazon Redshift

Integrazione di Amazon Redshift per Apache Spark semplifica e accelera le applicazioni Apache Spark che accedono ai dati di Amazon Redshift da servizi di analisi AWS come Amazon EMR, AWS Glue e Amazon SageMaker. Utilizzando Amazon EMR, AWS Glue e SageMaker, puoi creare rapidamente applicazioni Apache Spark che leggono e scrivono nel data warehouse Amazon Redshift senza compromettere le prestazioni o la coerenza transazionale. Integrazione di Amazon Redshift per Apache Spark utilizza anche credenziali basate su AWS Identity Access and Management (IAM) per migliorare la sicurezza. Con Integrazione di Amazon Redshift per Apache Spark, non è necessaria alcuna configurazione né manutenzione manuale di versioni non certificate di connettori di terze parti. Puoi avviare i processi di Apache Spark utilizzando i dati di Amazon Redshift in pochi secondi. Questa nuova integrazione migliora le prestazioni delle applicazioni Apache Spark utilizzando i dati di Amazon Redshift.

Amazon Redshift Integration for Apache Spark (1:24)

Vantaggi

Migliorare le analisi di Apache Spark con i dati di Amazon Redshift

Estendere le origini dei dati che puoi utilizzare nelle applicazioni di analisi approfondite e machine learning (ML) in esecuzione in Amazon EMR, AWS Glue o SageMaker, leggendo e scrivendo dati nel tuo data warehouse.

Accedere ai dati di Amazon Redshift con una configurazione minima

Semplificare il processo macchinoso e spesso manuale di configurazione di connettori e driver JDBC non certificati, riducendo i tempi di preparazione per le attività di analisi e ML.

Migliorare prestazioni e sicurezza con un connettore certificato Amazon

Utilizzare diverse funzionalità di pushdown come funzioni di ordinamento, aggregazione, limitazione, unione e funzioni scalari, per spostare dal data warehouse Amazon Redshift solo i dati rilevanti. 

Come funziona

Utilizza i servizi AWS per creare applicazioni Apache Spark che leggono e scrivono nel tuo data warehouse Amazon Redshift.
Diagramma che mostra come utilizzare i servizi AWS per creare applicazioni Apache Spark che leggono e scrivono nel data warehouse Amazon Redshift.

Casi d'uso

Crea applicazioni ETL, ML e interattive

Crea applicazioni Apache Spark in Java, Scala e Python con i servizi di analisi AWS basati su Apache Spark.

Connettiti al data warehouse Amazon Redshift

Leggi e scrivi dati in Amazon Redshift con Amazon EMR, AWS Glue, SageMaker e i servizi di analisi e ML di AWS.

Esegui query in pochi secondi

Utilizza Amazon EMR o AWS Glue per acquisire il codice dei frame di dati dal tuo processo o notebook Apache Spark e connetterti ad Amazon Redshift. 

Connettore con certificazione AWS per uso immediato

Semplifica il tuo processo senza installazione o test, con una sicurezza migliorata (credenziali basate su IAM), pushdown operativi e formato di file Parquet per le prestazioni.

Clienti

Huron

Huron è una società globale di servizi professionali che collabora con i clienti per mettere in pratica le possibilità creando strategie solide, ottimizzando le operazioni, accelerando la trasformazione digitale e consentendo alle aziende e ai loro dipendenti di plasmare il proprio futuro.

"Diamo ai nostri ingegneri la possibilità di creare le loro pipeline di dati e applicazioni con Apache Spark utilizzando Python e Scala. Volevamo una soluzione su misura che semplificasse le operazioni e fornisse ai nostri clienti un servizio più rapido ed efficiente ed è quello che otteniamo con la nuova integrazione di Amazon Redshift per Apache Spark".

Corey Johnson, responsabile architetto dei dati - Huron Consulting

GE Aerospace

GE Aerospace è un fornitore globale di motori a reazione, componenti e sistemi per aerei commerciali e militari. L'azienda progetta, sviluppa e produce motori a reazione dalla prima guerra mondiale.

GE Aerospace utilizza le analisi di AWS e Amazon Redshift per ottenere informazioni aziendali critiche che favoriscono importanti decisioni aziendali. Con il supporto della copia automatica di Amazon S3, possiamo creare pipeline di dati più semplici per spostare i dati da Amazon S3 ad Amazon Redshift. I nostri team di prodotti di dati possono accedere ai dati e fornire informazioni agli utenti finali più rapidamente. Dedichiamo più tempo ad aggiungere valore attraverso i dati e meno tempo alle integrazioni".

Alcuin Weidus, architetto dei dati principale senior - GE Aerospace

Goldman Sachs

The Goldman Sachs Group, Inc. è un'istituzione finanziaria leader a livello mondiale che offre un'ampia gamma di servizi finanziari nei settori dell'investment banking, dei titoli, della gestione degli investimenti e del consumer banking a una clientela ampia e diversificata che comprende aziende, istituzioni finanziarie, enti pubblici e utenti privati. 

"Il nostro obiettivo è fornire un accesso self-service ai dati a tutti gli utenti di Goldman Sachs. Attraverso Legend, la nostra piattaforma open source di gestione e governance dei dati, consentiamo agli utenti di sviluppare applicazioni e di ricavare informazioni basate sui dati, collaborando con il settore dei servizi finanziari. Con l'integrazione di Amazon Redshift per Apache Spark, il nostro team della piattaforma di dati sarà in grado di accedere ai dati di Amazon Redshift con passaggi manuali minimi, consentendo processi ETL senza codice che daranno ai nostri ingegneri la possibilità di concentrarsi più facilmente sul perfezionamento del loro flusso di lavoro e di raccogliere informazioni complete e tempestive. Poiché i nostri utenti possono ora accedere facilmente ai dati più recenti in Amazon Redshift, ci aspettiamo un miglioramento nelle prestazioni delle applicazioni e una maggiore sicurezza".

Neema Raphael, Chief Data Officer (Responsabile dei dati) - Goldman Sachs

Risorse

Video

Guarda il video tecnico su Integrazione di Amazon Redshift per Apache Spark.

Blog

Leggi il post del blog sull'Integrazione di Amazon Redshift per Apache Spark.

Guida

Leggi la guida per la gestione tecnica sull'Integrazione di Amazon Redshift per Apache Spark.

Nozioni di base su Amazon Redshift

Cos'è Amazon Redshift?
Cos'è Amazon Redshift?

Scopri Amazon Redshift con questa guida alla gestione per iniziare a utilizzare un servizio di data warehouse completamente gestito su scala petabyte nel cloud.

Ulteriori informazioni »
Scopri come spostare i dati da e verso Amazon Redshift con AWS Glue
Connettore Amazon Redshift di Spark su AWS Glue

Sposta i dati da e verso Amazon Redshift con i processi di estrazione, trasformazione e caricamento (ETL) di AWS Glue.

Ulteriori informazioni »
Versioni dei driver JDBC con supporto AWS Glue
Versioni dei driver JDBC con supporto AWS Glue

Scopri i tipi di connessione e le opzioni per ETL in AWS Glue.

Ulteriori informazioni »