Passa al contenuto principale

Elaborazione dei dati di Amazon SageMaker

Elaborazione dei dati di Amazon SageMaker

Analizza, prepara e integra i dati per l'analisi e l'IA su qualsiasi scala

Perché utilizzare SageMaker Data Processing?

Prepara, integra e orchestra i tuoi dati con le funzionalità di elaborazione dei dati di Amazon Athena, Amazon EMR, AWS Glue e Amazon Managed Workflows for Apache Airflow (Amazon MWAA). Elabora e integra i tuoi dati, ovunque si trovino, con una connettività semplice e veloce a centinaia di origini dati.

Utilizza i framework di elaborazione dati open-source come Apache Spark, Trino e Apache Flink. Analizza i dati su larga scala con Trino, senza gestire l'infrastruttura e crea facilmente analisi in tempo reale con Apache Flink e Apache Spark.

Fidati che i tuoi dati siano accurati e sicuri automatizzando la qualità dei dati, l'identificazione dei dati sensibili, il tracciamento della discendenza e applicando controlli di accesso granulari.

Vantaggi

Amazon SageMaker Data Processing fornisce un accesso completo ai framework di elaborazione di dati e flussi, ai motori di query SQL distribuiti open source e agli strumenti più diffusi come notebook, editor di query ed estrazione, trasformazione e caricamento (ETL) visivo.

Puoi accedere ai framework più diffusi come Apache Spark per preparare e integrare i tuoi dati su qualsiasi scala. Rispondi alle esigenze aziendali in tempo reale grazie all'elaborazione in streaming con Apache Flink e Apache Spark Streaming, e analizza i dati con i principali framework SQL open source come Trino. Semplifica l'orchestrazione dei flussi di lavoro senza dover gestire l'infrastruttura grazie all'integrazione nativa con Amazon MWAA.

SageMaker Data Processing accede ai dati dal lago di Amazon SageMaker, consentendoti di elaborarli e integrarli utilizzando una copia dei tuoi dati per tutti i tuoi casi d'uso, tra cui analisi, interrogazioni ad hoc, apprendimento automatico (ML) e intelligenza artificiale generativa.

L'architettura open lakehouse di Amazon SageMaker unifica i dati tra i data lake di Amazon Simple Storage Service (Amazon S3) e i data warehouse di Amazon Redshift, fornendo un accesso unificato ai tuoi dati. Puoi scoprire e analizzare i dati unificati nel lakehouse con centinaia di connettori, integrazioni Zero-ETL e origini dati federate, offrendoti un quadro completo della tua azienda. SageMaker funziona immediatamente con l'architettura dei dati esistente, senza essere vincolato da specifici formati di archiviazione o scelte del motore di query.

Migliora l'efficienza con prestazioni veloci delle query sulle tabelle Apache Iceberg. Ottieni approfondimenti fino a 2 volte più velocemente rispetto ai tradizionali sistemi open source con versioni altamente performanti e compatibili con le API open source di Apache Spark, Apache Airflow, Apache Flink, Trino e altro ancora.

SageMaker Data Processing consente di concentrarsi sulla trasformazione e l'analisi dei dati senza gestire la capacità di calcolo o le applicazioni open source, risparmiando tempo e riducendo i costi. Puoi effettuare automaticamente il provisioning della tua capacità di Amazon EMR su Amazon Elastic Compute Cloud (Amazon EC2) o su Amazon Elastic Kubernetes Service (Amazon EKS). Le regole di scalabilità gestiscono le modifiche alla domanda di calcolo per ottimizzare le prestazioni e i runtime.

Instaura l'affidabilità e la trasparenza con report automatici sulla qualità dei dati, il rilevamento di dati sensibili e il monitoraggio del lineage per i dati e i modelli di IA attraverso l'integrazione con Amazon SageMaker Catalog. Aumenta la fiducia nella qualità dei tuoi dati con misurazioni, monitoraggio e suggerimenti automatici per le regole di qualità dei dati.

Elabora e analizza in modo sicuro i tuoi dati aderendo e applicando controlli di accesso granulari definiti sui set di dati in the Lakehouse, consentendoti di definire le autorizzazioni una sola volta e rendere i tuoi dati accessibili agli utenti autorizzati in tutta l'organizzazione. The lakehouse si integra con AWS Glue Data Quality, riunendo integrazione dei dati serverless, gestione della qualità dei dati e funzionalità ML avanzate in un ambiente unificato.

Servizi AWS

Integrazione dei dati semplificata

AWS SageMaker fornisce un'integrazione dei dati senza server, semplificando l'esplorazione, la preparazione e l'integrazione dei dati da più fonti. Connettiti a diverse fonti di dati, gestisci i tuoi dati in un catalogo di dati centralizzato e crea, esegui, orchestra e monitora visivamente le pipeline e i job ETL per caricare i dati nel tuo lago.  Se i job di Apache Spark falliscono, puoi utilizzare l'intelligenza artificiale generativa per identificare le cause principali e risolvere rapidamente i problemi. Amazon SageMaker è scalabile automaticamente su richiesta, così puoi concentrarti sull'acquisizione di informazioni dai tuoi dati senza gestire l'infrastruttura.

Esegui e scala Apache Spark, Apache Hive, Trino e altri carichi di lavoro

Amazon EMR rende più semplice e conveniente l'esecuzione dei carichi di lavoro di elaborazione dati come Apache Spark, Apache Airflow, Apache Flink, Trino e altri. Crea ed esegui pipeline di elaborazione dei dati e scala automaticamente e più velocemente rispetto alle soluzioni on-premises.

Tieni traccia dei costi

Athena offre un modo semplificato e flessibile per analizzare i dati su qualsiasi scala. Si tratta di un servizio di query interattivo che semplifica l'analisi di dati in Amazon S3 tramite SQL standard. Athena è serverless, quindi non è necessaria alcuna infrastruttura da configurare o gestire e puoi scegliere di pagare in base alle query eseguite o all'elaborazione di risorse richieste dalle tue query. Athena può essere utilizzato per elaborare log, eseguire analisi dei dati e query interattive. Athena scala automaticamente, eseguendo anche query in parallelo, in modo da ottenere risultati rapidi anche in caso di set di dati di grandi dimensioni e query complesse.

Orchestrazione del flusso di lavoro gestita, basata sulla sicurezza e ad alta disponibilità per Apache Airflow

Amazon MWAA è un servizio gestito per Apache Airflow che ti consente di utilizzare la tua attuale e familiare piattaforma Apache Airflow per orchestrare i tuoi processi di elaborazione dei dati. Ottieni maggiore scalabilità, disponibilità e sicurezza senza l'onere operativo della gestione dell'infrastruttura sottostante. Amazon MWAA orchestra i tuoi flussi di lavoro utilizzando grafici aciclici diretti (DAG) scritti in Python o in uno studio di flussi di lavoro visivi. Fornisci a MWAA un bucket S3 in cui si trovano i tuoi DAG, i plug-in e i requisiti Python. Distribuisci Apache Airflow su larga scala senza l'onere operativo della gestione dell'infrastruttura sottostante.

Casi d'uso

Identifica e accedi rapidamente ai dati unificati su AWS, on-premises e altri cloud, quindi rendili immediatamente disponibili per l'esecuzione di query e la trasformazione. Usa la federazione delle query e Zero-ETL per semplificare l'accesso ai dati sui servizi di database AWS e da applicazioni di terze parti.

Elabora i dati utilizzando framework come Apache Spark, Apache Flink e Trino e vari carichi di lavoro, tra cui batch, microbatch e streaming.

Esegui elaborazioni di dati su grande scala e analisi ipotetiche utilizzando algoritmi statistici e modelli predittivi per scoprire sequenze nascoste, correlazioni, tendenze di mercato e preferenze dei clienti.