Amazon SageMaker Data Wrangler

Il modo più facile e veloce per preparare dati tabulari e immagine per il machine learning

Perché scegliere SageMaker Data Wrangler?

Amazon SageMaker Data Wrangler riduce il tempo richiesto per l'aggregazione e la preparazione di dati tabulari e immagine per il machine learning (ML) da settimane a minuti. Con SageMaker Data Wrangler è possibile semplificare il processo di preparazione dei dati e di ingegneria delle funzionalità e completare ciascuna fase del flusso di lavoro di preparazione dei dati, incluse la selezione, la pulizia, l'esplorazione, la visualizzazione e l'elaborazione su scala, da una singola interfaccia visiva. È possibile utilizzare SQL per selezionare i dati desiderati da diverse origini dati e importarli rapidamente. Successivamente, è possibile utilizzare il report sulla qualità dei dati e gli approfondimenti per verificare automaticamente la qualità e rilevare le anomalie, come le righe duplicate e la perdita dell'obiettivo. SageMaker Data Wrangler contiene oltre 300 trasformazioni dei dati integrate, che così possono essere trasformati rapidamente senza la necessità di scrivere codice.

Panoramica su Amazon SageMaker Data Wrangler

Vantaggi di SageMaker Data Wrangler

Seleziona i dati, ricavane informazioni approfondite e trasformali per prepararli per il machine learning in pochi minuti.
Stima rapidamente l'accuratezza dei modelli di ML e individua i problemi prima che i modelli vengano implementati in produzione.
Porta la preparazione dei dati in produzione più velocemente senza la necessità di creare codice PySpark, installare Apache Spark o avviare cluster.

Come funziona

Come funziona Amazon SageMaker Data Wrangler

Velocità più elevata di accesso, selezione ed esecuzione di query sui dati

Con lo strumento di selezione di SageMaker Data Wrangler, è possibile accedere e selezionare rapidamente i dati tabulari e immagine da diverse origini popolari (come Amazon Simple Storage Service [Amazon S3], Amazon Athena, Amazon Redshift, AWS Lake Formation, Snowflake e Databricks) e da più di 50 altre origini di terze parti (come Salesforce, SAP, Facebook Ads e Google Analytics). Inoltre, è possibile scrivere query per le origini dati utilizzando SQL e importare i dati direttamente su SageMaker da vari formati di file, come CSV, Parquet e JSON, nonché da tabelle di database.

Genera approfondimenti sui dati e comprendi la qualità dei dati

SageMaker Data Wrangler fornisce un report sulla qualità dei dati e relativi approfondimenti che verifica in automatico la qualità dei dati (ad esempio valori mancanti, righe duplicate e tipi di dati) e contribuisce a rilevare le anomalie (come valori anomali, squilibri di classe e perdita di dati) al loro interno. Una volta che sei in grado di verificare efficacemente la qualità dei dati, puoi applicare rapidamente la conoscenza del dominio per elaborare set di dati per l'addestramento dei modelli di ML.

Comprensione visiva dei dati con le visualizzazioni

SageMaker Data Wrangler aiuta a comprendere i dati e a identificare potenziali errori e valori estremi con una serie di solidi modelli di visualizzazione preconfigurati. Istogrammi, diagrammi a dispersione, a scatola e baffi, grafici a linee e grafici a barre sono tutti integrati, pronti per essere applicati ai dati. Sono disponibili anche visualizzazioni specifiche per il ML più avanzate, come ad esempio segnalazione delle distorsioni, correlazione delle funzionalità, multi-collinearità, perdita dell'obiettivo e serie temporali, che mettono in luce l'importanza delle singole funzionalità e le correlazioni tra di esse. È possibile accedere a questi strumenti dalla scheda Analisi.

Trasformazione dei dati più efficace

SageMaker Data Wrangler offre una selezione di oltre 300 trasformazioni di dati predefinite basate su PySpark in modo da poter trasformare i dati e scalare il flusso di lavoro di preparazione dei dati senza scrivere una sola riga di codice. Le trasformazioni preconfigurate coprono i casi d'uso più comuni, come l'appiattimento dei file JSON, l'eliminazione delle righe duplicate, l'imputazione dei dati mancanti con media o mediana, la codifica a caldo e le trasformazioni specifiche per le serie temporali, per accelerare la preparazione dei dati di serie temporali per il ML. Per i dati immagine, SageMaker Data Wrangler offre opzioni comuni di arricchimento dell'immagine (ad esempio sfocatura, miglioramento e ridimensionamento) e operazioni di pulizia (come eliminazione di immagini corrotte e duplicati). È inoltre possibile creare trasformazioni personalizzate in PySpark, SQL e Pandas. SageMaker Data Wrangler offre librerie di immagini (imagaug, OpenCV) per la creazione di trasformazioni personalizzate per i casi d'uso di CV e una ricca libreria di frammenti di codice per semplificare la creazione di tali trasformazioni.

Comprensione del potere predittivo dei dati

La caratteristica Quick Model di SageMaker Data Wrangler fornisce una stima del potere predittivo atteso per i dati. Quick Model suddivide automaticamente i dati in set di dati di addestramento e di test ed esegue l'addestramento su un modello XGBoost con iperparametri predefiniti. Sulla base dell'attività in corso, ad esempio classificazione o regressione, SageMaker Data Wrangler fornisce un riepilogo del modello, una sintesi delle funzionalità e una matrice di confusione, che contribuiscono a iterare rapidamente i flussi di preparazione di dati.

Automazione e implementazione dei flussi di lavoro di preparazione dei dati di ML

Con l'interfaccia utente di SageMaker Data Wrangler, è possibile avviare set di dati scalabili su set di dati di grandi dimensioni senza la necessità di creare codice PySpark, installare Apache Spark o avviare cluster. È possibile avviare o pianificare un processo per elaborare rapidamente i dati o esportarli in un notebook SageMaker Studio. SageMaker Data Wrangler offre diverse opzioni di esportazione, inclusi i processi SageMaker Data Wrangler, archivio funzionalità SageMaker e Pipeline SageMaker, dando la possibilità di integrare il flusso di preparazione dei dati nel flusso di lavoro ML. In alternativa, è possibile implementare il flusso di lavoro di preparazione dei dati in un endpoint ospitato su SageMaker. Infine, è possibile esportare i dati direttamente nel modello di ML addestrato utilizzando un'interfaccia visiva con SageMaker Canvas

Clienti

Invista
"Noi di INVISTA siamo guidati dalla trasformazione e cerchiamo di sviluppare prodotti e tecnologie a vantaggio dei clienti di tutto il mondo. Vediamo il machine learning come un modo per migliorare l'esperienza del cliente. Tuttavia, con set di dati che si estendono su centinaia di milioni di righe, avevamo bisogno di una soluzione che ci aiutasse a preparare i dati e sviluppare, implementare e gestire modelli di machine learning su larga scala. Con Amazon SageMaker Data Wrangler, ora possiamo selezionare, pulire, esplorare e comprendere i nostri dati in modo interattivo, consentendo al nostro team di data science di creare pipeline di progettazione delle funzionalità che possono essere scalate facilmente su set di dati che si estendono su centinaia di milioni di righe. Con Amazon SageMaker Data Wrangler, possiamo rendere operativi i nostri flussi di lavoro ML più velocemente".

Caleb Wilkinson, Former Lead Data Scientist, INVISTA

3M
"Grazie al ML, 3M sta migliorando prodotti collaudati, come la carta vetrata, e sta promuovendo l'innovazione in molti altri settori, incluso quello sanitario. Mentre progettiamo di scalare il machine learning in più aree di 3M, vediamo la quantità di dati e modelli crescere rapidamente: raddoppiano ogni anno. Siamo entusiasti delle nuove caratteristiche di SageMaker perché ci aiutano a dimensionare le risorse. Amazon SageMaker Data Wrangler facilita notevolmente la preparazione dei dati per l'addestramento del modello e Amazon SageMaker Feature Store eliminerà la necessità di creare le stesse caratteristiche del modello più e più volte. Infine, Pipeline Amazon SageMaker ci aiuterà ad automatizzare la preparazione dei dati, la creazione del modello e l'implementazione del modello in un flusso di lavoro end-to-end in modo da poter accelerare il time-to-market dei nostri modelli. I nostri ricercatori non vedono l'ora di sfruttare la nuova velocità della scienza in 3M".

David Frazee, Former Technical Director, 3M Corporate Systems Research Lab

Deloitte
"Amazon SageMaker Data Wrangler ci permette di partire in quarta nell'affrontare le nostre esigenze di preparazione dei dati con una ricca collezione di strumenti di trasformazione che accelerano il processo di preparazione dei dati di machine learning necessari per portare nuovi prodotti sul mercato. A loro volta, i nostri clienti traggono vantaggio dalla velocità con cui dimensioniamo i modelli implementati che ci permettono di offrire risultati misurabili e sostenibili che soddisfano le esigenze dei nostri clienti in pochi giorni piuttosto che in mesi".

Frank Farrall, Principal, AI Ecosystems and Platforms Leader, Deloitte

NRI
"In qualità di partner di consulenza Premier AWS, i nostri team tecnici stanno lavorando a stretto contatto con AWS per sviluppare soluzioni innovative per aiutare i nostri clienti a migliorare continuamente l'efficienza delle loro operazioni. Il machine learning è il cuore delle nostre soluzioni innovative, ma il nostro flusso di lavoro di preparazione dei dati comporta tecniche sofisticate che, di conseguenza, richiedono una quantità significativa di tempo per essere rese operative in un ambiente di produzione. Con Amazon SageMaker Data Wrangler, i nostri data scientist possono completare ogni fase del flusso di lavoro di preparazione dei dati, compresa la selezione, la pulizia, l'esplorazione e la visualizzazione, il che ci aiuta ad accelerare il processo di preparazione dei dati e a preparare facilmente i nostri dati per il machine learning. Con Amazon SageMaker Data Wrangler possiamo preparare più velocemente i dati per il machine learning".

Shigekazu Ohmoto, Senior Corporate Managing Director, NRI Japan

equilibrium
"Poiché la nostra impronta nel mercato della gestione della salute della popolazione continua ad espandersi in un maggior numero di pagatori sanitari, fornitori, gestori di prestazioni farmaceutiche e altre organizzazioni sanitarie, avevamo bisogno di una soluzione per automatizzare i processi end-to-end per le origini dei dati che alimentano i nostri modelli di machine learning, compresi i dati di richieste, registrazione e delle farmacie. Ora con Amazon SageMaker Data Wrangler possiamo ridurre il tempo necessario per l'aggregazione e la preparazione dei dati per il machine learning tramite una serie di flussi di lavoro che sono più facili da convalidare e riutilizzare. In questo modo abbiamo migliorato notevolmente il tempo di consegna e la qualità dei nostri modelli, aumentato l'efficacia dei nostri data scientist e ridotto il tempo di preparazione dei dati di quasi il 50%. Inoltre, SageMaker Data Wrangler ci ha aiutato a risparmiare più iterazioni di machine learning e un tempo significativo di GPU, accelerando l'intero processo end-to-end per i nostri clienti, dato che ora possiamo creare data mart con migliaia di caratteristiche tra cui farmacia, codici di diagnosi, visite di pronto soccorso, degenze ospedaliere, demografia e altri determinanti sociali. Con SageMaker Data Wrangler, possiamo trasformare i nostri dati con una maggiore efficienza per la creazione di set di dati di addestramento, generare informazioni dettagliate sui set di dati prima di eseguire modelli di machine learning e preparare i dati del mondo reale per inferenze/previsioni su larga scala".

Lucas Merrow, CEO, Equilibrium Point IoT

Nozioni di base su SageMaker Data Wrangler

Blog

BLOG

Accelerate data preparation with data quality and insights in Amazon SageMaker Data Wrangler

BLOG

Amazon SageMaker Data Wrangler supporta le applicazioni SaaS come origini dati

Blog

Prepare data from Databricks for machine learning using Amazon SageMaker Data Wrangler

BLOG

Prepare data with PySpark and Altair code snippets in Amazon SageMaker Data Wrangler

BLOG

Import data from cross-account Amazon Redshift to Amazon SageMaker Data Wrangler

BLOG

Utilizzo di Amazon SageMaker Data Wrangler in Amazon SageMaker Studio con una configurazione del ciclo di vita predefinita

Esercizi pratici

Tutorial

Tutorial dettagliato per iniziare a usare SageMaker Data Wrangler

WORKSHOP

Scopri come utilizzare SageMaker Data Wrangler per i casi d'uso

Video dimostrativi

Video

re:Invent 2022: Accelerate data preparation with SageMaker Data Wrangler

re:Invent 2022: Accelerate data preparation (56:45)
VIDEO

Preparazione veloce dei dati per ML usando il workshop virtuale SageMaker Data Wrangler

Prepara rapidamente i dati per il workshop virtuale ML (1:18:08)
VIDEO

AWS on Air 2020: Novità di AWS con SageMaker Data Wrangler

AWS on Air 2020: Novità di AWS con SageMaker Data Wrangler (27:51)
VIDEO

SageMaker Data Wrangler Deep Dive Demo

SageMaker Data Wrangler Deep Dive Demo (28:13)

Novità

  • Data (dalla più alla meno recente)
Nessun risultato trovato
1