Cos'è la preparazione dei dati?

Crea un account AWS

Cos'è la preparazione dei dati?

La preparazione dei dati è un processo di preparazione di dati grezzi in vista delle successive fasi di elaborazione e analisi. Le fasi principali includono la raccolta, la pulizia e l'etichettatura dei dati grezzi nella forma più adatta per gli algoritmi di machine learning (ML) per poi esplorarli e visualizzarli. La preparazione dei dati può richiedere fino all'80% del tempo impiegato per un progetto ML. Utilizzare degli strumenti specializzati per la preparazione dei dati è importante per ottimizzare questo processo.

Qual è la connessione tra ML e la preparazione dei dati?

I dati fluiscono tra le organizzazioni come mai prima d'ora, arrivando da smartphone e città intelligenti, sia come dati strutturati che come dati non strutturati (immagini, documenti, dati geospaziali, e altri). I dati non strutturati costituiscono l'80% dei dati al giorno d'oggi. Il ML può analizzare non soltanto i dati strutturati, ma scoprire anche i pattern nei dati non strutturati. Il ML è il processo in cui un computer impara ad interpretare i dati e prendere decisioni e suggerimenti sulla base di quei dati. Durante il processo di apprendimento — e successivamente, quando sono utilizzati nel fare previsioni — i dati scorretti, distorti o incompleti possono dare luogo a previsioni imprecise.

Perché la preparazione dei dati è importante per il ML?

I dati alimentano il ML. Sfruttare questi dati per reinventare il proprio business, oltre ad essere difficile, è indispensabile per rimanere competitivi ora e nel futuro. Rispondere più velocemente all'imprevedibile e scoprire nuove opportunità è vitale per i più informati e per coloro che possono mettere i propri dati a lavoro per prendere decisioni migliori e più informate. Questo processo così importante, sebbene faticoso, è un prerequisito per la costruzione accurata di modelli e analisi di ML, ed è la parte più dispendiosa, in termini di tempo, di un progetto di ML. Per minimizzare questo investimento di tempo, i data scientist possono utilizzare degli strumenti li che aiutino ad automatizzare la preparazione dei dati in modi diversi.

Come si preparano i dati?

La preparazione dei dati segue una serie di fasi, a cominciare dalla raccolta dei dati corretti, seguiti dalla loro pulizia, etichettatura, e in seguito convalida e visualizzazione.

Raccolta dei dati

La raccolta dei dati è il processo di assemblaggio di tutti i dati necessari per il ML. La raccolta dati può essere noiosa, dal momento che i dati provengono da più origini di dati, inclusi laptop, data warehouse, cloud, applicazioni e dispositivi. Trovare modi per connettersi a diverse origini di dati può essere difficile. I volumi di dati stanno inoltre crescendo esponenzialmente, così che vi sono molti dati da ricercare. Inoltre, i dati hanno formati e tipologie ampiamente differenti in base all'origine. Per esempio, dati video e dati tabulari non sono semplici da utilizzare insieme.

Pulizia dei dati

La pulizia dei dati corregge gli errori e inserisce i dati mancanti, come fase necessaria per assicurare la qualità dei dati. Dopo aver ripulito i dati, sarà necessario convertirli in un formato coerente e leggibile. Questo processo può includere la modifica dei formati di campo, come date e valute, delle convenzioni di nomi, e la correzione di valori e unità di misura, così da renderli coerenti.

Etichettatura dei dati

L'etichettatura dei dati è il processo di identificazione dei dati non elaborati (immagini, file di testo, video, ecc.) e l'aggiunta di una o più etichette significative e informative per fornire il contesto, in modo che un modello di ML possa imparare da esso. Ad esempio, le etichette potrebbero indicare se una foto contiene un uccello o un'auto, quali parole sono state pronunciate in una registrazione audio o se una radiografia contiene un'irregolarità. L'etichettatura dei dati può essere utilizzata per vari casi d'uso, tra cui visione artificiale, elaborazione del linguaggio naturale e riconoscimento vocale.

Convalida e visualizzazione

Dopo che i dati sono stati ripuliti ed etichettati, i team di ML spesso li esplorano per assicurarsi che siano corretti e pronti per il ML. Le visualizzazioni come istogrammi, diagrammi a dispersione, diagrammi a scatola e baffi, grafici a linee e grafici a barre sono tutti strumenti utili a confermare la correttezza dei dati. Inoltre, le visualizzazioni aiutano i team di data science a completare l'analisi esplorativa dei dati. Questo processo utilizza le visualizzazioni per scoprire pattern, evidenziare anomalie, provare un'ipotesi o verificare delle supposizioni. L'analisi esplorativa dei dati non richiede modellazione formale; invece, i team di data science possono utilizzare le visualizzazioni per decifrare i dati.

In che modo AWS può aiutare?

Gli strumenti di preparazione dei dati di Amazon SageMaker aiutano le organizzazioni a ottenere informazioni dettagliate da dati strutturati e non strutturati. Ad esempio, puoi utilizzare Amazon SageMaker Data Wrangler per semplificare la preparazione dei dati strutturati con visualizzazioni dei dati integrate tramite un'interfaccia visiva senza codice. SageMaker Data Wrangler contiene oltre 300 trasformazioni dei dati integrati, così è possibile normalizzare, trasformare e combinare rapidamente le caratteristiche senza dover scrivere alcun codice. Inoltre è possibile apportare le proprie trasformazioni personalizzate in Python o Apache Spark, se si preferisce. Per i dati non strutturati, sono necessari vasti set di dati etichettati di alta qualità. Utilizzando Amazon SageMaker Ground Truth Plus, puoi creare set di dati di formazione ML di alta qualità riducendo al contempo i costi di etichettatura dei dati fino al 40% senza dover creare applicazioni di etichettatura o gestire autonomamente una forza lavoro di etichettatura.

Gli analisti o gli utenti aziendali che preferiscono preparare i dati all'interno di un notebook possono sfogliare, scoprire e connettersi visivamente agli ambienti di elaborazione dati Spark in esecuzione su Amazon EMR dai notebook Amazon SageMaker Studio con pochi clic. Dopo la connessione, è possibile interrogare, esplorare e visualizzare i dati in modo interattivo ed eseguire i processi Spark utilizzando il linguaggio che si preferisce (SQL, Python o Scala) per costruire ogni fase della preparazione dei dati e dei flussi di lavoro di ML.

Passaggi successivi su AWS

Scopri ulteriori risorse correlate al prodotto

Ulteriori informazioni

Registrati per creare un account gratuito

Ottieni l'accesso immediato al piano gratuito AWS.

Registrati

Inizia subito nella console

Inizia subito a sviluppare con AWS nella Console di gestione AWS.

Accedi

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

Caricamento in corso

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages

Cos'è la preparazione dei dati?