Che cos'è la regolazione degli iperparametri?

Quando si addestrano modelli di machine learning, ogni set di dati e modello necessita di un diverso set di iperparametri, i quali sono un tipo di variabile. L'unico modo per determinarli è attraverso più esperimenti, che consentono di scegliere un set di iperparametri e di eseguirlo tramite il modello. Questo processo si chiama regolazione degli iperparametri. In sostanza, si tratta di addestrare il modello in sequenza con diversi set di iperparametri. Tale processo può essere svolto in modo manuale oppure tramite uno dei numerosi metodi di regolazione automatica degli iperparametri.

Indipendentemente dal metodo utilizzato, occorre tenere traccia dei risultati dei propri esperimenti. Sarà necessario applicare qualche forma di analisi statistica, come la funzione obiettivo, per determinare quale set di iperparametri fornisce il miglior risultato. La regolazione degli iperparametri è un processo importante e ad alta intensità di calcolo.

Cosa sono gli iperparametri?

Gli iperparametri sono variabili di configurazione esterne che i data scientist utilizzano per gestire la formazione dei modelli di machine learning. Talvolta chiamati iperparametri del modello, gli iperparametri vengono impostati manualmente prima di addestrare un modello. Sono diversi dai parametri, che sono parametri interni derivati automaticamente durante il processo di apprendimento e non impostati dai data scientist.

Esempi di iperparametri sono il numero di nodi e livelli di una rete neurale e il numero di rami di un albero delle decisioni. Gli iperparametri determinano caratteristiche chiave come l'architettura del modello, il tasso di apprendimento e la complessità del modello.

Come si identificano gli iperparametri?

La selezione del giusto set di iperparametri è importante in termini di prestazioni e accuratezza del modello. Purtroppo non esistono regole fisse su quali iperparametri funzionino meglio né sui loro valori ottimali o predefiniti. È necessario sperimentare per trovare il set di iperparametri ottimale. Questa attività è nota come regolazione degli iperparametri o ottimizzazione degli iperparametri.

Perché la regolazione degli iperparametri è importante?

Gli iperparametri controllano direttamente la struttura, la funzione e le prestazioni del modello. La regolazione degli iperparametri consente ai data scientist di modificare le prestazioni del modello per ottenere risultati ottimali. Questo processo è una parte essenziale del machine learning e la scelta dei valori appropriati degli iperparametri è fondamentale per il successo.

Ad esempio, supponiamo di utilizzare il tasso di apprendimento del modello come iperparametro. Se il valore è troppo alto, il modello potrebbe convergere troppo rapidamente con risultati non ottimali. Se invece il tasso è troppo basso, la formazione richiede troppo tempo e i risultati potrebbero non convergere. Una scelta buona ed equilibrata degli iperparametri consente di ottenere modelli accurati e prestazioni eccellenti.

Come funziona la regolazione degli iperparametri?

Come detto in precedenza, la regolazione degli iperparametri può essere manuale o automatizzata. Sebbene la regolazione manuale sia lenta e noiosa, il vantaggio è che si comprende meglio come le ponderazioni degli iperparametri influenzino il modello. Ma nella maggior parte dei casi, si utilizza uno dei noti algoritmi di apprendimento iperparametrico.

Il processo di regolazione degli iperparametri è iterativo e consente di provare diverse combinazioni di parametri e valori. In genere si inizia definendo una variabile di destinazione, ad esempio l'accuratezza, come metrica primaria, e si mira a massimizzare o minimizzare questa variabile. È una buona idea utilizzare tecniche di convalida incrociata, in modo che il modello non sia incentrato su una singola porzione di dati.

Quali sono le tecniche di regolazione degli iperparametri?

Esistono numerosi algoritmi di regolazione degli iperparametri, anche se i tipi più comunemente utilizzati sono l'ottimizzazione bayesiana, la griglia di ricerca e la ricerca casuale.

Ottimizzazione bayesiana

L'ottimizzazione bayesiana è una tecnica basata sul teorema di Bayes, che descrive la probabilità che un evento si verifichi in relazione alle conoscenze attuali. Quando questo viene applicato all'ottimizzazione degli iperparametri, l'algoritmo stabilisce un modello probabilistico da un insieme di iperparametri che ottimizza una metrica specifica. Utilizza l'analisi di regressione per scegliere iterativamente il miglior insieme di iperparametri.

Griglia di ricerca

Con la griglia di ricerca, si specifica un elenco di iperparametri e una metrica di prestazione, dopodiché l'algoritmo lavora attraverso tutte le combinazioni possibili per determinare il miglior assetto. La griglia di ricerca funziona bene, ma è relativamente tediosa e computazionalmente intensa, soprattutto con un gran numero di iperparametri.

Ricerca casuale

Sebbene si basi su principi simili a quelli della griglia di ricerca, la ricerca casuale seleziona gruppi di iperparametri in modo casuale a ogni iterazione. Funziona bene quando un numero relativamente piccolo di iperparametri determina principalmente il risultato del modello.

Quali sono gli esempi di iperparametri?

Sebbene alcuni iperparametri siano comuni, nella pratica gli algoritmi utilizzano set specifici di iperparametri. Ad esempio, è possibile leggere come Amazon SageMaker utilizza gli iperparametri della classificazione delle immagini e come SageMaker utilizza gli iperparametri dell'algoritmo XGBoost.

Ecco alcuni esempi di iperparametri comuni:

  • Tasso di apprendimento è la velocità con cui un algoritmo aggiorna le stime
  • Decadimento del tasso di apprendimento è una riduzione graduale del tasso di apprendimento nel tempo per accelerare l'apprendimento
  • Momentum è la direzione della fase successiva rispetto alla fase precedente
  • Nodi della rete neurale si riferisce al numero di nodi di ogni livello nascosto
  • Livelli della rete neurale si riferisce al numero di livelli nascosti di una rete neurale
  • Dimensione del mini-batch è la dimensione del batch di dati di formazione
  • Epochs è il numero di volte in cui l'intero set di dati viene mostrato alla rete durante l'addestramento
  • Eta rappresenta la riduzione della dimensione della fase per prevenire l'overfitting

In che modo AWS può aiutare nella regolazione degli iperparametri?

Amazon Web Services (AWS) offre Amazon SageMaker, una piattaforma di machine learning (ML) completamente gestita che consente di eseguire la regolazione automatica dei modelli. La Regolazione automatica modelli di Amazon SageMaker trova la versione migliore del modello di ML eseguendo diversi processi di formazione sul set di dati. Utilizza l'algoritmo e gli intervalli di iperparametri specificati.

SageMaker offre una versione intelligente dei metodi di regolazione degli iperparametri, basata sulla teoria della ricerca bayesiana e progettata per trovare il modello migliore nel minor tempo possibile. Inizia con una ricerca casuale, ma poi impara come si comporta il modello rispetto ai valori degli iperparametri. Per ulteriori informazioni, è possibile leggere come funziona la regolazione degli iperparametri in SageMaker.

La Regolazione automatica modelli di Amazon SageMaker supporta anche Hyperband, una nuova strategia di ricerca. Hyperband è in grado di trovare l'insieme ottimale di iperparametri fino a tre volte più velocemente della ricerca bayesiana per modelli su larga scala, come le reti neurali profonde, le quali affrontano problemi di visione artificiale.

È inoltre possibile leggere come eseguire la regolazione automatica dei modelli con SageMaker. Il modulo di regolazione degli iperparametri di SageMaker può essere utilizzato con gli algoritmi integrati di SageMaker, con gli algoritmi personalizzati e con i container predefiniti di SageMaker. La pagina Web fornisce tutorial ed esercizi completi di autoapprendimento per imparare a eseguire l'ottimizzazione degli iperparametri.

Iniziare a lavorare con SageMaker è facile: basta creare un account AWS gratuito. Con il Piano gratuito AWS, avrai due mesi di prova gratuita di SageMaker prima di dover iniziare a pagare.

Passaggi successivi con AWS

Scopri ulteriori risorse correlate al prodotto
Informati sui servizi di machine learning 
Registrati per creare un account gratuito

Ottieni accesso istantaneo al Piano gratuito di AWS.

Registrati 
Inizia a lavorare nella console

Inizia subito a creare nella Console di gestione AWS.

Accedi