Qual è la differenza tra regressione lineare e regressione logistica?


Qual è la differenza tra regressione lineare e regressione logistica?

La regressione lineare e la regressione logistica sono tecniche di machine learning che fanno previsioni analizzando dati storici. Ad esempio, esaminando le tendenze di acquisto passate dei clienti, l'analisi di regressione stima le vendite future, in modo da poter rifornire l'inventario in modo più informato. Le tecniche di regressione lineare modellano matematicamente il fattore sconosciuto su più fattori noti per stimare il valore sconosciuto esatto. Allo stesso modo, la regressione logistica utilizza la matematica per trovare le relazioni tra due fattori di dati. Utilizza quindi questa relazione per prevedere il valore di uno di quei fattori in base all'altro. La previsione di solito ha un numero finito di risultati, ad esempio sì o no.

Scopri di più sulla regressione lineare »

Scopri di più sulla regressione logistica »

Fare previsioni: regressione lineare e regressione logistica

Sia la regressione lineare che la regressione logistica utilizzano modelli matematici per prevedere il valore di una variabile di output da una o più variabili di input. Le variabili di output sono variabili dipendenti e le variabili di input sono variabili indipendenti.

Regressione lineare

Ogni variabile indipendente ha una relazione diretta con la variabile dipendente e non ha alcuna relazione con le altre variabili indipendenti. Questa relazione è nota come relazione lineare. La variabile dipendente è in genere un valore compreso in un intervallo di valori continui.

Questa è la formula, o funzione lineare, per creare un modello di regressione lineare:

y= β0 + β1X1 + β2X2+… βnXn+ ε

Ecco cosa significa ogni variabile:

  • y è la variabile dipendente prevista
  • β0 è l'intercetta y quando tutte le variabili di input indipendenti sono uguali a 0
  • β1X1 è il coefficiente di regressione (B1) della prima variabile indipendente (X1), il valore di impatto della prima variabile indipendente sulla variabile dipendente
  • βnXn è il coefficiente di regressione (BN) dell'ultima variabile indipendente (XN), quando ci sono più valori di input
  • ε è l'errore del modello

Un esempio di regressione lineare è la previsione del prezzo di una casa (variabile dipendente) in base al numero di stanze, al quartiere e all'età (variabili indipendenti).

Regressione logistica

Il valore della variabile dipendente proviene da un elenco di categorie finite che utilizzano la classificazione binaria. Queste sono dette variabili categoriali. Un esempio è il risultato del lancio di un dado a sei facce. Questa relazione è nota come relazione logistica.

La formula per la regressione logistica applica una trasformazione logit, o il logaritmo naturale delle probabilità, alla probabilità di successo o fallimento di una particolare variabile categoriale.

y = e^(β0 + β1X1 + β2X2+… βnXn+ ε) / (1 + e^(β0 + β1 x 1 + β2 x 2 +… βn x n + ε))

Ecco cosa significa ogni variabile:

  • y dà la probabilità di successo della variabile categoriale y
  • e (x) è il numero di Eulero, l'inverso della funzione logaritmica naturale o della funzione sigmoide, ln (x)
  • β0, β1X1... βnXn hanno lo stesso significato della regressione lineare nella sezione precedente

Un esempio di regressione logistica è la previsione della possibilità che il prezzo di una casa superi i 500.000 dollari (variabile dipendente) in base al numero di stanze, al quartiere e all'età (variabili indipendenti).

Quali sono le similitudini tra regressione lineare e regressione logistica?

La regressione lineare e la regressione logistica condividono alcuni punti in comune e hanno spazi applicativi simili ad ampio raggio.

Analisi statistica

La regressione logistica e lineare sono due forme di analisi statistica o di dati e rientrano nel campo della data science. Entrambe utilizzano modelli matematici per mettere in relazione un insieme di variabili indipendenti o note con variabili dipendenti. È possibile rappresentare sia la regressione logistica che la regressione lineare come equazioni matematiche. Puoi anche rappresentare il modello su un grafico.

Tecniche di machine learning

Sia i modelli di regressione lineare che quelli di regressione logistica trovano impiego nel machine learning supervisionato.

Il machine learning supervisionato prevede l'addestramento di un modello inserendo set di dati etichettati. Le variabili dipendenti e indipendenti sono note e raccolte da ricercatori umani. Inserendo dati storici noti, l'equazione matematica viene decodificata al contrario. Alla fine, le previsioni possono diventare accurate per il calcolo di variabili dipendenti sconosciute da variabili indipendenti note.

L'apprendimento supervisionato è diverso dall'apprendimento non supervisionato, in cui i dati non sono etichettati.

Scopri di più sul machine learning »

Difficoltà di addestramento

Sia la regressione logistica che la regressione lineare richiedono una quantità significativa di dati etichettati affinché i modelli diventino accurati nelle previsioni. Questo può essere un compito arduo per gli umani. Ad esempio, se desideri etichettare se un'immagine contiene un'auto, tutte le immagini devono avere tag con variabili come le dimensioni delle auto, gli angoli delle foto e gli ostacoli. 

Precisione di previsione limitata

Un modello statistico che adatta i dati di input ai dati di output non implica necessariamente una relazione causale tra la variabile dipendente e quella indipendente. Sia per la regressione logistica che per la regressione lineare, la correlazione non è causalità.

Per utilizzare l'esempio dei prezzi delle abitazioni della sezione precedente, supponiamo che il nome del proprietario della casa si aggiunga all'elenco delle variabili indipendenti. Quindi, il nome John Doe è correlato ai prezzi di vendita più bassi delle case. Mentre la regressione lineare e la regressione logistica prevedono sempre prezzi delle case più bassi se il nome del proprietario è John Doe, la logica dice che questa relazione con i dati di input non è corretta.

Principali differenze tra regressione lineare e regressione logistica

La regressione logistica e la regressione lineare sono molto diverse nei loro approcci matematici.

Valore di output

L'output della regressione lineare è una scala di valori continua. Ad esempio, questa include numeri, chilometri, prezzo e peso.

Al contrario, il valore di output del modello di regressione logistica è la probabilità che si verifichi un evento categorico fisso. Ad esempio, 0,76 potrebbe significare una probabilità del 76% di indossare una camicia blu e 0,22 potrebbe significare una probabilità del 22% di votare sì.

Relazione variabile

Nell'analisi di regressione, una linea di regressione è la forma della linea del grafico che rappresenta la relazione tra ciascuna variabile indipendente e la variabile dipendente.

Nella regressione lineare, la linea di regressione è una retta. Qualsiasi modifica a una variabile indipendente ha un effetto diretto sulla variabile dipendente.

Nella regressione logistica, la linea di regressione è una curva a forma di S, nota anche come curva sigmoide.

Tipo di distribuzione matematica

La regressione lineare segue una distribuzione normale o gaussiana della variabile dipendente. Una distribuzione normale è rappresentata da una linea continua su un grafico.

Una regressione logistica segue una distribuzione binomiale. La distribuzione binomiale è in genere rappresentata come un grafico a barre.

Quando utilizzare la regressione logistica e quando la regressione lineare

È possibile utilizzare la regressione lineare quando si desidera prevedere una variabile dipendente continua da una scala di valori. Usa la regressione logistica quando ti aspetti un risultato binario (ad esempio, sì o no).

Ecco alcuni esempi di regressione lineare: 

  • Previsione dell'altezza di un adulto in base all'altezza della madre e del padre
  • Previsione del volume delle vendite di zucche in base al prezzo, al periodo dell'anno e alla posizione del negozio
  • Previsione del prezzo di un biglietto aereo in base all'origine, alla destinazione, al periodo dell'anno e alla compagnia aerea
  • Previsione del numero di like sui social media in base al post, al numero di follower organici, al contenuto del post e all'ora del giorno in cui è stato pubblicato

Ecco alcuni esempi di regressione logistica:

  • Previsione se una persona contrarrà malattie cardiache in base all'IMC, al fumo e alla predisposizione genetica
  • Previsione degli articoli di abbigliamento al dettaglio che saranno più popolari in base a colore, taglia, tipo e prezzo
  • Previsione se un dipendente si licenzierà in quell'anno in base alla retribuzione, ai giorni in ufficio, al numero di riunioni, al numero di e-mail inviate, al team e alla mansione
  • Previsione di quali membri del team di vendita avranno contratti per più di 1 milione di dollari in un anno in base alle vendite, alla durata e al tasso di commissione dell'anno precedente

Riepilogo delle differenze: regressione lineare e regressione logistica

 

Regressione lineare

Regressione logistica

In cosa consiste?

Un metodo statistico per prevedere un valore di output da un insieme di valori di input.

Un metodo statistico per prevedere la probabilità che un valore di output provenga da una determinata categoria a partire da un insieme di variabili categoriali.

Relazione

Relazione lineare, rappresentata da una linea retta.

Relazione logistica o relazione sigmoidale, rappresentata da una curva a forma di S.

Equazione

Lineare.

Logaritmica.

Tipo di apprendimento supervisionato

Regressione.

Classificazione.

Tipo di distribuzione

Normale/gaussiano.

Binomiale.

Ideale per

Attività che richiedono una variabile dipendente continua prevista da una scala.

Attività che richiedono una probabilità prevista che una variabile dipendente categorica si verifichi da un insieme fisso di categorie.

Come puoi eseguire l'analisi della regressione lineare e della regressione logistica su AWS?

Puoi eseguire analisi di regressione lineare e logistica su Amazon Web Services (AWS) utilizzando Amazon SageMaker.

SageMaker è un servizio di machine learning completamente gestito con algoritmi integrati per la regressione lineare e la regressione logistica, oltre a numerosi altri pacchetti di software statistici. È possibile implementare la regressione lineare con tutti i valori di input necessari o risolvere problemi di regressione con modelli di probabilità logistici.

Ad esempio, ecco come puoi trarre vantaggio dall'uso di SageMaker:

  • Prepara, crea, addestra e implementa rapidamente modelli di regressione
  • Elimina il peso di ogni fase del processo di regressione lineare e logistica e sviluppa modelli di regressione di alta qualità
  • Accedi a tutti i componenti necessari per l'analisi della regressione in un unico set di strumenti per portare i modelli in produzione in modo più rapido, semplice e conveniente

Inizia con l'analisi di regressione su AWS creando un account oggi stesso.