Was ist der Unterschied zwischen linearer Regression und logistischer Regression?


Was ist der Unterschied zwischen linearer Regression und logistischer Regression?

Lineare Regression und logistische Regression sind Techniken des Machine Learning, die durch die Analyse historischer Daten Vorhersagen treffen. Durch die Betrachtung der Kauftrends früherer Kunden schätzt die Regressionsanalyse beispielsweise künftige Verkäufe, so dass Sie fundiertere Bestandskäufe tätigen können. Lineare Regressionstechniken modellieren den unbekannten Faktor mathematisch auf mehrere bekannte Faktoren, um den genauen unbekannten Wert zu schätzen. In ähnlicher Weise nutzt die logistische Regression die Mathematik, um die Beziehungen zwischen zwei Datenfaktoren zu ermitteln. Diese Beziehung wird dann verwendet, um den Wert eines dieser Faktoren basierend auf dem anderen vorherzusagen. Die Vorhersage hat normalerweise eine begrenzte Anzahl von Ergebnissen, wie ja oder nein.

Weitere Informationen zur linearen Regression »

Weitere Informationen zur logistischen Regression »

Vorhersagen treffen: Lineare Regression vs. Logistische Regression

Sowohl die lineare Regression als auch die logistische Regression nutzen die mathematische Modellierung, um den Wert einer Ausgangsvariablen anhand einer oder mehrerer Eingangsvariablen vorherzusagen. Ausgangsvariablen sind abhängige Variablen und Eingabevariablen sind unabhängige Variablen.

Lineare Regression

Jede unabhängige Variable steht in direktem Zusammenhang mit der abhängigen Variable und hat keine Beziehung zu den anderen unabhängigen Variablen. Diese Beziehung wird als lineare Beziehung bezeichnet. Die abhängige Variable ist in der Regel ein Wert aus einem Bereich von kontinuierlichen Werten.

Dies ist die Formel oder lineare Funktion, um ein lineares Regressionsmodell zu erstellen:

y= β0 + β1X1 + β2X2+… βnXn+ ε

Die einzelnen Variablen haben folgende Bedeutung:

  • y ist die vorhergesagte abhängige Variable
  • β0 ist der y-Achsenabschnitt, wenn alle unabhängigen Eingabevariablen gleich 0 sind
  • β1X1 ist der Regressionskoeffizient (B1) der ersten unabhängigen Variablen (X1), der Einflusswert der ersten unabhängigen Variablen auf die abhängige Variable
  • βnXn ist der Regressionskoeffizient (BN) der letzten unabhängigen Variablen (XN), wenn es mehrere Eingangswerte gibt
  • ε ist der Modellfehler

Ein Beispiel für eine lineare Regression ist die Vorhersage eines Hauspreises (abhängige Variable) auf der Grundlage der Anzahl der Zimmer, der Wohngegend und des Alters (unabhängige Variablen).

Logistische Regression

Der Wert der abhängigen Variable ist einer aus einer Liste endlicher Kategorien, die eine binäre Klassifikation verwenden. Diese werden als kategoriale Variablen bezeichnet. Ein Beispiel dafür ist das Ergebnis des Wurfs eines sechsseitigen Würfels. Diese Beziehung wird als logistische Beziehung bezeichnet.

Die Formel für die logistische Regression wendet eine Logit-Transformation oder den natürlichen Logarithmus der Quoten auf die Wahrscheinlichkeit des Erfolgs oder Misserfolgs einer bestimmten kategorialen Variablen an.

y = e^(β0 + β1X1 + β2X2+… βnXn+ ε) / (1 + e^(β0 + β1 x 1 + β2 x 2 +… βn x n + ε))

Die einzelnen Variablen haben folgende Bedeutung:

  • y gibt die Erfolgswahrscheinlichkeit der kategorialen Variablen y an
  • e (x) ist die Eulersche Zahl, die Umkehrung der natürlichen Logarithmusfunktion oder Sigmoidfunktion, ln (x)
  • Β0, β1X1…βnXn haben die gleiche Bedeutung wie für die lineare Regression im vorherigen Abschnitt

Ein Beispiel für eine logistische Regression ist die Vorhersage der Wahrscheinlichkeit, dass der Preis eines Hauses über 500.000 USD liegt (abhängige Variable), basierend auf der Anzahl der Zimmer, der Nachbarschaft und dem Alter (unabhängige Variablen).

Was sind die Ähnlichkeiten zwischen linearer Regression und logistischer Regression?

Die lineare Regression und die logistische Regression weisen einige Gemeinsamkeiten auf und haben einen ähnlich breiten Anwendungsbereich.

Statistische Analyse

Logistische und lineare Regression sind beides Formen der statistischen Analyse oder Datenanalyse und gehören zum Bereich der Datenwissenschaft. Beide nutzen die mathematische Modellierung, um eine Reihe von unabhängigen oder bekannten Variablen mit abhängigen Variablen in Beziehung zu setzen. Sie können sowohl die logistische Regression als auch die lineare Regression als mathematische Gleichungen darstellen. Sie können das Modell auch in einem Diagramm darstellen.

Techniken des Machine Learning

Sowohl lineare als auch logistische Regressionsmodelle kommen beim überwachten Machine Learning zum Einsatz.

Beim überwachten Machine Learning wird ein Modell trainiert, indem beschriftete Datensätze eingegeben werden. Die abhängigen und unabhängigen Variablen sind bekannt und werden von menschlichen Wissenschaftlern erfasst. Durch die Eingabe bekannter historischer Daten wird die mathematische Gleichung rückentwickelt. Schließlich lassen sich die Vorhersagen für die Berechnung unbekannter abhängiger Variablen aus bekannten unabhängigen Variablen präzisieren.

Überwachtes Lernen unterscheidet sich von unüberwachtem Lernen, bei dem die Daten nicht gekennzeichnet sind.

Weitere Informationen über Machine Learning »

Trainingsschwierigkeit

Sowohl die logistische Regression als auch die lineare Regression erfordern eine beträchtliche Menge an markierten Daten, damit die Modelle genaue Vorhersagen treffen können. Dies kann für Menschen eine mühsame Aufgabe sein. Wenn Sie z. B. kennzeichnen möchten, ob ein Bild ein Auto enthält, müssen alle Bilder mit Variablen wie Autogröße, Aufnahmewinkel und Hindernissen versehen sein. 

Eingeschränkte Prognosegenauigkeit

Ein statistisches Modell, das die Eingabedaten an die Ausgabedaten anpasst, impliziert nicht unbedingt eine kausale Beziehung zwischen der abhängigen und der unabhängigen Variable. Sowohl bei der logistischen Regression als auch bei der linearen Regression gilt: Korrelation ist nicht gleich Kausalität.

Um das Beispiel der Hauspreise aus dem vorigen Abschnitt aufzugreifen, nehmen wir an, dass der Name des Hauseigentümers in die Liste der unabhängigen Variablen aufgenommen wird. Der Name John Doe korreliert nun mit niedrigeren Hausverkaufspreisen. Während die lineare Regression und die logistische Regression immer niedrigere Hauspreise vorhersagen, wenn der Name des Eigentümers John Doe ist, sagt die Logik, dass diese Beziehung zu den Eingabedaten falsch ist.

Hauptunterschiede: Lineare Regression vs. Logistische Regression

Die logistische Regression und die lineare Regression unterscheiden sich in ihren mathematischen Ansätzen deutlich.

Ausgabewert

Das Ergebnis der linearen Regression ist eine kontinuierliche Werteskala. Dazu gehören zum Beispiel Zahlen, Kilometer, Preis und Gewicht.

Der Ausgabewert des logistischen Regressionsmodells ist dagegen die Wahrscheinlichkeit des Eintretens eines festen kategorialen Ereignisses. Zum Beispiel könnte 0,76 eine 76%ige Chance bedeuten, ein blaues Hemd zu tragen, und 0,22 eine 22%ige Chance, mit „Ja“ zu stimmen.

Variables Verhältnis

Bei der Regressionsanalyse ist eine Regressionslinie die Form der graphischen Linie, die die Beziehung zwischen jeder unabhängigen Variablen und der abhängigen Variablen darstellt.

Bei der linearen Regression ist die Regressionslinie gerade. Jede Veränderung einer unabhängigen Variable wirkt sich direkt auf die abhängige Variable aus.

Bei der logistischen Regression ist die Regressionslinie eine S-förmige Kurve, die auch als Sigmoidkurve bezeichnet wird.

Mathematischer Verteilungstyp

Die lineare Regression folgt einer Normal- oder Gaußverteilung der abhängigen Variablen. Eine Normalverteilung wird durch eine durchgehende Linie in einem Diagramm dargestellt.

Eine logistische Regression folgt einer Binomialverteilung. Die Binomialverteilung wird typischerweise als Balkendiagramm dargestellt.

Wann ist eine lineare Regression und wann eine logistische Regression zu verwenden?

Sie können die lineare Regression verwenden, wenn Sie eine kontinuierliche abhängige Variable anhand einer Werteskala vorhersagen möchten. Verwenden Sie die logistische Regression, wenn Sie ein binäres Ergebnis erwarten (z. B. ja oder nein).

Hier finden Sie Beispiele für lineare Regression: 

  • Vorhersage der Größe eines Erwachsenen auf der Grundlage der Größe der Mutter und des Vaters
  • Vorhersage des Verkaufsvolumens von Kürbissen auf der Grundlage des Preises, der Jahreszeit und des Standorts des Geschäfts
  • Vorhersage des Preises für ein Flugticket auf der Grundlage von Abflugort, Zielort, Jahreszeit und Fluggesellschaft
  • Vorhersage der Anzahl der Likes in sozialen Medien auf der Grundlage des Posters, der Anzahl seiner organischen Follower, des Inhalts des Posts und der Uhrzeit der Veröffentlichung

Hier finden Sie Beispiele für die logistische Regression:

  • Vorhersage einer Herzerkrankung anhand von BMI, Raucherstatus und genetischer Veranlagung
  • Vorhersage, welche Kleidungsstücke im Einzelhandel aufgrund von Farbe, Größe, Typ und Preis am beliebtesten sein werden
  • Vorhersage, ob ein Mitarbeiter in diesem Jahr kündigen wird, auf der Grundlage des Gehalts, der Tage im Büro, der Anzahl der Besprechungen, der Anzahl der gesendeten E-Mails, des Teams und der Betriebszugehörigkeit
  • Vorhersage, welche Mitglieder des Vertriebsteams in einem Jahr Verträge im Wert von mehr als 1 Million Dollar abschließen werden, basierend auf den Umsätzen des Vorjahres, der Betriebszugehörigkeit und dem Provisionssatz

Zusammenfassung der Unterschiede: lineare Regression vs. logistische Regression

 

Lineare Regression

Logistische Regression

Wie lautet es?

Eine statistische Methode zur Vorhersage eines Ausgabewerts aus einer Reihe von Eingabewerten.

Eine statistische Methode zur Vorhersage der Wahrscheinlichkeit, dass ein Ausgabewert einer bestimmten Kategorie angehört, aus einer Reihe von kategorialen Variablen.

Beziehung

Lineare Beziehung, dargestellt durch eine gerade Linie.

Logistische Beziehung oder sigmoidale Beziehung, dargestellt durch eine S-förmige Kurve.

Gleichung

Linear.

Logarithmisch.

Art des überwachten Lernens

Regression.

Klassifizierung.

Verteilungsart

Normal/Gauß.

Binomisch.

Am besten geeignet für

Aufgaben, die eine vorhergesagte kontinuierliche abhängige Variable aus einer Skala erfordern.

Aufgaben, die eine Vorhersage der Wahrscheinlichkeit des Auftretens einer kategorialen abhängigen Variable aus einem festen Satz von Kategorien erfordern.

Wie können Sie lineare Regressions- und logistische Regressionsanalysen in AWS durchführen?

Sie können lineare und logistische Regressionsanalysen auf Amazon Web Services (AWS) mit Amazon SageMaker durchführen.

SageMaker ist ein vollständig verwalteter Service für Machine Learning mit integrierten Algorithmen für lineare Regression und logistische Regression, neben mehreren anderen statistischen Softwarepaketen. Sie können die lineare Regression mit beliebig vielen Eingabewerten implementieren oder Regressionsprobleme mit logistischen Wahrscheinlichkeitsmodellen lösen.

So können Sie zum Beispiel von der Verwendung von SageMaker profitieren:

  • Schnelles Vorbereiten, Erstellen, Trainieren und Bereitstellen von Regressionsmodellen
  • Entlastung der einzelnen Schritte des linearen und logistischen Regressionsprozesses und Entwicklung hochwertiger Regressionsmodelle
  • Zugriff auf alle für die Regressionsanalyse erforderlichen Komponenten in einem einzigen Toolset, um Modelle schneller, einfacher und kostengünstiger in die Produktion zu bringen

Beginnen Sie mit der Regressionsanalyse in AWS, indem Sie noch heute ein Konto erstellen.