Doğrusal Regresyon ile Lojistik Regresyon Arasındaki Fark Nedir?

Doğrusal regresyon ve lojistik regresyon, geçmiş verileri analiz ederek tahminler yapan makine öğrenimi teknikleridir. Örneğin, regresyon analizi geçmiş müşteri satın alma eğilimlerine bakarak gelecekteki satışları tahmin eder ve böylece daha bilinçli envanter satın alımları yapabilirsiniz. Doğrusal regresyon teknikleri, kesin bilinmeyen değeri tahmin etmek için bilinmeyen faktörü, bilinen birden fazla faktör üzerinde matematiksel olarak modellemektedir. Benzer şekilde lojistik regresyon, iki veri faktörü arasındaki ilişkileri bulmak için matematiği kullanır. Lojistik regresyon, daha sonra diğerine dayalı bu faktörlerden birinin değerini tahmin etmek için bu ilişkiyi kullanır. Tahminin genellikle evet ya da hayır gibi sınırlı sayıda sonucu vardır.

Doğrusal regresyon hakkında bilgi edinin »

Lojistik regresyon hakkında bilgi edinin »

Tahminde bulunma: doğrusal regresyon ve lojistik regresyon

Hem doğrusal regresyon hem de lojistik regresyon, bir veya daha fazla girdi değişkeninden bir çıktı değişkeninin değerini tahmin etmek için matematiksel modellemeyi kullanır. Çıktı değişkenleri bağımlı değişkenler ve girdi değişkenleri bağımsız değişkenlerdir.

Doğrusal regresyon

Her bağımsız değişkenin bağımlı değişkenle doğrudan bir ilişkisi varken, diğer bağımsız değişkenlerle hiçbir ilişkisi yoktur. Bu ilişki, doğrusal ilişki olarak bilinir. Bağımlı değişken genellikle bir dizi sürekli değer aralığındaki bir değerdir.

Doğrusal bir regresyon modeli oluşturma formülü veya doğrusal işlevi şu şekildedir:

y= β0 + β1X1 + β2X2+… βnXn+ ε

Her bir değişkenin anlamını burada bulabilirsiniz:

  • y, tahmin edilen bağımlı değişkendir
  • β0, tüm bağımsız girdi değişkenleri 0'a eşit olduğunda y-kesişimidir
  • β1X1, ilk bağımsız değişkenin (X1) regresyon katsayısıdır (B1), ilk bağımsız değişkenin bağımlı değişken üzerindeki etki değeridir
  • βnXn, birden fazla girdi değeri olduğunda son bağımsız değişkenin (XN) regresyon katsayısıdır (BN)
  • ε, model hatasıdır

Oda sayısına, mahalleye ve yaşa (bağımsız değişkenler) dayalı olarak bir ev fiyatını (bağımlı değişken) tahmin etmek, doğrusal regresyona örnek olarak verilebilir.

Lojistik regresyon

Bağımlı değişkenin değeri, ikili sınıflandırma kullanan sonlu kategoriler listesinden bir değerdir. Bunlara kategorik değişkenler denir. Altı taraflı bir zarın yuvarlanmasıyla elde edilen sonuç, buna örnek olarak verilebilir. Bu ilişki, lojistik ilişki olarak bilinir.

Lojistik regresyon formülü, belirli bir kategorik değişkenin başarılı veya başarısız olma olasılığına bir logit dönüşümü veya olasılıkların doğal logaritmasını uygular.

y = e^(β0 + β1X1 + β2X2+… βnXn+ ε) / (1 + e^(β0 + β1 x 1 + β2 x 2 +… βn x n + ε))

Her bir değişkenin anlamını burada bulabilirsiniz:

  • y, y kategorik değişkeninin başarı olasılığını verir
  • e (x), Euler sayısıdır, doğal logaritma fonksiyonunun veya sigmoid fonksiyonun tersidir, ln (x)
  • Β0, β1X1…βnXn, önceki bölümdeki doğrusal regresyon ile aynı anlama sahiptir

Oda sayısına, mahalleye ve yaşa (bağımsız değişkenler) dayalı olarak bir ev fiyatının (bağımlı değişken) 500.000 USD'nin üzerinde olduğunu tahmin etmek, lojistik regresyona örnek olarak verilebilir.

Doğrusal regresyon ile lojistik regresyon arasındaki benzerlikler nelerdir?

Doğrusal regresyon ve lojistik regresyonun bazı ortak noktaları vardır ve her ikisi de benzer geniş kapsamlı uygulama alanlarına sahiptir.

İstatistiksel analiz

Hem lojistik hem de doğrusal regresyon, istatistiksel analiz veya veri analizi biçimleridir ve veri bilimi kapsamındadır. Her ikisi de bir dizi bağımsız veya bilinen değişkeni bağımlı değişkenlerle ilişkilendirmek için matematiksel modellemeyi kullanır. Hem lojistik regresyonu hem de doğrusal regresyonu matematiksel denklemler olarak temsil edebilirsiniz. Modeli bir grafik üzerinde de gösterebilirsiniz.

Makine öğrenimi teknikleri

Hem doğrusal regresyon hem de lojistik regresyon modelleri, denetimli makine öğreniminde kullanılır.

Denetimli makine öğrenimi, etiketli veri kümelerini girerek bir modeli eğitmeyi içerir. Bağımlı ve bağımsız değişkenler, insan araştırmacılar tarafından bilinir ve toplanır. Bilinen tarihsel verileri girerek, matematiksel denklemde ters mühendislik yapılır. Sonunda tahminler, bilinen bağımsız değişkenlerden bilinmeyen bağımlı değişkenleri hesaplamak için doğru hale gelebilir.

Denetimli öğrenme, verilerin etiketlenmediği denetimsiz öğrenmeden farklıdır.

Makine öğrenimi hakkında bilgi edinin »

Eğitim zorluğu

Hem lojistik regresyon hem de doğrusal regresyon, modellerin tahminlerde doğru olması için önemli miktarda etiketli veri gerektirir. Bu, insanlar için zorlu bir görev olabilir. Örneğin, bir görüntünün araba içerip içermediğini etiketlemek istiyorsanız tüm görüntülerde araba boyutları, fotoğraf açıları ve engeller gibi değişkenlerin etiketleri olmalıdır. 

Sınırlı tahmin doğruluğu

Giriş verilerini çıktı verilerine uyduran istatistiksel bir model, bağımlı ve bağımsız değişken arasında mutlaka nedensel bir ilişki olduğu anlamına gelmez. Hem lojistik regresyon hem de doğrusal regresyon için korelasyon, nedensellik değildir.

Önceki bölümdeki ev fiyatlandırması örneğini kullanmak için ev sahibinin adının bağımsız değişkenler listesine katıldığını varsayalım. Daha sonra, John Doe adı daha düşük ev satış fiyatlarıyla ilişkilendirilir. Bir ev sahibinin adı John Doe ise doğrusal regresyon ve lojistik regresyon her zaman daha düşük ev fiyatlarını tahmin ederken, mantık ise giriş verileriyle bu ilişkinin yanlış olduğunu belirtir.

Temel farklar: doğrusal regresyon ve lojistik regresyon

Lojistik regresyon ve doğrusal regresyon, matematiksel yaklaşımlarında son derece farklıdır.

Çıktı değeri

Doğrusal regresyon çıktısı sürekli bir değer ölçeğidir. Örneğin buna sayılar, kilometreler, fiyat ve ağırlık dahildir.

Buna karşılık, lojistik regresyon modeli çıktı değeri, sabit bir kategorik olayın meydana gelme olasılığıdır. Örneğin 0,76, mavi gömlek giyme olasılığının %76 ve 0,22, evet oyu verme olasılığının %22 olduğu anlamına gelebilir.

Değişken ilişki

Regresyon analizinde, bir regresyon çizgisi, her bağımsız değişken ile bağımlı değişken arasındaki ilişkiyi temsil eden grafik çizgisinin şeklidir.

Doğrusal regresyonda, regresyon çizgisi düzdür. Bağımsız bir değişkende yapılan herhangi bir değişiklik, bağımlı değişken üzerinde doğrudan bir etkiye sahiptir.

Lojistik regresyonda, regresyon çizgisi, sigmoid eğri olarak da bilinen S şeklinde bir eğridir.

Matematiksel dağılım türü

Doğrusal regresyon, bağımlı değişkenin normal veya Gauss dağılımını takip eder. Normal bir dağılım, bir grafik üzerinde sürekli bir çizgi ile gösterilir.

Lojistik regresyon, bir binom dağılımını takip eder. Binom dağılımı genellikle bir çubuk grafik olarak gösterilir.

Doğrusal regresyon ve lojistik regresyon ne zaman kullanılır?

Bir değer ölçeğinden sürekli bir bağımlı değişkeni tahmin etmek istediğinizde doğrusal regresyon kullanabilirsiniz. İkili bir sonuç (ör. evet veya hayır) beklediğinizde lojistik regresyon kullanın.

Doğrusal regresyon örneklerini burada bulabilirsiniz: 

  • Bir yetişkinin boyunu anne ve babanın boyuna göre tahmin etme
  • Kabak satış hacmini fiyata, yılın zamanına ve mağaza konumuna göre tahmin etme
  • Bir uçak biletinin fiyatını kalkış noktası, varış noktası, yılın zamanı ve hava yoluna göre tahmin etme
  • Paylaşan kişiye, organik takipçi sayısına, gönderinin içeriğine ve paylaşılan günün zamanına göre sosyal medya beğenmelerinin sayısını tahmin etme

Lojistik regresyon örneklerini burada bulabilirsiniz:

  • Bir kişinin vücut kitle endeksi, sigara içme durumu ve genetik yatkınlığa bağlı olarak kalp hastalığına yakalanıp yakalanmayacağını tahmin etme
  • Renk, beden, tür ve fiyata göre hangi perakende giyim ürünlerinin en popüler olacağını tahmin etme
  • Bir çalışanın maaş oranına, ofiste geçirilen gün sayısına, toplantı sayısına, gönderilen e-posta sayısına ve görev süresine göre o yıl istifa edip etmeyeceğini tahmin etme
  • Bir önceki yılın satışlarına, görev süresine ve komisyon oranına göre bir yılda hangi satış ekibi üyelerinin 1 milyon USD'den fazla sözleşmeye sahip olacağını tahmin etme

Farklılıkların özeti: doğrusal regresyon ve lojistik regresyon

 

Doğrusal regresyon

Lojistik regresyon

Bu nedir?

Bir dizi girdi değerinden çıktı değerini tahmin etmek için kullanılan istatistiksel bir yöntem.

Bir çıktı değerinin, bir dizi kategorik değişkendeki belirli bir kategoriden olma olasılığını tahmin etmeye yarayan istatistiksel bir yöntem.

İlişki

Düz bir çizgi ile temsil edilen doğrusal ilişki.

S şeklinde bir eğri ile temsil edilen lojistik veya sigmoidal ilişki.

Denklem

Doğrusal.

Logaritmik.

Denetimli öğrenme türü

Regresyon.

Sınıflandırma.

Dağılım türü

Normal/Gauss.

Binom.

En uygun olduğu alanlar:

Bir ölçekten tahmin edilen sürekli bağımlı değişken gerektiren görevler.

Sabit bir kategori kümesinden meydana gelen kategorik bir bağımlı değişkenin tahmin olasılığını gerektiren görevler.

AWS'de doğrusal regresyon ve lojistik regresyon analizini nasıl çalıştırabilirsiniz?

Amazon SageMaker kullanarak Amazon Web Services (AWS) üzerinde doğrusal ve lojistik regresyon analizi çalıştırabilirsiniz.

SageMaker, diğer birçok istatistiksel yazılım paketinin yanı sıra hem doğrusal regresyon hem de lojistik regresyon için yerleşik regresyon algoritmalarına sahip, tam olarak yönetilen bir makine öğrenimi hizmetidir. İhtiyacınız olan sayıda girdi değeriyle doğrusal regresyon uygulayabilir veya regresyon problemlerini lojistik olasılık modelleri ile çözebilirsiniz.

Örneğin, SageMaker'ı kullanırken nasıl avantaj sağlayabileceğiniz aşağıda açıklanmıştır:

  • Regresyon modellerini hızlı bir şekilde hazırlayın, oluşturun, eğitin ve dağıtın
  • Doğrusal ve lojistik regresyon sürecinin her adımında ağır yükleri ortadan kaldırarak yüksek kaliteli regresyon modelleri geliştirin
  • Modellerin üretime daha hızlı, daha kolay ve daha uygun maliyetle ulaşmasını sağlamak üzere regresyon analizi için gereken tüm bileşenlere tek bir araç setiyle erişin

Hemen bir hesap oluşturarak AWS'de regresyon analizini kullanmaya başlayın.