Lojistik regresyon nedir?

Lojistik regresyon, iki veri faktörü arasındaki ilişkileri bulmak için matematikten yararlanan bir veri analizi tekniğidir. Lojistik regresyon, daha sonra diğerine dayalı bu faktörlerden birinin değerini tahmin etmek için bu ilişkiyi kullanır. Tahminin genellikle evet ya da hayır gibi sınırlı sayıda sonucu vardır.

Örneğin, web sitesi ziyaretçinizin alışveriş sepetindeki ödeme düğmesine tıklayıp tıklamayacağını tahmin etmek istediğinizi varsayalım. Lojistik regresyon analizi, web sitesinde harcanan zaman ve sepetteki ürün sayısı gibi geçmiş ziyaretçi davranışlarına bakar. Geçmişte, ziyaretçiler sitede beş dakikadan fazla zaman geçirdiyse ve sepete üçten fazla ürün eklediyse ödeme düğmesine tıkladıklarını belirler. Lojistik regresyon işlevi bu bilgiyi kullanarak daha sonra yeni bir web sitesi ziyaretçisinin davranışını tahmin edebilir.

Lojistik regresyon neden önemlidir?

Lojistik regresyon, yapay zeka ve makine öğrenimi (AI/ML) alanında önemli bir tekniktir. ML modelleri, insan müdahalesi olmadan karmaşık veri işleme görevlerini gerçekleştirmek için eğitebileceğiniz yazılım programlarıdır. Lojistik regresyon kullanılarak oluşturulan ML modelleri, kuruluşların iş verilerinden eyleme dönüştürülebilir öngörüler elde etmelerine yardımcı olur. Bu bilgileri operasyonel maliyetleri azaltmak, verimliliği artırmak ve daha hızlı ölçeklendirmek amacıyla tahmine dayalı analiz için kullanabilirler. Örneğin, işletmeler, çalışanların elde tutulmasını artıran veya daha kârlı ürün tasarımına yol açan kalıpları ortaya çıkarabilir.

Diğer ML tekniklerine göre lojistik regresyon kullanmanın bazı avantajları aşağıda verilmiştir.

Basitlik

Lojistik regresyon modelleri matematiksel olarak diğer ML yöntemlerine göre daha az karmaşıktır. Bu nedenle, ekibinizdeki hiç kimsenin derinlemesine ML uzmanlığı olmasa bile bunları uygulayabilirsiniz.

Hız

Lojistik regresyon modelleri, bellek ve işlem gücü gibi daha az hesaplama kapasitesine ihtiyaç duydukları için büyük hacimli verileri yüksek hızda işleyebilir. Bu da onları, ML projelerine başlayan kuruluşların hızlı kazançlar elde etmesi için ideal kılar.

Esneklik

Lojistik regresyon, iki veya daha fazla sınırlı sonucu olan soruların yanıtlarını bulmak için kullanılabilir. Ayrıca verileri önceden işlemek için de kullanılabilir. Örneğin, banka işlemleri gibi çok çeşitli değerlere sahip verileri lojistik regresyon kullanarak daha küçük, sınırlı bir değer aralığında sıralayabilirsiniz. Daha sonra daha doğru analiz için diğer ML tekniklerini kullanarak bu küçük veri kümesini işleyebilirsiniz.

Görünürlük

Lojistik regresyon analizi, geliştiricilere dahili yazılım süreçlerinde diğer veri analizi tekniklerinden daha fazla görünürlük sağlar. Hesaplamalar daha az karmaşık olduğundan sorun giderme ve hata düzeltme de daha kolaydır.

Lojistik regresyon uygulamaları nelerdir?

Lojistik regresyon birçok farklı sektörde birkaç gerçek dünya uygulamasına sahiptir.

Üretim

İmalat şirketleri, makinelerde parça arızası olasılığını tahmin etmek için lojistik regresyon analizini kullanır. Daha sonra gelecekteki arızaları en aza indirmek için bu tahmine dayalı olarak bakım programları planlarlar.

Sağlık hizmetleri

Tıbbi araştırmacılar, hastalarda hastalık olasılığını tahmin ederek önleyici bakım ve tedaviyi planlar. Aile öyküsünün veya genlerin hastalıklar üzerindeki etkisini karşılaştırmak için lojistik regresyon modelleri kullanırlar. 

Finans 

Finansal şirketlerin dolandırıcılık için finansal işlemleri analiz etmesi ve kredi başvurularını ve sigorta uygulamalarını risk açısından değerlendirmesi gerekir. Lojistik regresyon modellerinin yüksek riskli veya düşük riskli ve dolandırıcılık olan ya da olmayan gibi ayrı sonuçları olduğundan bu sorunlar lojistik regresyon modeli için uygundur.  

Pazarlama

Çevrimiçi reklamcılık araçları, kullanıcıların bir reklama tıklayıp tıklamayacağını tahmin etmek için lojistik regresyon modelini kullanır. Sonuç olarak pazarlamacılar, farklı kelimelere ve resimlere verilen kullanıcı yanıtlarını analiz edebilir ve müşterilerin etkileşimde bulunacağı yüksek performanslı reklamlar oluşturabilir.

Regresyon analizi nasıl çalışır?

Lojistik regresyon, veri bilimcilerin makine öğreniminde (ML) yaygın olarak kullandığı birkaç farklı regresyon analizi tekniğinden biridir. Lojistik regresyonu anlamak için öncelikle temel regresyon analizini anlamalıyız. Aşağıda regresyon analizinin nasıl çalıştığını göstermek için bir doğrusal regresyon analizi örneği verilmiştir. 

Soruyu tanımlayın

Herhangi bir veri analizi, bir iş sorusuyla başlar. Lojistik regresyon için belirli sonuçları elde etmek üzere soruyu çerçevelemelisiniz:

  • Yağmurlu günler aylık satışlarımızı etkiler mi? (evet ya da hayır)
  • Müşteri ne tür bir kredi kartı etkinliği gerçekleştiriyor? (yetkili, dolandırıcı veya potansiyel olarak dolandırıcı) 

Geçmiş verileri toplayın 

Soruyu tanımladıktan sonra, dahil olan veri faktörlerini belirlemeniz gerekir. Daha sonra tüm faktörler için geçmiş verileri toplarsınız. Örneğin, yukarıda gösterilen ilk soruyu cevaplamak üzere, son üç yılda her ay için yağmurlu günlerin sayısını ve aylık satış verilerinizi toplayabilirsiniz.

Regresyon analiz modelini eğitin 

Geçmiş verileri regresyon yazılımını kullanarak işlersiniz. Yazılım, farklı veri noktalarını işler ve denklemleri kullanıp bunları matematiksel olarak bağlar. Örneğin, üç aylık yağmurlu gün sayısı 3, 5 ve 8 ise ve o aylardaki satış sayısı 8, 12 ve 18 ise, regresyon algoritması faktörleri denklemle birleştirecektir:

Satış Sayısı = 2* (Yağmurlu Gün Sayısı) + 2

Bilinmeyen değerler için tahminlerde bulunun

Bilinmeyen değerler söz konusu olduğunda, yazılım bir tahmin yapmak için denklemi kullanır. Temmuz ayında altı gün yağmur yağacağını biliyorsanız yazılım, temmuz ayının satış değerini 14 olarak tahmin edecektir.

Lojistik regresyon modeli nasıl çalışır?

Lojistik regresyon modelini anlamak için önce denklemleri ve değişkenleri anlayalım.

Denklemler

Matematikte denklemler iki değişken arasındaki ilişkiyi verir: x ve y. Bu denklemleri veya fonksiyonları, x ekseni ve y ekseni boyunca bir grafiği çizmek için farklı x ve y değerleri koyarak kullanabilirsiniz. Örneğin, y = 2*x fonksiyonunun grafiğini çizerseniz aşağıda gösterildiği gibi düz bir çizgi elde edersiniz. Dolayısıyla bu fonksiyona doğrusal fonksiyon da denir.

Değişkenler 

İstatistikte değişkenler, veri faktörleri veya değerleri değişen özniteliklerdir. Herhangi bir analiz için, belirli değişkenler bağımsız veya açıklayıcı değişkenlerdir. Bu öznitelikler bir sonucun sebebidir. Diğer değişkenler; bağımlı değişkenler veya yanıt değişkenleridir ve değerleri bağımsız değişkenlere bağlıdır. Genel anlamda lojistik regresyon, her iki değişkenin geçmiş veri değerlerine bakarak bağımsız değişkenlerin bir bağımlı değişkeni nasıl etkilediğini araştırır. 

Yukarıdaki örneğimizde x, bilinen bir değere sahip olduğundan bağımsız değişken, tahmin değişkeni veya açıklayıcı değişken olarak adlandırılır. Y'nin değeri bilinmediğinden buna bağımlı değişken, sonuç değişkeni veya yanıt değişkeni denir. 

Lojistik regresyon fonksiyonu

Lojistik regresyon, matematikte x ve y arasındaki denklem olarak lojistik fonksiyonu veya logit fonksiyonu kullanan istatistiksel bir modeldir. Logit fonksiyonu, y'yi x'in sigmoid fonksiyonu olarak eşler.

Bu lojistik regresyon denklemini çizerseniz aşağıda gösterildiği gibi bir S eğrisi elde edersiniz.

Gördüğünüz gibi, logit fonksiyonu bağımsız değişkenin değerlerinden bağımsız olarak bağımlı değişken için yalnızca 0 ile 1 arasındaki değerleri döndürür. Lojistik regresyon, bağımlı değişkenin değerini bu şekilde tahmin eder. Lojistik regresyon yöntemleri aynı zamanda çoklu bağımsız değişken ile bir bağımlı değişken arasındaki denklemleri de modellemektedir.

Çok bağımsız değişkenli lojistik regresyon analizi 

Çoğu durumda, birden fazla açıklayıcı değişken bağımlı değişkenin değerini etkiler. Lojistik regresyon formülleri, bu tür giriş verisi kümelerini modellemek için farklı bağımsız değişkenler arasında doğrusal bir ilişki olduğunu varsayar. Sigmoid fonksiyonunu değiştirebilir ve son çıktı değişkenini şu şekilde işleyebilirsiniz: 

y = f0 + β1x1 + β2x2+… βnxn)

β sembolü, regresyon katsayısını temsil eder. Logit modeli, hem bağımlı hem de bağımsız değişkenlerin bilinen değerlerine sahip yeterince büyük bir deneysel veri kümesi verdiğinizde bu katsayı değerlerini tersine hesaplayabilir. 

Logaritmik olasılıklar

Logit modeli ayrıca başarının başarısızlığa oranını veya logaritmik olasılıkları da belirleyebilir. Örneğin, arkadaşlarınızla poker oynarken 10 maçtan dördünü kazanırsanız kazanma olasılığınız altıda dörttür ve bu da başarınızın başarısızlığa oranıdır. Öte yandan kazanma olasılığınız 10'da dörttür.

Matematiksel olarak, olasılık açısından olasılıklarınız p/(1 - p) ve logaritmik olasılıklarınız (p/(1 - p)) şeklindedir. Lojistik fonksiyonu aşağıda gösterildiği gibi logaritmik olasılıklar olarak temsil edebilirsiniz:

Lojistik regresyon analizi türleri nelerdir?

Bağımlı değişkenin sonuçlarına dayalı olarak lojistik regresyon analizine ilişkin üç yaklaşım vardır.

İkili lojistik regresyon

İkili lojistik regresyon, yalnızca iki olası sonucu olan ikili sınıflandırma problemlerinde işe yarar. Bağımlı değişkenin yalnızca "evet ve hayır" veya "0 ve 1" gibi iki değeri olabilir.

Lojistik fonksiyon 0 ile 1 arasında bir değer aralığını hesaplasa da ikili regresyon modeli, cevabı en yakın değerlere yuvarlar. Çoğunlukla 0,5'in altındaki cevaplar 0'a yuvarlanır ve 0,5'in üzerindeki cevaplar 1'e yuvarlanır; böylece lojistik fonksiyon ikili bir sonuç döndürür.

Çok terimli lojistik regresyon

Çok terimli regresyon, sonuçların sayısı sınırlı olduğu sürece birkaç olası sonucu olan problemleri analiz edebilir. Örneğin, konut fiyatlarının nüfus verilerine göre %25, %50, %75 veya %100 artacağını tahmin edebilir ancak bir evin tam değerini tahmin edemez.

Çok terimli lojistik regresyon, sonuç değerlerini 0 ve 1 arasındaki farklı değerlerle eşleyerek çalışır. Lojistik fonksiyon 0,1; 0,11; 0,12 vb. gibi bir dizi sürekli veri döndürebildiğinden, çok terimli regresyon da çıktıyı mümkün olan en yakın değerlere göre gruplandırır.

Sıralı lojistik regresyon

Sıralı lojistik regresyon veya sıralı logit modeli, sayıların gerçek değerlerden ziyade sıralamaları temsil ettiği problemler için özel bir çok terimli regresyon türüdür. Örneğin, müşterilerden sizden yıl boyunca satın aldıkları ürün sayısı gibi sayısal bir değere bağlı olarak hizmetinizi kötü, orta, iyi veya mükemmel şeklinde sıralamalarını isteyen bir anket sorusuna verdikleri yanıtı tahmin etmek için sıralı regresyon kullanırsınız.

Lojistik regresyon diğer ML tekniklerine kıyasla nasıl çalışır?

İki yaygın veri analizi tekniği; doğrusal regresyon analizi ve derin öğrenmedir.

Doğrusal regresyon analizi

Yukarıda açıklandığı gibi, doğrusal regresyon, bağımlı ve bağımsız değişkenler arasındaki ilişkiyi doğrusal bir kombinasyon kullanarak modeller. Doğrusal regresyon denklemi

y= β0X0 + β1X1+β 2X2+... β nXn+, burada β1 ila βn ve ε regresyon katsayısıdır.

Lojistik regresyon ve doğrusal regresyon karşılaştırması

Doğrusal regresyon, belirli bir bağımsız değişken kümesini kullanarak sürekli bağımlı bir değişkeni öngörür. Sürekli değişken, fiyat veya yaş gibi bir değer aralığına sahip olabilir. Dolayısıyla doğrusal regresyon, bağımlı değişkenin gerçek değerlerini tahmin edebilir. "10 yıl sonra pirinç fiyatı ne olacak?" gibi soruları yanıtlayabilir.

Doğrusal regresyonun aksine, lojistik regresyon bir sınıflandırma algoritmasıdır. Sürekli veriler için gerçek değerleri öngöremez. "Pirinç fiyatı 10 yılda% 50 artacak mı?" gibi soruları yanıtlayabilir.

Derin öğrenme

Derin öğrenme, bilgiyi analiz etmek için insan beynini simüle eden sinir ağlarını veya yazılım bileşenlerini kullanır. Derin öğrenme hesaplamaları, vektörlerin matematiksel kavramına dayanmaktadır.

Lojistik regresyon ve derin öğrenme karşılaştırması

Lojistik regresyon, derin öğrenmeye göre daha az karmaşıktır ve bilgi işlem açısından yoğunluğu daha azdır. Daha da önemlisi, derin öğrenme hesaplamaları, karmaşıklıkları ve makine odaklı doğaları gereği geliştiriciler tarafından araştırılamaz veya değiştirilemez. Diğer yandan, lojistik regresyon hesaplamaları şeffaftır ve sorunları gidermek daha kolaydır.

AWS'de lojistik regresyon analizini nasıl çalıştırabilirsiniz?

Amazon SageMaker'ı kullanarak AWS'de lojistik regresyon çalıştırabilirsiniz. SageMaker, diğer birçok istatistiksel yazılım paketinin yanı sıra doğrusal regresyon ve lojistik regresyon için yerleşik algoritmalara sahip, tam olarak yönetilen bir makine öğrenimi (ML) hizmetidir.

  • Her veri bilimcisi, lojistik regresyon modellerini hızlı bir şekilde hazırlamak, oluşturmak, eğitmek ve dağıtmak için SageMaker'ı kullanabilir.
  • SageMaker, lojistik regresyon sürecinin her adımındaki ağır yükleri üstlenerek yüksek kaliteli model geliştirmeyi daha kolay hale getirir.
  • SageMaker, lojistik regresyon için ihtiyacınız olan tüm bileşenleri tek bir araç setinde sunar. Böylece modelleri daha hızlı, daha kolay ve daha düşük maliyetle üretime alabilirsiniz.

Hemen bir AWS hesabı oluşturarak lojistik regresyonu kullanmaya başlayın.

AWS'de Sonraki Adımlar

Ürünle ilgili diğer kaynaklara göz atın
AWS'de Ücretsiz Makine Öğrenimi Hizmetleri 
Ücretsiz bir hesap için kaydolun

AWS Ücretsiz Kullanım için anında erişim elde edin. 

Kaydolun 
Konsolda oluşturmaya başlayın

AWS Yönetim Konsolu'nda oluşturmaya başlayın.

Oturum açın