1 of 33

LOJİSTİK REGRESYON ANALİZİ

Ayça Gürses

Yapay Zeka Mühendisliği (Tezsiz)

20221500047

2 of 33

Lojistik Regresyon Nedir?

Lojistik regresyon, makine öğrenmesinde bir veri kümesini analiz etmek için kullanılan istatiksel bir metottur.

Tahminlerde bulunulan diğer makine öğrenmesi modellerinde olduğu gibi, lojistik regresyon da bağımsız değişkenleri kullanarak, bağımlı değişken hakkında tahminlerde bulunmayı hedefler.

Örneğin:

-Hastalığın var olup olmadığı (1 veya 0)

-Gelen mailin spam olup olmadığı (1 veya 0)

-Ürünün arızalı olup olmadığı (1 veya 0)

3 of 33

Örnek:�

Web sitesi ziyaretçinizin alışveriş sepetindeki ödeme düğmesine tıklayıp tıklamayacağını tahmin etmek istediğinizi varsayalım.

Lojistik regresyon analizi;

  • Web sitesinde harcanan zaman
  • Sepetteki ürün sayısı

gibi geçmiş ziyaretçi davranışlarına bakar.

Geçmişte ziyaretçiler sitede beş dakikadan fazla zaman geçirdiyse ve sepete üçten fazla ürün eklediyse ödeme düğmesine tıkladıklarını belirler.

Lojistik regresyon işlevi bu bilgiyi kullanarak daha sonra yeni bir web sitesi ziyaretçisinin davranışını tahmin edebilir.

4 of 33

Elimizde bulunan verileri değerlendirdiğimizdesonucun 1 veya 0 olmasını tahmin etme durumuna sınıflandırma denir.

  • Peki hangi durumda 1, hangi durumda 0 sonucu ortaya çıkar?

Yaptığımız tahminde, bulduğumuz olasılık değeri 0.5’ten küçük ise model 0 sonucunu üretmektedir. Eğer olasılık değeri 0.5’ten büyük veya eşit ise 1 sonucunu üretir.

  • Peki bunu neye göre yapar?

Burada Sigmoid fonksiyonu devreye girer. Lojistik regresyon, sınıflandırma yapmak için Sigmoid (Lojistik) Fonksiyonu kullanır. Sigmoid fonksiyonu “S” şeklinde bir eğridir.

5 of 33

Sigmoid fonksiyonun formülü;��Z = 1/(1 + e**(-z))

  • Grafikten görüldüğü üzere;

    • Z değerinin artı sonsuza gitmesi durumunda, Y 1 değerine yaklaşmakta, �eksi sonsuza gitmesi durumunda y 0'a yaklaşmaktadır.

    • Değer >= 0.5 ise tahmin olarak 1, �aksi durumda ise tahmin olarak 0 sonucu alınmaktadır.

6 of 33

Diğer ML Tekniklerine Göre Lojistik Regresyon Kullanmanın Avantajları

Basitlik:

Lojistik regresyon modelleri matematiksel olarak diğer ML yöntemlerine göre daha az karmaşıktır. Ekibinizdeki derinlemesine ML uzmanlığı olmasa bile bunları uygulayabilirsiniz.

Hız:

Bellek ve işlem gücü gibi daha az hesaplama kapasitesine ihtiyaç duydukları için büyük hacimli verileri yüksek hızda işleyebilir.

Esneklik:

Verileri önceden işlemek için kullanılabilir. örneğin, banka işlemleri gibi çok çeşitli değerlere sahip verileri lojistik regresyon kullanarak daha küçük, sınırlı bir değer aralığında sıralayabilirsiniz.

Görünürlük:

Geliştiricilere dahili yazılım süreçlerinde diğer veri analizi tekniklerinden daha fazla görünürlük sağlar. Hesaplamalar daha az karmaşık olduğundan sorun giderme ve hata düzeltme de daha kolaydır.

7 of 33

Lojistik regresyon uygulamaları nelerdir?

Üretim

İmalat şirketleri, makinelerde parça arızası olasılığını tahmin etmek için lojistik regresyon analizini kullanır. Daha sonra gelecekteki arızaları en aza indirmek için bu tahmine dayalı olarak bakım programları planlarlar.

Sağlık hizmetleri

Tıbbi araştırmacılar, hastalarda hastalık olasılığını tahmin ederek önleyici bakım ve tedaviyi planlar. Aile öyküsünün veya genlerin hastalıklar üzerindeki etkisini karşılaştırmak için kullanırlar.

Finans

Şirketler dolandırıcılık için finansal işlemleri analiz etmek ve kredi başvurularını ve sigorta uygulamalarını risk açısından değerlendirmesinde kullanırlar.  

Pazarlama

Çevrimiçi reklamcılık araçları, kullanıcıların bir reklama tıklayıp tıklamayacağını tahmin etmek için lojistik regresyon modelini kullanır. Pazarlamacılar, farklı kelimelere ve resimlere verilen kullanıcı yanıtlarını analiz edebilir ve müşterilerin etkileşimde bulunacağı yüksek performanslı reklamlar oluşturabilir.

8 of 33

Regresyon analizi nasıl çalışır?

    • Yağmurlu günler aylık satışlarımızı etkiler mi? (evet ya da hayır)

Soruyu tanımlayın:

    • Son üç yılda her ay için yağmurlu günlerin sayısını ve aylık satış verilerinizi toplayabilirsiniz.

Geçmiş verileri toplayın:

    • Üç aylık yağmurlu gün sayısı 3, 5 ve 8 ise ve o aylardaki satış sayısı 8, 12 ve 18 ise, regresyon algoritması faktörleri denklemle birleştirecektir.

Regresyon analiz modelini eğitin:

    • Temmuz ayında altı gün yağmur yağacağını biliyorsanız yazılım, temmuz ayının satış değerini 14 olarak tahmin edecektir.

Bilinmeyen değerler için tahminlerde bulunun:

9 of 33

İkili Lojistik Regresyon

    • Yalnızca iki olası sonucu olan ikili sınıflandırma problemlerinde işe yarar. Bağımlı değişkenin yalnızca "evet ve hayır" veya "0 ve 1" gibi iki değeri olabilir. Lojistik fonksiyon 0 ile 1 arasında bir değer aralığını hesaplasa da cevabı en yakın değerlere yuvarlar.

Çok Terimli Lojistik Regresyon

    • Sonuçların sayısı sınırlı olduğu sürece birkaç olası sonucu olan problemleri analiz edebilir. Örneğin, konut fiyatlarının nüfus verilerine göre %25, %50, %75 veya %100 artacağını tahmin edebilir ancak bir evin tam değerini tahmin edemez. Sonuç değerlerini 0 ve 1 arasındaki farklı değerlerle eşleyerek çalışır.

Sıralı Lojistik Regresyon

    • Sayıların gerçek değerlerden ziyade sıralamaları temsil ettiği problemler için özel bir çok terimli regresyon türüdür. Örneğin, müşterilerden sizden yıl boyunca satın aldıkları ürün sayısı gibi sayısal bir değere bağlı olarak hizmetinizi kötü, orta, iyi veya mükemmel şeklinde sıralamalarını isteyen bir anket sorusuna verdikleri yanıtı tahmin etmek için kullanılır.

Lojistik regresyon analizi türleri nelerdir?�

10 of 33

    • Lojistik regresyonun uygulanması, yorumlanması kolaydır.
    • Veri seti doğrusal olarak ayrılabiliyorsa oldukça iyi performans gösterir.
    • Overfitting’e daha az meyillidir.

Avantajları

    • Gözlem sayısı özellik sayısından azsa, Lojistik Regresyon kullanılmamalıdır, aksi takdirde overfit olabilir.
    • Lojistik regresyonun ayrım yapabilmesi için veri setinin doğrusal olarak ayrılabiliyor olması lazım.

Dezavantajları

11 of 33

LOJİSTİK REGRESYON ÖRNEĞİ

Titanic Data Set

12 of 33

Data Setinin Özellikleri (Features)

  • survival - Survival (0 = No; 1 = Yes) (Hayatta kalma)
  • class - Passenger Class (1 = 1st; 2 = 2nd; 3 = 3rd) (Yolcu Sınıfı)
  • name – Name (İsim)
  • sex – Sex (Cinsiyet)
  • age – Age (Yaş)
  • sibsp - Number of Siblings/Spouses Aboard (Gemideki Kardeş/Eş Sayısı)
  • parch - Number of Parents/Children Aboard (Gemideki Ebeveyn/Çocuk Sayısı)
  • ticket - Ticket Number (Bilet Numarası)
  • fare - Passenger Fare (Yolcu Ücreti)
  • cabin – Cabin (Kabin)
  • embarked - Port of Embarkation (C = Cherbourg; Q = Queenstown; S = Southampton) (Biniş Limanı: Şehir)
  • boat - Lifeboat (if survived) (Cankurtaran botu (Hayatta kaldıysa))
  • body - Body number (if did not survive and body was recovered) (Ceset numarası (Hayatta değilse ve ceset kurtarıldıysa))

13 of 33

VERİ SETİ ÖN İNCELEME

Veri gereksinimlerini veya verilerin nasıl gruplandırıldığını belirleyeceğiz.

14 of 33

15 of 33

16 of 33

17 of 33

18 of 33

19 of 33

20 of 33

VERİ ÖN İŞLEME

Eksik ya da kayıp verilen missing datanın bizi yanlış yönlendirmemesi için bu işlemi yapıyoruz

21 of 33

22 of 33

23 of 33

24 of 33

25 of 33

26 of 33

27 of 33

28 of 33

29 of 33

30 of 33

MODEL DEĞERLENDİRME

31 of 33

32 of 33

33 of 33

TEŞEKKÜRLER