Week 2 Day 3 Notes - Furk4nBulut/Uygulamalarla-Makine-Ogrenmesi-ve-Derin-Ogrenme-Atolyesi GitHub Wiki

12 April 2024 Week 2 Day 3

Scikit-Learn

Değişkenler Arasındaki İlişkilerin Analizi

Neden ilişki analizi?

  • Değişkenler arasındaki ilişkileri anlamak veri setinden değerli bilgiler elde etmemizi sağlar.
  • Bu bilgiler iş kararları almak, tahminler yapmak ve olayları açıklamak için kullanılır.
  • Farklı değişken türleri arasındaki ilişkileri incelemek için farklı yöntemler gereklidir.

Çapraz Tablolama (Cross-tabulations)

  • pandas.crosstab() fonksiyonu ile oluşturulur.
  • İki veya daha fazla kategorik değişkenler arasındaki ilişkiyi özetler.
  • Her hücre belirli bir kategori kombinasyonuna ait gözlem sayısını gösterir.
  • Örnek: Müşteri cinsiyeti ile satın alınan ürün kategorisi arasındaki ilişkiyi gösterir.

Gruplandırılmış İstatistikler

  • pandas.groupby() fonksiyonu ile hesaplanır.
  • Kategorik değişkenlere göre sayısal değişkenlerin özet istatistiklerini (ortalama, medyan, toplam vb.) gösterir.
  • Örnek: Farklı müşteri segmentlerinin ortalama harcama tutarları.

Hipotez Testleri - Ki-kare Testi

  • Kategorik değişkenler arasındaki bağımsızlığı test eder.
  • Gözlenen frekanslar ile beklenen frekanslar arasındaki farkı ölçer.
  • Formül: X^2 = Σ((O - E)^2 / E)
  • X^2: Ki-kare istatistiği
  • O: Gözlenen frekans
  • E: Beklenen frekans
  • Σ: Tüm hücreler için toplam
  • Örnek: Müşteri cinsiyeti ile satın alınan ürün kategorisi arasındaki bağımsızlık testi.

Hipotez Testleri - ANOVA

  • Sayısal bir değişkenin kategorik bir değişkene göre ortalamalarının farklı olup olmadığını test eder.
  • Gruplar arası ve gruplar içi varyasyonu karşılaştırır.
  • Formül: F = Varyasyonlar arası / Varyasyonlar içi (MST / MSE)
  • F: ANOVA istatistiği
  • MST: Gruplar arası ortalama kareler toplamı (Mean Square Treatment)
  • MSE: Gruplar içi ortalama kareler toplamı (Mean Square Error)
  • ANOVA'nın geçerli olabilmesi için bazı varsayımlar sağlanması gerekir.
  • Varsayımlar:
    • Normal dağılım: Her grup içindeki verilerin normal dağılıma sahip olması.
    • Varyans homojenliği: Grupların varyanslarının eşit olması.
    • Bağımsızlık: Gözlemlerin birbirinden bağımsız olması.
  • Kontrol yöntemleri:
    • Normallik: Shapiro-Wilk testi, Kolmogorov-Smirnov testi, histogram, Q-Q grafiği.
    • Varyans homojenliği: Levene testi, Bartlett testi.

ANOVA - Post-hoc Testler

  • ANOVA'da anlamlı sonuç alındığında hangi gruplar arasında anlamlı fark olduğunu belirlemek için kullanılır.
  • Tukey HSD testi, Bonferroni testi, Scheffe testi gibi yöntemler kullanılır.

ANOVA - Etki Ölçüleri

  • Hipotez testinin sonuçlarını pratik önemini değerlendirmek için kullanılır.
  • Örnekler: Etki büyüklüğü (effect size) Cohen's d, eta kare, omega kare gibi ölçüler kullanılır.

Sayısal Değişkenler Arasındaki İlişkiler - Korelasyon ve Kovaryans

  • Korelasyon, iki sayısal değişken arasındaki doğrusal ilişkinin yönünü ve gücünü ölçer.
    • Pearson korelasyonu: İki değişken arasındaki doğrusal ilişkiyi ölçer.
    • Pearson korelasyon katsayısı (r).
  • Kovaryans, iki sayısal değişkenin birlikte ne kadar değiştiğini gösterir.

Sayısal Değişkenler Arasındaki İlişkiler - Korelasyon Matrisi Görselleştirme

  • Sayısal değişkenler arasındaki korelasyonları bir matris şeklinde gösterir.
  • Isı haritası (heatmap) ile görselleştirerek yorumlanması kolaylaştırılır.

Sayısal Değişkenler Arasındaki İlişkiler - Regresyon Analizi

  • Sayısal bir bağımlı değişken ile bir veya daha fazla bağımsız değişken arasındaki ilişkiyi inceler.
  • Türler:
    • Doğrusal regresyon: Bağımlı değişken ile bağımsız değişkenler arasındaki doğrusal ilişkiyi inceler.
    • Lojistik regresyon: Bağımlı değişkenin ikili (binary) olduğu durumlarda kullanılır.

Regresyon Analizi - Varsayım Kontrolleri

  • Regresyon modelinin geçerli olabilmesi için bazı varsayımları sağlaması gerekir.
  • Varsayımlar:
    • Doğrusallık.
    • Hata terimlerinin normalliği.
    • Hata terimlerinin varyans homojenliği (homoskedastisite).
    • Hata terimlerinin bağımsızlığı.

Regresyon Analizi - Etkileşim Terimleri Regresyon Analizi - Karışıklık Terimleri

Diğer Sınıflandırma Algoritmaları ile İlişki Analizi (Eğer Gerekirse)

  • Lojistik regresyon dışında diğer sınıflandırma algoritmaları (örneğin karar ağaçları, destek vektör makineleri) kullanılarak da değişkenler arasındaki ilişkiler incelenebilir.

Supervised Learning

  • Veri, enformasyon ve bilgi, dataset, performans ölçekleri

Veri (Data) Nedir?

  • Olgu, kavram veya komutların iletişim, yorum ve işlem için elverişli biçimde gösterimi (bilişim).
  • Gözlem ve deneye dayalı araştırmanın sonuçları (istatistik).
  • Bir problemde bilinen, belirli bir amaca yönelik olarak toplanmış, işlenmiş ve analiz edilmiş bilgi (veri bilimi).

Veri - Enformasyon - Bilgi Veri

  • Gerçek hayattaki gözlem, sonuç, ölçüm ve donelerin dijitale çevrilmiş halidir.
  • Hamdır, yani işlenmemiştir.

Enformasyon (Bilgi)

  • Bilgi dönüşümünün 2. basamağıdır.
  • Verinin düzenlenmiş, gruplanmış, derlenmiş, özetlenmiş, sorgulanmış vb. işlemlerden geçirilmiş halidir.

Bilgi (Knowledge)

  • Bilgi dönüşümünün 3. basamağıdır.
  • Veri ve enformasyonun analiz edilerek anlamlı hale getirilmiş halidir.

Verileri Elde Etme Şekli

  • JSON
  • XML
  • CSV

Veriseti (Dataset)

  • Veri seti, belirli bir amaca yönelik olarak toplanmış, işlenmiş ve analiz edilmiş veri kümesidir.
  • Veri setleri, genellikle bir tablo şeklinde düzenlenir ve her satır bir gözlemi, her sütun ise bir değişkeni temsil eder.
  • Veri setleri, veri analizi, makine öğrenimi ve istatistiksel modelleme gibi alanlarda kullanılır.
  • Veri setleri, genellikle birden fazla değişken içerir ve bu değişkenler arasındaki ilişkileri incelemek için kullanılır.

Veri Türleri

  • Kategorik Değişkenler: Sınıflandırma veya gruplama amacıyla kullanılan değişkenlerdir. Örnek: cinsiyet, ürün kategorisi.
    • Nominal Değişkenler: Sıralama veya derecelendirme içermeyen kategorik değişkenlerdir. Örnek: renk, şehir.
    • Ordinal Değişkenler: Sıralama veya derecelendirme içeren kategorik değişkenlerdir. Örnek: eğitim seviyesi, memnuniyet derecesi.
  • Sayısal Değişkenler: Sayısal değerler içeren değişkenlerdir. Örnek: yaş, gelir, harcama tutarı.
    • Sürekli Veriler
    • Ayrık Veriler

Kayıp, Marjinal Veri

  • Kayıp veri, veri setinde eksik veya boş olan gözlemleri ifade eder. Kayıp veriler, analiz sonuçlarını etkileyebilir.
  • Marjinal veri, veri setinde belirli bir değişkenin değerlerinin çok az gözlemle temsil edildiği durumu ifade eder. Marjinal veriler, analiz sonuçlarını etkileyebilir ve dikkatli bir şekilde ele alınmalıdır.

Kategorik Verilerin Dönüşümü

  • Kategorik veriler, sayısal verilere dönüştürülerek analiz edilebilir.
  • Bu dönüşüm, kategorik değişkenlerin sayısal değerlerle temsil edilmesini sağlar.
  • Örnek: cinsiyet değişkeni "erkek" ve "kadın" olarak iki kategoriye sahipse, bu kategoriler 0 ve 1 ile temsil edilebilir.

Label Encoding

  • Kategorik değişkenlerin her bir kategorisini benzersiz bir sayısal değere dönüştürür.
  • Örnek: "erkek" = 0, "kadın" = 1
  • Label encoding, sıralı kategorik değişkenler için uygundur.

One-Hot Encoding

  • Kategorik değişkenlerin her bir kategorisini ayrı bir sütun olarak temsil eder.
  • Her sütun, belirli bir kategorinin varlığını veya yokluğunu gösterir.
  • Örnek: "erkek" = [1, 0], "kadın" = [0, 1]
  • One-hot encoding, sıralı olmayan kategorik değişkenler için uygundur.

Öznitelik Çıkarımı (Feature Extraction)

  • Veri setindeki önemli özelliklerin belirlenmesi ve bu özelliklerin yeni değişkenler olarak kullanılmasıdır.

Verisetleri Bölümlendirme İşlemleri

  • Hold Out
  • Cross Validation

Hold Out

  • Veri setinin belirli bir oranını eğitim ve test setlerine ayırma işlemidir.
  • Eğitim seti modelin eğitilmesi için kullanılırken, test seti modelin performansını değerlendirmek için kullanılır.
  • Hold out yöntemi, veri setinin %70-80'ini eğitim seti ve %20-30'unu test seti olarak ayırmayı önerir.
  • Bu oranlar veri setinin büyüklüğüne ve modelin karmaşıklığına bağlı olarak değişebilir.
  • Hold out yöntemi, veri setinin büyüklüğüne bağlı olarak modelin performansını değerlendirmek için yeterli veri sağlamayabilir.
  • Bu nedenle, daha büyük veri setlerinde daha güvenilir sonuçlar elde etmek için cross-validation yöntemi tercih edilebilir.

Test Dataset

  • Test seti, modelin performansını değerlendirmek için kullanılan veri setidir.
  • Test seti, modelin eğitilmesi sırasında kullanılmaz ve modelin genel performansını değerlendirmek için kullanılır.
  • Test seti, modelin gerçek dünya verileri üzerindeki performansını değerlendirmek için önemlidir.
  • Test seti, modelin aşırı öğrenme (overfitting) yapıp yapmadığını kontrol etmek için kullanılır.

Dataset Ayrımı

  • Veri setinin eğitim ve test setlerine ayrılması, modelin performansını değerlendirmek için önemlidir.
  • Veri setinin eğitim ve test setlerine ayrılması, modelin aşırı öğrenme (overfitting) yapıp yapmadığını kontrol etmek için önemlidir.
  • Veri setinin eğitim ve test setlerine ayrılması, modelin genel performansını değerlendirmek için önemlidir.
  • Veri setinin eğitim ve test setlerine ayrılması, modelin gerçek dünya verileri üzerindeki performansını değerlendirmek için önemlidir.

Overfitting

  • Aşırı öğrenme veya ezberleme anlamına gelir.
  • Beklenenden daha kompleks bir model sonucu, model train dataset'e aşırı uyumludur.
  • Ancak validation ve testte beklenen sonuçları vermez.
  • Yüksek varyans, düşük bias sonucudur.
  • Train işlemi sonucu olarak düşük loss, yüksek accuracy verir.
  • Ama test sonuçları yüksek loss, daha düşük accuracy'dir.

Overfitting Önlemek İçin Tavsiyeler

  • Modeli sadeleştir.
  • Daha az öznitelik ele (feature selection olabilir).
  • Daha fazla örnek ekle.
  • Data augmentation ile veri çoğalt.
  • Regularization (düzleştirme) yap.
  • Erken durdurma algoritmaları kullan.
  • Cross-validation kullan.
  • Hâlâ varsa, o zaman farklı modeller kullan.

Underfitting

  • Eksik öğrenme veya öğrenmeme anlamına gelir.
  • Model sınıflandırma veya regresyon işlemlerini başaramaz.
  • Bazen test sonuçları train sonuçlarından iyi gelebilir.
  • Yüksek bias'ın bir sonucudur.
  • Yüksek loss'a karşılık düşük accuracy alınır.

Underfitting'i Önlemek İçin Tavsiyeler

  • Modeli karmaşıklaştır.
  • Daha fazla öznitelik ekle.
  • Daha fazla örnek ekle.
  • Data augmentation ve sentetik veri üretimi teknikleri kullan.
  • Daha uzun süre train yap.
  • Hâlâ mı underfitting? Model belki yanlıştır, değiştir.

Just Right

  • Modelin overfitting ve underfitting durumlarından arındırılmış hali.
  • Varyans ve bias'ı düşüktür.
  • Train, validation ve test loss'ları düşük, accuracy oranları yüksektir.
  • Modelden beklenen durumdur.

Fitting Karşılaştırmaları https://www.tutorialandexample.com/overfitting-and-underfitting-in-machine-learning

Varience, Bias, Overfitting, Underfitting ( Görsel bul)

Cross Validation

  • Veri setinin eğitim ve test setlerine ayrılması yerine, veri setinin farklı alt kümeleri üzerinde modelin performansını değerlendirme yöntemidir.
  • Cross-validation, modelin genel performansını değerlendirmek için daha güvenilir sonuçlar sağlar.
  • Cross-validation, modelin aşırı öğrenme (overfitting) yapıp yapmadığını kontrol etmek için kullanılır.
  • Cross-validation, modelin gerçek dünya verileri üzerindeki performansını değerlendirmek için önemlidir.
  • https://medium.com/@mtterribile/understanding-cross-validations-purpose-53490faf6a86

Sınıflandırma algoritmalarında performans değerlendirme

Sınıflandırmada Performans Değerlendirme ( Validation Metrics )

  • sınıflandırma etiketli verilerden oluşan bir datasettir.
  • bu yüzden başarıyı değerlendirmek regressyonlara göre daha net bir şekilde gerçekleştirilebiir
  • gerçek sınıflar ve model tarafından tahmin edilen sınıglan kullanılarak modelin performansı ölçükebilir
  • bunu için hata matrisi adı verilen bir matris kullanılır
  • accury precisiob recall f1 score roc auc sınıflandırma modellerinin başarılarımım ölçülmesi için kullanılırlar.

Hata Matrisi ( Confusion Matrix )

  • Sınıflandırma algoritmalarının performansını değerlendirmek için kullanılan bir tablodur.
  • Tahmin edilen sınıflar ile gerçek sınıflar arasındaki ilişkiyi gösterir.
  • Hata matrisinde dört temel terim bulunur:
    • True Positive (TP): Modelin doğru bir şekilde pozitif sınıfı tahmin ettiği durum.
    • True Negative (TN): Modelin doğru bir şekilde negatif sınıfı tahmin ettiği durum.
    • False Positive (FP): Modelin yanlış bir şekilde pozitif sınıfı tahmin ettiği durum.
    • False Negative (FN): Modelin yanlış bir şekilde negatif sınıfı tahmin ettiği durum.
  • Hata matrisinin yapısı şu şekildedir:
                Gerçek Pozitif (1)   Gerçek Negatif (0)
Tahmin Pozitif (1)      TP                   FP
Tahmin Negatif (0)      FN                   TN
  • Hata matrisinin kullanımı, modelin performansını değerlendirmek için önemlidir. Hata matrisini kullanarak modelin doğruluğunu, hassasiyetini, geri çağırma oranını ve F1 skorunu hesaplayabiliriz.

Doğruluk Oranı (Accuracy)

  • doğru olarak sınıflandırılmış örnek sayısını tüm örnek saysına oranıdır.
  • eğer dataset imbalancded değilse en sık kullanılan ölçüttür.
  • Accuracy = ( TP + TN ) / ( TP + FP + TN + FN )

Kesinlik ( Precision )

  • pozitif olarak sınıflandırılmış tüm örnekler arasından gerçekten kaç tanesinin doğru sınıflandırılmış olduğunu gösterir.
  • Hasta dediklerimizin gerçekten kaçı hasta ?
  • Precision = TP / ( TP + FP )

Duyarlılık ( Recall, Sensivity )

  • bir sınıflandırmada false negatif sayısının azo lması beklenir
  • çünkü klanserli olab bir bireye kanserli değilsin demek hayati bir hatadır
  • bu hatanın 0 veya 0 a yakın olması
  • Recall = TP / ( TP + FN )

F1 Score

  • imbalanced datasetlerin accuracy ile değerlendirmesi hatalı bir yaklaşımdır
  • imbalanced datasetler için f1 score daha doğru bir yaklaşımdır
  • recall ve presion harmonik ortalamaso alınarak hesaplanır
  • F1 Score = 2*Recall Score/Precision Score

ROC ( Receiver operator charactreistic curve) AUC ( Area under the curve )

  • roc ve auc özellikle imbalanced datasetlerde kullanılan bir başarı ölçütüdür.
  • roc eğrisi, modelin pozitif sınıfı doğru tahmin etme oranını (TPR) yanlış pozitif sınıf tahmin etme oranına (FPR) karşı gösterir.
  • auc, ROC eğrisinin altında kalan alanı temsil eder ve modelin genel performansını ölçer.
  • AUC değeri 0 ile 1 arasında değişir. 0.5 değeri rastgele tahminleri, 1 değeri mükemmel tahminleri temsil eder.
  • AUC değeri 0.7-0.8 arası iyi, 0.8-0.9 arası çok iyi, 0.9 ve üzeri mükemmel olarak kabul edilir.
  • AUC değeri, modelin pozitif sınıfı doğru tahmin etme yeteneğini gösterir. AUC değeri yüksek olan modeller, pozitif sınıfı daha iyi ayırt edebilir.

Makine öğrenmesi sınıflandırma algoritmaları

İçindekiler:

  • KNN
  • Decision Tree
  • Random Forest
  • SVM
  • Naive Bayes
  • Lojistik Regresyon

K En Yakın Komşu Algoritması (KNN)

  • Klasik makine öğrenmesi algoritmalarından birisidir.

Öklid Uzaklığı

  • Pisagor teoreminden faydalanarak bulunan bir uzaklık birimidir.

Manhattan Uzaklığı

  • Örneklerin koordinatlarının farklarının mutlak değerlerinin toplamı şeklinde ifade edilir.

Minkowski Uzaklığı

  • Örneklerin farklarının mutlak değeri alınıp bu değerler toplanarak bir p değerine göre aşağıdaki formüle göre işlem yapılır:
    • p = 2 alınırsa Öklid uzaklığı bulunur, p = 1 alınırsa Manhattan uzaklığı bulunur.
    • Python'da varsayılan olarak bu uzaklık kullanılır.

K Komşu Sayısı

  • Kaç komşu ile karar verileceğini belirleyen parametredir.
    • Genellikle karar verme aşamasında eşitlik olmaması için tek sayı seçilir.
    • K = 1 alınırsa overfitting'e yatkınlık olur.
    • Değer büyüdükçe iş yükü artar.
    • Yavaş yavaş büyütmekte fayda vardır.

Diğer Uzaklık Formülleri

  • Canberra, Minkowski, Chebyshev, Euclidean...

Decision Tree

  • Karar ağaçları, girdi değişkenleri ile çıktı değişkenini tek bir ağaç formunda gösterebilen bir algoritmadır.
  • Supervised algoritmalarından birisidir.
  • Sınıflandırma ve regresyon problemlerinde kullanılabilir.
  • Overfitting'e meyilli bir algoritmadır.

Decision Tree Avantajları

  • Anlaması ve yorumlaması kolaydır, görselleştirmesi kolaydır.
  • Az oranda bir veriye ihtiyaç duyar fakat kayıp değerleri desteklememektedir.
  • Kullanılan ağacın maliyeti, ağacı eğitmek için kullanılan veri noktalarının sayısıyla logaritmiktir.
  • Hem sayısal hem de kategorik verileri işleyebilir.
  • Çok çıktılı problemleri ele alabilmektedir.

Decision Tree Dezavantajları

  • Veriyi iyi bir şekilde açıklamayan aşırı karmaşık ağaçlar üretebilir, bu durum ağaç dallanmasının takip edilememesine yol açabilir.
  • Ezbere öğrenme yaşanabilir. Bu problemin çözümü için hiperparametrelerin ayarlanması gerekmektedir.

Decision Tree Kriterleri

  • Entropy, Gini

Entropy

  • Düzensizlik demektir.

Gini

  • Veri kümesindeki herhangi bir öğenin rastgele etiketlendiğinde yanlış etiketlenme sıklığını ölçer.
  • Minimum değeri 0, maksimum değeri 0.5'tir.
  • Entropiye göre daha hızlıdır.

Random Forest

  • Bir çeşit karar ağacı algoritmasıdır.
  • Karar ağaçları yapıları gereği overfitting'e yatkındır.
  • Bu yüzden Random Forest, veri setini yüzlerce alt sete çevirip her birisine karar verdirir.
  • En sonunda en çok oy verilen sınıf seçilir.
  • Decision Tree'ye göre daha yavaş çalışır.
  • Overfitting'e karşı daha dayanıklıdır.

Support Vector Machine (SVM)

  • Destek vektör makineleri genellikle sınıflandırma problemlerinde kullanılan, regresyon problemlerinde de kullanılabilen gözetimli öğrenme yöntemlerinden birisidir.
  • Bir düzlem üzerine yerleştirilmiş noktaları ayırmak için bir doğru, düzlem ya da hiper düzlem çizilir.
  • Karmaşık ama küçük ve orta ölçekteki veri setleri için çok uygundur.
  • Verinin ölçeklendirilmesi önemlidir.

SVM

  • Siyahlar ve beyazlar iki sınıftır.
  • Bu sınıfları birbirinden ayırmak için bir vektör (hiper düzlem) çizilir.
  • Bu vektör, iki sınıfa da eşit uzaklıkta ve iki sınıftan da olabildiğince uzakta olmalıdır.
  • Sınıflandırılması en zor veri noktaları, yani vektöre en yakın noktalar, destek vektör olarak alınır.

Marjin ve C Parametresi

  • İki destek vektör arasındaki mesafeye marjin denir.
  • Marjin mesafesi ne kadar büyükse doğru sınıflandırma ihtimali o kadar yüksektir.
  • C parametresi ile marjini kontrol edebiliriz.
    • C ne kadar büyükse marjin o kadar dardır.
    • Model overfitting'e doğru kayıyorsa C azaltılabilir.

Hard Marjin ve Soft Marjin

  • Örnekler her zaman düzgün dağılmayabilir.
  • Bazı örnekler birbirlerinin bölgelerine geçebilir. Buna soft marjin adı verilir.
  • Hard marjin ise örneklerin doğru ayrılması konusunda çok hassastır. Bu durum sınıflandırmayı güçleştirebilir.

SVM Kernel

  • Eğer elimizde çok karmaşık bir veri seti varsa bazen ayırmakta zorlanabiliriz.
  • Bu tip durumlarda kernel fonksiyonları bize yardımcı olabilir.
  • Elimizdeki verileri veri dağılımına uygun kernel fonksiyonlarıyla çarparak daha iyi sonuçlar elde edebiliriz.
Lineer Kernel
  • Doğrusal kernel demektir.
  • Diğer kernellere göre daha hızlıdır.
  • Sınıflar lineer bir vektör ile ayrılır.
  • Formül: F(X, Xj) = sum(x * Xj)
Gaussian Radial Basis Function (RBF)
  • En sık tercih edilen kernellerden birisidir.
  • Lineer olmayan veriler için kullanılır.
  • Scikit-learn kütüphanesinde varsayılan değerdir.
  • Modele manuel olarak gamma parametresi eklenir.
  • En çok tercih edilen gamma değeri 0.1'dir.
  • Formül: F(X, Xj) = exp(-gamma * ||X - Xj||^2)
Polynomial Kernel
  • Lineer kernelin daha genel halidir.
  • Çok verimli bir kernel olmadığı için pek tercih edilmez.
  • Formül: F(X, Xj) = (X * Xj + 1)^d
Sigmoid Kernel
  • Daha çok yapay sinir ağlarında kullanılır.
  • Formül: K(X, Y) = tanh(alpha * X * Y + beta)

Naive Bayes Sınıflandırma

  • Matematiksel bir modeldir.
  • Sınıflandırma algoritmasıdır. Olasılık ilkelerine göre tanımlanmış bir dizi hesaplama ile çalışır.

Naive Bayes Classification

  • Her özellik birbirinden bağımsız kabul edildiği için logistic regression gibi modellerden daha iyi performans gösterebilir.
  • Basit ve kolay uygulanır.
  • Az veriyle iyi işler yapar.
  • Devamlı ve kesikli veriler ile kullanılabilir.
  • Dengesiz veri setinde kullanılabilir.
  • Yüksek boyutlu verilerle çalışılabilir.
  • Gerçek hayatta her özellik bir noktada bağımlıdır.

Naive Bayes Türleri

  • Gaussian Naive Bayes: Sürekli veriler için kullanılır. Özelliklerin normal dağılıma sahip olduğu varsayılır.
  • Multinomial Naive Bayes: Kesikli veriler için kullanılır. Özelliklerin multinom dağılımına sahip olduğu varsayılır.
  • Bernoulli Naive Bayes: İkili (binary) veriler için kullanılır. Özelliklerin Bernoulli dağılımına sahip olduğu varsayılır.

Lojistik Regresyon

  • Sınıflandırma algoritmasıdır.
  • İki veri faktörü arasındaki ilişkileri bulmak için matematikten yararlanan bir veri analizi tekniğidir.
  • Daha sonra diğerine bağlı olarak tahmin yapar.
  • Hem binary hem de multiclass classification yapar.
  • Formülü sigmoid fonksiyonudur.
  • Sigmoid fonksiyonu -sonsuz ile +sonsuz arasında değer alır ve 0 ile 1 arasında bir değer döndürür.
  • Formül: sigmoid = 1 / (1 + e^-x)

Optimizasyon Problemleri

  • Optimizasyon probleminde varsayılan algoritma lbfgs'dir.

Dikkat Edilecek Unsurlar

  • Optimizasyon problemi için uygun çözümleyici seçilmelidir.

Avantajları

  • Uygulaması ve yorumlaması kolaydır.
  • Overfitting'e daha az yatkındır ama büyük veri setlerinde overfitting yapabilir.

Dezavantajları

  • Az verili problemlerde overfitting yapabilir.
  • Veri setinin doğrusal olarak ayrılmış olması gerekir.