4.2.2 Naive Bayes - NerimanK/Cloud-Computing-Technology---Google-Home GitHub Wiki

Naive Bayers ist eine schnelle und einfache Klassifikationsmethode des überwachten Lernens. Es basiert auf dem Satz von Bayers. Der Satz von Bayes ist ein mathematischer Satz aus der Wahrscheinlichkeitstheorie, der die Berechnung bedingter Wahrscheinlichkeiten beschreibt. Das Modell ist besonders für sehr große Datensätze geeignet. Eine kleine Menge von Trainingsdaten wird für die Schätzung der Parameter benötigt. Bayers bietet eine Möglichkeit zur Berechnung der bedingter Wahrscheinlichkeit P (c | x) aus P (c), P (x) und P (x | c). Der Klassifiziere des Naive Bayes geht davon aus, dass die Auswirkung des Wertes einen Prädiktor(x) auf eine gegebene Klasse (c) unabhängig von den Werten anderer Prädiktoren ist. Diese Annahme wird als klassenbedingte Unabhängigkeit bezeichnet.

Im Folgenden wird die Gleichung erläutert.

formel

• P (c | x) ist die hintere Wahrscheinlichkeit der Klasse (Ziel), die ein Prädiktor (Attribut) gegeben wird. • P (c) ist die vorherige Klassenwahrscheinlichkeit. • P (x | c) ist die Wahrscheinlichkeit, die die Wahrscheinlichkeit der Vorhersage einer gegebenen Klasse ist. • P (x) ist die vorherige Wahrscheinlichkeit des Prädiktors.

Anhand eines Beispiels wird die erklärt, wie Naive Bayes Algorithmus funktioniert. Es besteht ein Trainingsdatensatz von „Wetter“ und der entsprechenden Zielvariabel „Play“. Es wird klassifiziert, ob das Fußballspiel stattfindet oder nicht. Die Datensätze werden zuerst in eine Frequenztabelle umgewandelt. In der Abbildung ist die Likelihood Tabelle aufgezeichnet, die die Overcast Wahrscheinlichkeiten =0,29 und die Wahrscheinlichkeit des Spiels auf 0,64 ermittelt.

tabelle

Mit Hilfe des Bayes’sche Gleichung wird die Wahrscheinlichkeit für jede Klasse berechnet. Die mit höchster Wahrscheinlichkeit ist das Ergebnis der Vorhersage.

P (Yes | Sunny) = P (Sunny | Yes) * P (Yes) / P (Sunny)
P (Sunny | Yes) = 3/9 = 0,33, P (Sunny) = 5/14 = 0,36, P (Yes) = 9/14 = 0,64

Nun ist P (Yes | Sunny) = 0,33 * 0,64 / 0,36 = 0,60, was eine höhere Wahrscheinlichkeit hat. Das Spiel kann stattfinden, da die Wahrscheinlichkeit, dass es sonnig sein wird höhere ist. Eine ähnliche Methode verwendet das Naive Bayes zum Vorhersagen der Wahrscheinlichkeit verschiedener Klassen auf Basis verschiedenen Attributen. Dieser Algorithmus wird bei mehreren Klassen und Textklassifizierung angewendete.

Naive Bayes ist flexibel und einfach um die Klassen der Testdaten vorherzusagen. Im Vergleich zu logischen Regressionen ist der Naive Bayes Klassifikator für Unabhängigkeit besser, da es weniger Trainingsdaten benötigt. Jedoch bringt Naive Bayes Algorithmen auch einige Nachteile mit sich, die Annahme unabhängiger Prädiktoren ist im wirklichen Leben unmöglich, da es eine Vielzahl an Prädiktoren herrscht, die voneinander abhängig sind. Wenn im Trainingsdatensatz eine kategoriale eine Variable in einer Kategorie nicht berücksichtigt wurde, ist die Wahrscheinlichkeit Null und dies führt dazu, dass keine Vorhersage getroffen werden kann. Dies wird auch Nullfrequenz genannt. Um dieses Problem zu lösen wird die Laplace Schätzung angewendet.

Naive Bayes Algorithmen werden für vier Anwendungen bei Machine Learning eingesetzt. Sie können für Echtzeitvorhersage eingesetzt werden, da es schnell und sicher ist. Die Vorhersage der Zielvariabel von mehreren Klassen ist ebenfalls möglich, dies wird auch Multi-Klassen-Vorhersage genannt. Desgleichen wird auch der Algorithmus für Textklassifizierung eingesetzt, da der Algorithmus im Gegensatz zu anderen Algorithmen besser Ergebnisse bei Multi-Class-Probleme und Unabhängigkeitsregel erzielt. In unserem Projekt wird Die Naive Bayers für die Textkklassifizierung verwendet. In Python gibt es eine Scikit Learn- Bibliothek, die er-möglicht eine Naive Bayers Modell in Python zu erstellen. In dieser Bibliothek gibt es zwei Arten die wichtig sind. Gaussian und Multinomial. Der Gaussian wird für die Klassifizierung verwendet, während Multinomial für diskrete Zahlungen bei der Textklassifizierung von Wörtern, hierbei wird gezählt wie oft ein Wort in einem Dokument vorkommt. Die Schlussfolgerung ist, dass der Naive Bayes Algorithmus eine Methode ist, die bei überwachten Maschinellen Lernen für die Klassifizierung eingesetzt wird (vgl. Ray, 2017).