4.2.1 Support Vector Maschinen - NerimanK/Cloud-Computing-Technology---Google-Home GitHub Wiki
„Support Vector Machine“ (SVM) ist ein populärster überwachter Algorithmus für maschinelles Lernen, der sowohl für Klassifizierungs- als auch für Regressionsherausforderungen verwendet werden kann. Es wird jedoch meistens bei Klassifizierungsproblemen verwendet. SVMs können einen Maximum-Margin Separator erstellen, dass ein Klassifizirer ist, der für jedes Beispiel eine Distanz von der Entscheidungsgrenze angeben kann. Mithilfe von Kernel Tricks können SVMs eine linear trennende Hyperebene generieren, bei diesem Vorgehen werden Daten in einen Raum höherer Dimension eingebettet. Der Hintergrund dieses Vorgehens ist, dass Daten, die im ursprünglichen Eingaberaum schwer separierbar sind in einem Raum höhere Dimension leichter getrennt werden.
In der nachfolgenden Abbildung wird eine Klassifizierung mit drei Entscheidungsgrenzen, die jeweils einen linearen Separator besitzt, dargestellt. In der Abbildung a ist zu erkennen, dass die schwarzen und weiße Punkte zu allen drei Geraden Na-he liegen. Der Abstand zu der Gerade zeigt, wie zuverlässig die Klassifizierung ausgeführt wurde. Ist die Distanz zu den Geraden niedrig, besteht das Risiko eines Generalisierungsverlusts. Um den Generalisierungsverlust zu minimieren, wird der Maximum-Margin-Separator eingesetzt (Separator für maximalen Rand). Die nachfolgende Abbildung zeigt wie das Maximum Margin Separators den Bereich der Stichlinien begrenzt. Die gekreisten Punkte liegen dem Separator am nächsten.
In der nachfolgenden Abbildung wird dargestellt, wie Datensätze nicht linear sperarierbar sind. Die Abbildung zeigt einen Eingaberaum, der durch die Attribute x = (x1,x2) definiert ist. Die positiven Beispiele als schwarze Punkte liegen innerhalb des kreisförmigen Bereiches und die negativen Beispiele als weiße Punkte außerhalb. Für dieses Problem gibt es keinen linearen Separator.
Hierfür gibt es den sogenannten Kernel Trick. Die Kernel Funktion ermöglicht die Separierung der Punkte für ein nicht linear Klassifizierung. Die Daten werden in einen höherdimensionalen Raum transformiert. Der Gedanke ist, dass die Daten, die in 'n'-dimensionalen Raum nicht linear trennbar sind, in einem höherdimensi-onalen Raum linear trennbar sein können (vgl. Russell/Norvig, 2012, S. 863 - 867).