4.2.3 TF IDF - NerimanK/Cloud-Computing-Technology---Google-Home GitHub Wiki

TF-IDF ist eine Methode um Dokumente hinsichtlich ihres Textkontextes zu bestimmen. Diese Relevanz wird an Hand eines relativen Wertes erfasst. Der Grundgedanke dieser Methode hängt stark von der Worthäufigkeit eines relevanten Wortes ab. So werden Wörter, die eine hohe Häufigkeit aufweisen als wichtiger empfunden als Wörter, die eine niedrigere Worthäufigkeit haben. Falls das Wort in anderen Dokumenten auftritt, kann dies dazu führen, dass es sich um ein möglicherweise häufig genutztes Wort handelt und ist deshalb kein relevantes und sinnvolles Merkmal. Die Relevanz eines Wortes soll daher proportional zu der Menge an Information eines Dokumentes sein, welche es zu einem Kontext gibt. Das Problem von TF-IDF ist, dass der Erfolg stark von der Länge eines Dokumentes abhängig ist. So haben Dokumente mit einer Vielzahl von Wörtern eine höhere Wahrscheinlichkeit bestimmte Terme abzufragen, welches nicht zwingend notwendig heißen muss, dass dieser Term für den Kontext von Wichtigkeit ist. Ein kurzes Dokument hat den Vorteil, alle wesentlichen Wörter die mit dem wesentlichen Kontext zu tun haben zu identifizieren. Die Methode stellt folgenden Ablauf bereit: Zunächst erfolgt eine Tokenisierung, welche in Kapitel „Preprocessing“ genauer erläutert wurde, dieser Schritt hilft zur Berechnung von Zahlen, die nun genauer erläutert werden.

w_(t,d)=〖tf〗_(t,d)*〖idf〗t=〖tf〗(t,d)*log N/n_t (1)

Betrachten wir die Gleichung 1. Im nächsten Schritt wird w_(t,d) berechnet, dieser Wert beschreibt, wie stark ein Dokument gewichtet ist und letztendlich relevant für einen bestimmten Term ist. Um dies zu ermitteln werden 〖tf〗_(t,d) und 〖idf〗t miteinander multipliziert. 〖tf〗(t,d) repräsentiert die Worthäufigkeit eines Wortes t im Dokument d. 〖idf〗_t beschreibt die inverse Dokumentenhäufigkeit. Diese Inverse lässt sich durch den Logarithmus des Quotienten aus der Anzahl der Dokumente N in einer Datenbank und der Anzahl n_t, der diesen Term beinhaltet, errechnen. Letztendlich lässt sich mit der Gleichung erschließen, wie stark ein Term zu einem Dokument gewichtet wird unter der Berücksichtigung, ob dieser Wert auch in anderen Dokumenten erfolgt (Ramos; Spark, 1972).