Data Mining Software - Novustat-Statistik-Beratung/Statistik-Infosammlung GitHub Wiki

In diesem Artikel geht es um die Software, die Data Mining unterstützt. Dazu wird zunächst diskutiert, warum man im Data Mining Software Unterstützung braucht und welche Typen von Software bei der Datenauswertung im Data Mining unterstützen. Anschließend werden einige Werkzeuge kurz beschrieben. Links zu den genannten Werkzeugen und zu weiteren Werkzeuglisten runden den Artikel ab.

Warum braucht man Data Mining Software?

Beim Data Mining werden große Datenmengen (Big Data) ausgewertet. Dabei geht man in mehreren Schritten vor, und in jedem Schritt wird Software benötigt. Beispielsweise, um die Daten aus verschiedenen Quellen (z.B. Datenbanken) in eine einzige zusammenzuführen. Skripte helfen, Daten zu bereinigen oder zu codieren. Visualisierungswerkzeuge stellen die Daten anschaulich dar. Wir konzentrieren uns hier jedoch auf die Software, welche die eigentlichen Auswertungen unterstützt.

Typen von Data Mining Software für die Datenauswertung

Das Ziel des Data Mining besteht darin, Muster und Regeln in großen Datenmengen zu entdecken, Abhängigkeiten zwischen Daten in Form von Gruppen (Clustern), Formeln, Korrelationen, Regelmäßigkeiten und zeitlichen Trends. Zum Einsatz kommen hier statistische und mathematische Verfahren sowie künstliche Intelligenz (z.B. neuronale Netze). Entsprechend kann man auch die Software, welche Data Mining unterstützt, in verschiedene Kategorien einteilen:

  • Statistik-Software unterstützt die üblichen statistischen Verfahren wie die Regressions- und Korrelationsanalyse sowie multivariate Analysen, z.B. R oder SPSS.
  • Künstliche Intelligenz erlaubt die Muster- und Regelerkennung, insbesondere Software für maschinelles Lernen wie Neural Designer, KNIME (Konstanz Information Miner), RapidMiner, Weka (Waikato Environment for Knowledge Analysis), OpenNN und Gnome Data Mine Tools.
  • Cluster-Analyse-Werkzeuge wie ELKI (Environment for DeveLoping KDD-Applications Supported by Index-Structures), TANAGRA, CLUTO und Databionic ESOM Tools finden Cluster in den Daten.
  • Werkzeuge zur **Sprachverarbeitung **wie NLTK (Natural Language Toolkit) analysieren natürlichsprachliche Texte.
  • Daten-Visualisierungswerkzeuge wie Orange stellen Daten und deren Eigenschaften grafisch dar.
  • Außerdem gibt es noch Suiten, die mehrere solcher Funktionalitäten im selben Tool vereinen wie Data Melt, ADaM (Algorithm Development and Mining system) und CMSR Data Miner Suite.

Data Mining Software im Vergleich

Die folgenden fünf Werkzeuge stehen jedes exemplarisch für einen Typ von Data Mining Software:

Rapid Miner

rapidminer-logo-retina RapidMiner ist eine integrierte Umgebung für maschinelles Lernen, für die Analyse von Text und von allen anderen Daten. Mit mehr als 250.000 aktiven Benutzern ist es eines der am weitesten verbreiteten Data Mining Tools. Außerdem ist es eines der besten Vorhersageanalysesysteme auf dem Markt. Wir können Tools für Business Intelligence, Forschung und Anwendungsentwicklung verwenden. RapidMiner wurde nach einem Open-Source-Modell entwickelt und wird sowohl vor Ort als auch in privaten Cloud-Infrastrukturen angeboten. Funktioniert außerdem mit vorlagenbasierten Frameworks, die die Bereitstellung beschleunigen.

ELKI

elki-fulllogo

ELKI ist ein Werkzeug zur automatischen Cluster-Bildung und Ausreißer-Erkennung. Seine Algorithmen sind parametrisierbar und unterstützen effizient auch die Auswertung großer Datenmengen. Verschiedene Algorithmen und Abstandsfunktionen können hier getestet werden. ELKI ist eine Open Source Data Mining Software, die in Java geschrieben wurde. Der Schwerpunkt von ELKI liegt auf der Forschung an Algorithmen, wobei der Schwerpunkt auf unbeaufsichtigten Methoden in der Clusteranalyse und Ausreißererkennung liegt. Um eine hohe Leistung und Skalierbarkeit zu erzielen, bietet ELKI Datenindexstrukturen wie den R*-Baum an, die erhebliche Leistungssteigerungen bieten können. ELKI ist so konzipiert, dass es für Forscher und Studenten in diesem Bereich einfach erweitert werden kann, und begrüßt Beiträge zu zusätzlichen Methoden. ELKI zielt darauf ab, eine große Sammlung von hochparametrierbaren Algorithmen zur Verfügung zu stellen, um eine einfache und faire Auswertung und Benchmarking von Algorithmen zu ermöglichen.

NLTK

natural-language-processing-nlp-python-nltk-training

NLTK ist eine Data Mining Software für die Sprachverarbeitung. Es analysiert natürlichsprachliche Texte mit Hilfe von Python-Programmen. So bietet NLTK auch Schnittstellen zu Wörterbüchern. Es kann Wörter klassifizieren, markieren, suchen, statistisch und semantisch analysieren.

Orange

orange_logo_hq

Orange unterstützt Data Mining auf zwei Arten: durch visuelle Programmierung und durch Python-Skripte. Es hat auch Komponenten für das maschinelle Lernen und Clustering sowie Add-ons für die Textanalyse. Orange unterstützt eine Vielzahl an Visualisierungen. Interaktive Datenexploration für schnelle qualitative Analysen mit sauberen Visualisierungen. Grafische Benutzeroberfläche ermöglicht es, sich auf explorative Datenanalyse statt Codierung zu konzentrieren, während Standardeinstellungen das schnelle Prototyping eines Datenanalyse-Workflows vereinfachen.

DataMelt

dm_logo

DataMelt bzw DMelt ist eine Data Mining Software für numerische Berechnung, Statistik, Analyse großer Datenmengen („Big Data“) und wissenschaftliche Visualisierung. Das Programm kann in vielen Bereichen eingesetzt werden, wie z.B Naturwissenschaften, Ingenieurwesen, Modellierung und Analyse von Finanzmärkten. Anwender können somit DataMelt mit verschiedenen Programmiersprachen auf verschiedenen Betriebssystemen verwenden. Im Gegensatz zu anderen statistischen Programmen ist es überdies nicht auf eine einzige Programmiersprache beschränkt. DMelt läuft auf der Java-Plattform, kann aber auch mit der Python verwendet werden. DataMelt läuft unter Windows-, Linux-, Mac- sowie Android-Betriebssystemen. Die Android-Anwendung heißt AWork. DataMelt ist auch in der Amazon EC2-Cloud verfügbar.

Zusammenfassung

Zusammenfassend haben wir verschiedene Typen von Data Mining Software Systemen beispielsweise vorgestellt. Data Mining Software Systems versucht dabei, die aktuell umfassendste Komplettlösung zu bieten. Daher ist es obligatorisch, Data Mining Software Systeme auf von der Basis angefangen zu lernen und zu verstehen.

Links zu den genannten Data Mining Werkzeugen

Links zu weiteren Werkzeug-Listen für Data Mining