Data Mining ist der Prozess der systematischen Untersuchung und Analyse großer Datenmengen, um Muster, Trends und Zusammenhänge zu erkennen. Da es sich dabei um Big Data handelt, werden statistische und computergestützte Methoden eingesetzt, um die Daten zu verarbeiten und Erkenntnisse zu extrahieren.
Beim sogenannten Mining (Abbau) steht die Erkenntnisgewinnung im Mittelpunkt. Es gilt also aus einem großen Vorkommen an strukturierten und unstrukturierten Daten Wissen zu generieren. Die Datenerhebung ist dabei eine wichtige Voraussetzung, die eigentliche Analyse ist dann aber der Kernprozess des Data Minings und findet iterativ statt.
Schritt für Schritt: Im Data Mining Prozess werden Daten zunächst erhoben und selektiert. Im zweiten Schritt werden diese Daten bereinigt, das heißt unvollständige Datensätze werden ergänzt oder gelöscht. Anschließend werden die Daten für die eigentliche Analyse vorbereitet, also beispielweise in das richtige Format gebracht. Jetzt erfolgt das Data Mining, die eigentliche Analyse der Daten. Hierbei kommen Methoden der multivarianten Statistik, Clusteranalysen, Assoziationsanalysen, Regressionsanalysen, Textmining oder aber die Ausreißer-Erkennung (Identifikation von Fehlern, inkonsistenten Datensätzen) zum Einsatz. Abschließend überprüft ein Experte, ob die gewünschten Ziele erreicht sind und evaluiert die erkannten Muster. Dieser Prozess wird wiederholt. In der Regel werden die gewonnenen Daten mit jedem Durchlauf genauer.
Data Mining, Machine Learning und Big Data werden häufig als Buzzwords eingesetzt und die eigentlichen Bedeutungen der Wörter verschwimmen. Tatsächlich beschreiben im Kern alle Begriffe das gleiche Ziel: Wissen aus Daten zu extrahieren und nutzbar zu machen. Big Data beschreibt große Datenmengen, die zu umfassend sind, um sie mit klassischen Analysenmethoden zu untersuchen, deshalb kommen Data Mining und Machine Learning unter anderen zum Einsatz. Der Begriff Data Mining wird dann verwendet, wenn aus großen Datenmengen mithilfe statistischer Methoden Muster ausgelesen und Zusammenhänge erkannt werden sollen. Machine Learning ist der korrekte Begriff, wenn intelligente Algorithmen zum Einsatz kommen, die solche Muster automatisch erkennen und dieses Wissen zur selbstständigen Problemlösung einsetzten.
Weitere Häppchen: Künstliche Intelligenz | Open Source | Smart Factory