» Wissenshäppchen #21: Data Mining

Wissenshäppchen #21: Data Mining

von | 7. September 2021 | News und Events, Wissenshäppchen

Data Mining ist der Prozess der systematischen Untersuchung und Analyse großer Datenmengen, um Muster, Trends und Zusammenhänge zu erkennen. Da es sich dabei um Big Data handelt, werden statistische und computergestützte Methoden eingesetzt, um die Daten zu verarbeiten und Erkenntnisse zu extrahieren.

Beim sogenannten Mining (Abbau) steht die Erkenntnisgewinnung im Mittelpunkt. Es gilt also aus einem großen Vorkommen an strukturierten und unstrukturierten Daten Wissen zu generieren. Die Datenerhebung ist dabei eine wichtige Voraussetzung, die eigentliche Analyse ist dann aber der Kernprozess des Data Minings und findet iterativ statt.

Schritt für Schritt: Im Data Mining Prozess werden Daten zunächst erhoben und selektiert. Im zweiten Schritt werden diese Daten bereinigt, das heißt unvollständige Datensätze werden ergänzt oder gelöscht. Anschließend werden die Daten für die eigentliche Analyse vorbereitet, also beispielweise in das richtige Format gebracht. Jetzt erfolgt das Data Mining, die eigentliche Analyse der Daten. Hierbei kommen Methoden der multivarianten Statistik, Clusteranalysen, Assoziationsanalysen, Regressionsanalysen, Textmining oder aber die Ausreißer-Erkennung (Identifikation von Fehlern, inkonsistenten Datensätzen) zum Einsatz. Abschließend überprüft ein Experte, ob die gewünschten Ziele erreicht sind und evaluiert die erkannten Muster. Dieser Prozess wird wiederholt. In der Regel werden die gewonnenen Daten mit jedem Durchlauf genauer.

Data Mining, Machine Learning und Big Data werden häufig als Buzzwords eingesetzt und die eigentlichen Bedeutungen der Wörter verschwimmen. Tatsächlich beschreiben im Kern alle Begriffe das gleiche Ziel: Wissen aus Daten zu extrahieren und nutzbar zu machen. Big Data beschreibt große Datenmengen, die zu umfassend sind, um sie mit klassischen Analysenmethoden zu untersuchen, deshalb kommen Data Mining und Machine Learning unter anderen zum Einsatz. Der Begriff Data Mining wird dann verwendet, wenn aus großen Datenmengen mithilfe statistischer Methoden Muster ausgelesen und Zusammenhänge erkannt werden sollen. Machine Learning ist der korrekte Begriff, wenn intelligente Algorithmen zum Einsatz kommen, die solche Muster automatisch erkennen und dieses Wissen zur selbstständigen Problemlösung einsetzten.

Weitere Häppchen: Künstliche Intelligenz | Open Source | Smart Factory

Diesen Beitrag teilen:

Auch interessant:

Wissenshäppchen #23: Business Intelligence

Business Intelligence ist ein Begriff, der seit den 1960er Jahren einen mehrfachen Wandel erlebt hat. Vor 60 Jahren stand er für ein System, das die gemeinsame Nutzung von Informationen im gesamten Unternehmen ermöglicht. Im Zeitalter der Digitalisierung und auf dem...

DieZehn: 10 Gründe für kooperative Forschung & Entwicklung

Es gibt zahlreiche Gründen, warum Unternehmen jeder Größe in Forschung und Entwicklung investieren sollten und warum dabei vor allem Kooperation mit Forschungseinrichtungen und –initiativen sinnvoll sind.  Wir haben zehn Gründe zusammengefasst. 1. Keine Frage sondern...

Wissenshäppchen #22: Big Data

Der Begriff Big Data beschreibt im Kern eine enorme Menge strukturierter und/oder unstrukturierter Daten, die zu groß, zu komplex oder zu schnelllebig sind, um sie mit einfachen bzw. manuellen Analyseverfahren zu untersuchen. Der Begriff wurde in den letzten Jahren...