Wie in Fabiennes Beitrag beschrieben, sind Daten und eine ausgereifte Datenkultur ein wichtiger Bestandteil erfolgreicher Unternehmen. Doch was ist überhaupt der Nutzen von Daten und wie verändert sich die Entscheidungsfindung dadurch?
Dafür muss zunächst einmal geklärt werden, wie die herkömmliche Entscheidungsfindung in Unternehmen aber auch im Privaten geschieht. Häufig basieren Entscheidungen nämlich auf persönlichen Erfahrungen und Gefühlen sowie subjektiven Eindrücken. Das ist in vielen Fällen auch gut so, denn Daten bilden Vergangenheit und Gegenwart zwar objektiver ab, doch Daten zu erheben, zu pflegen und zu analysieren kostet Zeit und Geld und muss nicht zwangsweise zu besseren Entscheidungen führen. Trotzdem unterscheiden sich erfolgreiche Unternehmen von ihrer Konkurrenz gerade durch eine stark datengetriebene Kultur, da dies die Begründbarkeit von Entscheidungen erhöht und die Abhängigkeit von einzelnen Mitarbeiter*innen verringert.
Insbesondere sind Unternehmen im Vorteil, die gute Aussagen über die Zukunft treffen können, denn zuverlässiges Wissen über zukünftige Entwicklungen führt zu verbesserter Entscheidungsfindung. Um die in den Daten verborgenen Informationen zu extrahieren, sind beschreibende Statistiken und Grafiken der Daten sinnvoll und manchmal auch schon ausreichend. Doch häufig sind die Zusammenhänge in den Daten komplex und Methoden die diese Zusammenhänge aufdecken und sich zunutze machen sind vonnöten.
Haben Daten einen Zeitstempel, sprich zu jeder Beobachtung gibt es einen Zeitpunkt an dem sie gemessen wurde, so können mittels Vorhersagemodellen Zusammenhänge ausgenutzt werden. Diese können in „klassische“ Zeitreihenmethoden, also Methoden die speziell für die Analyse und Vorhersage von Zeitreihen konzipiert wurden, und Machine Learning Methoden, bei denen es im Unterschied dazu eine Transformation der Daten bedarf, da diese mit dem zeitlichen Index der Zeitreihendaten nicht umgehen können, unterschieden werden. Im Folgenden sollen einige ausgewählte, da populäre, Zeitreihenmethoden für stetige Zielvariablen vorgestellt werden:
Klassische Zeitreihenmethoden:
Zeitreihen können in drei Komponenten unterteilt werden, durch die sich die Variabilität der Zeitreihe erklären lässt:
- Trend
- Saisonalität
- Rest
Der Trend gibt an, ob sich die Zielvariable auf längerfristige Sicht in eine bestimmte Richtung entwickelt.
Die Saisonalität gibt an, ob es regelmäßig wiederkehrende Muster in der Zielvariablen gibt. Datenpunkte in der gleichen Periode haben ähnliche Verhaltensweisen, wodurch sich das Wissen über die Periode nutzen lässt, um genauere Vorhersagen zu erhalten. Beispielsweise hat die Jahreszeit einen Einfluss auf die Temperatur, sodass bei Temperaturvorhersagen das Wissen, dass sich der vorherzusagende Datenpunkt im Sommer befindet auf die Vorhersage auswirken sollte.
Der Rest beschreibt den Teil, der nicht durch Trend und Saisonalität abgedeckt wird. Im Idealfall sind alle Informationen aus Trend und Saisonalität im Modell berücksichtigt und der Rest beinhaltet nur noch zufällige Schwankungen. Je nach Zerlegungsart berechnet sich der Rest unterschiedlich. In der additiven Zerlegung werden die drei Komponenten addiert, sodass der Rest dem Wert der Zielvariablen minus Trend und minus Saisonalität ist. In der multiplikativen Zerlegung werden die drei Komponenten multipliziert, sodass der Rest dem Wert der Zielvariablen geteilt durch den Trend und geteilt durch die Saisonalität ist, wobei Trend und Saisonalität in diesem Fall nicht 0 sein dürfen.
Einfache exponentielle Glättung:
Bei der einfachen exponentiellen Glättung wird eine Vorhersage auf der kompletten verfügbaren Vergangenheit gebildet. Allerdings nimmt der Einfluss weiter zurückliegender Beobachtungen ab und zwar exponentiell. Um eine Vorhersage für den nächsten Zeitschritt zu erhalten, wird also ein gewichteter Mittelwert über alle vergangenen Werte gebildet.
Die einfache exponentielle Glättung berücksichtigt weder Trend noch Saisonalität explizit, sodass sich diese Methode insbesondere für Daten ohne klaren Trend oder Saisonalität eignet.
Holt’s lineare Trend Methode:
Um Daten mit Trend beschreiben und vorhersagen zu können, hat 1957 Charles C. Holt eine Erweiterung der exponentiellen Glättung vorgeschlagen, die unter dem Namen „Holt’s lineare Trend Methode“ bekannt ist. Hierbei werden zwei exponentielle Glättungen angewendet. Einmal um den Trend zu schätzen und einmal um das Level der Zeitreihe zu schätzen. Für Vorhersagen werden das geschätzte Level und der geschätzte Trend addiert.
Holt’s lineare Trend Methode ist eignet sich für Daten mit Trend aber ohne klare Saisonalität, da die Saisonalität nicht explizit berücksichtigt wird.
Holt-Winters‘ Methode:
Charles C. Holt und Peter R. Winters erweiterten Holt’s lineare Trend Methode noch um eine Gleichung zur Schätzung der Saisonalität, wobei die Periodizität der Saisonalität dafür mit angegeben werden muss. Diese Erweiterung ist unter dem Namen „Holt-Winters‘ Methode“ bekannt, wobei es die additive und die multiplikative Ausführung gibt. Neben unterschiedlichen Berechnungen in den Schätzungen von Level, Trend und Saisonalität ergeben sich dadurch auch unterschiedliche Berechnungen der Vorhersagen. Bei Holt-Winters‘ additiver Methode werden Level-, Trend- und Saisonalitätsschätzung addiert, während bei Holt-Winters‘ multiplikativer Methode Level- und Trend-Schätzung zwar addiert werden, die Summe wird jedoch mit der Saisonalitätsschätzung multipliziert.
Autoregressiver integrierter gleitender Mittelwert:
Autoregressive integrierte gleitende Mittelwert (engl. Autogressive Integrated Moving Average, kurz ARIMA)-Modelle basieren auf einem anderen Ansatz als Methoden der exponentiellen Glättung. Hier wird die Zeitreihe zunächst in eine stationäre Zeitreihe umgewandelt, was mittels Differenzenbildung, sprich der von jedem Wert wird der direkte zeitliche Vorgänger abgezogen, erreicht wird. Stationäre Zeitreihen haben keinen Trend und keine Saisonalität, wodurch nur noch der Rest modelliert werden muss. Diese Modellierung geschieht dann durch Anpassung von autoregressiven (AR)-Prozessen und gleitenden Mittelwert (engl. Moving Average kurz MA)-Prozessen. Für Vorhersagen muss die stationäre Zeitreihe wieder in die ursprüngliche Zeitreihe umgewandelt werden, was mit der Umkehroperation, der Integration, möglich ist.
Für ARIMA-Modelle müssen drei Parameter mitangegeben werden: (1) Die Ordnung des AR-Prozesses, (2) die Ordnung des MA-Prozesses und (3) die Ordnung der Integration (bzw. Differenzenbildung).
Da die Differenzenbildung zwar Trends aber keine Saisonalität bereinigen kann, können ARIMA-Modelle mit Trends umgehen, berücksichtigen jedoch die Saisonalität nicht explizit.
Saisonaler autoregressiver integrierter gleitender Mittelwert:
Für die Modellierung von Saisonalität mit ARIMA-Modellen wird die Differenzenbildung auf den Datenpunkt mit gleicher Periodizität in der jeweils direkt vorangegangen Saison ausgeweitet. Zudem werden auch für den saisonalen Teil ein AR-Prozess und ein MA-Prozess angepasst. Für Saisonale ARIMA (SARIMA)-Modelle müssen deshalb sieben Parameter mitangegeben werden: (1) Die Ordnung des AR-Prozesses, (2) die Ordnung des MA-Prozesses, (3) die Ordnung der Integration (bzw. Differenzenbildung), (4) die Ordnung des saisonalen AR-Prozesses, (5) die Ordnung des saisonalen MA-Prozesses, (6) die Ordnung der saisonalen Integration (bzw. saisonalen Differenzenbildung) und (7) die Periodizität der Saisonalität.
Machine Learning Methoden:
Machine Learning (ML)-Methoden erfreuen sich großer Beliebtheit, da diese oftmals bessere Resultate liefern als herkömmliche Methoden, was allerdings auf Kosten der Interpretierbarkeit geschieht. Wie eingangs beschrieben, können ML-Methoden erst mit einer Transformation der Daten auch auf Zeitreihendaten angewendet werden, da die meisten ML-Methoden die zeitliche Abhängigkeit nicht abbilden können. Um ein ML-Modell auf den Daten zu trainieren, werden neben den Werten der ursprünglichen Zeitreihe als Zielvariable auch die Werte der jeweils zeitlich vorangegangenen Datenpunkte als erklärende Variablen angegeben. Diese erklärenden Variablen entsprechen so immer festgelegten zeitlichen Abstand zwischen dem in der Variable angegebenen Wert und dem Wert der Zielvariablen, die auch lags genannt werden. Die Variable mit dem lag 3 gibt also an, wie der Wert der Zeitreihe drei Zeiteinheiten vor dem betrachteten Zeitpunkt war. Um Saisonalität zu berücksichtigen, kann eine Fourier-Transfomation der Zeitreihe durchgeführt und der Wert dieser Transformation zum jeweiligen Zeitpunkt wird als weitere erklärende Variable in das Modell gebracht. Außerdem ist es möglich die zeitlichen Eigenheiten eines Datums auszunutzen und den Tag der Woche oder den Monat des Jahres als erklärende Variablen mit angeben.
Random Forest:
Random Forest ist eine 2001 von Leo Breiman vorgeschlagene Methode, die auf Grundlage von Entscheidungsbäumen operiert. Entscheidungsbäume teilen den Datenraum sukzessive, sodass Datenpunkte die in einen Subraum fallen möglichst ähnliche Werte der Zielvariablen haben während die Werte der Zielvariablen zwischen verschiedenen Subräumen möglichst unterschiedlich sein sollen. Für eine Vorhersage werden die Werte der erklärenden Variablen des vorherzusagenden Datenpunkts mithilfe des Entscheidungsbaums einem Subraum zugeordnet und der Mittelwert der Zielvariable der Datenpunkte aus dem Trainingsdatensatz die in den entsprechenden Subraum fallen, ist die Vorhersage. Ein Random Forest setzt sich aus vielen solchen Entscheidungsbäumen zusammen und eine Vorhersage im Random Forest bildet sich durch Aggregation der Vorhersagen der einzelnen Entscheidungsbäumen, die üblichste Wahl ist hier der Mittelwert.
Extreme Gradient Boosting:
Auch das Extreme Gradient Boosting (XGBoost) basiert auf Entscheidungsbäumen. Anders als beim Random Forest werden die Entscheidungsbäume beim XGBoost nicht unabhängig, sondern bauen aufeinander auf. So werden Beobachtungen die auf den bereits erstellten Entscheidungsbäumen ein hohes Fehlermaß haben stärker gewichtet, damit diese in den weiteren Entscheidungsbäumen besser abschneiden. Wie beim Random Forest bildet sich die finale Vorhersage jedoch üblicherweise ohne Gewichte und zwar erneut durch den Mittelwert der Vorhersagen der einzelnen Entscheidungsbäume.
Long Short-Term Memory Netzwerk:
Das Long Short-Term Memory (LSTM)-Netzwerk ist eine spezielle Art von künstlichen neuronalen Netzwerken. Im Kern steht die LSTM-Einheit, eine spezielle Art von Zelle, die es ermöglicht wichtige Informationen zu speichern und unwichtige Informationen zu löschen wodurch eine Art Kontext entsteht. Ein LSTM-Netzwerk besteht aus mehreren Schichten von LSTM-Einheiten, wobei jede Schicht selbst beliebig viele LSTM-Einheiten umfassen kann. Während des Trainings werden die Verbindungen sowie die Gewichtungen der Verbindungen zwischen den LSTM-Einheiten und (potentiell) anderen Zellen gelernt. Für eine Vorhersage wird der Datenpunkt in das Netzwerk gegeben und anhand der gelernten Gewichtungen zwischen den Zellen berechnet sich die Vorhersage.
Die von den Modellen generierten Vorhersagen können Eindrücke bestätigen oder Grund für genauere Evaluation eines Sachverhaltes sein und lassen sich als weitere Expertenmeinung nutzen, wenn es darum geht eine Entscheidung zu fällen. Wichtig ist es jedoch zu verstehen, dass die Vorhersagen nicht der Wahrheit entsprechen müssen, unabhängig davon wie gut die Vorhersagen auf den Trainingsdaten funktionieren. Daher ist es ratsam die Vorhersagen stets kritisch zu hinterfragen und die unterliegenden Modelle zu untersuchen, um zu verstehen, wie das Modell zu einer Entscheidung gekommen ist. Dennoch helfen gute Vorhersagen in vielen Fällen enorm und können die Grundlage für erfolgreichere Entscheidungsfindung sein.

Jakob Becker
ist Promotionsstipendiat in Kooperation mit Remondis SmartRec und optimiert mithilfe von statistischer Datenanalyse den Recyclingprozess von Verpackungsmüll.