Datenstrategie-Frameworks, die Sie kennen sollten
Die automatisierte Erkennung von Anomalien in Datensätzen ermöglicht bessere und schnellere Reaktionen auf Veränderungen
Wenn in Datensätzen einzelne Datenpunkte oder Entwicklungen erkannt werden, die von den zu erwartenden Mustern abweichen, werden diese als Anomalien gewertet. Sie liefern wertvolle Erkenntnisse zu etwaigen Trends, sich änderndem Kundenverhalten oder möglichen Fehlerquellen bei den eingesetzten Anwendungen. Die so gewonnenen Daten dienen in erster Linie dazu, eventuell notwendige Strategieanpassungen vorzunehmen oder Geschäftsprozesse zu überarbeiten.
Bei einer univariaten Zeitreihe handelt es sich um eine Folge von Datensätzen, die in regelmäßigen Zeitabständen erstellt werden. Diese kommen häufig bei der Überwachung von Unternehmenskennzahlen oder industriellen Prozessen vor. Im Zeitalter des Internets der Dinge (IoT) und vernetzter Echtzeit-Datenquellen produzieren zahlreiche Anwendungen wichtige Daten, die sich im Laufe der Zeit verändern. Die Analyse solcher Zeitreihen liefert wertvolle Erkenntnisse für jeden beliebigen Anwendungsfall.
Die besonderen Merkmale von Zeitreihen haben zur Folge, dass die Anomalieerkennung häufig mit bestimmten Herausforderungenverbunden ist:
Dabei handelt es sich um das Auffinden von Mustern, das vom normalen Verhalten abweicht. Man unterscheidet dabei zwischen drei Hauptanomalien.
Je nachdem, ob es sich bei den vorliegenden Daten um gelabelte (jeder Datenpunkt wird als normal oder anormal markiert) oder ungelabelte Daten handelt, gibt es drei verschiedene Methoden für die Implementierung der Anomalieerkennung. Diese können entweder im Zeitbereich oder in einem anderen Segment (bspw. Frequenzbereich) durchgeführt werden.
Im Fall von Zeitreihen ist bei der Anomalieerkennung zu berücksichtigen, dass es sich um eine Folge von Daten handelt. Typische Beispiele für Anomalien in Zeitreihen aus geschäftlicher Perspektive sind unerwartete An- und Abstiege, Trend- sowie Niveauveränderungen.
Statistikbasiert: Eine der zahlreichen Methoden beinhaltet die Zerlegung von Zeitreihen in Trend-, Saison- und Restkomponenten sowie die anschließende Anwendung der mittleren absoluten Abweichung auf den Rest, um eine zuverlässige Anomalieerkennung sicherzustellen. Eine weitere Methode basiert auf der Robust Principal Component Analysis (RPCS), um niederrangige Repräsentationen von Daten, Rauschen und Anomalien durch die wiederholte Singulärwertzerlegung (SWZ) ausfindig zu machen. Hierzu zählt auch die Anwendung von Schwellwerten auf Singulärwerte und Fehler in jedem einzelnen Durchlauf.
Prognosebasiert: Hierzu zählen Methoden wie der gleitende Mittelwert, autoregressive Modelle der gleitenden Mittel (ARMA) und deren Erweiterungen (ARIMA), exponentielle Glättung, Kalman-Filter etc. Mit deren Hilfe soll ein Prognosemodell des Signals aufgebaut werden. Die Anomalieerkennung erfolgt dann durch den Abgleich von prognostiziertem und ursprünglichem Signal mithilfe statistischer Tests.
Hidden-Markov-Model-basiert (HMM): Diese Methoden beinhalten die Modellierung des Systems als Markov-Modell. Dabei handelt es sich um einen endlichen Automaten, der ein System aufgrund beobachtbarer Zustände charakterisiert. Es wird angenommen, dass die normale Zeitreihe von einem verborgenen Prozess hervorgebracht wird. Den beobachteten Datenfolgen werden Wahrscheinlichkeiten zugeordnet. Somit sind Anomalien immer jene Beobachtungen, die höchst unwahrscheinlich sind.
Entscheidungsbasiert: Zu den aktuellen Methoden zählen bspw. Long-Short-Term-Memory-Netze (LSTM). Dabei handelt es sich um eine Art rekurrente und neuronale Netze. Auch Entscheidungs- und Regressionsbäume (CART) werden eingesetzt, um eine binäre Klassifizierung (normal und anomal) vornehmen zu können. Extreme Gradient Boosting (XGBoost) ist der populärste Algorithmus für das CART-Training. Beide Methoden können aber auch als prognosebasierte Methode angewandt werden.
Es existieren verschiedene Key Performance Indikatoren (KPIs) im E-Commerce, die sich für die Zeitreihenanalyse eignen. Hierzu zählen:
Das abgebildete Diagramm zeigt ein Beispiel für die Anomalieerkennung in der Umsatzzeitreihe eines Händlers der Konsumgüterbranche. Die Zeitreihendaten (blau markiert) umfassen sowohl Trend- als auch Saisonkomponenten. Punktanomalien wurden rot gekennzeichnet. Die aufgezeichneten An- und Abstiege in der Grafik dienen für die weitere Analyse, um die Gründe und steuernden Faktoren zu ermitteln.