Data & Analytics – Anomalieerkennung in Zeitreihen

Die automatisierte Erkennung von Anomalien in Datensätzen ermöglicht bessere und schnellere Reaktionen auf Veränderungen

Wenn in Datensätzen einzelne Datenpunkte oder Entwicklungen erkannt werden, die von den zu erwartenden Mustern abweichen, werden diese als Anomalien gewertet. Sie liefern wertvolle Erkenntnisse zu etwaigen Trends, sich änderndem Kundenverhalten oder möglichen Fehlerquellen bei den eingesetzten Anwendungen. Die so gewonnenen Daten dienen in erster Linie dazu, eventuell notwendige Strategieanpassungen vorzunehmen oder Geschäftsprozesse zu überarbeiten.

In regelmäßigen Zeitabständen erstellte Datensätze

Bei einer univariaten Zeitreihe handelt es sich um eine Folge von Datensätzen, die in regelmäßigen Zeitabständen erstellt werden. Diese kommen häufig bei der Überwachung von Unternehmenskennzahlen oder industriellen Prozessen vor. Im Zeitalter des Internets der Dinge (IoT) und vernetzter Echtzeit-Datenquellen produzieren zahlreiche Anwendungen wichtige Daten, die sich im Laufe der Zeit verändern. Die Analyse solcher Zeitreihen liefert wertvolle Erkenntnisse für jeden beliebigen Anwendungsfall.

Die besonderen Merkmale von Zeitreihen haben zur Folge, dass die Anomalieerkennung häufig mit bestimmten Herausforderungenverbunden ist:

Die Daten von Zeitreihen sind nicht zwangsläufig identisch verteilt und unabhängig.
Bei einer Zeitreihe kann es vorkommen, dass der Wert einer zu einem bestimmten Zeitpunkt beobachteten Variable von ihrem Wert in der Vergangenheit beeinflusst wird.
Eine Zeitreihe kann Trend-, zyklische, Saison- und/oder irreguläre Komponenten umfassen.
Zufällige Einflüsse (sogenanntes „Rauschen“) treten in Zeitreihen ebenfalls auf und sind manchmal nur schwer von Anomalien zu unterscheiden.

Anomalieerkennung zur Identifizierung von Abweichungen

Dabei handelt es sich um das Auffinden von Mustern, das vom normalen Verhalten abweicht. Man unterscheidet dabei zwischen drei Hauptanomalien.

Punktanomalie: Ein bestimmter Wert weicht vom beobachteten Muster ab.
Kollektive Anomalien: Eine Reihe von Datenpunkten verhält sich abweichend vom Rest der Daten.
Kontextuelle Anomalien: Ein einzelner oder mehrere Datenpunkte unter bestimmten Instanzen weichen von der Norm ab.

Je nachdem, ob es sich bei den vorliegenden Daten um gelabelte (jeder Datenpunkt wird als normal oder anormal markiert) oder ungelabelte Daten handelt, gibt es drei verschiedene Methoden für die Implementierung der Anomalieerkennung. Diese können entweder im Zeitbereich oder in einem anderen Segment (bspw. Frequenzbereich) durchgeführt werden.

Überwachtes Lernen: Auf Basis gelabelter Eingabedaten soll das System eine Hypothese finden, die möglichst zielsicher vorhersagen kann, ob neue Datenpunkte eine Anomalie darstellen oder nicht.
Semiüberwachtes Lernen: Das System lernt auf der Grundlage von Eingabedaten zum Normalverhalten, was normal ist und was nicht.
Unüberwachtes Lernen: Diese Methode verwendet ungelabelte Daten und nimmt an, dass normale Instanzen die am häufigsten auftretenden Muster sind. Anomalien sind folglich Datenpunkte oder -reihen, die von diesen Mustern abweichen.

Vor- und Nachteile der häufigsten Analysemethoden

Im Fall von Zeitreihen ist bei der Anomalieerkennung zu berücksichtigen, dass es sich um eine Folge von Daten handelt. Typische Beispiele für Anomalien in Zeitreihen aus geschäftlicher Perspektive sind unerwartete An- und Abstiege, Trend- sowie Niveauveränderungen.

Statistikbasiert: Eine der zahlreichen Methoden beinhaltet die Zerlegung von Zeitreihen in Trend-, Saison- und Restkomponenten sowie die anschließende Anwendung der mittleren absoluten Abweichung auf den Rest, um eine zuverlässige Anomalieerkennung sicherzustellen. Eine weitere Methode basiert auf der Robust Principal Component Analysis (RPCS), um niederrangige Repräsentationen von Daten, Rauschen und Anomalien durch die wiederholte Singulärwertzerlegung (SWZ) ausfindig zu machen. Hierzu zählt auch die Anwendung von Schwellwerten auf Singulärwerte und Fehler in jedem einzelnen Durchlauf.

Prognosebasiert: Hierzu zählen Methoden wie der gleitende Mittelwert, autoregressive Modelle der gleitenden Mittel (ARMA) und deren Erweiterungen (ARIMA), exponentielle Glättung, Kalman-Filter etc. Mit deren Hilfe soll ein Prognosemodell des Signals aufgebaut werden. Die Anomalieerkennung erfolgt dann durch den Abgleich von prognostiziertem und ursprünglichem Signal mithilfe statistischer Tests.

Hidden-Markov-Model-basiert (HMM): Diese Methoden beinhalten die Modellierung des Systems als Markov-Modell. Dabei handelt es sich um einen endlichen Automaten, der ein System aufgrund beobachtbarer Zustände charakterisiert. Es wird angenommen, dass die normale Zeitreihe von einem verborgenen Prozess hervorgebracht wird. Den beobachteten Datenfolgen werden Wahrscheinlichkeiten zugeordnet. Somit sind Anomalien immer jene Beobachtungen, die höchst unwahrscheinlich sind.

Entscheidungsbasiert: Zu den aktuellen Methoden zählen bspw. Long-Short-Term-Memory-Netze (LSTM). Dabei handelt es sich um eine Art rekurrente und neuronale Netze. Auch Entscheidungs- und Regressionsbäume (CART) werden eingesetzt, um eine binäre Klassifizierung (normal und anomal) vornehmen zu können. Extreme Gradient Boosting (XGBoost) ist der populärste Algorithmus für das CART-Training. Beide Methoden können aber auch als prognosebasierte Methode angewandt werden.

Anwendungsfälle und Beispiele für eine Zeitreihenanalyse

Es existieren verschiedene Key Performance Indikatoren (KPIs) im E-Commerce, die sich für die Zeitreihenanalyse eignen. Hierzu zählen:

Umsatz
Anzahl der Transaktionen
Durchschnittlicher Bestellwert
Aktive Nutzer
Seitenaufrufe
Return on Marketing Investment (ROMI)

Das abgebildete Diagramm zeigt ein Beispiel für die Anomalieerkennung in der Umsatzzeitreihe eines Händlers der Konsumgüterbranche. Die Zeitreihendaten (blau markiert) umfassen sowohl Trend- als auch Saisonkomponenten. Punktanomalien wurden rot gekennzeichnet. Die aufgezeichneten An- und Abstiege in der Grafik dienen für die weitere Analyse, um die Gründe und steuernden Faktoren zu ermitteln.

Halten Sie sich mit unseren Data Stories auf dem Laufenden

Datenstrategie-Frameworks, die Sie kennen sollten

Die Sicherung eines geschlossenen sowie agilen Datenkreislaufes ist unabdingbar. Wir stellen Ihnen daher zwei interessante Datenstrategie-Frameworks vor, mit denen dies sichergestellt werden kann.

Effiziente Segmentierung von Kunden durch Zahlungsdaten

Effiziente und gut durchdachte Kundensegmentierung ermöglicht ein besseres Verständnis des Kundenverhaltens und eröffnet Händlern die Möglichkeit, schneller und besser zu reagieren

Anomalieerkennung in Zeitreihen

Bei der Analyse verschiedener Datensätze spielt das Erkennen sowie das Verständnis von Anomalien eine stetig wachsende Rolle.