Was ist Anomalie-Erkennung?

Bei der Anomalie-Erkennung kommen verschiedene Tools zum Einsatz, um Unregelmäßigkeiten in Datensätzen zu finden und zu handhaben.

Der Begriff beschreibt eine Veränderung innerhalb eines Datenmusters, einen Ausreißer oder ein Ereignis, das vom normalen Trend abweicht, also eine Abweichung von den erwarteten Daten.

Solche Abweichungen im Datenmuster, die sogenannten Anomalien, können darauf hindeuten, dass etwas nicht stimmt.

Punktuelle/globale Anomalien

Diese Begriffe beschreiben einen einzelnen Datenpunkt, der zu stark von den restlichen Datenpunkten abweicht.

Kontextuelle Anomalien

Diese Anomalien weichen im Kontext des einen Datensatzes ab, während sie im Kontext eines anderen Datensatzes normal sind. Dies ist die häufigste Art kontextueller Anomalien in Zeitreihendaten.

Kollektive Anomalien

Bei diesen Anomalien weicht eine gesamte Datenuntergruppe vom breiteren Datensatz ab – einzelne Datenpunkte spielen bei der Identifikation kollektiver Anomalien keine Rolle.

Der Begriff beschreibt die Identifikation von seltenen Ausreißern oder Datenpunkten, die von den Trends eines Datensatzes abweichen. Anomalien können auf verdächtige Ereignisse, Fehlfunktionen, Fehler oder Betrugsversuche hinweisen.

Die Herausforderung der Anomalie-Erkennung

Systeme zur Anomalie-Erkennung erfordern entweder manuelle Analysearbeit oder den Einsatz von maschinellem Lernen (ML). Dies birgt einige Herausforderungen, da hierfür umfangreiches Fachwissen erforderlich ist und mögliche statistische Anomalien vorhergesagt werden müssen, bevor sie eintreten – was sich recht schwierig gestaltet.

Anomalie-Erkennung mit maschinellem Lernen

Vorteile von Anomalie-Erkennung und maschinellem Lernen

Für die Anomalie-Erkennung eignet sich maschinelles Lernen (ML) besser als manuelle Ansätze, da es schneller ist, sich flexibel an Änderungen anpasst und Funktionen bietet, um selbst große Datensätze einfach zu handhaben.

Unstrukturierte Daten

Strukturierte Daten verfügen über ein Fundament, das uns mehr über die Daten verrät: Sie wurden bereits interpretiert und in einem nutzbaren Datensatz organisiert. Codierte oder unstrukturierte Daten können dafür sorgen, dass Algorithmen nutzlos sind und erst funktionieren, wenn die Daten strukturiert wurden. Das liegt daran, dass hier wenige bis gar keine Informationen zum Kontext der Daten vorliegen.

Große Datensätze erforderlich

Für eine optimale Analyse sollte der Datensatz groß genug sein, um zuverlässige Trends zu ermitteln und Anomalien richtig erkennen zu können. Die Erkennung profitiert von der größeren Datenmenge, da mit zunehmenden Daten auch die Zuverlässigkeit der Rückschlüsse steigt. Mit großen Datensätzen finden Sie echte Anomalien und keine Daten, die vielleicht Teil eines Trends sind oder nicht so sehr abweichen wie erwartet.

Talent erforderlich

Für das Training des ML-Algorithmus sind kompetente Techniker oder Datenwissenschaftler erforderlich. Je nach Lösungsfunktionen kann es Wochen oder sogar Monate dauern, die Maschine in ihrer Aufgabe zu trainieren. Wie ausgeprägt die Machine Learning-Fähigkeiten sein müssen, hängt von der Komplexität der Lösung ab.

Anomalie-Erkennung in drei Modi

Überwacht

Überwachte Daten wurden vorbereitet und jeder Datenpunkt trägt die Bezeichnung „Normal“ oder „Anomalie“. Alle Anomalien werden frühzeitig identifiziert, damit das ML-Modell damit trainieren kann.

Clean

Alle Datenpunkte werden als „Normal“ gekennzeichnet; es gibt keine spezielle Bezeichnung für Anomaliepunkte. Bei sauberen Daten wird die Anomalie-Erkennung dem Datenmodellierer überlassen und alle Datenpunkte im sauberen Datensatz gelten als „Normal“.

Nicht überwacht

Nicht überwachte Daten enthalten weder Bezeichnungen für normale Datenpunkte noch für Anomalien. Es obliegt dem Datenmodellierer, die Punkte als „Normal“ oder „Anomalie“ einzustufen – es gibt kein Fundament und keine Informationen dazu, wie das Ergebnis genau aussehen wird.

Dieser Begriff beschreibt den Prozess, bei dem Muster erkannt werden, die zuvor nicht beobachtet wurden – also neue Beobachtungen, die nicht in den Trainingsdaten enthalten waren.

Der einfachste Ansatz zur Erkennung von Anomalien besteht darin, Unregelmäßigkeiten in Datensätzen zu identifizieren, also Daten, die von einem Trend oder den statistischen Normalverteilungen (z. B. Mittel-, Median- und Modalwert) abweichen.

Hier wird beschrieben, wie Sie maschinelles Lernen für die Anomalie-Erkennung und Bedingungsüberwachung einsetzen können.

Digitale Transformation

Die digitale Transformation, die auch als Digitalisierung oder Industrie 4.0 bezeichnet wird, nutzt Technologie und Daten, um Produktivität und Effizienz zu steigern. Und die verfügbare Datenmenge steigt stetig an, je mehr Maschinen und Geräte vernetzt werden und in der Lage sind, Unmengen von Daten an jeden beliebigen Ort zu übertragen. Ziel ist es hierbei, Informationen aus diesen Daten zu extrahieren und sie zu analysieren, um mit ihrer Hilfe Kosten und Ausfallzeiten zu vermeiden. Maschinelles Lernen und Datenanalysen spielen hierbei eine entscheidende Rolle.

Bedingungsüberwachung

Jede Maschine kann unabhängig von ihrer Komplexität einen unerwünschten Zustand erreichen. Doch das bedeutet nicht gleich, dass das entsprechende Gerät heruntergefahren oder ausgemustert werden muss. Es bedeutet nur, dass möglicherweise eine Wartung erforderlich ist, um die optimale Leistung der Maschine wiederherzustellen. Indem Sie für Analysen große Datensätze einsetzen, können Sie Anomalien erkennen, die anzeigen oder sogar vorhersagen, ob eine Maschine gewartet oder ausgetauscht werden muss.

Dichtebasierte Ansätze

Dichtebasierte Anomalie-Erkennung

Die dichtebasierte Anomalie-Erkennung basiert auf der Annahme, dass alle normalen Datenpunkte eng beieinanderliegen und dass sich Anomalien weiter entfernt befinden. Der Ansatz basiert auf dem k-NN-Algorithmus (k nächste Nachbarn), der einfach und nicht parametrisch ist. k-NN wird in der Regel verwendet, um Daten anhand von Gemeinsamkeiten in Entfernungsberechnungen zu klassifizieren, wie z. B. Manhattan-, Minkowski-, Hamming- oder euklidische Distanzmessungen.

Clusterbasierte Anomalie-Erkennung

Die clusterbasierte Anomalie-Erkennung basiert auf der Annahme, dass ähnliche Datenpunkte Cluster oder Gruppen bilden und dass diese Cluster durch die Entfernung von den lokalen Schwerpunkten (dem Durchschnitt aller Punkte) bestimmt werden. Der k-Means-Clusteralgorithmus (k Mittel) erstellt k Cluster ähnlicher Datenpunkte. Anomalien sind Punkte, die außerhalb dieser k Cluster fallen.

SVM-Anomalie-Erkennung (Support Vector Machine)

Die SVM-Anomalie-Erkennung nutzt in der Regel überwachtes Lernen; es sind jedoch auch Optionen verfügbar, um Anomalien in unbeaufsichtigten Umgebungen zu finden. Hierbei wird eine Clustergrenze ermittelt und auf den Trainingsdatensatz angewendet. Normale Dateninstanzen werden innerhalb dieser Grenze geclustert und Anomalien werden daran erkannt, dass sie außerhalb der gelernten Grenze liegen.

Zeitreihendaten sind Abfolgen von Werten, die mit der Zeit erfasst werden. Jeder Datenpunkt kann zwei Metriken aufweisen: die Uhrzeit/das Datum, an dem der Punkt erfasst wurde, und den Wert des Datenpunkts. Daten werden fortlaufend erfasst und hauptsächlich dafür verwendet, künftige Ereignisse vorherzusagen, dienen aber nicht per se als Prognose. Mithilfe von Anomalien in Zeitreihendaten lassen sich folgende Punkte erkennen:

  1. Aktive Benutzer
  2. Webseitenaufrufe
  3. Cost-per-Click
  4. Cost-per-Lead
  5. Bounce Rate
  6. Abwanderungsrate
  7. Durchschnittlicher Bestellwert
  8. App-Installationen

Die Anomalie-Erkennung in Zeitreihendaten schafft eine Baseline für normales Verhalten in den definierten KPIs.

  • Datenbereinigung
  • Einführungserkennung
  • Betrugserkennung
  • Systemüberwachung
  • Ereigniserkennung in Sensornetzwerken
  • Ökosystemstörungen

Anomalie-Erkennung für mehr Serviceleistung

Ein reaktiver Ansatz bei der Erkennung kann zu Ausfallzeiten und Leistungsproblemen führen, die das Unternehmen beeinträchtigen, bis eine Lösung gefunden wurde. Indem sie Anomalien bei der Leistung erkennen, können Unternehmen vorhersagen, wann und warum ein Problem mit einem Geschäftsservice auftreten könnte. Die meisten Branchen können hiervon profitieren, darunter zum Beispiel die beiden folgenden:

  • Telekommunikation: Telekommunikationsanalysen generieren Unmengen an Daten. Deshalb sind fortschrittliche Lösungen erforderlich, um Latenzen, Jitter und schlechte Anrufqualität zu erkennen und zu verhindern, damit die Leistung nicht beeinträchtigt wird.
  • Werbetechnologie: Die Leistung dieser komplexen Anwendungen lässt sich oft nur schwer überwachen. Grund hierfür ist die Geschwindigkeit, mit der Transaktionen bei Anzeigenauktionen erfolgen. Die Anomalie-Erkennung kann Probleme in einer Anwendung ermitteln, noch bevor sie abstürzt, und verhindert so Ausfälle während der Auktionen.

Anomalie-Erkennung für gesteigerte Produktqualität

Produkte müssen möglichst reibungslos und fehlerfrei funktionieren. Doch die natürliche Weiterentwicklung von Produkten kann zu Verhaltensanomalien in verschiedensten Komponenten führen – von neuen Funktionen bis hin zu A/B-Tests. Die laufende Überwachung solcher Verhaltensanomalien kann Ausfallzeiten und anhaltende Probleme verhindern. Hiervon können die meisten Branchen profitieren, darunter beispielsweise die beiden folgenden:

  • E-Commerce: Die Anomalie-Erkennung kann seltsames Verhalten oder Probleme mit der Produktqualität finden, wie z. B. Preisfehler oder ungewöhnliche saisonale Schwankungen.
  • Finanztechnologie: In der Finanzbranche wird in Millisekunden gehandelt. Dementsprechend müssen Unternehmen gewährleisten, dass die Anwendungen, mit denen der Handel überwacht wird, sicher und einheitlich sind. Durch Anomalie-Erkennung können Ausfallzeiten und Störungen verhindert werden, indem Leistung und Betrieb von Anwendungen auf Unregelmäßigkeiten überwacht werden.

Anomalie-Erkennung für bessere Benutzer-Experience

Wenn der Service einer Website beeinträchtigt wird, leidet darunter schnell die Benutzer-Experience. Anomalie-Erkennung kann Unternehmen dabei helfen, auf Leistungsprobleme zu reagieren, bevor Kunden frustriert sind und Umsätze verloren gehen. Einige Branchen können in dieser Hinsicht von der Anomalie-Erkennung profitieren:

  • Gaming: Spiele sind äußerst kompliziert, was eine manuelle Überwachung ihres komplexen Codes nahezu unmöglich macht. Künstliche Intelligenz (KI) kann jedoch Störungen und Fehler in der Benutzer-Experience, wie z. B. Bugs und Glitches, erkennen und beheben.
  • Onlinegeschäfte: Der Erfolg von Onlinegeschäften hängt stark von der Benutzer-Experience ab. Das IT-Team muss API-Fehler, Serverausfälle und Ladestörungen schnellstmöglich erkennen und beheben. Durch die Ursachenanalyse mittels Anomalie-Erkennung lässt sich das Problem rasch finden, damit Plattformen, Rechenzentren und Betriebssysteme mit kurzen oder gar keinen Ausfallzeiten repariert werden können.

  • Die automatisierte Anomalie-Erkennung liefert genaue Erkenntnisse in Echtzeit und ermöglicht die Einstufung, Erkennung und Gruppierung von Daten. Damit wird ein großes Team von Datenanalysten überflüssig.
  • Überwachtes und unbeaufsichtigtes maschinelles Lernen: Maschinelles Lernen erfolgt im Idealfall ohne Überwachung oder menschliche Interaktion. Dennoch sollten einige Analysten zur Verfügung stehen, die Basisdaten einspeisen und das ML-Programm gelegentlich überwachen.
  • Hybrid: Diese skalierte Anomalie-Erkennung bietet die Flexibilität, manuell Regeln für spezifische Anomalien festlegen zu können.

Bei der Anomalie-Erkennung stellt sich die Frage, ob Sie selbst eine Lösung entwickeln oder einfach ein fertiges System kaufen sollten. Bei dieser Entscheidung sind einige wichtige Punkte zu beachten:

  • Größe des Unternehmens
  • Datenvolumen, das verarbeitet werden soll
  • Kapazität für interne Entwicklung
  • Etwaige Erweiterungspläne
  • Bedürfnisse der Stakeholder
  • Budgetanforderungen
  • Größe des verfügbaren Teams
  • Fachkenntnisse der internen Datenwissenschaftler

Funktionen, die mit Ihrem Unternehmen mitwachsen

Erkennen Sie Probleme, bevor sie entstehen, mit ServiceNow.