Big-Data-Analyse

Gute Daten, schlechte Daten

23. Mai 2018, 14:28 Uhr | Autor: Otto Neuer / Redaktion: Diana Künstler | Kommentar(e)

Fortsetzung des Artikels von Teil 1

Augmented Intelligence

Kosten durch mangelhafte Datenqualität
Laut IBM verursacht mangelhafte Datenqualität in den USA Kosten von umgerechnet rund 2,54 Billionen Euro pro Jahr.
© IBM "The Four V‘s of Big Data"

Ein Unternehmen, das bereits eine datengesteuerte Strategie implementiert, ist Travis Perkins, der größte britische Baustofflieferant. Ursprünglich hatte das Unternehmen viele inkonsistente Produktdatensätze online, was sich nachteilig auf den Onlineverkauf auswirkte. Die Mitarbeiter mussten die Produkte manuell mit den richtigen Informationen aktualisieren, aber in einer in Echtzeit laufenden Online-Verkaufsumgebung war dies keine praktikable Lösung mehr. Als Ergebnis einer datengesteuerten Strategie verzeichnete Travis Perkins eine 30-prozentige Steigerung der Umsätze auf der Website des Wickes-Baumarktes. Die verbesserte Datenqualität eröffnet Travis Perkins zudem die Option von Echtzeitanalysen mit Einblicken in die Bereiche Inventarisierung, Produktlokalisierung und Kundenbeziehungsmanagement. Durch die Kombination eines schnellen Wechsels in die Cloud für Analytik mit einer starken Datenqualitätsstrategie hat der Baustoffhändler und Baumarktbetreiber seine Time-to-Insight um 75 Prozent beschleunigt. Die Verantwortung für die Datenqualität wurde an die Fachbereiche zurückgespielt, bevor ihre Anfragen an das Business-Insights-Team gesendet wurden. Das hat die Effizienz verbessert, da zuvor viel Zeit für das Löschen irrelevanter Daten aufgewendet wurde.

Wenn es um strukturierte Daten geht, ist die Deduplizierung von Datenbanken eine der kritischsten Aufgaben, aber auch eine der zeitaufwendigsten. Hier kann KI dabei helfen, den Zeitaufwand für die Deduplizierung einer Datenbank massiv zu reduzieren, was die Datenqualität durch die Bereinigung doppelter Datensätze verbessert. Die Erfahrung zeigt, dass bei 80 Millionen Datensätzen rund zwei Prozent Duplikate sind: Das sind 1,6 Millionen Datensätze. Für einen Menschen ist es unmöglich, diese Datensätze manuell und zeitsparend zu löschen. Aber auch die KI kann eine solche Aufgabe nicht allein erledigen. Zwar lässt sich der Prozess automatisieren, aber nur, wenn die Datenqualität schon bei der Datenerfassung absolut perfekt ist. Einen Test können Anwender mit einer kleineren Stichprobe durchführen und dabei eine Regel testen und entwickeln, die alle doppelten Daten löscht, ohne einen Datensatz zu beschädigen. Diese Regel zu entwickeln, wird einige Versuche erfordern, sie kann aber anschließend auf die gesamte Datenbank angewendet werden. Dies ist ein gutes Beispiel dafür, was erweiterte Intelligenz beziehungsweise Augmented Intelligence leisten muss.

Mithilfe von Natural Language Processing (NLP) gelingt es, Computern die Verwendung von unstrukturierten Daten verständlich zu machen und damit auch natürliche menschliche Sprache zu verstehen – ob als Sprache oder in Schriftform. Durch die Extraktion von Informationen wie Namen und Telefonnummern aus unstrukturierten Datensätzen wie E-Mail-Threads und Notizenseiten kann NLP eine Datenqualitätsstrategie bereichern. Ein Beispiel für NLP in der Praxis ist das Szenario eines „bequemen Vertriebsmitarbeiters“. Mit einer Salesforce-Anwendung lassen sich nützliche Informationen wie Telefonnummern und weitere Kontaktdaten speichern. Um diese Daten mit KI-Systemen zu nutzen, ist es zunächst notwendig, die Wörter innerhalb eines unstrukturierten Datensatzes zu kennzeichnen. So erhalten IT-gestützte Lernkomponenten die benötigten Informationen, um Aufgaben zu automatisieren und die Erkenntnisse der Datenstrukturen auf größere Datensätze auszudehnen. Informationen, die von Vertriebsmitarbeitern zwar erfasst, aber nicht für eine Weiterverarbeitung vorgesehen wurden, können somit dennoch dazu beitragen, eine weitergehende Datennutzung zu ermöglichen. Das ist ein Beispiel dafür, wie Menschen den Maschinen dabei helfen, Menschen zu helfen – also ein weiteres Beispiel für erweiterte Intelligenz.

Datenqualität steigern
Unternehmen sollten SaaS-Anwendungen (Software as a Service) für Self-Service Data Preparation einsetzen, um damit die Dataqualität für Echtzeitanalysen und KI zu verbessern. Dafür gibt es von verschiedenen Anbietern geeignete Lösungen, um Funktionen für Data-as-a-Service zu realisieren. Diese bieten zudem der IT-Organisation Funktionen für die Datenkontrolle und um Compliance-Regeln einzuhalten. Damit lassen sich auch die Anforderungen der Datenschutzgrundverordnung DSGVO umsetzen. Im modernen datengesteuerten Zeitalter sollten Unternehmen daher einen neuen Ansatz für die Datenqualität wählen, um die Möglichkeiten der Echtzeit-KI und der erweiterten Intelligenz für sich zu nutzen.

Otto Neuer ist Vice President Sales EMEA Central bei Talend


  1. Gute Daten, schlechte Daten
  2. Augmented Intelligence

Das könnte Sie auch interessieren

Verwandte Artikel

Talend Inc.

Anbieterkompass