Was ist Datenqualität – Eine Definition

Carsten Hack

vor 3 Jahren

Datenqualität ist ein Maß für den Zustand von Daten auf der Grundlage von Faktoren wie Genauigkeit, Vollständigkeit, Konsistenz, Zuverlässigkeit und Aktualität. Die Messung der Datenqualität kann Unternehmen dabei helfen, Datenfehler zu erkennen, die behoben werden müssen, und zu beurteilen, ob die Daten in ihren IT-Systemen für den vorgesehenen Zweck geeignet sind.

Die Bedeutung der Datenqualität in Unternehmenssystemen hat in dem Maße zugenommen, wie die Datenverarbeitung immer enger mit den Geschäftsabläufen verknüpft ist und Unternehmen zunehmend Datenanalysen zur Unterstützung von Geschäftsentscheidungen einsetzen. Das Datenqualitätsmanagement ist eine Kernkomponente des gesamten Datenmanagementprozesses, und Bemühungen zur Verbesserung der Datenqualität sind oft eng mit Data-Governance-Programmen verbunden, die sicherstellen sollen, dass die Daten im gesamten Unternehmen einheitlich formatiert und verwendet werden.

Warum Datenqualität wichtig ist

Schlechte Daten können erhebliche geschäftliche Konsequenzen für Unternehmen haben. Daten von schlechter Qualität werden oft als Ursache für betriebliche Pannen, ungenaue Analysen und schlecht durchdachte Geschäftsstrategien angesehen. Beispiele für den wirtschaftlichen Schaden, den Datenqualitätsprobleme verursachen können, sind zusätzliche Kosten, wenn Produkte an die falschen Kundenadressen geliefert werden, entgangene Verkaufschancen aufgrund fehlerhafter oder unvollständiger Kundendatensätze und Geldstrafen für unsachgemäße Finanzberichte oder die Einhaltung gesetzlicher Vorschriften.

Nach einer häufig zitierten Schätzung von IBM beliefen sich die jährlichen Kosten von Datenqualitätsproblemen in den USA im Jahr 2016 auf 3,1 Milliarden US-Dollar. In einem Artikel, den er 2017 für die MIT Sloan Management Review schrieb, schätzte der Datenqualitätsberater Thomas Redman, dass die Korrektur von Datenfehlern und die Bewältigung von Geschäftsproblemen, die durch schlechte Daten verursacht werden, Unternehmen im Durchschnitt 15 % bis 25 % ihres Jahresumsatzes kosten.

Darüber hinaus wird mangelndes Vertrauen in Daten seitens der Führungskräfte und Manager von Unternehmen häufig als eines der Haupthindernisse für den Einsatz von Business Intelligence (BI) und Analysetools zur Verbesserung der Entscheidungsfindung in Unternehmen genannt.

Was ist gute Datenqualität?

Datengenauigkeit ist ein Schlüsselattribut für qualitativ hochwertige Daten. Um Probleme bei der Transaktionsverarbeitung in operativen Systemen und fehlerhafte Ergebnisse in Analyseanwendungen zu vermeiden, müssen die verwendeten Daten korrekt sein. Ungenaue Daten müssen identifiziert, dokumentiert und korrigiert werden, um sicherzustellen, dass Führungskräfte, Datenanalysten und andere Endnutzer mit guten Informationen arbeiten.

Weitere Aspekte oder Dimensionen, die wichtige Elemente einer guten Datenqualität sind, sind die Vollständigkeit der Daten, d. h., dass die Datensätze alle erforderlichen Datenelemente enthalten, die Konsistenz der Daten, d. h., dass es keine Konflikte zwischen denselben Datenwerten in verschiedenen Systemen oder Datensätzen gibt, das Fehlen doppelter Datensätze in Datenbanken, die Aktualität der Daten, d. h., dass die Daten bei Bedarf aktualisiert wurden, um sie auf dem neuesten Stand zu halten, und die Konformität mit den von einer Organisation erstellten Standarddatenformaten. Die Erfüllung all dieser Faktoren trägt dazu bei, dass Datensätze zuverlässig und vertrauenswürdig sind.

Wie man die Datenqualität bestimmt

Als ersten Schritt zur Bestimmung der Datenqualität führen Unternehmen in der Regel eine Bestandsaufnahme ihrer Datenbestände durch, bei der die relative Genauigkeit, Eindeutigkeit und Gültigkeit der Daten in Basisstudien gemessen wird. Die ermittelten Basiswerte für Datensätze können dann laufend mit den Daten in den Systemen verglichen werden, um neue Datenqualitätsprobleme zu erkennen und zu beheben.

Ein weiterer gemeinsamer Schritt ist die Erstellung einer Reihe von Datenqualitätsregeln auf der Grundlage von Geschäftsanforderungen sowohl für operative als auch für analytische Daten. Solche Regeln legen die erforderlichen Qualitätsstufen in Datensätzen fest und beschreiben, welche Datenelemente enthalten sein müssen, damit sie auf Genauigkeit, Konsistenz und andere Datenqualitätsattribute geprüft werden können. Nachdem die Regeln aufgestellt sind, führt ein Datenverwaltungsteam in der Regel eine Bewertung der Datenqualität durch, um die Qualität der Datensätze zu messen und Datenfehler und andere Probleme zu dokumentieren – ein Verfahren, das in regelmäßigen Abständen wiederholt werden kann, um die höchstmögliche Datenqualität zu gewährleisten.

Es wurden verschiedene Methoden für solche Bewertungen entwickelt. So haben beispielsweise die Datenmanager der Tochtergesellschaft Optum Healthcare Services der UnitedHealth Group das Data Quality Assessment Framework (DQAF) entwickelt, um eine Methode zur Bewertung ihrer Datenqualität zu formalisieren. Das DQAF bietet Richtlinien für die Messung von Datenqualitätsdimensionen wie Vollständigkeit, Aktualität, Gültigkeit, Konsistenz und Integrität. Optum hat Einzelheiten zu diesem Rahmenwerk als mögliches Modell für andere Organisationen veröffentlicht.

Der Internationale Währungsfonds (IWF), der das globale Währungssystem überwacht und wirtschaftlich angeschlagenen Ländern Geld leiht, hat ebenfalls eine Bewertungsmethodik festgelegt, die als Data Quality Assessment Framework bekannt ist. Der Rahmen konzentriert sich auf Genauigkeit, Zuverlässigkeit, Konsistenz und andere Datenqualitätsattribute in den statistischen Daten, die die Mitgliedsländer an den IWF übermitteln müssen.

Datenökonome Vlog des Fraunhofer Institutes zum Thema Datenqualität.

Instrumente und Techniken des Datenqualitätsmanagement

Datenqualitätsprojekte umfassen in der Regel auch mehrere andere Schritte. Der von David Loshin, einem Berater für Datenmanagement, beschriebene Zyklus des Datenqualitätsmanagements beginnt beispielsweise mit der Ermittlung und Messung der Auswirkungen schlechter Daten auf den Geschäftsbetrieb. Anschließend werden Regeln für die Datenqualität definiert, Leistungsziele für die Verbesserung relevanter Datenqualitätsmetriken festgelegt und spezifische Prozesse zur Verbesserung der Datenqualität entwickelt und eingeführt.

Zu diesen Prozessen gehören die Datenbereinigung (Data Scrubbing) zur Behebung von Datenfehlern sowie die Verbesserung von Datensätzen durch Hinzufügen fehlender Werte, aktuellerer Informationen oder zusätzlicher Datensätze. Die Ergebnisse werden dann überwacht und an den Leistungszielen gemessen, und etwaige verbleibende Mängel in der Datenqualität bilden den Ausgangspunkt für die nächste Runde geplanter Verbesserungen. Mit einem solchen Zyklus soll sichergestellt werden, dass die Bemühungen zur Verbesserung der Gesamtdatenqualität auch nach Abschluss einzelner Projekte fortgesetzt werden.

Auf das Datenqualitätsmanagement spezialisierte Softwaretools können Datensätze abgleichen, Duplikate löschen, neue Daten validieren, Sanierungsrichtlinien aufstellen und personenbezogene Daten in Datensätzen identifizieren; sie führen auch ein Datenprofiling durch, um Informationen über Datensätze zu sammeln und mögliche Ausreißerwerte zu ermitteln. Verwaltungskonsolen für Datenqualitätsinitiativen unterstützen die Erstellung von Datenverarbeitungsregeln, die Erkennung von Datenbeziehungen und automatische Datentransformationen, die Teil der Datenqualitätspflege sein können.

Auch Tools für die Zusammenarbeit und zur Unterstützung von Arbeitsabläufen werden immer häufiger eingesetzt, um Datenqualitätsmanagern und Datenverwaltern, die mit der Überwachung bestimmter Datensätze betraut sind, gemeinsame Ansichten von Unternehmensdatenbeständen zu bieten. Diese Tools und Prozesse zur Verbesserung der Datenqualität werden häufig in Data-Governance-Programme integriert, die in der Regel Datenqualitätsmetriken verwenden, um ihren geschäftlichen Wert für Unternehmen zu demonstrieren, sowie in Master Data Management (MDM)-Initiativen, die darauf abzielen, zentrale Register von Stammdaten zu Kunden, Produkten und Lieferketten zu erstellen.

Vorteile einer guten Datenqualität

Aus finanzieller Sicht ermöglicht die Aufrechterhaltung einer hohen Datenqualität den Unternehmen, die Kosten für die Identifizierung und Korrektur fehlerhafter Daten in ihren Systemen zu senken. Außerdem können Unternehmen betriebliche Fehler und Unterbrechungen von Geschäftsprozessen vermeiden, die zu höheren Betriebskosten und geringeren Einnahmen führen können.

Darüber hinaus erhöht eine gute Datenqualität die Genauigkeit von Analyseanwendungen, was zu besseren Geschäftsentscheidungen führen kann, die den Umsatz steigern, interne Prozesse verbessern und Unternehmen einen Wettbewerbsvorteil gegenüber Konkurrenten verschaffen. Qualitativ hochwertige Daten können auch dazu beitragen, die Nutzung von BI-Dashboards und Analysetools auszuweiten – wenn Analysedaten als vertrauenswürdig angesehen werden, verlassen sich Geschäftsanwender eher auf sie, als dass sie sich bei ihren Entscheidungen auf ihr Bauchgefühl oder ihre eigenen Tabellenkalkulationen stützen.

Durch ein effektives Datenqualitätsmanagement können sich die Datenverwaltungsteams auch auf produktivere Aufgaben konzentrieren als die Bereinigung von Datensätzen. So können sie beispielsweise mehr Zeit damit verbringen, Geschäftsanwendern und Datenanalysten dabei zu helfen, die in den Systemen verfügbaren Daten zu nutzen, und Best Practices für die Datenqualität im Geschäftsbetrieb zu fördern, um Datenfehler zu minimieren.

Neue Herausforderungen für die Datenqualität

Viele Jahre lang konzentrierte sich die Last der Datenqualitätsbemühungen auf strukturierte Daten, die in relationalen Datenbanken gespeichert waren, da diese die vorherrschende Technologie für die Datenverwaltung waren. Mit der zunehmenden Verbreitung von Big-Data-Systemen und Cloud Computing haben sich die Probleme der Datenqualität jedoch erweitert. Datenmanager müssen sich zunehmend auch auf die Qualität unstrukturierter und semistrukturierter Daten konzentrieren, wie z. B. Text, Internet-Clickstream-Datensätze, Sensordaten und Netzwerk-, System- und Anwendungsprotokolle.

Der zunehmende Einsatz von Anwendungen der künstlichen Intelligenz (KI) und des maschinellen Lernens verkompliziert den Datenqualitätsprozess in Unternehmen zusätzlich, ebenso wie die Einführung von Echtzeit-Daten-Streaming-Plattformen, die kontinuierlich große Datenmengen in die Unternehmenssysteme einspeisen. Darüber hinaus muss die Datenqualität jetzt oft in einer Kombination aus lokalen und Cloud-Systemen verwaltet werden.

Die Anforderungen an die Datenqualität steigen auch aufgrund der Umsetzung neuer Datenschutzgesetze, insbesondere der Allgemeinen Datenschutzverordnung (GDPR) der Europäischen Union und des California Consumer Privacy Act (CCPA). Das bedeutet, dass Unternehmen in der Lage sein müssen, alle Datensätze zu einer Person in ihren Systemen zu finden, ohne dass ihnen Daten aufgrund von Ungenauigkeiten oder Inkonsistenzen fehlen.

Behebung von Problemen der Datenqualität

Datenqualitätsmanager, Analysten und Ingenieure sind in erster Linie für die Behebung von Datenfehlern und anderen Datenqualitätsproblemen in Unternehmen verantwortlich. Sie haben die Aufgabe, fehlerhafte Daten in Datenbanken und anderen Datenbeständen aufzuspüren und zu bereinigen. Dabei werden sie häufig von anderen Datenverwaltungsexperten unterstützt, insbesondere von Data Stewards und Data Governance-Programmmanagern.

Es ist jedoch auch gängige Praxis, Geschäftsanwender, Data Scientists und andere Analysten in den Datenqualitätsprozess einzubeziehen, um die Anzahl der in den Systemen entstehenden Datenqualitätsprobleme zu verringern. Die Beteiligung der Unternehmen kann zum Teil durch Data-Governance-Programme und die Interaktion mit Data Stewards erreicht werden, die häufig aus den Geschäftsbereichen kommen. Darüber hinaus führen viele Unternehmen aber auch Schulungsprogramme für Endbenutzer zu Best Practices im Bereich Datenqualität durch. Ein gängiges Mantra unter Datenmanagern ist, dass jeder in einer Organisation für die Datenqualität verantwortlich ist.

Datenqualität vs. Datenintegrität

Die Begriffe Datenqualität und Datenintegrität werden manchmal synonym verwendet; alternativ dazu behandeln manche Leute die Datenintegrität als eine Facette der Datengenauigkeit im Datenqualitätsprozess. Im Allgemeinen wird die Datenintegrität jedoch als ein umfassenderes Konzept betrachtet, das Datenqualität, Data Governance und Datenschutzmechanismen kombiniert, um Datengenauigkeit, -konsistenz und -sicherheit als Ganzes zu behandeln.

In dieser umfassenderen Sichtweise konzentriert sich die Datenintegrität sowohl auf die logische als auch auf die physische Integrität. Die logische Integrität umfasst Datenqualitätsmaßnahmen und Datenbankattribute wie die referentielle Integrität, die sicherstellt, dass zusammengehörige Datenelemente in verschiedenen Datenbanktabellen gültig sind. Die physische Integrität umfasst Zugriffskontrollen und andere Sicherheitsmaßnahmen, die verhindern sollen, dass Daten von unbefugten Benutzern geändert oder beschädigt werden, sowie Sicherungs- und Notfallwiederherstellungsmaßnahmen.