In unserem Daten-Blog betonen wir immer wieder die zentrale Bedeutung von Datenqualität für den Unternehmenserfolg. Ein hohes Datenqualitätsniveau ist die Basis für echte Datenintelligenz und somit ein grundlegender Erfolgsfaktor für alle datengestützten Geschäftsprozesse und -modelle.
Gemäß dem Grundsatz „You can only improve what you can measure” gilt es zu Beginn eines Datenqualitätsprojekts, Anforderungen an die Daten zu bestimmen und diese in Datenqualitätsregeln auszuformulieren.
Die Messung der Datenqualität erfolgt anhand der Überprüfung von Datenqualitätsregeln. Dazu empfiehlt sich eine Kombination aus quantitativer Messung, die mit einer Analysesoftware automatisiert und quasi in Echtzeit direkt auf den Datenbanken erfolgt, und einer qualitativen Erhebung mittels einer regelmäßig durchgeführten Befragung unter den Nutzern der Daten.
Was bedeutet Datenqualität?
Datenqualität ist ein multidimensionales Konstrukt, das durch mehrere Messgrößen bestimmt wird. Welche Dimensionen für die Datenqualität in bestimmten Szenarien relevant sind, hängt von den Prozessen, Anwendungsfällen, Anwendern und Systemen ab. Nach DIN ISO 8402 ist die Datenqualität als die Eignung von Daten für unterschiedliche Verwendungszwecke im Hinblick auf den Grad ihrer Erfassung und Generierung beschrieben.
Anforderungen an die Datenqualität
Verschiedene Anforderungen charakterisieren ein Datenqualitätsprojekt. Sie entstehen durch die unterschiedlichen Anspruchsgruppen wie Anwender, Management und Rechtsabteilung und werden in Datenqualitätsregeln abgebildet. Die branchenspezifischen externen Anforderungen sind in der Regel offiziell bekannt und damit leichter zu identifizieren als die unternehmenseigenen Standards.
Externe rechtliche Anforderungen sind durch Gesetze zum Inhalt der Daten, zur Form der Verarbeitung, Verfügbarkeit der Daten und Zugriffsregelungen festgelegt. Den Löwenanteil machen dabei steuerrechtliche und vertragliche Aufbewahrungsfristen und Pflichtangaben, die für bestimmte Branchen und Geschäftsprozesse gelten, aus.
Externe Referenzinformationen betreffen international tätige Unternehmen. Dazu zählen u. a. Compliance-Regeln für Kunden- und Geschäftsbeziehungen zur Prävention illegaler Geschäfte. Außerdem sind Vorgaben zur Datenspeicherung (z. B. Referenzlisten) und zum Austausch von Informationen (z. B. Branchencodes) zu beachten.
Zur Ermittlung der unternehmensspezifischen Anforderungen gilt es, Beschreibungen der Geschäftsmodelle, Datenmodelle, Schnittstellenbeschreibungen, Arbeitsanweisungen und Schulungsunterlagen zu untersuchen. Unter Verwendung der Methoden des Data Profiling und des Data Mining lassen sich aus dem Datenbestand zusätzliche Auffälligkeiten und Datenfehler erkennen, die als Grundlage für weitere Datenqualitätsregeln dienen.
Technische Anforderungen beschreiben schließlich Anforderungen, die sich aus der Wahl der IT-Systeme, Anwendungen und Datenbanken ergeben. Eine häufige Quelle für Datenqualitätsprobleme stellt der Austausch von Informationen zwischen den verschiedenen Systemen dar.
„You can only improve what you can measure”
Wie lässt sich die Datenqualität messen?
Im Anschluss an die Definition von Datenqualitätsregeln finden diese in der Datenlandschaft des Unternehmens Anwendung. So kann die Anzahl der Datensätze ermittelt werden, die den Regeln widersprechen. Unter Verwendung unterschiedlicher Metriken für die Datenqualitätskriterien wird eine objektive Datenqualitätszahl gebildet.
Es empfiehlt sich, zwei Arten der Datenqualitätsmessung im Unternehmen durchzuführen. Eine automatisierte quantitative Messung der Datenqualität wird durch den Einsatz von Softwaretools ermöglicht und kann direkt in den IT-Systemen und Datenbanken erfolgen. Diese sollte durch eine regelmäßige Befragung der Anwender und Datenqualitätsbeauftragten ergänzt werden.
Quantitative Messung der Datenqualität:
Diese objektive Datenqualitätsmessung lässt sich kontinuierlich durchführen und bietet einen Überblick über die Datenqualität in Echtzeit. Insbesondere der Erfolg von Maßnahmen zur Datenqualitätssteigerung, wie bspw. die Nutzung automatischer Prüfregeln im Datensystem oder die Einführung von Standards zur Anlage und Änderung von Daten, lässt sich anhand dieser Messwerte sehr gut beobachten.
Qualitative Messung der Datenqualität:
Die regelmäßige Durchführung von qualitativen Befragungen zur Datenqualität ergänzt die quantitativen Messungen. Je nach Unternehmensgröße sind Erhebungen im Abstand von sechs bis zwölf Monaten zu empfehlen. Dabei sollten sämtliche Personen befragt werden, die für die Neuanlage und Änderung von Daten in den gewählten Datenbanksystemen verantwortlich sind.
Die Datenqualitätskriterien im Überblick
Die Kategorie Zeit umfasst Qualitätskriterien, die einen Zeitbezug aufweisen.
Die Kategorie Inhalt umfasst Qualitätskriterien, die sich auf die Güte der Dateninhalte beziehen.
Die Kategorie Nutzung umfasst Qualitätskriterien, welche sich auf die Verwendbarkeit der Daten durch den Nutzer beziehen.
Die Kategorie System umfasst Qualitätskriterien, die den Zugriff auf die Daten im System beschreiben.
Kategorie | Quantitatives Kriterium | Definition |
Zeit | Alter der Daten | Zeitpunkt der Datenanlage oder -änderung |
Alter der Fehler | Entstehungszeitpunkt festgestellter Datenfehler | |
Inhalt | Konsistenz | Widerspruchsfreiheit der Daten |
Gültigkeit | Vertrauenswürdige und zuverlässige Daten | |
Fehlerfreiheit | Übereinstimmung mit realen Werten | |
Vollständigkeit | Angemessener Umfang und Detaillierungsgrad der Daten | |
Redundanzfreiheit | Keine Dopplung von Informationen bei gleichzeitiger Gewährleistung des maximalen Informationsgehalts | |
Nutzung | Änderungshäufigkeit | Dokumentation der Aktualisierungsintervalle |
Kategorie | Qualitatives Kriterium | Definition |
Zeit | Aktualität | Die Daten bilden zu jedem Zeitpunkt die notwendigen Gegebenheiten der beschriebenen Objekte ab. |
Rechtzeitigkeit | Die für eine Aufgabe notwendigen Daten sind zum richtigen Zeitpunkt verfügbar. | |
Inhalt | Detailliertheit | Die Daten ermöglichen die Abbildung der Realität in der notwendigen Genauigkeit. |
Verlässlichkeit | Die Daten werden als valide und vertrauenswürdig wahrgenommen. | |
Verständlichkeit | Die Daten sind für den Anwender unmittelbar verständlich und können für deren Zwecke eingesetzt werden. | |
Nutzung | Wiederverwendbarkeit | Die Daten können in sich ändernden Rahmenbedingungen (z. B. Prozesse oder Systeme) genutzt werden. |
Wertschöpfung | Die Daten leisten im Prozess einen Mehrwert. | |
Benutzbarkeit | Die Daten sind problemlos im Prozess verwendbar. | |
Selbst-Überprüfbarkeit | Die Daten können vom Bearbeiter eigenständig auf inhaltliche Korrektheit überprüft werden. | |
Standardisierung | Die Daten entsprechen einer definierten Struktur, sie folgen einer Syntax, die auf Regeln aufbaut und sind dadurch vergleichbar. | |
Sicherheit vor Veränderungen | Die Daten werden durch ein Berechtigungssystem vor Verlust und unerlaubten Veränderungen geschützt. | |
System | Performanz | Die Daten sind in einer adäquaten Zugriffszeit innerhalb eines Prozesses verfügbar. |
Verfügbarkeit | Die Daten sind für berechtigte Personengruppen und zu jedem erforderlichen Zeitpunkt, Prozess und Ort zugreifbar. |
Fazit
Unser Autor
Experten-Status & Know How
Er ist Mitglied im Fachbeirat des DataCampus und zuständig für das Ressort Stammdatenmanagement. Darüber hinaus engagiert sich Herr Brockmann in den Arbeitskreisen BigData und DataQuality der Netzgesellschaft Bitkom.
Quelle:
Aufmacherbild / Quelle / Lizenz