von Sascha Oehl
Dark Data auf der einen, explodierende Datenmengen auf der anderen Seite, verteilt auf viele Speicherorte – in diesem Umfeld müssen IT-Verantwortliche das Risiko für ihre Anwendungen und Daten managen. Nur wer das Chaos ordnet, alte Datensilos und neue Speicher in der Cloud verbindet, wird trotz Datenexplosion und Digitalisierung Compliance-Risiken kontrollieren.
Mehr als 100 Sensoren zeichnen laut McKinsey im Connected Car jede Sekunde Daten auf. Das Beispiel zeigt, wie schnell diese Revolution führende Branchen in Deutschland erreicht. Und es liefert erste Fakten, wie groß die Flut der Daten in dieser Welt der „Internet of Things“ (IoT) sein wird: Die mehr als 100 Sensoren sollen in jedem Auto 25 GByte generieren – pro Stunde. Dies geschieht nicht nur bei den Fahrfunktionen des Autos, sondern in vielen Bereichen von Routen über Restaurant suchen bis hin zum Treibstoffkauf.
Aus Risikosicht müssen die IT-Verantwortlichen einige Fragen beantworten. Welche der erfassten Daten sind möglicherweise personenbezogen? Werden für manche der Dienste Kreditkarten oder andere Zahlungsdetails abgefragt? Ist es beispielsweise möglich, Fahrtrouten zu rekonstruieren und daraus ein Bewegungsprofil zu erstellen? Lässt sich errechnen, dass der Fahrer im Schnitt zu schnell unterwegs ist? Wo werden diese Daten gesammelt, ausgewertet?
IT-Verantwortliche anderer Branchen können aus dem Beispiel gut lernen, was auf sie zukommt im Rahmen ihrer Digitalisierungsstrategien. Jede Firma, vom kleinen Startup über den Mittelstand bis hin zum Konzern, will schließlich besser verstehen, wann und warum ihr Produkt erste Macken zeigt und wie der Kunde es in der echten Welt nutzt. Am Ende sollen ein zufriedener Anwender, mehr Marktanteile und Umsatz auf der Habenseite stehen.
Da kommt eine große Datenwelle auf die IT zu. Dabei setzt das normale Rauschen des Datenwachstums die IT bereits unter Druck. Im Schnitt nimmt die Menge der Daten in jeder Firma ohne IoT oder Digitalisierung durchschnittlich um 49 Prozent zu, wie der Data Genomics Index von Veritas auf Basis anonymisierter Kundendaten errechnete. 31 Milliarden Files und 20 Millionen GBytes an echten Kundendaten wurden hierbei untersucht.
Für das Horten von Daten wurde noch niemand entlassen, für falsches Löschen schon.
Die unsichtbaren Daten
Analysen der Studie Databerg von Veritas zeigen, dass die Firmen in Deutschland den Inhalt von 66 Prozent aller gespeicherten Daten nicht kennen. Diese unstrukturierten Daten – unter anderem Bilder, E-Mails, Office-Dokumente – können personenbezogene Daten enthalten, die im Rahmen der Verordnung auskunftspflichtig sind oder gelöscht werden müssten, sofern der Bürger dies anfragt. Zugleich wachsen unstrukturierte Daten in jedem Unternehmen weitaus schneller als so genannte strukturierte Daten, die sortiert und kategorisiert auf Datenbanken gepflegt werden. Das Problem der unbekannten Dokumente oder Dark Data, wie es im Fachjargon heißt, wird jeden Tag größer.
Weil der Inhalt und somit der Wert der Daten für das Unternehmen bei den meisten Dateien nicht geklärt sind, haben viele IT-Verantwortliche entschieden, alle anfallenden Daten zu horten. Speicherplatz ist immer noch günstig und plumpes Horten damit kostengünstiger als jede Klassifizierung. In den vergangenen Jahren haben die IT-Leiter zusätzlich Kapazitäten per Knopfdruck über die Cloud eingekauft und ihre Daten dorthin ausgelagert. Die Informationen werden nicht mehr nur im eigenen Netzwerk und auf den eigenen mobilen Geräten verteilt, sondern auf verschiedenste Cloud-Speicher.
Kernaussagen
- Die Menge der Daten wird durch Digitalisierungsvorhaben noch stärker wachsen.
- Dabei kennen die meisten Firmen schon heute den Inhalt der Hälfte ihrer gespeicherten Daten nicht.
- Wer den Inhalt der Daten nicht kennt, kann deren Wert genauso wenig einschätzen wie das Compliance-Risiko.
Der gemeinsame Nenner
Die Menge der Daten nimmt rasant zu wie auch die Zahl der Orte, an denen sie abgelegt und weiterverarbeitet werden. Und wie die Frage der Service-Verträge im Cloud Business zeigt, ist es die Verantwortung des Data Controllers und nicht Processors, für die Compliance Sorge zu tragen. Es ist daher essenziell, in den fragmentierten dynamischen Netzen der Unternehmen einen Unterbau zu etablieren, der im Idealfall alle Daten und Datensilos einbindet und neue und alte Files auf konsistente Weise einstuft.
Der stärkste Ansatz ist die so genannte Klassifizierung der Daten, eingebettet in ein zentrales Datenmanagement. Die altbekannte Technik hat einen schlechten Ruf, da ihre Einführung früher organisatorische Monster hervorbrachte und nicht alltagsfähig war. Moderne Varianten dieser Technik dagegen nutzen mehrere hundert klare technische Indikatoren, die eindeutige inhaltliche Merkmale in den Daten erkennen und sie entsprechend und vor allem recht fehlerfrei automatisch mit so genannten Tags kategorisieren. Auf diese Weise werden beispielsweise länderspezifische sensible Daten wie die deutsche Führerscheinnummer als solche erkannt und als personenbezogenes Datum gekennzeichnet.
Wird diese Technik in Bereichen eingesetzt, in denen sich unstrukturierte Daten konzentrieren – E-Mail, File Server, Cloud-Speicher oder Backup – lassen sich die Daten fast lückenlos erfassen und schon bei ihrer Entstehung richtig einstufen, ohne dass der Anwender in der Pflicht wäre, seine Informationen selbst einzuordnen. Die Klassifizierung schafft auf diese Weise den wichtigen gemeinsamen Nenner für das Datenmanagement, das aus Compliance-Sicht fünf wichtige Schritte beherrschen muss.
- Lokalisieren: Zunächst muss die Firma einen Überblick darüber gewinnen, wo die Firmendaten überhaupt gelagert werden – sie braucht sozusagen eine Datenlandkarte. Das gilt gerade auch für all jene Daten, die in den verschiedenen Arten von Cloud lagern.
- Suchen: Im Rahmen der DSGVO dürfen EU-Bürger Einblicke in die über sie gespeicherten Daten verlangen und müssen diese zeitnah erhalten. Ein Prozess nebst Software, die gemeinsam Daten schnell auffinden und bei Bedarf löschen, sind wichtig.
- Minimieren: Eines der Ziele der DSGVO ist es zu regeln, dass Firmen insgesamt weniger personenbezogene Daten vorhalten und diese nur zweckgebunden speichern. Deshalb sollte jede Datei ein Verfallsdatum erhalten und nach einer gewissen Zeitspanne (abhängig vom Verwendungszweck) automatisch gelöscht werden.
- Schützen: Eigentlich selbstverständlich, aber wichtig – geschäftsrelevante und personenbezogene Daten sind besonders schützenswert. Unternehmen müssen Maßnahmen ergreifen, um Angreifer von außen und innen abzuwehren. Passiert doch etwas, muss das Datenleck innerhalb von 72 Stunden gemeldet werden. Womit wir beim letzten Punkt wären.
- Überwachen: Um ein Datenleck zu melden, muss man zuerst wissen, dass es existiert. Im zweiten Schritt ist es wichtig, schnell und eindeutig zu klären, welche Daten verloren gingen. Denn die DSGVO fordert eindeutig, dass Betroffene und die Behörden innerhalb von 72 Stunden über den Vorfall informiert werden müssen. Eine Software für ein umfassendes Datenmanagement, welches die komplexe Speicherinfrastruktur ständig auf Unregelmäßigkeiten überprüft, ist Gold wert.
Fortschritte in Sachen Data Analytics werden sich positiv auf das Datenmanagement und die Archivierung, Backup und Storage auswirken. Bislang betreiben die meisten Firmen diese Bereiche strategisch als Datensilos, deren Größe jedes Jahr einfach erweitert wird. Veritas erwartet, dass sich neue Technologien aus dem großen Fundus der Artificial Intelligence bedienen werden, um die Daten in den Silos klüger zu analysieren. Auf dieser Grundlage lassen sich inhaltbezogene Policies automatisch durchsetzen und intelligente Prozesse im Datenmanagement anstoßen. Unternehmen werden dank eines umfassenden konsistenten Datenmanagements inklusive Klassifizierung also in der Lage sein, nicht nur ihre überladenen Datensilos und Archive zu inventarisieren, sondern zugleich besser aufgestellt sein, die Digitalisierung voranzutreiben.
Unser Autor
Sascha Oehl, Direktor Technical Sales DACH bei Veritas
Bildrechte: Marc Fippel Fotografie
Weiterführende Informationen:
https://www.veritas.com/de/de
Fußnoten und Quellen:
- What is driving the Connected Car, McKinsey, https://www.mckinsey.com/industries/automotive-and-assembly/our-insights/whats-driving-the-connected-car
- Data Genomix Index, Veritas, https://www.veritas.com/content/dam/Veritas/docs/reports/V0479_Data-Genomics-Index-Report.pdf
- Databerg Report Veritas, http://info.veritas.com/databerg_report
- Multi Cloud Studie Veritas, https://www.veritas.com/content/dam/Veritas/docs/reports/Truth_in_Cloud_2019-CDM_Research.pdf