Big – Smart – Fast
Unser Arbeitsalltag wird zunehmend von digitalen Daten beeinflusst. Big Data berührt alle Branchen und Märkte.
von Bernhard Haselbauer
Werfen wir im Kontext der Digitalisierung einen kurzen Blick zurück: Es wird angenommen, dass es der Menschheit im Jahr 2002 zum ersten Mal möglich war, mehr Informationen digital als analog zu speichern – der Beginn des „Digitalen Zeitalters“. Alles was heute an analogen Informationen in Bits und Bytes gewandelt werden kann, wird zu Daten. Im Zuge der Digitalisierung, die Unternehmen im Kontext betrieblicher Abläufe zu Effizienzsteigerung und damit einer verbesserten Wirtschaftlichkeit verhilft, wachsen die Daten dementsprechend exponentiell. Wir sprechen heute von Big Data. Der aus dem englischen Sprachraum stammende Begriff Big Data oder auf gut Deutsch Massendaten steht dabei grundsätzlich für große digitale Datenmengen, aber auch für deren Analyse, Nutzung, Sammlung, Verwertung und Vermarktung.
In der Definition von Big Data bezieht sich das „Big“ auf die drei Dimensionen „volume“, für Umfang und Datenvolumen, „velocity“ für die Geschwindigkeit, mit der die Datenmengen generiert und transferiert werden, sowie „variety“ für die Bandbreite der Datentypen und -quellen. Erweitert wird diese Definition um die zwei V „value“ und „validity“, welche für einen unternehmerischen Mehrwert und die Sicherstellung der Datenqualität stehen. Die gesammelten Daten können dabei aus verschiedensten Quellen stammen: Überwachungssysteme, Nutzung von Kunden- oder Bank- bzw. Bezahlkarten, jegliche elektronische Kommunikation, Navigationssysteme, GPS, Smartphones, Smart Homes, Fahrzeuge aller Art, von Behörden und Unternehmen erhobene und gesammelte Daten, Sensordaten im Kontext von IoT und Industrie.
Die Analyse, Erfassung und Verarbeitung von großen Datenmengen ist heute in vielen Bereichen alltäglich, aber verbesserungswürdig hinsichtlich Big Data.
Datenmengen sind und werden zu groß, zu komplex, zu schnelllebig oder zu schwach strukturiert, um sie mit herkömmlichen Methoden der Datenverarbeitung auszuwerten. Aktuelle Entwicklungen von Software für die Verarbeitung von Big Data kommen neben klassischen prioritären Anbietern oft aus dem Open-Source-Bereich. Bekannt ist hier z. B. Apache Hadoop, ein freies Framework für skalierbare, verteilt arbeitende Software, die es ermöglicht, intensive Rechenprozesse mit großen Datenmengen auf Computerclustern durchzuführen.