Die Ära der Data Cloud beginnt

Dies ist ein Gastbeitrag von Benoit Dageville, Co-Founder & President of Product bei Snowflake

Der Begriff „Big Data“ entstand schon in den 90er-Jahren, doch er ist heute aktueller denn je: Bereits im Jahr 2017 erzeugte jeder Mensch im Durchschnitt 600 bis 700 Megabyte täglich.[1] Inzwischen liegen wir bei über einem Gigabyte – Tendenz weiter steigend, denn die weltweit erzeugten Datenmengen verdoppeln sich etwa alle drei Jahre.[2][3] Doch wie lassen sich die Unmengen an Daten aufbewahren, verarbeiten und analysieren? Obwohl sich kluge Köpfe bereits seit Jahrzehnten mit diesen Fragestellungen befassen, herrschte lange Zeit nur wenig Bewegung in der vorherrschenden Lehrmeinung. Erst die zunehmende Digitalisierung aller Unternehmensprozesse, durch welche das Volumen gesammelter Daten innerhalb kürzester Zeit in die Höhe schoss, machte eine Weiterentwicklung der bestehenden Technologien dringend notwendig.

Big Data zwischen Wunsch und Wirklichkeit

Eine beliebte Möglichkeit, um nicht nur die Kontrolle über seine enormen Datenmengen zu behalten, sondern auch einen echten Mehrwert daraus zu ziehen, sind sogenannte Data Lakes. Sie haben einen entscheidenden Vorteil, denn im Vergleich zu herkömmlichen Datenbanken lassen sie sich mit strukturierten, semistrukturierten und unstrukturierten Rohdaten aus den unterschiedlichsten Quellen speisen. Das bedeutet, es können Bilder und Videos ebenso aufgenommen werden wie Texte oder auch jedes andere Dateiformat, was für Unternehmen ein extrem hohes Maß an Flexibilität im Umgang mit ihren Daten bedeutet. Eine Strukturierung und gegebenenfalls notwendige Umformatierung erfolgt erst dann, wenn die Daten abgefragt und analysiert werden. Doch Data Lakes bringen auch einen entscheidenden Nachteil mit sich: In den meisten Fällen bestehen sie nämlich aus der Summe von Einzellösungen, die nicht ganzheitlich funktionieren. Aus diesem Grund können sie in der Realität nur selten die Flexibilität einhalten, die ihre Nutzung in der Theorie verspricht.

Das Unternehmen Hadoop war lange Zeit der absolute Vorreiter im aufkommenden Big-Data-Trend und ermöglichte die Verarbeitung von Daten, deren Volumen zu diesem Zeitpunkt kaum vorstellbar war. Das Konzept hinter Hadoop besteht darin, große Datenmengen in kleinere Päckchen aufzuteilen. Diese werden parallel auf mehreren Clusterknoten gespeichert und später wieder zusammengeführt. Große Digitalfirmen wie Google, Yahoo und Facebook gehörten zu den ersten Unternehmen, die erfolgreich von dem quelloffenen Hadoop-Ökosystem Gebrauch machten.[4] Doch obwohl die Data-Management-Plattform zur damaligen Zeit ein vergleichsweise hohes Maß an Flexibilität bot, waren die Abfragen von Daten noch immer extrem kompliziert und zeitaufwendig. Das Grundprinzip von Hadoop, Datencluster fest an einzelne Knotenpunkten zu binden, war Vor- und Nachteil zugleich. Einerseits ist es gerade dieses Konzept, das Hadoop wirtschaftlich macht. Andererseits wird es dadurch aber träge, denn das notwendige Laden ganzer Festplatten in den Arbeitsspeicher, um die Daten verwertbar zu machen, ist ein extrem aufwendiger Prozess.

Das Für und Wider von Cloud Computing

Inzwischen hat der Bedarf an schnellen, elastischen und gleichzeitig kostengünstigen Lösungen zur Datenspeicherung und -analyse jede erdenkliche Branche erreicht – vom Einzelhandel über Software-Unternehmen bis hin zum Gesundheitswesen. Erst das moderne Cloud Computing besaß das Potenzial, diese Anforderungen zu erfüllen und massive Skalierungs- und Rechenleistungen in Höhe von mehreren Tera- und Petabyte zu ermöglichen. Aber: Nur weil die Daten eines Unternehmens in der Cloud zusammenfließen, bedingt das nicht zwangsläufig eine unbegrenzte Agilität. In vielen Fällen hat die Software, die den modernen Cloud-Speichern zugrunde liegt, ihre Wurzeln in traditionellen, lokalen Rechenzentren, was in der Praxis nicht die Leistung ermöglicht, die sie versprechen. Erschwerend hinzu kommt, dass häufig zusätzliche Anwendungstools benötigt werden, die aus den abliegenden Datenmengen Erkenntnisse gewinnen und dadurch einen Mehrwert generieren können.

Diese Entkopplung von Speicherort und Datenverarbeitung ist in diesem Zusammenhang Fluch und Segen zugleich. Einerseits bleiben Unternehmen unabhängig von einem Anbieter und ermöglichen sich dadurch ein ganz neues Niveau von Elastizität, was bedeutet, dass verwendete Rechen- und Speicherressourcen dynamisch hoch und runter skaliert werden können. Falls nötig, können über Cloud-Anbieter sogar innerhalb weniger Minuten zusätzliche Ressourcen hinzu- oder wieder abgebucht werden. Gerade für junge Unternehmen, ist das eine kostengünstige Option, da sie keine eigene IT-Infrastruktur aufbauen müssen und sich jeden Spielraum für ein mögliches Wachstum offen halten. Aber auch für Unternehmen, die bereits seit Längerem in ihrer Branche bestehen, bietet Cloud Computing erhebliche Kostenvorteile. Häufig gibt es tageszeitabhängige Lastspitzen, auf deren Grundlage Firmen ihre notwendigen Ressourcen berechnen. Andere wiederum müssen nur einmal wöchentlich eine komplexe Analyse durchführen, die die Normalauslastung des Systems jedoch bei Weitem übersteigt. In beiden Szenarien bietet Cloud Computing die Möglichkeit, auf genau die Kapazität zurückzugreifen, die gerade benötigt wird, ohne Ressourcen zu verschwenden oder diese durch einzelne Peaks zu überlasten.

Andererseits hat dies das Problem der Datensilos jedoch nicht gelöst, sondern, genau genommen, lediglich verschoben und zusätzliche Sicherheitslücken geschaffen. Was es braucht, um in vollem Umfang von der cloud-basierten Datenspeicherung und -verarbeitung profitieren zu können, ist deshalb eine Schnittstelle, die beides auf sichere und lückenlose Art und Weise miteinander verbindet: eine übergreifende Data Cloud. Sie hat das Potenzial eine Brücke zwischen der Infrastructure Cloud (wie AWS, Microsoft Azure) und der Application Cloud (wie Salesforce, SAP) zu bauen. Die Vorteile der einzelnen Anbieter werden dadurch unter einem Dach vereint.

Grenzenlose Flexibilität: Die Data Cloud als Bindeglied

Doch eine Data Cloud, die als Schnittstelle zwischen den einzelnen Lösungen fungiert, bringt noch weitere Vorteile mit sich, denn auch die Datenlieferanten und Kooperationspartner können mithilfe des übergreifenden Systems auf alle relevanten Daten zugreifen, ohne dass daraus ein erhöhtes Sicherheitsrisiko resultiert. Das höchste Gut eines jeden Unternehmens besteht heute in seinen Daten. Sie sind nicht nur das Herzstück, das alle Prozesse am Laufen hält – sie sind auch bares Geld wert. Doch erst, wenn die Grenzen der cloud-basierten Silos überwunden werden, können sie ihr volles Potenzial entfalten und auch bei korrelierenden Geschäftsprozessen wie der Zusammenarbeit mit Media-Agenturen oder Logistikunternehmen zu einer erhöhten Produktivität führen.

Finanzinstitute nutzen die Data Cloud beispielsweise, um personenbezogene Ereignisse wie eine Heirat oder den Wechsel des Arbeitsplatzes mit dem Angebot von gezielt eingesetzten Finanzdienstleistungen zu verbinden. Einzelhändler machen sich dasselbe Prinzip zunutze, um das Einkaufsverhalten ihrer Kunden zu analysieren und daraus abzuleiten, welches Produkt ihnen ebenfalls gefallen könnte. Beide Beispiele können nur dann funktionieren, wenn keine Grenzen zwischen den einzelnen datengetriebenen Prozessen, zum Beispiel der Informationen über vergangene Einkäufe und der Interpretation derer, bestehen. Weil die Grenzen zwischen den einzelnen Speicher- und Verwendungsorten aufgelöst wurden, bleiben die Daten stets auf dem neuesten Stand und das Ablegen, Analysieren und Reagieren kann in Echtzeit geschehen. Nur so können Unternehmen letztlich an dem Wissen verdienen, das sie aus ihren Daten ziehen. Was das Beispiel der Finanzinstitute betrifft, so können sie keinerlei Nutzen daraus ziehen, wenn die Information, dass ihr Kunde geheiratet hat, erst einmal in irgendeinem Speicher verschwindet und vielleicht erst Monate später wieder darauf zugegriffen wird. Bis dahin könnte die Ehe annulliert oder sogar das erste Kind geboren worden sein, weswegen die individuell ausgespielten Angebote längst hinfällig geworden sind.

Weitere Informationen unter:
https://www.snowflake.com/

Quellen: