Keine Angst vor Big Data

Die Digitalisierung lässt enorme Datenmengen entstehen. Schnell entsteht in den  Unternehmen ein wahrer „Goldschatz“ an Daten. Sie stammen aus Geschäftsprozessen, Kundenkommunikation, Social Media & Co. Das Gold darin kann aber nur bergen, wer in den Daten tief genug graben und die richtigen Fragen zur Analyse stellen kann. Das setzt natürlich auch die richtigen „Grabwerkzeuge“ voraus. Die TREND REPORT-Redaktion sprach mit Lenley Hensarling, Vice President of Product Management and Strategy bei EnterpriseDB zu eben genau jenen Werkzeugen und dem Einsatz von Open-Source-Software (OSS) in den Unternehmen.

In einer vernetzten Gesellschaft werden Informationen und damit Daten immer wichtiger für Unternehmen jeglicher Art. Vor allem in Großunternehmen bewirkt dies explodierende Kosten für die Infrastruktur und Technologie des Rechenzentrums, um die Wettbewerbsfähigkeit auf dem Markt zu beizubehalten. Der verstärkte Einsatz von Open-Source-basierte Alternativen in Unternehmen scheint ein Silberstreif am Horizont zu sein – aber es gibt immer noch Bedenken hinsichtlich ihrer Sicherheit, Robustheit und Leistung. Wie bewerten Sie die Situation?
Diese Bedenken sind Reste einer überkommenen Denkweise. Open-Source-Software (OSS) ist in den letzten Jahren stark gereift, um die Bedürfnisse der Anwender befriedigen und Herausforderungen auf Unternehmensebene meistern zu können. Dies gilt insbesondere für Datenbanken, wie ein aktueller Gartner Report zum Stand relationaler Datenbankmanagementsysteme (RDBMS)* zeigt. Im Laufe der letzten fünf Jahre haben sich OS RDBMS weiterentwickelt, um dieselben Funktionalitäten wie traditionelle, kommerzielle DBMS zu bieten – zu einem Bruchteil der Kosten. Außerdem sagt der Report voraus, dass dieser Trend weitergehen wird und bis zum Jahr 2018 der Gesamtanteil von OSS  Inhouse-Anwendungen bei 70 Prozent liegen wird. Zusätzlich integrieren Anbieter wie EDB ein Plus an Leistung und Sicherheit sowie Kompatibilitäts-Erweiterungen in die zugrunde liegende Open-Source-Datenbank – in diesem Fall PostgreSQL – um die Anforderungen von Großunternehmen vollends zu erfüllen.

Um etliche Bedenken von CIOs bezüglich des Datenbankwechsels aus der Welt zu schaffen, sollten sie OSS anfangs für nicht geschäftskritische Anwendungen einsetzen, dann die Leistung der neuen Lösung bewerten und sich mit den Funktionen vertraut machen. Letztlich können die OSS-Lösungen neben den traditionellen eingesetzt werden, um die richtige Lösung für die Anforderungen jedes einzelnen Workloads zu haben. Die Migration von Workloads zu OSS befreit Budget für Transformationsinitiativen, die das Geschäft wirklich vorantreiben.

EntpriseDB; Einschätzung Reifegrad Open Source Datenbank Management Systeme

Bewertung des Reifegrads relationaler Open-Source DBMS, 2009*

EntpriseDB; Einschätzung Reifegrad Open Source Datenbank Management Systeme

Bewertung des Reifegrads relationaler Open-Source DBMS, 2015*

Es gibt also großes Potenzial für Kosteneinsparungen durch die Implementierung von OSS im Unternehmen. Wie kann dies in der Praxis umgesetzt werden?
Zu aller erst müssen IT- und Finanzabteilungen eng zusammenarbeiten. Der CFO und CTO/CIO müssen gemeinsam die Bereiche identifizieren, in denen die IT Teile der Infrastruktur migrieren kann, um Budget frei zu machen, dass der CFO dann in teure, aber notwendige strategische geschäftskritische Initiativen umleiten kann. Die Komponenten des IT-Stack, die mittlerweile zur Commodity geworden sind – Virtuelle Maschinen, Betriebssysteme, Middleware und Datenbanken –, eignen sich am besten für die Migration auf OSS-Alternativen, damit Kapital frei wird für Investitionen in Analytik, Anwendungen und mehr. Da die Datenbank in der vernetzten Welt immer größere Bedeutung erhält, verschlingen ihr ständiger Ausbau sowie zeit- und ressourcenaufwändige Wartung immer größere Teile des IT-Budgets.

Die Angst davor, die gesamte IT-Infrastruktur durch den Austausch eines so grundlegenden Teils wie der Datenbank zu erschüttern, kann durch Kompatibilitäts-Features beschwichtigt werden, die einige OSS-Lösungen anbieten. EDB hat beispielsweise für seine Postgres-Datenbank Kompatibilität für Oracle entwickelt – eines der meistverwendeten traditionellen DBMS – so dass viele Anwendungen sich nahtlos in die OSS-Lösung migrieren lassen und Entwickler ihre bestehenden Skillsets weiter nutzen können ohne dass Investitionen in teure Schulungen oder Personalveränderungen nötig werden. Abschließend ist es ratsam, wie oben erwähnt, nicht-unternehmenskritische Anwendungen zuerst zu migrieren, um ein Gefühl für die neue Umgebung zu erhalten, und dann zu unternehmenskritischen Anwendungen überzugehen, um das volle Potential für Kosteneinsparungen zu nutzen.

12303879306_a683d3f195_z

Strukturierte Daten werden auch in Zukunft von relationalen Datenbanken gespeichert werden. Das reine NoSQL-Lösungen sich als Alternative zur Aufbewahrung strukturierter Daten entwickeln, kann sich Lensay Hensarling aufgrund des Designs von NoSQL nur schwer vorstellen. Andersrum passiert dies aber gerade: relationale Datenbanken entwickeln Datentypen zum Aufbewahren unstrukturierter Daten.

NoSQL-Lösungen werden für den nächsten Schritt nach SQL und relationalen DBMS gehalten und damit die Wegbereiter für das Geschäft in der vernetzten Welt des Internet der Dinge und Big Data. Doch relationale Datenbanken sind immer noch weit verbreitet in Gebrauch. Wie kommt das?
Reine NoSQL-Lösungen sind aus High-Volume-Umgebungen mit neuen Arten von Daten, wie Social Media und Web-basierte Anwendungen, hervorgegangen. Sie tun sich beim Speichern großer Mengen unstrukturierter Daten hervor und spielen eine entscheidende Rolle dabei, die Herausforderungen zu meistern, vor die Big Data und das Internet der Dinge Unternehmen stellen werden. Jedoch haben die meisten von ihnen sehr vereinfachte Funktionen wenn es darum geht, mit den Daten tatsächlich etwas zu tun. Bei solchen Lösungen wird die eigentliche Datenverarbeitung in die Anwendung verschoben, so dass die Entwicklung von Applikationen sehr viel komplexer ausfällt. Weiterhin fehlt typischen NoSQL-Lösungen die Konformität mit den sogenannten ACID –Eigenschaften (Unteilbarkeit, Konsistenz, Isolation, Dauerhaftigkeit) für verlässliche Verarbeitungsschritte im DBMS, so dass es keine absolute Garantie gibt, dass Transaktionen in der Datenbank sicher verarbeitet werden. Um dennoch ACID-Konformität zu erreichen, muss in den Anwendungen immer und immer wieder sehr komplexer Code geschrieben werden. Auf der anderen Seite wurden relationale DBMS von Anfang an entwickelt, um die ACID-Eigenschaften stets zu erfüllen, so dass sie sehr zuverlässig und robust funktionieren und mit in ihnen gespeicherten strukturierten Daten auf eine sehr detaillierten Ebene gearbeitet werden kann. Darüber hinaus ermöglicht der relationale Charakter dieser DBMS einen umfassenden Überblick über alle gespeicherten Daten und wie sie mit anderen Unternehmensdaten in Beziehung stehen.

Traditionelle geschäftskritische Daten für Budgetierung, Prognose usw. sind und bleiben wichtig für Unternehmen – auch in der kommenden vernetzten Welt des Internet der Dinge und von Big Data. Finanzdaten sind primär strukturierte Daten und müssen zuverlässig, modifizierbar und sicher gespeichert werden, wodurch die relationale Datenbank das Rückgrat des Unternehmens bleiben wird.

NoSQL- und relationale Lösungen sind also beide von entscheidender Bedeutung für verschiedene Aufgaben im Unternehmen. Heißt das, Unternehmen sollten viele verschiedene spezialisierte Anwendungen benutzen?
Unternehmen sollten die Lösung verwenden, die für die anstehenden Aufgaben am besten geeignet ist, und das bedeutet, sich intensiv mit neuen Optionen zu befassen, um deren tatsächliche Möglichkeiten zu ermitteln, und nicht nur blind einem Marketing-Hype zu folgen. Werden viele verschiedene, voneinander getrennte Lösungen auf einmal verwendet, kann sehr zeit- und ressourcenintensiver Management-Aufwand nötig werden und das Risiko von Inkonsistenzen und Datensilos kann erheblich ansteigen. Dies wiederum kann potentiell den Geschäftswert der Unternehmensdaten als Ganzes kompromitieren.

Reine NoSQL-Lösungen sind meist sehr spezialisiert und wurden entwickelt, um ein ganz bestimmtes Problem zu lösen – wie beispielsweise Lagerung und Verwaltung spezifischer Ströme unstrukturierter Daten. Was ein Unternehmen in der vernetzten Welt braucht, ist eine Datenbank, die sowohl strukturierte als auch unstrukturierte Daten effizient verarbeiten kann, und die sich dynamisch an schnell ändernde Daten-Herausforderungen und sich entwickelnde, neue Datentypen anpasst. Auf diese Weise kann das Unternehmen einen umfassenden Überblick über seine Daten erhalten und deren höheren Wert voll für sich nutzen.

Wir erleben bereits, wie der Bedarf auf dem Markt nach solchen „All-in-one“-Lösungen steigt. Unternehmen wollen bewährte Zuverlässigkeit gepaart mit Innovation um den neuen Herausforderungen der schönen neuen digitalen Welt gerecht zu werden. Das Aufkommen von NoSQL-artigen Daten wird die DBMS-Landschaft verändern und bis zum Jahr 2017 wird das „NoSQL“-Etikett, wie es heute existiert, kein Unterscheidungsmerkmal für DBMS mehr sein, da die meisten führenden operativen DBMS anfangen werden, mehrere Datenmodelle, sowohl relationale als auch NoSQL, in einer einzigen Plattform anzubieten.

Für Unternehmen in der Ära der vernetzten Gesellschaft ist also die „All-in-one“-Datenbank am geeignetsten. Wie kann sie konkret realisiert werden?
In der Theorie gibt es zwei Möglichkeiten: Entweder NoSQL-Lösungen entwickeln mehr Flexibilität sowie anspruchsvollere und detailliertere transaktionale Funktionen (um mit den Daten auch tatsächlich wertschöpfend arbeiten zu können) und eignen sich zudem die ACID-Eigenschaften an; oder relationale Datenbanken lernen, unstrukturierte Daten effizient zu verarbeiten. Die erste Variante ist aufgrund der Art und Weise, wie diese Lösungen konzipiert sind, fast unmöglich. Die zweite ist dagegen schon im Gange und relationale Datenbanken bieten ihren Anwendern bereits Funktionen für die Verwaltung von strukturierten und semi-strukturierten Daten. RDBMS-Anbieter machen sich bereits seit geraumer Zeit neue Datentypen und Funktionen zu eigen und integrieren sie in ihre Angebote.

Der blaue Elefant ist das Maskottchen der PostGre-Gemeinde, ähnlich dem Pinguin bei Linux

Der blaue Elefant ist das Maskottchen der PostGre-Gemeinde, ähnlich dem Pinguin bei Linux

Postgres ist zum Beispiel besonders gut geeignet für Erweiterungen, um den wachsenden Daten-Anforderungen zu begegnen. Als ein „objektrelationales“ DBMS können Entwickler neue Objekte entwickeln und in Postgres einfügen, die das DBMS mit neuen Funktionen ausstattet, die dennoch zu jeder Zeit die grundlegenden ACID-Eigenschaften einhalten. Der JSON-Datentyp ist ein Beispiel für ein solches Objekt, das eine wichtige neue Funktion für Postgres einführte. Dieser Datentyp wird von einem anderen Feature namens „Foreign Data Wrappers“ verwendet, das eine zentrale Rolle für die Fähigkeit von Postgres spielt, Daten aus anderen Datenbanken zu unterstützen, und markiert in der Tat einen wichtigen Schritt auf dem Weg zu einer „All-in-one“-Datenbank.

„Foreign Data Wrappers“ erlauben die Integration von Daten aus externen NoSQL-Implementierungen wie MongoDB, MySQL oder Hadoop-Clustern in Postgres-Tabellen. Dies ermöglicht es, unstrukturierte Daten die in NoSQL-Lösungen gespeichert sind, in eine Umgebung zu ziehen, deren transaktionale Funktionen den nötigen Detailgrad haben und die vollständige ACID-konform ist, um die Datenkonsistenz zu gewährleisten, die Unternehmen brauchen. Dies ermöglicht es auch Postgres als Datenbank-Hub zu verwenden um einen umfassenden Überblick über alle Unternehmensdaten oder wirklich aussagekräftige Snapshots zu erhalten. Dadurch wird aus den Unternehmensdaten der nötige Geschäftswert generiert um an den neuen Märkten in einer vernetzten Gesellschaft Erfolg zu haben.

Weitere Informationen unter:
www.enterprisedb.com

* The State of Open Source RDBMSs, 2015, by Donald Feinberg and Merv Adrian, published April 21, 2015.

Über den Interviewpartner

LenleyLenley Hensarling spielt eine Schlüsselrolle bei der Festlegung von EDBs strategischer Ausrichtung durch Produktentwicklung sowie die Zusammenarbeit mit Kunden und Partnern. Er hat mehr als zwei Jahrzehnte Erfahrung in der Software-Industrie bei großen Anbietern für professionelle Unternehmenstechnologie. Nachdem er lange Jahre bei JD Edwards eine leitende Position innehatte, übernahm Lenley Führungsrollen bei PeopleSoft und danach Oracle. Seine Wurzeln liegen im Engineering-Bereich und er stieg schnell zum Vice President of Engineering bei Novell auf. Lenley erhielt seinen BA in Wirtschaftswissenschaften von der University of Texas in Austin.

Bildquelle / Lizenz (nach Reihenfolge): tec_stromberg (flickr.com); EnterpriseDB; Donald Feinberg, Merv Adrian; Christian Schnettelker (flickr.com), www.manoftaste.de; Jeff Kubina (flickr.com); Flickr-Lizenz: https://creativecommons.org/licenses/by-sa/2.0/;