Schwerpunkte

Data Analytics

Wo die wilden Daten leben

21. November 2019, 16:45 Uhr   |  Autor: Rob Mellor / Redaktion: Diana Künstler

Wo die wilden Daten leben
© alphaspirit/123rf

Data Lakes, -Marts, -Vaults und -Warehouses. Worin unterscheiden sich die verschiedenen Ansätze der Dateninfrastruktur?

Big Data oder Data Analytics sind einige der größten Herausforderungen für die IT unserer Zeit. Viele Unternehmen befinden sich inmitten einer Umstellung auf eine datengesteuerte Ausrichtung ihrer Organisation und sind auf der Suche nach der dazu passenden Dateninfrastruktur. Verschiedene Ansätze versprechen Vorteile – doch vielerorts hakt es schon beim Verstehen der Begrifflichkeit. Wer weiß schon im Detail, wo der Unterschied zwischen Data Lake, Data Vault und Data Mart liegt? Oder wie genau ein Data Lake und das Data Warehouse zusammenarbeiten?

Generell versuchen alle Ansätze für die Dateninfrastruktur Wege zu finden, effektiv Erkenntnisse aus Daten zu generieren. Um den besten Ansatz für ein Unternehmen in Bezug auf die Dateninfrastruktur zu finden, lohnt es sich, die Optionen und ihre Vorteile genau zu kennen. Was also sind Data Lake, Data Vault, Data Mart und Data Warehouses und wofür werden Sie verwendet?

Data Lake – Eine große Sammlung von Rohdaten
Data Lakes sind riesige Datensammlungen, die von nicht organisierten oder verarbeiteten Rohdaten bis hin zu unterschiedlichen Ebenen von kurierten Datensätzen reichen. Einer der Vorteile, Daten in einem Data Lake zu speichern, besteht darin, dass unterschiedliche Nutzer auf die für sie geeigneten Daten zugreifen können. Dies macht einen Data Lake perfekt für einige der neueren Anwendungen von Daten wie Data Science, Künstliche Intelligenz und Machine Learning.

Data Lakes bieten eine sehr gute Möglichkeit, Massen von Rohdaten auf skalierbaren Speicherlösungen abzulegen, ohne den Versuch zu unternehmen, traditionelles ETL (Extraktion/Transformation/Laden) oder ELT (Extraktion/Laden/Transformation) zu verwenden, die bei diesem Volumen teuer sein können. Für traditionellere Analysen strukturierter Daten kann ein Data Lake jedoch auch etwas unhandlich und verwirrend sein, weshalb viele Unternehmen hierfür andere Lösungen nutzen. In der Hierarchie einer komplexen, mehrschichtigen Dateninfrastruktur werden Data Lakes eher als erste Ebene und Grundlage für einen strukturierteren Ansatz der Datenverarbeitung genutzt, etwa beim Data-Warehouse.

Data-Warehouse-Automatisierung
© WhereScape

Die Data-Warehouse-Automatisierung hilft IT-Teams, Data Warehouse -Automation-Software kombiniert die Verwendung von Metadaten, Data Warehouse Methoden, Mustererkennung und mehr, um Entwicklern zu helfen, Data Warehouse Designs und Codierung durch den Einsatz von Data Warehouse-Design-Tools und zeitsparenden Entwicklungsassistenten und -vorlagen automatisch zu generieren. Insofern bietet Automatisierung viel mehr als bisher, indem sie viel schneller, mit weniger Projektrisiko und niedrigeren Kosten liefert und verwaltet. Zudem entfallen wiederholte Design-, Entwicklungs-, Bereitstellungs- und Betriebsaufgaben innerhalb des Data Warehouse Lebenszyklus.

Das Data Warehouse: benutzerfreundlicher Zugang zu Daten
Das Data Warehouse dient als Quelle für Ableitungen aus den Rohdaten und ist für viele Unternehmen heute ein Kernelement ihrer Datenstrategie. Im Gegensatz zum Data Lake, der einfach nur ein großer Pool an Daten ist, ist ein Data Warehouse, oder ein Enterprise Data Warehouse, wie es manchmal genannt wird, ein kurierter Datenspeicher für aktuelle und historische Daten. Ein Data Warehouse ermöglicht Anwendern den Zugang zu den richtigen Informationen in einem benutzerfreundlichen Format, wie etwa monatlichen Reports. Wenn Daten in eine Data Warehouse-Umgebung gelangen, werden sie bereinigt, transformiert, kategorisiert und gekennzeichnet, je nachdem wie die Nutzer dies benötigen. Dies erleichtert die Verwaltung, Nutzung und Überwachung der Unternehmensdaten. Auch die Automatisierung, ein heute wichtiger Teil der Dateninfrastruktur, kommt auf der Ebene des Data Warehouses ins Spiel.Die Automatisierung von Datenprozessen ist für die meisten Unternehmen heute eine wichtige Anforderung an das Data Warehouse, da das Volumen und die Geschwindigkeit, mit der Daten generiert werden, die manuelle Verarbeitung in vielen Umgebungen praktisch unmöglich macht. Auch aus Sicht der Compliance bietet die Automatisierung der Datenprozesse in einem Data Warehouse viele Vorteile, genauso wie beim „Time to Value“, also der Zeit von der Entstehung der Daten bis zu deren wertschöpfenden Nutzung.

Seite 1 von 2

1. Wo die wilden Daten leben
2. Data Mart: eine kleinere Teilmenge eines Data Warehouses

Auf Facebook teilenAuf Twitter teilenAuf Linkedin teilenVia Mail teilen

Das könnte Sie auch interessieren

Datenwissenschaft als Teamsport
Das
Semantische Graphen: Basis für neue Anwendungen
Von Big Data zu Smart Insights

Verwandte Artikel

funkschau