Data Strategie

Data Lakehouse erklärt — Das Beste aus beiden Welten

Was ist ein Data Lakehouse und warum vereint es das Beste aus Data Warehouses und Data Lakes? Architektur, Vergleich und Plattformauswahl verständlich erklärt.

Zuletzt aktualisiert: 2026-03-08

Was ist ein Data Lakehouse?

Ein Data Lakehouse ist eine moderne Datenarchitektur, die die Stärken eines Data Warehouse und eines Data Lake in einer Plattform vereint. Die Idee ist einfach: Sie möchten die Flexibilität und niedrigen Kosten eines Data Lake (alles speichern, jedes Format) kombiniert mit der Struktur, Performance und Zuverlässigkeit eines Data Warehouse (schnelle Abfragen, ACID-Transaktionen, Schema-Enforcement).

Das Konzept entstand aus Frustration. Viele Organisationen bauten ein Data Warehouse für strukturiertes Reporting neben einem Data Lake für unstrukturierte Daten. Das Ergebnis: zwei Systeme, die gewartet werden müssen, Daten, die zwischen ihnen kopiert werden, und eine komplexe Architektur, die teuer und fehleranfällig ist.

Das Lakehouse löst dies durch die Verwendung einer Speicherschicht (typischerweise Cloud Object Storage) mit einer Transaktionsschicht darüber, die Warehouse-ähnliche Eigenschaften hinzufügt. Sie speichern alle Daten an einem Ort und können trotzdem schnelle SQL-Abfragen darauf ausführen.

Data Warehouse vs. Data Lake vs. Lakehouse

MerkmalData WarehouseData LakeData Lakehouse
DatentypenNur strukturiertAlle TypenAlle Typen
SchemaSchema-on-WriteSchema-on-ReadBeides
PerformanceSehr schnelles SQLLangsamer, formatabhängigSchnell (Indexierung, Caching)
ACID-TransaktionenJaNein (standardmäßig)Ja (Delta Lake, Iceberg)
SpeicherkostenHochNiedrigNiedrig
ML/AI-UnterstützungEingeschränktGutGut

Viele Data Lakes entwickelten sich zu „Data Swamps" — unorganisierten Repositorys, in denen niemand etwas finden konnte. Das Lakehouse begegnet diesem Problem, indem es eine Transaktionsschicht über den günstigen Lake-Speicher legt und so Warehouse-Zuverlässigkeit zu Lake-Preisen bietet.

Wie ein Lakehouse funktioniert

Ein Lakehouse besteht aus drei Schichten:

1. Speicherschicht — Offene Dateiformate (Parquet, ORC, Avro) auf günstigem Cloud Object Storage. Kein Vendor Lock-in.

2. Transaktionsschicht — Tabellenformate wie Delta Lake, Apache Iceberg und Apache Hudi fügen Warehouse-Funktionen hinzu: ACID-Transaktionen, Schema-Enforcement, Zeitreisen und Versionierung.

3. Abfrageschicht — SQL-Engines (Spark SQL, Trino, integrierte Engines) ermöglichen schnelle Analysen durch Data Skipping, Z-Ordering und Caching. Abfragen sind nahezu so schnell wie auf einem traditionellen Warehouse.

Vorteile eines Lakehouse

Lakehouse-Plattformen

Wichtige Plattformen mit Lakehouse-Funktionalität:

Wann sollten Sie ein Lakehouse wählen?

Wählen Sie ein Lakehouse, wenn:

Ein traditionelles Warehouse genügt, wenn:

Beginnen Sie mit Power BI, wenn: Sie ein kleines Team sind, das gerade erst mit der Datenanalyse beginnt, und Ihre Daten in das Power BI-Datenmodell passen.

Häufig gestellte Fragen

Ersetzt ein Lakehouse das Data Warehouse vollständig?
Langfristig wahrscheinlich ja für viele Organisationen. Derzeit verwenden viele Unternehmen einen hybriden Ansatz: ein Lakehouse für Rohdaten und Data Science, mit einer Warehouse-Schicht für das schnellste BI-Reporting. Microsoft Fabric ist ein gutes Beispiel, da es Lakehouse und SQL Warehouse in einer Plattform vereint.
Ist ein Lakehouse für KMU geeignet?
Das hängt von Ihrem Datenvolumen und Ihren Ambitionen ab. Bei weniger als ein paar Gigabyte und einfachen Dashboards ist Power BI mit einer direkten Datenbankverbindung einfacher. Wenn Sie jedoch auf Terabytes anwachsen oder ML-Funktionen benötigen, wird ein Lakehouse attraktiv. Microsoft Fabric macht Lakehouses mit nutzungsbasierter Abrechnung zugänglicher.
Was ist Delta Lake?
Delta Lake ist ein Open-Source-Tabellenformat von Databricks, das ACID-Transaktionen, Schema-Enforcement und Zeitreisen zu Parquet-Dateien in einem Data Lake hinzufügt. Es ist die Technologie, die das Lakehouse möglich gemacht hat. Microsoft Fabric verwendet Delta Lake als Standardformat. Alternativen sind Apache Iceberg und Apache Hudi.
Brauche ich einen Data Engineer für ein Lakehouse?
Für die Ersteinrichtung und komplexe ETL-Pipelines wird Data-Engineering-Expertise dringend empfohlen. Aber Plattformen wie Microsoft Fabric werden mit Low-Code-Tools und visuellen Dataflows zunehmend zugänglicher. Ein Power BI-Spezialist kann in Fabric ein einfaches Lakehouse einrichten, ohne tiefgreifende Engineering-Kenntnisse zu benötigen.

Neueste Data Strategie-Nachrichten

Alle Data Strategie-Artikel →

Über den Autor — Peter Heijnen ist Daten- und Prozessspezialist mit 20 Jahren Erfahrung bei multinationalen Unternehmen. Er betreibt business-intelligence.info und unterstützt Unternehmen bei Planung, Berichterstattung und Automatisierung über BPA.