Data lakehouse uitgelegd — Het beste van twee werelden

Wat is een data lakehouse?

Een data lakehouse is een moderne data-architectuur die de sterke punten van een data warehouse en een data lake combineert in één platform. Het idee is simpel: je wilt de flexibiliteit en lage kosten van een data lake (alles opslaan, elk formaat), gecombineerd met de structuur, performance en betrouwbaarheid van een data warehouse (snelle queries, ACID-transacties, schema-enforcement).

Het concept is ontstaan uit frustratie. Veel organisaties bouwden eerst een data warehouse voor hun gestructureerde rapportages, en daarnaast een data lake voor ongestructureerde data (logbestanden, afbeeldingen, IoT-data). Het resultaat: twee systemen die onderhouden moeten worden, data die gekopieerd wordt tussen beide, en een complexe architectuur die duur en foutgevoelig is.

De lakehouse lost dit op door één opslaglaag te gebruiken (meestal cloud object storage zoals Azure Data Lake Storage of Amazon S3), met daarbovenop een transactielaag die warehouse-achtige eigenschappen toevoegt. Je slaat alle data op één plek op — gestructureerd, semi-gestructureerd en ongestructureerd — en kunt er toch snelle SQL-queries op draaien.

Het lakehouse-concept is in 2020 gepopulariseerd door Databricks, maar wordt inmiddels door alle grote cloudplatformen ondersteund. Microsoft Fabric, Google BigQuery en Snowflake bieden allemaal lakehouse-achtige functionaliteit.

Data warehouse vs. data lake vs. lakehouse

Om de lakehouse te begrijpen, moet je de twee voorgangers kennen. Hier is een uitgebreide vergelijking:

Kenmerk	Data Warehouse	Data Lake	Data Lakehouse
Datatypen	Alleen gestructureerd (tabellen)	Alle typen (gestructureerd, semi, ongestructureerd)	Alle typen
Schema	Schema-on-write (structuur moet vooraf gedefinieerd)	Schema-on-read (structuur bij het lezen)	Beide mogelijk
Performance	Zeer snel voor SQL-queries	Langzamer, afhankelijk van formaat	Snel door indexering en caching
ACID-transacties	Ja	Nee (standaard)	Ja (via Delta Lake, Iceberg)
Kosten opslag	Hoog (propriëtair formaat)	Laag (open formaat, object storage)	Laag (open formaat)
Governance	Sterk (ingebouwd)	Zwak (handmatig)	Sterk (metadata-laag)
Geschikt voor ML/AI	Beperkt	Goed (directe toegang tot ruwe data)	Goed
Typisch gebruik	BI-rapportages, KPI-dashboards	Data science, machine learning, archivering	Alles: BI, ML, streaming, archivering
Voorbeelden	Azure Synapse, Snowflake, Redshift	Azure Data Lake, S3, GCS	Microsoft Fabric, Databricks, Delta Lake

De data lake leek aanvankelijk de oplossing voor alles: goedkope opslag, elk formaat, onbeperkte schaalbaarheid. Maar in de praktijk ontaardden veel data lakes in "data swamps" — moerassen van ongeorganiseerde data waar niemand meer iets kon vinden. Geen schema-enforcement, geen transacties, geen kwaliteitscontroles.

De lakehouse pakt dit probleem aan door een transactielaag toe te voegen bovenop de goedkope lake-opslag, waardoor je warehouse-betrouwbaarheid krijgt tegen lake-prijzen.

Hoe werkt een lakehouse?

De technische kern van een lakehouse bestaat uit drie lagen:

1. Opslaglaag — Open bestandsformaten

Data wordt opgeslagen in open formaten op goedkope cloud object storage:

Parquet — Kolomgebaseerd formaat, ideaal voor analytische queries. Compressie maakt bestanden klein en snel.
ORC — Vergelijkbaar met Parquet, populair in het Hadoop-ecosysteem.
Avro — Rijgebaseerd formaat, goed voor streaming en event-data.

Doordat de data in open formaten staat, ben je niet gebonden aan één leverancier (geen vendor lock-in). Je kunt dezelfde data benaderen vanuit Power BI, Spark, Python, of elk ander tool dat deze formaten ondersteunt.

2. Transactielaag — ACID en metadata

Dit is de innovatie die de lakehouse mogelijk maakt. Tabelformaten als Delta Lake, Apache Iceberg en Apache Hudi voegen warehouse-eigenschappen toe aan bestanden in het lake:

ACID-transacties — Schrijfoperaties zijn atomair: ze slagen volledig of helemaal niet. Geen corrupte data bij een crash halverwege.
Schema-enforcement — Je kunt afdwingen dat data aan een schema voldoet (juiste kolomnamen, datatypen).
Tijdreizen (time travel) — Je kunt data bekijken zoals die eruitzag op een eerder moment. Handig voor auditing en foutcorrectie.
Versioning — Elke wijziging wordt gelogd. Je kunt terug naar eerdere versies van een tabel.

3. Querylaag — SQL en meer

Bovenop de opslag- en transactielaag draait een query-engine die snelle analyses mogelijk maakt. Denk aan Spark SQL, Trino, of de ingebouwde engines van Fabric en Databricks. Dankzij technieken als data skipping, Z-ordering en caching zijn queries bijna net zo snel als op een traditioneel warehouse.

De voordelen van een lakehouse

Waarom zou je kiezen voor een lakehouse? De belangrijkste voordelen:

Lagere kosten

Data opslaan in een data lake (object storage) is 10-100x goedkoper dan in een traditioneel data warehouse. Azure Data Lake Storage kost circa €0,02 per GB per maand, terwijl warehouse-opslag al snel €5-20 per TB per maand kost. Bij grote datavolumes scheelt dat enorm.

Flexibiliteit

Je kunt elk type data opslaan: CSV-bestanden, JSON, Parquet, afbeeldingen, video, IoT-sensordata. Je hoeft niet vooraf te beslissen welke data je "waardig" genoeg vindt voor het warehouse. Bewaar alles, en bepaal later wat je ermee doet.

Geen data-kopieën

In een traditionele architectuur kopieer je data van het lake naar het warehouse voor BI-rapportages. Dat kost opslagruimte, verwerkingstijd, en creëert consistentieproblemen. In een lakehouse zit alles op één plek — één versie van de waarheid.

Open standaarden

Door het gebruik van open formaten (Parquet, Delta, Iceberg) ben je niet gebonden aan één leverancier. Je kunt wisselen van query-engine of BI-tool zonder je data te migreren. Dit is een groot verschil met traditionele warehouses die propriëtaire opslagformaten gebruiken.

Machine learning en BI op dezelfde data

Data scientists kunnen direct werken met de data in het lakehouse voor ML-modellen, terwijl BI-analisten er dashboards op bouwen. Geen aparte systemen, geen data-kopiëren, geen synchronisatieproblemen.

Ingebouwde governance

Moderne lakehouse-platformen bieden fine-grained access control, audit logging, data lineage en classificatie. Dit maakt het makkelijker om te voldoen aan regelgeving als de AVG. Lees meer over dit onderwerp in onze gids over data governance.

Lakehouse-platformen

De belangrijkste platformen die lakehouse-functionaliteit bieden:

Microsoft Fabric

Microsoft's alles-in-één dataplatform, gelanceerd in 2023. Fabric combineert data engineering, data warehousing, real-time analytics, data science en Power BI in één SaaS-platform. Het OneLake-concept is de lakehouse-kern: alle data staat in één centraal lake, gebaseerd op Delta Lake-formaat. Voor organisaties die al met Microsoft werken (Azure, Power BI, Microsoft 365) is Fabric de meest voor de hand liggende keuze.

Databricks

De pionier van het lakehouse-concept. Databricks heeft Delta Lake ontwikkeld en biedt een compleet platform voor data engineering, data science en SQL analytics. Sterk in machine learning en grote datavolumes. Draait op alle grote clouds (Azure, AWS, GCP). Populair bij data engineering-teams die met Python en Spark werken.

Snowflake

Oorspronkelijk een cloud data warehouse, maar Snowflake heeft lakehouse-functionaliteit toegevoegd met Iceberg-tabelondersteuning en externe tabellen. Sterk in SQL-performance en gebruiksgemak. Minder sterk in ongestructureerde data en ML-workloads vergeleken met Databricks.

Google BigQuery

Google's serverless data warehouse ondersteunt nu ook externe tabellen op Cloud Storage, Parquet-bestanden en BigLake voor lakehouse-achtige scenario's. Sterk in serverless computing: je betaalt alleen voor wat je gebruikt, zonder capaciteitsplanning.

Amazon (AWS)

AWS biedt geen enkel lakehouse-product maar een combinatie van services: S3 voor opslag, Glue voor ETL, Athena voor queries, en Lake Formation voor governance. Flexibel maar complexer om op te zetten dan geïntegreerde platformen.

Platform	Sterkste punt	Best voor
Microsoft Fabric	Integratie met Power BI en Microsoft 365	Microsoft-shops, BI-teams
Databricks	ML/AI en grote datavolumes	Data engineering-teams, ML-projecten
Snowflake	SQL-performance en gebruiksgemak	Analisten, SQL-gebaseerde teams
BigQuery	Serverless, geen capaciteitsplanning	Google Cloud-gebruikers, ad-hoc analyses

Wanneer kies je een lakehouse?

Een lakehouse is niet voor iedereen de juiste keuze. Hier is een beslishulp:

Kies een lakehouse als:

Je grote hoeveelheden data hebt (terabytes of meer) en de opslagkosten van een warehouse te hoog worden
Je zowel BI-rapportages als machine learning op dezelfde data wilt doen
Je data van verschillende typen hebt (gestructureerd, semi-gestructureerd, ongestructureerd)
Je vendor lock-in wilt vermijden en met open standaarden wilt werken
Je een modern dataplatform wilt dat meegroeit met je organisatie
Je al in de cloud werkt (Azure, AWS of GCP)

Een traditioneel warehouse volstaat als:

Je uitsluitend gestructureerde data hebt (tabellen, CSV's, databases)
Je datavolume beperkt is (gigabytes, niet terabytes)
Je alleen BI-rapportages nodig hebt, geen ML of data science
Je team gewend is aan SQL en je geen Spark/Python-expertise hebt

Begin met Power BI als:

Je een klein team bent dat net begint met data-analyse
Je data past in het Power BI-datamodel (tot ~1 GB in Pro, meer in Premium)
Je nog geen cloudinfrastructuur hebt

In de praktijk kiezen steeds meer organisaties voor een lakehouse, niet omdat ze het nu al nodig hebben, maar omdat het een toekomstbestendige architectuur is die meegroeit. Als je vandaag begint met een lakehouse, hoef je morgen niet te migreren.

Veelgestelde vragen

Vervangt een lakehouse het data warehouse volledig?

Op termijn waarschijnlijk wel voor veel organisaties. Maar op dit moment gebruiken veel bedrijven een hybride aanpak: een lakehouse voor ruwe data en data science, en een warehouse of warehouse-laag binnen het lakehouse voor de snelste BI-rapportages. Microsoft Fabric is een goed voorbeeld: het combineert een lakehouse met een SQL-warehouse in één platform.

Is een lakehouse geschikt voor het MKB?

Dat hangt af van je datavolume en ambities. Als je minder dan een paar gigabyte aan data hebt en alleen dashboards nodig hebt, is Power BI met een directe databaseconnectie eenvoudiger en goedkoper. Maar als je groeit naar terabytes, meerdere databronnen combineert, of machine learning wilt doen, wordt een lakehouse interessant. Microsoft Fabric maakt lakehouses toegankelijker voor het MKB dankzij pay-as-you-go pricing.

Wat is Delta Lake?

Delta Lake is een open-source tabelformaat ontwikkeld door Databricks dat ACID-transacties, schema-enforcement en tijdreizen toevoegt aan Parquet-bestanden in een data lake. Het is de technologie die de lakehouse mogelijk heeft gemaakt. Microsoft Fabric gebruikt Delta Lake als standaard tabelformaat. Alternatieven zijn Apache Iceberg (populair bij Snowflake) en Apache Hudi.

Hoe verhouden de kosten van een lakehouse zich tot een warehouse?

Opslag in een lakehouse is veel goedkoper (€0,02/GB/maand vs. €5-20/TB/maand in een warehouse). Maar je betaalt ook voor compute (query-verwerking). De totale kosten hangen af van je gebruikspatroon: veel data opslaan maar weinig queries? Dan is een lakehouse veel goedkoper. Veel complexe queries op een kleine dataset? Dan kan een warehouse voordeliger zijn.

Heb ik een data engineer nodig voor een lakehouse?

Voor de initiële opzet en complexe ETL-pijplijnen is data engineering-kennis sterk aan te raden. Maar platformen als Microsoft Fabric maken het steeds toegankelijker met low-code tools, visuele dataflows en ingebouwde templates. Een Power BI-specialist kan in Fabric een eenvoudig lakehouse opzetten zonder diepgaande engineering-kennis.

Laatste Data Strategie nieuws

16:00 Weerintelligentie: wereldwijde volatiliteit effectief navigeren 14:16 AI-projecten: redenen voor falen voordat algoritme werkt 11:00 Chaosdragon verslaan: praktische strategieën 06:17 Lessen geleerd als senior in data-analyse gisteren 23:06 Frustraties van een data-analist: tijd voor verandering

Alle Data Strategie artikelen →