ETL uitgelegd — Extract, Transform, Load in gewone taal

Wat is ETL?

ETL staat voor Extract, Transform, Load — drie stappen die samen het proces vormen waarmee data uit verschillende bronnen wordt samengevoegd tot bruikbare informatie. Het is de ruggengraat van vrijwel elk business intelligence- en data warehouse-systeem.

Een eenvoudige analogie: stel je voor dat je een maaltijd kookt met ingrediënten van drie verschillende markten. Eerst haal je de ingrediënten op (Extract). Vervolgens was je ze, snij je ze en bereid je ze voor (Transform). Tot slot doe je alles in de pan (Load). Het eindresultaat is een kant-en-klare maaltijd — of in data-termen: een schone, gestructureerde dataset klaar voor analyse.

Zonder ETL zou je als organisatie handmatig data moeten kopiëren tussen systemen, Excel-bestanden aan elkaar knopen, en telkens weer dezelfde opschoontaken uitvoeren. ETL automatiseert dit hele proces, zodat je altijd beschikt over actuele, betrouwbare data.

ETL is geen nieuw concept — het bestaat al sinds de jaren '70 toen de eerste datawarehouses werden gebouwd. Maar met de opkomst van cloud computing, big data en real-time analytics is het relevanter dan ooit. Alleen de manier waarop we ETL uitvoeren is sterk veranderd.

Extract — Data ophalen uit bronnen

De eerste stap is Extract: het ophalen van data uit allerlei bronnen. In een typische organisatie komt data uit tientallen systemen:

Databases — SQL Server, PostgreSQL, MySQL, Oracle — de transactiesystemen waar je ERP, CRM of boekhouding in draait
Bestanden — Excel-sheets, CSV-exports, XML-feeds, JSON-bestanden
Cloud-applicaties — Salesforce, HubSpot, Google Analytics, Microsoft 365
API's — REST- of GraphQL-endpoints van webservices, social media platforms, betaalproviders
Streaming data — IoT-sensoren, logbestanden, event streams (Kafka, Event Hubs)

Bij het extractieproces zijn er twee belangrijke keuzes:

Full extract vs. incremental extract. Bij een full extract haal je elke keer alle data op — simpel maar langzaam bij grote volumes. Bij een incremental extract haal je alleen de data op die gewijzigd is sinds de vorige keer, wat veel sneller is maar meer logica vereist (je moet bijhouden wat je al hebt opgehaald).

Een goed ETL-proces zorgt ervoor dat de extractie de bronsystemen niet belast. Je wilt niet dat je CRM traag wordt omdat er op de achtergrond miljoenen records worden opgehaald. Daarom worden extracties vaak 's nachts of in weekenden uitgevoerd, of via change data capture (CDC) die alleen wijzigingen oppikt.

Transform — Data opschonen en verrijken

De Transform-stap is waar de echte magie gebeurt. Ruwe data uit bronnen is bijna nooit direct bruikbaar. Er zitten fouten in, formaten kloppen niet, en data uit verschillende systemen moet worden gecombineerd. Typische transformaties zijn:

Opschonen (Cleaning) — Dubbele records verwijderen, ontbrekende waarden afhandelen, typfouten corrigeren. Denk aan: "Amsterdam", "amsterdam", "A'dam" standaardiseren naar één schrijfwijze.
Standaardiseren — Datumformaten gelijktrekken (DD-MM-YYYY vs. MM/DD/YYYY), valuta omrekenen, eenheden converteren.
Samenvoegen (Joining) — Data uit verschillende bronnen koppelen. Bijvoorbeeld: klantdata uit het CRM combineren met orderdata uit het ERP op basis van klantnummer.
Verrijken (Enrichment) — Extra informatie toevoegen. Postcodes vertalen naar provincie en regio, leeftijd berekenen uit geboortedatum, marges berekenen uit omzet en kosten.
Aggregeren — Detaildata samenvatten tot bruikbare niveaus. Dagelijkse transacties aggregeren naar maandtotalen, individuele orders naar klanttotalen.
Business rules toepassen — Berekeningen die specifiek zijn voor jouw organisatie. Bijvoorbeeld: een klant is "actief" als er in de laatste 90 dagen een order is geplaatst.

De transformatiestap is vaak het meest tijdrovende onderdeel van een ETL-proces — zowel in ontwikkeling als in uitvoering. Het is ook de stap waar de meeste fouten ontstaan. Daarom is het cruciaal om data-kwaliteitscontroles in te bouwen: rij-tellingen, null-checks, referentie-integriteit-validaties.

In de praktijk besteed je als data engineer 60-80% van je tijd aan het begrijpen en opschonen van data. Het bouwen van het dashboard is vaak het makkelijkste stuk.

Load — Data laden in het warehouse

De laatste stap is Load: het laden van de getransformeerde data in de doeldatabase, meestal een data warehouse of data lakehouse. Hier wordt de data opgeslagen zodat analisten en businessgebruikers er rapporten en dashboards op kunnen bouwen.

Er zijn twee strategieën voor laden:

Strategie	Hoe het werkt	Wanneer gebruiken
Full load	De doeltabel wordt leeggemaakt en volledig opnieuw gevuld	Kleine datasets, simpele scenario's, wanneer historische wijzigingen niet belangrijk zijn
Incremental load	Alleen nieuwe of gewijzigde records worden toegevoegd of bijgewerkt	Grote datasets, frequente verversing, wanneer performance belangrijk is

Bij incremental loading moet je goed nadenken over hoe je omgaat met wijzigingen. Een veelgebruikte techniek is Slowly Changing Dimensions (SCD). Stel dat een klant verhuist: sla je het nieuwe adres op en overschrijf je het oude? Of bewaar je beide, zodat je historische analyses kunt doen? SCD Type 2 bewaart de geschiedenis, SCD Type 1 overschrijft.

Moderne datawarehouses (Snowflake, BigQuery, Microsoft Fabric) maken het laden steeds makkelijker met features als MERGE-statements (upserts), automatische partitionering en schaalbare opslag. Het laden is vaak de technisch eenvoudigste stap, maar foutafhandeling is cruciaal: wat doe je als het laden halverwege faalt? Rollback-mechanismes en logging zijn essentieel.

ETL vs. ELT — Wat is het verschil?

Traditioneel vindt transformatie plaats vóór het laden: ETL. Maar de laatste jaren is een alternatieve aanpak populair geworden: ELT (Extract, Load, Transform). Hierbij laad je eerst de ruwe data in het warehouse en transformeer je daarna.

Aspect	ETL	ELT
Volgorde	Extract → Transform → Load	Extract → Load → Transform
Waar transformatie plaatsvindt	Op een aparte ETL-server	In het datawarehouse zelf
Snelheid	Langzamer bij grote volumes	Sneller door parallelle verwerking in het warehouse
Flexibiliteit	Transformaties staan vast bij ontwerp	Ruwe data blijft beschikbaar voor nieuwe transformaties
Kosten	Aparte server nodig	Compute-kosten in het warehouse
Best voor	On-premises, gevoelige data, compliancy	Cloud-omgevingen, grote volumes, agile werkwijze

De trend is duidelijk richting ELT, vooral door de kracht van moderne cloud-datawarehouses die enorme hoeveelheden data razendsnel kunnen verwerken. Tools als dbt (data build tool) zijn speciaal ontworpen voor de "T" in ELT: ze voeren transformaties uit als SQL-queries direct in het warehouse.

Maar ETL is zeker niet dood. In situaties waar je gevoelige data moet filteren vóór het laden (AVG-compliance), of waar je on-premises werkt met beperkte warehouse-capaciteit, blijft ETL de betere keuze. In de praktijk gebruiken veel organisaties een hybride aanpak: basisopschoning (ETL) vóór het laden, en complexe business-transformaties (ELT) daarna.

Populaire ETL-tools

Er zijn tientallen ETL- en ELT-tools op de markt. Hier is een overzicht van de meest relevante opties voor Nederlandse organisaties:

Tool	Type	Best voor	Prijsindicatie
Power Query	ETL (ingebouwd in Power BI en Excel)	Beginners, kleine datasets, zelfservice BI	Gratis (onderdeel van Power BI Desktop)
Azure Data Factory	ETL/ELT (cloud)	Microsoft-omgevingen, enterprise, hybride data	Pay-as-you-go (vanaf ~€50/mnd)
dbt (data build tool)	ELT (transformatie-laag)	Data engineers, SQL-gebaseerde transformaties	Open source (gratis), Cloud vanaf $100/mnd
Informatica	ETL/ELT (enterprise)	Grote organisaties, complexe integraties	Enterprise pricing (duizenden/mnd)
Fivetran	ELT (connectors)	Snel data laden uit SaaS-bronnen	Vanaf ~$1 per credit (volume-based)
Talend	ETL/ELT	Open source optie, breed inzetbaar	Open source (gratis), Enterprise betaald
Microsoft Fabric Dataflows	ETL/ELT (cloud)	Microsoft Fabric-gebruikers, Power BI-integratie	Onderdeel van Fabric-licentie

Welke tool moet je kiezen? Voor de meeste Nederlandse organisaties die al met Microsoft werken, is de combinatie van Power Query (voor eenvoudige ETL) en Azure Data Factory of Fabric Dataflows (voor complexere scenario's) een logische keuze. Als je een modern data-team hebt dat met SQL werkt, is dbt de standaard geworden voor de transformatie-laag.

Begin altijd met de eenvoudigste tool die aan je behoefte voldoet. Power Query in Power BI is een uitstekend startpunt — het is visueel, krachtig, en je hebt geen programmeerervaring nodig.

Veelgestelde vragen

Is ETL hetzelfde als een data pipeline?

Een data pipeline is een breder concept: het omvat het hele traject van data ophalen tot het beschikbaar maken voor eindgebruikers. ETL is een specifiek type data pipeline. Andere pipelines kunnen bijvoorbeeld real-time streaming data verwerken of machine learning-modellen voeden. Maar in de dagelijkse praktijk worden de termen vaak door elkaar gebruikt.

Hoe vaak moet een ETL-proces draaien?

Dat hangt af van je behoefte. Voor maandrapportages is één keer per maand voldoende. Voor operationele dashboards is dagelijks of elk uur gebruikelijk. Voor real-time monitoring heb je near-real-time streaming nodig in plaats van traditionele batch-ETL. Begin met dagelijks en verhoog de frequentie alleen als de business dat echt nodig heeft — vaker draaien kost meer compute-resources.

Wat moet ik doen als een ETL-job faalt?

Bouw altijd foutafhandeling en alerting in. Bij een fout moet je een notificatie krijgen (e-mail, Teams-bericht), en het proces moet duidelijk loggen waar het fout ging. Gebruik idempotente processen: als je een ETL-job opnieuw draait, moet het resultaat hetzelfde zijn. Implementeer retry-logica voor tijdelijke fouten (netwerk, API-limieten) en escalatie voor structurele fouten.

Kan ik ETL doen zonder te programmeren?

Ja, zeker. Power Query in Power BI is een visuele ETL-tool waarmee je zonder code data kunt ophalen, transformeren en laden. Azure Data Factory biedt een drag-and-drop interface voor complexere scenario's. Fivetran automatiseert het extractie- en laadproces volledig. Alleen voor de meest complexe transformaties of maatwerk-scenario's heb je programmeerkennis nodig (SQL, Python).

Wat is het verschil tussen ETL en een API?

Een API is een manier om data op te halen (de "E" in ETL). ETL is het complete proces van ophalen, verwerken en opslaan. Je kunt ETL-processen bouwen die via API's data ophalen, maar een API op zich is geen ETL. Een API levert ruwe data; ETL maakt die data bruikbaar.

Laatste Data Strategie nieuws

16:00 Weerintelligentie: wereldwijde volatiliteit effectief navigeren 14:16 AI-projecten: redenen voor falen voordat algoritme werkt 11:00 Chaosdragon verslaan: praktische strategieën 06:17 Lessen geleerd als senior in data-analyse gisteren 23:06 Frustraties van een data-analist: tijd voor verandering

Alle Data Strategie artikelen →