Was ist ETL?
ETL steht für Extract, Transform, Load — drei Schritte, die zusammen den Prozess bilden, mit dem Daten aus verschiedenen Quellen zu nutzbaren Informationen zusammengeführt werden. Es ist das Rückgrat praktisch jedes Business-Intelligence- und Data-Warehouse-Systems.
Eine einfache Analogie: Stellen Sie sich vor, Sie kochen ein Gericht mit Zutaten von drei verschiedenen Märkten. Zuerst holen Sie die Zutaten (Extract). Dann waschen, schneiden und bereiten Sie sie vor (Transform). Schließlich geben Sie alles in die Pfanne (Load). Das Ergebnis ist ein fertiges Gericht — oder in Datenbegriffen: ein sauberer, strukturierter Datensatz, bereit zur Analyse.
Ohne ETL müssten Sie manuell Daten zwischen Systemen kopieren, Excel-Dateien zusammenfügen und immer wieder dieselben Bereinigungsaufgaben wiederholen. ETL automatisiert diesen gesamten Prozess, sodass Sie stets über aktuelle, verlässliche Daten verfügen.
Extract — Daten aus Quellen abrufen
Der erste Schritt ist Extract: das Abrufen von Daten aus verschiedensten Quellen. In einer typischen Organisation stammen Daten aus Dutzenden von Systemen:
- Datenbanken — SQL Server, PostgreSQL, MySQL, Oracle
- Dateien — Excel-Tabellen, CSV-Exporte, XML-Feeds, JSON-Dateien
- Cloud-Anwendungen — Salesforce, HubSpot, Google Analytics
- APIs — REST- oder GraphQL-Endpunkte von Webservices
- Streaming-Daten — IoT-Sensoren, Logdateien, Event Streams
Zwei wichtige Entscheidungen: Vollständige Extraktion (jedes Mal alles abrufen — einfach, aber langsam) vs. Inkrementelle Extraktion (nur Änderungen abrufen — schneller, aber komplexer). Ein guter ETL-Prozess stellt sicher, dass die Extraktion die Quellsysteme nicht belastet.
Transform — Daten bereinigen und anreichern
Der Transform-Schritt ist dort, wo die eigentliche Magie passiert. Rohdaten aus Quellen sind fast nie direkt nutzbar. Typische Transformationen umfassen:
- Bereinigung — Duplikate entfernen, fehlende Werte behandeln, Tippfehler korrigieren
- Standardisierung — Datumsformate angleichen, Währungen umrechnen, Einheiten normalisieren
- Zusammenführung (Joining) — Daten aus verschiedenen Quellen kombinieren (z. B. CRM-Kundendaten mit ERP-Bestelldaten)
- Anreicherung — Abgeleitete Informationen hinzufügen (Alter aus Geburtsdatum, Margen aus Umsatz und Kosten)
- Aggregation — Detaildaten zusammenfassen (tägliche Transaktionen zu Monatssummen)
- Geschäftsregeln — Organisationsspezifische Berechnungen
In der Praxis verbringen Data Engineers 60–80 % ihrer Zeit damit, Daten zu verstehen und zu bereinigen. Das Dashboard zu erstellen ist oft der einfachste Teil.
Load — Daten ins Warehouse laden
Der letzte Schritt ist Load: das Laden der transformierten Daten in die Zieldatenbank, üblicherweise ein Data Warehouse oder Data Lakehouse.
| Strategie | Funktionsweise | Einsatzzweck |
|---|---|---|
| Vollständiges Laden | Die Zieltabelle wird geleert und komplett neu befüllt | Kleine Datensätze, einfache Szenarien |
| Inkrementelles Laden | Nur neue oder geänderte Datensätze werden hinzugefügt/aktualisiert | Große Datensätze, häufige Aktualisierungen |
Moderne Data Warehouses (Snowflake, BigQuery, Microsoft Fabric) vereinfachen das Laden zunehmend mit Funktionen wie MERGE-Anweisungen, automatischer Partitionierung und skalierbarem Speicher.
ETL vs. ELT — Was ist der Unterschied?
Traditionell findet die Transformation vor dem Laden statt: ETL. In letzter Zeit hat sich jedoch ELT (Extract, Load, Transform) durchgesetzt — Sie laden zuerst die Rohdaten und transformieren dann innerhalb des Warehouse.
| Aspekt | ETL | ELT |
|---|---|---|
| Wo die Transformation stattfindet | Separater ETL-Server | Im Data Warehouse selbst |
| Geschwindigkeit | Langsamer bei großen Datenmengen | Schneller durch parallele Verarbeitung |
| Flexibilität | Transformationen beim Design festgelegt | Rohdaten für neue Transformationen verfügbar |
| Geeignet für | On-Premises, sensible Daten, Compliance | Cloud-Umgebungen, große Datenmengen, agil |
Der Trend geht klar in Richtung ELT, angetrieben durch leistungsstarke Cloud-Warehouses. Tools wie dbt sind speziell für das „T" in ELT konzipiert. Aber ETL ist nicht tot — es ist nach wie vor die bessere Wahl, wenn Sie sensible Daten vor dem Laden filtern müssen (DSGVO-Compliance).
Beliebte ETL-Tools
Wichtige ETL-/ELT-Tools im Überblick:
- Power Query — In Power BI und Excel integriert. Ideal für Einsteiger und Self-Service-BI. Kostenlos.
- Azure Data Factory — Microsofts Cloud-ETL-/ELT-Plattform. Enterprise-tauglich, nutzungsbasierte Abrechnung.
- dbt — Der Standard für SQL-basierte Transformationen in modernen Data Stacks. Open-Source-Kern.
- Informatica — Enterprise-ETL mit breiter Connector-Unterstützung.
- Fivetran — Automatisierte Konnektoren zum Laden von SaaS-Daten. Volumenbasierte Preisgestaltung.
- Microsoft Fabric Dataflows — Cloud-ETL/ELT integriert mit Power BI und Fabric.
Für die meisten Organisationen, die bereits Microsoft nutzen, ist die Kombination aus Power Query und Azure Data Factory oder Fabric Dataflows eine logische Wahl. Beginnen Sie mit dem einfachsten Tool, das Ihre Anforderungen erfüllt.