ETL erklärt — Extract, Transform, Load in einfacher Sprache

Was ist ETL?

ETL steht für Extract, Transform, Load — drei Schritte, die zusammen den Prozess bilden, mit dem Daten aus verschiedenen Quellen zu nutzbaren Informationen zusammengeführt werden. Es ist das Rückgrat praktisch jedes Business-Intelligence- und Data-Warehouse-Systems.

Eine einfache Analogie: Stellen Sie sich vor, Sie kochen ein Gericht mit Zutaten von drei verschiedenen Märkten. Zuerst holen Sie die Zutaten (Extract). Dann waschen, schneiden und bereiten Sie sie vor (Transform). Schließlich geben Sie alles in die Pfanne (Load). Das Ergebnis ist ein fertiges Gericht — oder in Datenbegriffen: ein sauberer, strukturierter Datensatz, bereit zur Analyse.

Ohne ETL müssten Sie manuell Daten zwischen Systemen kopieren, Excel-Dateien zusammenfügen und immer wieder dieselben Bereinigungsaufgaben wiederholen. ETL automatisiert diesen gesamten Prozess, sodass Sie stets über aktuelle, verlässliche Daten verfügen.

Extract — Daten aus Quellen abrufen

Der erste Schritt ist Extract: das Abrufen von Daten aus verschiedensten Quellen. In einer typischen Organisation stammen Daten aus Dutzenden von Systemen:

Datenbanken — SQL Server, PostgreSQL, MySQL, Oracle
Dateien — Excel-Tabellen, CSV-Exporte, XML-Feeds, JSON-Dateien
Cloud-Anwendungen — Salesforce, HubSpot, Google Analytics
APIs — REST- oder GraphQL-Endpunkte von Webservices
Streaming-Daten — IoT-Sensoren, Logdateien, Event Streams

Zwei wichtige Entscheidungen: Vollständige Extraktion (jedes Mal alles abrufen — einfach, aber langsam) vs. Inkrementelle Extraktion (nur Änderungen abrufen — schneller, aber komplexer). Ein guter ETL-Prozess stellt sicher, dass die Extraktion die Quellsysteme nicht belastet.

Transform — Daten bereinigen und anreichern

Der Transform-Schritt ist dort, wo die eigentliche Magie passiert. Rohdaten aus Quellen sind fast nie direkt nutzbar. Typische Transformationen umfassen:

Bereinigung — Duplikate entfernen, fehlende Werte behandeln, Tippfehler korrigieren
Standardisierung — Datumsformate angleichen, Währungen umrechnen, Einheiten normalisieren
Zusammenführung (Joining) — Daten aus verschiedenen Quellen kombinieren (z. B. CRM-Kundendaten mit ERP-Bestelldaten)
Anreicherung — Abgeleitete Informationen hinzufügen (Alter aus Geburtsdatum, Margen aus Umsatz und Kosten)
Aggregation — Detaildaten zusammenfassen (tägliche Transaktionen zu Monatssummen)
Geschäftsregeln — Organisationsspezifische Berechnungen

In der Praxis verbringen Data Engineers 60–80 % ihrer Zeit damit, Daten zu verstehen und zu bereinigen. Das Dashboard zu erstellen ist oft der einfachste Teil.

Load — Daten ins Warehouse laden

Der letzte Schritt ist Load: das Laden der transformierten Daten in die Zieldatenbank, üblicherweise ein Data Warehouse oder Data Lakehouse.

Strategie	Funktionsweise	Einsatzzweck
Vollständiges Laden	Die Zieltabelle wird geleert und komplett neu befüllt	Kleine Datensätze, einfache Szenarien
Inkrementelles Laden	Nur neue oder geänderte Datensätze werden hinzugefügt/aktualisiert	Große Datensätze, häufige Aktualisierungen

Moderne Data Warehouses (Snowflake, BigQuery, Microsoft Fabric) vereinfachen das Laden zunehmend mit Funktionen wie MERGE-Anweisungen, automatischer Partitionierung und skalierbarem Speicher.

ETL vs. ELT — Was ist der Unterschied?

Traditionell findet die Transformation vor dem Laden statt: ETL. In letzter Zeit hat sich jedoch ELT (Extract, Load, Transform) durchgesetzt — Sie laden zuerst die Rohdaten und transformieren dann innerhalb des Warehouse.

Aspekt	ETL	ELT
Wo die Transformation stattfindet	Separater ETL-Server	Im Data Warehouse selbst
Geschwindigkeit	Langsamer bei großen Datenmengen	Schneller durch parallele Verarbeitung
Flexibilität	Transformationen beim Design festgelegt	Rohdaten für neue Transformationen verfügbar
Geeignet für	On-Premises, sensible Daten, Compliance	Cloud-Umgebungen, große Datenmengen, agil

Der Trend geht klar in Richtung ELT, angetrieben durch leistungsstarke Cloud-Warehouses. Tools wie dbt sind speziell für das „T" in ELT konzipiert. Aber ETL ist nicht tot — es ist nach wie vor die bessere Wahl, wenn Sie sensible Daten vor dem Laden filtern müssen (DSGVO-Compliance).

Beliebte ETL-Tools

Wichtige ETL-/ELT-Tools im Überblick:

Power Query — In Power BI und Excel integriert. Ideal für Einsteiger und Self-Service-BI. Kostenlos.
Azure Data Factory — Microsofts Cloud-ETL-/ELT-Plattform. Enterprise-tauglich, nutzungsbasierte Abrechnung.
dbt — Der Standard für SQL-basierte Transformationen in modernen Data Stacks. Open-Source-Kern.
Informatica — Enterprise-ETL mit breiter Connector-Unterstützung.
Fivetran — Automatisierte Konnektoren zum Laden von SaaS-Daten. Volumenbasierte Preisgestaltung.
Microsoft Fabric Dataflows — Cloud-ETL/ELT integriert mit Power BI und Fabric.

Für die meisten Organisationen, die bereits Microsoft nutzen, ist die Kombination aus Power Query und Azure Data Factory oder Fabric Dataflows eine logische Wahl. Beginnen Sie mit dem einfachsten Tool, das Ihre Anforderungen erfüllt.

Häufig gestellte Fragen

Ist ETL dasselbe wie eine Datenpipeline?

Eine Datenpipeline ist ein breiteres Konzept, das den gesamten Weg von der Datenextraktion bis zur Verfügbarkeit für Endnutzer abdeckt. ETL ist eine spezifische Art von Datenpipeline. In der Praxis werden die Begriffe oft synonym verwendet.

Wie oft sollte ein ETL-Prozess laufen?

Das hängt von Ihren Anforderungen ab. Monatlich für Managementberichte, täglich oder stündlich für operative Dashboards, nahezu in Echtzeit für Monitoring. Beginnen Sie mit täglich und erhöhen Sie die Frequenz nur, wenn das Geschäft es wirklich erfordert.

Kann ich ETL ohne Programmierung durchführen?

Ja. Power Query in Power BI ist ein visuelles ETL-Tool, das keinen Code erfordert. Azure Data Factory bietet Drag-and-Drop-Oberflächen. Fivetran automatisiert Extraktion und Laden. Nur für die komplexesten Transformationen sind Programmierkenntnisse (SQL, Python) erforderlich.

Was ist der Unterschied zwischen ETL und einer API?

Eine API ist eine Möglichkeit, Daten abzurufen (das „E" in ETL). ETL ist der vollständige Prozess des Extrahierens, Verarbeitens und Speicherns von Daten. Sie können ETL-Prozesse erstellen, die Daten über APIs abrufen, aber eine API allein ist kein ETL.

Neueste Data Strategie-Nachrichten

gestern 12:06 Seeking WhatsApp Groups or Discords for Data Science/Tech Jobs & Referrals gestern 09:09 Best dataset for a first Excel portfolio project? Sa 20:06 5 BigQuery features almost nobody knows about Sa 16:13 Why AI Governance Breaks Without Exposure Management Sa 15:33 Office culture is pretty bad right now for me atleast - a data engineer

Alle Data Strategie-Artikel →