Navigation

Inhalt Hotkeys

Projekt CAWE
ETL-Prozesse

Extract, Transform, Load (ETL) beschreibt einen Prozess, bei dem Daten aus mehreren, zum Teil unterschiedlich strukturierten Datenquellen in einer Zieldatenbank zusammengefasst werden.

Während des Extraktionsschrittes wird ein Ausschnitt der Daten aus den Quellsystemen extrahiert und für nachfolgende Transformation zur Verfügung gestellt. Die Quellen können sich aus verschie-denen Informationssystemen mit unterschiedlichen Datenformaten und -strukturen zusammensetzen. Hierbei findet eine Schematransformation vom Schema der Quelldaten in das Schema des Zielbereichs statt. Um die Aktualität der Daten im DWH zu gewährleisten, muss die Extraktion regelmäßig durchgeführt werden. Dies kann synchron mit den Quellen oder asynchron geschehen. Bei synchroner Extraktion wird jede Änderung am Quellsystem sofort an das Data-Warehouse propagiert. Die asynchrone Extraktion kann periodisch, ereignisgesteuert oder anfragegesteuert erfolgen.

Der Transformationsschritt beinhaltet im Wesentlichen ein Schema-Mapping, also die Anpassung der Daten an die vorgegebenen Zielstrukturen und die Datenbereinigung. Die Transformation findet in einem eigenen Arbeitsbereich, der sogenannten Staging-Area statt.

Während des Ladeprozesses werden die Daten aus dem Arbeitsbereich in das Data-Warehouse überführt. Dies soll in der Regel möglichst effizient geschehen, so dass die Datenbank während des Ladens nicht oder nur kurz blockiert wird und ihre Integrität gewahrt wird.

Presseartikel