Klassifikation und Modellierung der Ausnahmebehandlung in ETL-Prozessen
„Extract, Transform, Load” (ETL) ist ein Prozess, der Daten aus mehreren ggf. unterschiedlich strukturierten Datenquellen in einer Zieldatenbank vereinigt. Bekannt ist der Prozess vor allem durch seine Bedeutung beim Betrieb eines Data-Warehouses. Hier müssen große Datenmengen aus mehreren operationalen Datenbanken konsolidiert werden, um dann in dem Data Warehouse gespeichert zu werden.“ (Wikipedia)
Bei der Überführung von unterschiedlich strukturierten Daten in eine gemeinsam strukturierte (konsistente) Form können Ausnahmen (i.S.v. Fehlern bzw. nicht standardisiert verarbeitbaren Besonderheiten) auftreten. Beispiele für Ausnahmen sind: das Quellsystem ist zeitweise nicht verfügbar; die Konvertierung eines Wertes in einen Datentyp mit eingeschränkter Ausdrucksstärke (bspw. von Zeichenkette zu Ganzzahl) ist nicht möglich; Private-Key-Lookup liefert NULL. Die Grenze zwischen einem echten Fehler (der das System zum Anhalten bringt; i.S.e. unbehandelten Ausnahme) und einer behandelten (d.h. abgefangenen) Ausnahme (nach dessen Behandlung das System weiterlaufen kann) ist fließend. Die Spezifizierung der Ausnahmebehandlung sollte also bereits in der Designphase des ETL-Prozesses beachtet und modelliert werden, um möglichst viele Ausnahmen abfangen zu können.
Folgende Fragen sollen beantwortet werden:
- Welche Arten von Fehlern gibt es? Welche Klassifikationen werden in der Literatur beschrieben?
- Welche konkreten Instanzen einer Fehlerart können auftreten?
- Welche Möglichkeiten gibt es für jede Fehlerart, sie abzufangen bzw. sie sicher zu verarbeiten?
- Welche Methoden zur Spezifizierung gibt es? Wie kann das Ganze modelliert werden?
Zielartefakte sind:
- Klassifikation von Fehlerarten unter Einbeziehung existierender Klassifikationen. (Was wird behandelt?)
- Konzeptionelles Modell zur Fehlerbehandlungsbeschreibung unter Einbeziehung existierender und thematisch benachbarter Modelle. (Wie wird es behandelt, in welcher Form?)
Quellen:
- Alkis Simitsis, Kevin Wilkinson, Malu Castellanos, and Umeshwar Dayal. 2009. QoX-driven ETL design: reducing the cost of ETL consulting engagements. In Proceedings of the 35th SIGMOD international conference on Management of data (SIGMOD ’09), Carsten Binnig and Benoit Dageville (Eds.). ACM, New York, NY, USA, 953-960. DOI=10.1145/1559845.1559954 http://doi.acm.org/10.1145/1559845.1559954
- Simitsis, A.; Wilkinson, K.; Dayal, U.; Castellanos, M.; Optimizing ETL workflows for fault-tolerance.Data Engineering (ICDE), 2010 IEEE 26th International Conference on. HP Labs., Palo Alto, CA, USA. 2010. DOI=10.1109/ICDE.2010.5447816
- Jie Liu, Senlin Liang, Dan Ye, Jun Wei und Tao Huang. ETL Workflow Analysis and Verification U-sing Backwards Constraint Propagation. Advanced Information Systems Engineering. Lecture Notes in Computer Science, 2009, Volume 5565/2009, 455-469, DOI: 10.1007/978-3-642-02144-2_36
- Gorawski, M.; Marks, P.; Fault-Tolerant Distributed Stream Processing System.Database and Expert Systems Applications, 2006. DEXA ’06. 17th International Workshop on. Inst. of Comput. Sci., Silesian Univ. of Technol., Gliwice. 2006. DOI=10.1109/DEXA.2006.61
- Zineb El Akkaoui and Esteban Zimanyi. 2009. Defining ETL worfklows using BPMN and BPEL. In Proceeding of the ACM twelfth international workshop on Data warehousing and OLAP (DOLAP ’09). ACM, New York, NY, USA, 41-48. DOI=10.1145/1651291.1651299 http://doi.acm.org/10.1145/1651291.1651299
- ETL Exception Handling (DWHInfo.com) http://dwhinfo.com/Technical/DataWareHousingETLExceptionHandling.html
- Data Cleansing http://en.wikipedia.org/wiki/Data_cleansing
Es ist selbstständig nach weiteren relevanten Quellen zu recherchieren!















