Klassifikation und Modellierung von Anforderungen an die Performance von ETL-Prozessen
„Extract, Transform, Load” (ETL) ist ein Prozess, der Daten aus mehreren ggf. unterschiedlich strukturierten Datenquellen in einer Zieldatenbank vereinigt. Bekannt ist der Prozess vor allem durch seine Bedeutung beim Betrieb eines Data-Warehouses. Hier müssen große Datenmengen aus mehreren operationalen Datenbanken konsolidiert werden, um dann in dem Data Warehouse gespeichert zu werden.“ (Wikipedia)
Die Überführung von Daten aus Quellsystemen in ein Zielsystem erfordert unweigerlich den Einsatz von Ressourcen (Zeit und Arbeitsspeicher). Der Einsatz dieser Ressourcen wird üblicherweise sorgsam geplant, um das Kosten-Nutzen-Verhältnis zu optimieren. In diesem Zusammenhang werden die Anforderungen an ETL-Prozesse dermaßen gestellt, dass die gewünschten Ergebnisse (Bsp: minimales bzw. maximales Alter von aggregierten Daten im DWH) mit einem bestimmten, begrenzten Einsatz von Ressourcen (Bsp: minimaler Arbeitsspeicherbedarf; minimale Zeit von gesperrten Datenbanken beim Einsatz von pessimistischem Locking; minimale Behinderung der Arbeit mit einem System durch Ausführung der ETL-Prozesse während arbeitsfreier Nachtstunden) erreicht werden.
Folgende Fragen sollen beantwortet werden:
- Welche Arten von Anforderungen gibt es? Was wird durch sie beabsichtigt? Welche Klassifikati-onen werden in der Literatur beschrieben?
- Welche konkreten Instanzen von Anforderungen können gestellt werden?
- Welche Möglichkeiten gibt es für jede Anforderung, ihr gerecht zu werden? Wie wird eine Ab-weichung ggf. behandelt?
- Welche Methoden zur Spezifizierung gibt es? Wie kann das Ganze modelliert werden? (Beziehen Sie dabei auch Service Level Agreements mit ein, vgl. auch ITIL.)
Zielartefakte sind:
- Klassifikation von Performancekriterien unter Einbeziehung existierender Klassifikationen. (Was wird gefordert?)
- Konzeptionelles Modell zur Anforderungsbeschreibung/-erhebung unter Einbeziehung existie-render und thematisch benachbarter Modelle. (Wie wird es gefordert, in welcher Form?)
Quellen:
- Alkis Simitsis, Kevin Wilkinson, Malu Castellanos, and Umeshwar Dayal. 2009. QoX-driven ETL design: reducing the cost of ETL consulting engagements. In Proceedings of the 35th SIGMOD international conference on Management of data (SIGMOD ’09), Carsten Binnig and Benoit Dageville (Eds.). ACM, New York, NY, USA, 953-960. DOI=10.1145/1559845.1559954 http://doi.acm.org/10.1145/1559845.1559954
- Simitsis, A.; Wilkinson, K.; Dayal, U.; Castellanos, M.; Optimizing ETL workflows for fault-tolerance.Data Engineering (ICDE), 2010 IEEE 26th International Conference on. HP Labs., Palo Alto, CA, USA. 2010. DOI=10.1109/ICDE.2010.5447816
- Len Wyatt, Brian Caufield und Daniel Pol. Principles for an ETL Benchmark. Performance Evalua-tion and Benchmarking. Lecture Notes in Computer Science, 2009, Volume 5895/2009, 183-198, DOI: 10.1007/978-3-642-10424-4_14
- Alkis Simitsis, Panos Vassiliadis, Umeshwar Dayal, Anastasios Karagiannis und Vasiliki Tziovara. Benchmarking ETL Workflows. Performance Evaluation and Benchmarking. Lecture Notes in Computer Science, 2009, Volume 5895/2009, 199-220, DOI: 10.1007/978-3-642-10424-4_15
- SETLabs Briefings VOL7 NO1 2009: Performance Engineering and Enhancement, Infosys Technologies Ltd.
- Service Level Agreement Metriken http://en.wikipedia.org/wiki/Service_level_agreement#Common_metrics
- ITIL http://en.wikipedia.org/wiki/Information_Technology_Infrastructure_Library#Service_Design
- Capacity Management http://en.wikipedia.org/wiki/Capacity_management
- Application Performance Management http://en.wikipedia.org/wiki/Application_Performance_Management
- Performance Analysis (Profiling) http://en.wikipedia.org/wiki/Performance_analysis
Es ist selbstständig nach weiteren relevanten Quellen zu recherchieren!















