CAWE – Computer-Aided Data Warehouse Engineering

Inhaltsverzeichnis

Projektbeschreibung
Business Intelligence
ETL-Prozesse
MDA/ADM
Projektteam
Presse
Praxispartner
Demo Prototyp

Die Komplexität von BI-Systemen als heterogene IT-Systeme steigt in Folge einer immer dynamischeren Unternehmensumwelt zunehmend.

Softwaredokumentationen helfen, trotz steigender Systemkomplexität einen detaillierten Überblick über die Arbeitsweise von BI-Systemen zu erhalten. Der Erstellungsprozess von qualitativ hochwertigen Dokumentationen ist jedoch aufwändig und wird in der Praxis – unter Vernachlässigung nachträglicher Änderungen und Anpassungen – meist nur in der Planungs- oder Entwicklungsphase vorgenommen. Durch die Anwendung des Ansatzes der modellgetriebenen Softwareentwicklung ist es den Nachwuchsforschern des Projektes Computer-Aided Data Warehouse Engineering (CAWE) gelungen, eine prototypische Softwarelösung zu entwickeln, welche die vollständig automatisierte Erstellung von nutzerspezifischen Softwaredokumentationen im Bereich von ETL-Prozessen ermöglicht.

Das nachfolgende Video zeigt den Einsatz des CAWE Data Warehouse Documenter (DW Documenter) am Beispiel von Pentaho Data Integration (PDI). Mit der Weiterentwicklung des Werkzeugs für eine Dokumentation von ETL-Prozessen in Microsoft SSIS 2005/2008 wurde bereits begonnen.

Die Ergebnisse dazu werden auf der CeBIT 2012 in Hannover (Halle 26, Gemeinschaftsstand "Forschung für die Zukunft", Stand A10) präsentiert.

Projektbeschreibung

Die Nachwuchsforschergruppe an der Professur Systementwicklung und Anwendungssysteme hat sich zum Ziel gesetzt, ein vollständig modellgetriebenes Vorgehen zur Unterstützung des Lebenszyklus von Data-Warehouse-Systemen zu entwickeln.

Am 01.08.2010 hat die Chemnitzer Wirtschaftsinformatik unter der Leitung von Prof. Peter Gluchowski ein auf 3 Jahre angesetztes Projekt zum Thema Computer-Aided Data Warehouse Engineering (kurz: CAWE) gestartet. Das Vorhaben wird vom Europäischen Sozialfonds (ESF) mit mehr als 735.000 € gefördert und greift aktuelle Forschungsarbeiten des Lehrstuhls auf. Der bestehende Ansatz für die Entwicklung und das Management großer Data-Warehouse-Systeme soll im Rahmen des Projektes zu einer umfassenden Methodik weiter entwickelt werden. Hierbei sind bereits erprobte Verfahren des Software Engineering, wie z.B. Model Driven Architecture® (MDA®), auf die Data-Warehouse-Domäne zu übertragen. Zentraler Forschungsgegenstand von CAWE ist ein vollständig modellgetriebenes Vorgehen, welches von der Anforderungsaufnahme über die Datenmodellierung durch den Nutzer bis zur physischen Datenstruktur Konsistenz herstellt.

In der Praxis besteht ein Mangel an ganzheitlichen Methoden und Werkzeugen, welche die Komplexität in bestehenden Data-Warehouse-Systemen beherrschbar machen und die Zusammenführung bestehender sowie die Erstellung neuer Datenbanklösungen unterstützen. Vor allem für KMU ist es kaum möglich, selbstständig die noch ausstehende Forschungs- und Entwicklungsarbeit zu erbringen. Um diese Lücke zu füllen, hat das Projekt die Aufgabe, hochqualifizierte Nachwuchsforscher auszubilden, welche diese Methodik im Anschluss effizient auf komplexe praktische Problemstellungen anwenden können. CAWE wird dabei von mehreren sächsischen Unternehmen durch die Bereitstellung von Fallstudien und konkreten Anwendungsszenarien unterstützt. Es handelt sich bei der Zusammenarbeit mit Praxispartnern nicht um Auftragsforschung, sondern um die Möglichkeit, die Methodik im Praxiseinsatz zu evaluieren und die Ergebnisse direkt in die Forschung einfließen zu lassen.

Business Intelligence

Der Begriff Business Intelligence (BI) wird seit Mitte der 1990er Jahre verwendet und beschreibt einen analytischen Prozess, der die Sammlung, die Aufbereitung und die Präsentationen von unternehmens- und marktbezogenen Daten unter Verwendung mathematischer Modelle und analytischer Methoden unterstützt. Die Ergebnisse werden genutzt, um im Hinblick auf die Unternehmensziele bessere operative oder strategische Entscheidungen zu ermöglichen. Aus Praxissicht versteht man unter „Business Intelligence“ die Automatisierung des Berichtswesens auf Grundlage der in ERP-Systemen anfallenden Unternehmensdaten, die unter verschiedenen Blickwinkeln analysiert und ggf. bewertet werden. Die Analyse erfolgt dabei nicht direkt in den ERP-Systemen, sondern in einer davon getrennten Datenbasis, dem sogenannten Data-Warehouse (DWH). Softwarelösungen, die im BI-Umfeld zum Einsatz kommen, werden unter der Bezeichnung BI-Systeme zusammengefasst.

ETL-Prozesse

Extract, Transform, Load (ETL) beschreibt einen Prozess, bei dem Daten aus mehreren, zum Teil unterschiedlich strukturierten Datenquellen in einer Zieldatenbank zusammengefasst werden.

Während des Extraktionsschrittes wird ein Ausschnitt der Daten aus den Quellsystemen extrahiert und für nachfolgende Transformation zur Verfügung gestellt. Die Quellen können sich aus verschiedenen Informationssystemen mit unterschiedlichen Datenformaten und -strukturen zusammensetzen. Hierbei findet eine Schematransformation vom Schema der Quelldaten in das Schema des Zielbereichs statt. Um die Aktualität der Daten im DWH zu gewährleisten, muss die Extraktion regelmäßig durchgeführt werden. Dies kann synchron mit den Quellen oder asynchron geschehen. Bei synchroner Extraktion wird jede Änderung am Quellsystem sofort an das Data-Warehouse propagiert. Die asynchrone Extraktion kann periodisch, ereignisgesteuert oder anfragegesteuert erfolgen.

Der Transformationsschritt beinhaltet im Wesentlichen ein Schema-Mapping, also die Anpassung der Daten an die vorgegebenen Zielstrukturen und die Datenbereinigung. Die Transformation findet in einem eigenen Arbeitsbereich, der sogenannten Staging-Area statt.

Während des Ladeprozesses werden die Daten aus dem Arbeitsbereich in das Data-Warehouse überführt. Dies soll in der Regel möglichst effizient geschehen, so dass die Datenbank während des Ladens nicht oder nur kurz blockiert wird und ihre Integrität gewahrt wird.

Model Driven Architecture/Architecture Driven Modernization

Die Model Driven Architecture (MDA) ist ein Framework für modellgetriebene Softwareentwicklung, welches das Ziel der Beschleunigung, Komplexitätsreduzierung und Kostensenkung des Entwicklungsprozesses verfolgt. Der primäre Fokus der MDA liegt im Forward-Engineering. Die MDA besteht aus einer Schichtenarchitektur. Den Kern bilden das Meta Object Facility (MOF), die Unified Modeling Language (UML) sowie das Common Warehouse Metamodel (CWM).

Die Architecture Driven Modernization (ADM) beschreibt den Modernisierungsprozess eines Informationssystems und gliedert sich in drei Teilbereiche: Ist-Zustand (Assesment), Überarbeitung (Refactoring) und Transformation. Die Ziele bestehen in der Verbesserung, Modifikation, Interoperabilität, Refakturierung, Restrukturierung, Wiederverwendung, Portierung, Migration, Übersetzung und Integration von Softwareartefakten. Der primäre Fokus der ADM liegt im Re-Engineering. Im Rahmen der ADM werden drei Transformationstypologien: Formale Transformation, Anreichernde Transformation und Abstraktionsebenen-übergreifende Transformation unterschieden.

Automatisierte Dokumentationen

Eine Dokumentation wird erstellt, um zu beschreiben, wie ein Informationssystem aus technischer Sicht sowie aus Sicht der Endanwender funktioniert. Dokumentationen aus frühen Phasen eines Softwareprojektes (Design-/Entwurfsphase oder Entwicklungsprozess), die nicht aktualisiert werden, veralten schnell, wodurch der Nutzen der Dokumentation sinkt. Einen weiteren Grund für eine unzureichende Dokumentation bilden qualitative Mängel, wie schlecht lesbare oder schwer verständliche Inhalte. Eine vollständig veraltete oder nicht sinnvoll nutzbare Dokumentation kann mit dem Fehlen einer Dokumentation gleichgesetzt werden. Re-Dokumentation versucht dieses Problem zu lösen, indem es die nachträgliche Erzeugung einer Dokumentation von existierenden Systemen vorschlägt.

BI-Systeme sind heterogen aufgebaut und bestehen aus mehreren, meist unterschiedlichen Teilsystemen, was die Nachvollziehbarkeit und Transparenz ohne eine ausreichende Dokumentation im Vergleich zu monolithischen Softwaresystemen zusätzlich erschwert. Gerade in einem derart komplexen System ist es wichtig, eine gute Dokumentation bereitzustellen, um das Vertrauen in das System zu stärken. Steht bei monolithischen Systemen die Dokumentation der Systeme selbst im Vordergrund, so existieren bei heterogenen Systemen weitere Anforderungen an den Umfang einer Dokumentation: neben der jeweiligen Systembeschreibung der einzelnen beteiligten Systeme wird auch eine Beschreibung der statischen Gesamtarchitektur sowie der zwischen den beteiligten Systemen existierenden Datenflüsse benötigt.

In diesem Zusammenhang forscht die CAWE Nachwuchsforschergruppe an Lösungen, die eine voll-ständig modellgetriebene, automatisierte Re-Dokumentation von BI-Systemen ermöglichen.

Projektteam

Projektmitarbeiter

Dr. Marcus Hofmann
Frieder Jacobi, M.Sc.
Dipl.-Inf. Robert Krawatzeck
Dipl.-Inf. Sandro Weiser

Sekretariat

Dipl. Kffr. (FH) Susanne Meisel

Studentische Hilfskräfte

Anja Stoll
Mathias Keller
Pit Friedrich
Felix Förster
Quang Tran
Andreas Uhlig

Presse

Praxispartner

Demo Prototyp

Das Video zeigt die Anwendung des CAWE Data Warehouse Documenter (DW Documenter) Prototyps zur automatisierten Generierung konfigurierbarer ETL-Dokumentation am Beispiel von Pentaho Data Integration (PDI). Ausgehend von bestehenden Systemen werden durch Reverse-Engineering verschiedene Modelle abgeleitet und mittels Transformationen in eine einheitliche Dokumentation („Re-Dokumentation“) überführt.