Ausgabedatum: 1.6.2006
Abgabedatum: offen
Zielstellung:
Moderne Computercluster werden in unterschiedlichen Größen eingesetzt.
Die Anzahl von kleinen und mittleren Installationen bis etwa 128 Knoten
wächst kontinuierlich. Am oberen Rand des Spektrums werden sehr große
Cluster entworfen, deren Dimension mehrere 1000 Rechenknoten umfaßt. Die
Administration derartiger Systeme bedarf eines Überwachuns- und
Monitoringsystems, das skalierbar auf diesen unterschiedlichen
Parallelrechnern einsetzbar ist.
Ziel dieser Arbeit ist die Analyse vorhandener
Cluster-Überwachungsmechanismen und der Entwurf von Erweiterungen zu
diesen bereits vorhandenen Werkzeugen.Dabei
soll die Arbeit insbesondere darauf eingehen, welche irregulären
Verhaltensweisen bzw. Fehler festgestellt werden können und wie darauf
reagiert wird. Des weiteren soll die Skalierbarkeit auf große
Knotenzahlen und der Einfluß auf Nutzerprozesse untersucht werden.
Es sollen geeignete Formen der statistischen
Auswertung gefunden werden, um mögliche Fehlerhäufungen festzustellen
und die somit steigende Wahrscheinlichkeit eines Ausfalls zu ermitteln.
Anforderungen:
Betreuer: Torsten Mehlan
Betreuender Hochschullehrer: Prof. Dr. Wolfgang Rehm