Problemfelder und Lösung (aka Tipps)
Job-Start-Probleme
AFS und Tokens
$ cd <Projektverzeichnis>
$ fs sa . urz:clicnodes write
Jeder, der einen Account auf dem CliC hat, kann dieses Verzeichnis lesen und schreiben.
Interaktive Jobs wollen ins Homeverzeichnis
Clusterknoten "lookup-Recht" im Homeverzeichnis geben, da AFS-Tokenweitergabe nicht immer funktioniert.
$ cd ~
$ fs sa . urz:clicnodes l
PBS
- PBS ist relativ überlastet und anfällig
Nach Jobende, qterm oder qdel ist der Job für ca. 10min noch in der Job-Liste sichtbar und blockiert Knoten.
- Job-Start von großen Jobs blockiert PBS
- Je größer der Job, desto wahrscheinlicher ist es, dass es ein Problem mit einem Knoten gibt
Wenn sich Aufgabe teilen lässt, dann lieber mehrere kleinere Jobs beauftragen.
Checkpointing
Temporäre Daten in /tmp
/tmp/$USER/$PBS_JOBCOOKIE
Inhalt