15.08.14 15:31

Batchsystem für HPC-System „HILBERT“ grundlegend aktualisiert

Am Dienstag, dem 12.08.2014, hat das HPC-Team mit Unterstützung eines Mitarbeiters der Firma Altair das Batchsystem PBS Professional (PBSPro), welches für die Verwaltung und Verteilung der Rechenjobs auf dem HPC-Cluster „HILBERT“ zuständig ist, aktualisiert. Dabei wurde besonderer Wert darauf gelegt, die stark unterschiedlichen Anforderungen und Workloads der HPC-Nutzer aus den verschiedenen Instituten fair und ausgewogen nebeneinander berücksichtigen zu können. Die Arbeiten waren nötig geworden, da der HPC-Cluster sehr gut von den forschenden Instituten an der HHU angenommen wird und nahezu rund um die Uhr unter Voll-Last steht.

Der HPC-Cluster „HILBERT“ wird vom HPC-Team am ZIM als zentrale IT-Ressource betrieben, die allen Mitgliedern der Heinrich-Heine-Universität offen steht. Aktuell wird „HILBERT“ von Instituten aus der Biologie, Chemie, Informatik, Mathematik, Pharmazie, Physik, Psychologie und den Wirtschaftswissenschaften genutzt.

So unterschiedlich wie die jeweiligen Forschungsprojekte sind auch die Eigenschaften der Rechenaufträge, die an den Cluster gestellt werden: sog. „Batchjobs“ (also tausendfach der gleiche Rechenauftrag mit jeweils anderen Daten) teilen sich den Cluster mit „massiv-parallelen“ Rechnungen (ein einziger Job, der gleichzeitig auf hunderten von CPU-Kernen läuft) oder Programmen, die sehr viel Hauptspeicher (teilweise einige Terabyte!) benötigen.
Unser Bestreben ist es, mit Hilfe des Batchsystems PBSPro für eine faire Verteilung der sehr unterschiedlichen Jobs zu sorgen. Angesichts der vielfältigen Anforderungen ist dies eine komplexe Aufgabe, die wir jetzt mit Hilfe von aufwendig parametrisierten Algorithmen lösen. Diese Parametrisierung wird von uns ständig daraufhin geprüft evaluiert, ob sie dem Nutzerverhalten noch gerecht wird.

Die HPC-Nutzer brauchen jetzt beim Abschicken von Jobs nichts Spezielles mehr tun: Alle Jobs werden in die gleiche „Warteschlange“ gestellt und das Batchsystem erledigt automatisch den Rest, u.a. indem es die Jobs ihren Eigenschaften entsprechend auf spezialisierte Warteschlangen verteilt.
Neu ist jetzt auch, dass Jobs, die schon lange auf Ihren Start warten, automatisch mit steigender Wartezeit in der Priorität nach oben rutschen. So werden Jobs, die lange Zeit nicht berücksichtigt werden konnten, mit der Zeit zu sog. „Top Jobs“, die definitiv als nächste gestartet werden. Auch gibt es jetzt gemeinsame Warteschlagen für die Shared-Memory-Knoten (UV2000) und die MPI-Knoten – das Batchsystem platziert die Jobs jeweils auf die passende Architektur. Darüber hinaus ist schon Alles dafür eingerichtet, um demnächst auch gezielt GPUs für CUDA-basierte Programme anfordern zu können.
 Mit der vom HPC-Team entwickelten Webapplikation <myJAM/> (https://myjam.uni-duesseldorf.de) können sich die HPC-User jederzeit über die Verteilung in den Warteschlagen sowie die Auslastung des Clusters informieren.

Ansprechpartner: Dr. Stephan Raub (raub(at)hhu.de)
Support und Störungsmeldung: hpc-support(at)hhu.de

Responsible for the content: E-MailZIM