Gefördert durch
BMBF Logo

 Clusterfinder

Clusterfinder ist eine Anwendung innerhalb des AstroGrid-D-Projektes, die die Übertragung und Leistung einer typischen, datenintensiven astrophysikalischen Anwendung testet. Der Algorithmus für einen beliebigen Punkt am Himmel hängt nur von den Daten nahegelegener Punkte ab, so dass der Datenzugriff und die Rechnungen leicht parallelisiert werden können und sich Clusterfinder für eine Anwendung auf dem Grid eignet. In der Astronomy kam es in den letzten Jahren zu einer Verlagerung der Forschung weg von Einzelobjekten hin zu einer grossen Zahl von betrachteten Objekten, die bei verschiedenen Wellenlängen des elektromagnetischen Spektrums beobachtet werden. Daher können die Techniken, wie sie für den Clusterfinder entwickelt wurden, auch  in anderen Gebieten der Astronomie eingesetzt werden. Das wissenschaftliche Ziel des Clusterfinders ist es, eine verlässliche Zuordnung von Galaxienhaufen auf optischen und Röntgenaufnahmen zu erreichen.

Kosmologie und Galaxienhaufen

Nach dem Urknall kollabierte die Materie in Objekte verschiedener Grösse. Gas sammelte sich zu Sternen, Sterne zu Galaxien, doch die grössten Strukturen dieser Art sind Haufen mit Hunderten von Galaxien. Zwischen den Galaxien eines Haufens befindet sich ionisiertes Gas, das so heiss ist, dass es vor allem im Röntgenbereich abstrahlt. Haufen sind ideale Indikatoren für die gross-skaligen Sturkturen im Universum, so dass das Studium einer grossen Zahl von Haufen zu der Beantwortung von fundamentalen Fragen der Kosmologie dienen kann.

Es gibt verschiedene Wege, die Haufen zu beobachten. Der offensichtlichste Weg ist die Beobachtung mit einem optischen Teleskop und die anschliessende Suche nach Gebieten am Himmel mit aussergewöhnlich vielen Galaxien. Diese Methode ist meistens jedoch nicht erfolgreich, da die Galaxien sich entlang der Sichtlinie verteilt haben können und nicht in einem kompakten Haufen. Eine andere Methode ist es, die Röntgenstrahlung des Gases zwischen den Galaxien zu beobachten. Auch dies ist nicht völlig eindeutig, da es auch viele andere Quellen für Röntgenstrahlung gibt. Zur verlässlichen Identifikation von Haufen auf einem grossen Bereich des Himmels wurde am Max-Planck-Institut für extraterrestrische Physik die "clusterfinder"-Methode entwickelt. Unter Anwendung der Theorie der Punktprozesse berechnet man eine statistische Wahrscheinlichkeit eines Haufens an jedem Punkt des Raumes, zuerst unter Verwendung des SDSS (der grössten, derzeit verfügbaren Kataloges von Galaxien, der ein Fünftel des Himmels abdeckt und fast 2 Millionen Galaxien enthält) und danach mit dem Röntgenatlas RASS (dem grössten Atlas fuer astronomische Röntgenquellen, mit etwa 150 000 Einträgen). Da eine Häufigkeitsspitze in dem einen Atlas wahrscheinlich keinen Haufen darstellt, solange er nicht auch in dem anderen Atlas auftritt, wird die Wahrscheinlichkeit der Datensätze multipliziert, und entsprechende Korrelationen in den Katalog der Galaxienhaufen übertragen.

Übertragung, parallele Rechnung und Logistic im Grid

Der Clusterfinder wurde als Fortran-90-Programm entwickelt, das als Eingabe neben einem Kosmologie- und Galaxienhaufenmodell das Gitter der Himmelskoordinaten und die Rotverschiebung verwendet, für die die Wahrscheinlichkeit zu berechnen ist. Da die Wahrscheinlichkeit für einen Haufen basierend auf Daten einer Himmelsregion nicht von der in einer anderen abhängt, kann der Algorithmus einfach parallelisiert werden. Dies ist vorteilhaft, da die Rechnung sehr aufwendig sein können. Eine Durchmusterung aller Daten braucht etwa 20 000 CPU-Stunden. Während dies auf einem Prozessor etwa 2 Jahre dauern würde, kann man bei Rechenclustern auf Hunderte von Prozessoren gleichzeitig zugreifen, wodurch die Rechenzeit auf einige Tage schrumpft. Eine Versuchsrechnung in einem kleineren Gebiet wird dadurch von einem Monat auf eine Nacht verkürzt.

Um ein Programm auf 100 Maschinen laufen zu lassen, muss es zunächst auf die Maschinen gebracht werden. Dies kann ein komplexer Prozess sein und schliesst die Übertragung des Quellcodes (oder des Binaries), von Skripten und Konfigurationsfiles, die Identifikation lokaler Bibliotheken, Diensten und Befehlen und das Setzen von Umgebungsvariablen ein. Das Grid besteht per Definition aus einer Anzahl von heterogenen Maschinen, was die Übertragung erschwert. Zur Kontrolle dieses Prozesses wurden im AstroGrid-D zwei Systeme entwickelt: grid-modules und environments. Grid-modules verkapseln die Unterschiede der verschiedenen Anwendungen und bieten dem Nutzer eine einheitliche Schnittstelle für übliche Prozesse wie Installationen, Updates und Kompilieren. Indem man den Quellcode in einem SVN-Bereich hält, kann man Updates der letzten Version leicht durchführen. Mit diesen Systemen kann Clusterfinder auf den Maschinen mit geringem Aufwand in Produktion gehen. Die Jobs werden als globus-Jobs von einer Grid-Maschine mittels irgendeines Grid-Clients (globus, CoG-kit, gsi-sshterm) verschickt. Zum Schluss werden die Ergebnisse durch den zentralen Rechner gesammelt entweder mittels post-staging oder direkt durch globus-url-copy.

Im Falle des Clusterfinders muss man besonders auf die Inputdaten achten. Die SDSS- and RASS-Kataloge sind zu gross, um sie alle auf eine Maschine zu laden, und erst recht nicht auf 100 Maschinen. Daher wird im makefile, dass den Clusterfinder-Workflow steuert die Anfrage an die Daten ebenfalls definiert.

Eine wichtige und schwierige Aufgabe befindet sich auf dem Level über der Jobversendung und dem Filetransfer: die Logistic der Ausplittung der gesamten Rechnung in einzelne Aufgaben, die parallel abgearbeitet werden können, die Identifikation von Rechnern, die die Aufgabe ausführen können, die Zusammenführung der Ergebnisse und die Dokumentation der Bedingungen, unter denen die Rechnungen ausgeführt wurden. Beim Clusterfinder übernimmt dies eine postgres-Datenbasis.

Clusterfinder als Griddienst

Eine Demoversion des Clusterfinder ist auf dem Portal verfügbar. Der Nutzer kann die Koordinaten eingeben und bekommt eine Karte der Wahrscheinlichkeiten zurück. Es ist geplannt, das Portal zu erweitern, um eine Produktionsversion als Griddienst zu erhalten mit Kontrolle aller Eingabeparameter. Weiterhin wird erwogen, dem Nutzer den Austausch von Modulen zu erlauben, z.B. den des Moduls zur Berechnung der Haufenprofile, und die Verwendung von anderen Quellen, und so ein leistungsfähiges Tool zur Behandlung von astronomischen Fragen zu erstellen.

Kontakt und weitere Informationen

Dr. Arthur Carlson (awc _a t_ mpe.mpg.de), Max-Planck-Institut für extraterrestrische Physik, weitere Informationen