Gefördert durch
BMBF Logo


Arbeitspaket III (AP-III): Verteiltes Management von Dateien

Dateien enthalten sowohl Eingabe- als auch Ausgabedaten von Programmen. Typischerweise sind die zu verwaltenden Datenmengen sehr groß (mehrere TB). Daher müssen effiziente und zuverlässige Methoden für den Zugriff auf bzw. den Transport von Dateien bereitgestellt werden. Diese Methoden müssen berücksichtigen, dass Rechenknoten von Clustern u.U. keine direkte Verbindung zum Internet haben (im Gegensatz zu Login-/Frontend-Knoten).

Ein weiterer Aspekt des Zugriff auf astronomische Datensätze ist, dass ggf. nur einzelne räumliche bzw. zeitliche Ausschnitte für eine sich anschließende Analyse oder grafische Auswertung erforderlich sind. Da jedes Dateiformat spezielle Filter für die Auswahl der Teilbereiche erfordern kann, muss eine Möglichkeit vorgesehen werden, diese effizient einzubinden.

Können oder sollen die Ausgabedaten eines Programmes nicht sofort nach dessen Beendigung weiterverarbeitet werden, müssen diese an geeigneter Stelle zwischengespeichert werden. Verschiedene Rechenressourcen können entsprechende Speicherkapazitäten in unterschiedlichster Weise bereitstellen. Daher soll eine Software entwickelt werden, die unabhängig von den lokalen Gegebenheiten Speicherkapazität über eine einheitliche Schnittstelle anbietet.

Bei der verteilten Bearbeitung von Daten (z.B. in parallelen numerischen Simulationen) können an verschiedenen Orten Dateien hinterlegt werden. Zusätzlich können Dateien für die Optimierung des Zugriffs (Optimierung in Bezug auf die Ausfallsicherheit von Datenservern oder auf schnellstmögliche Datenübertragung) an verschiedene Orte repliziert werden. In beiden Fällen wird eine Verwaltung der Replikationsorte benötigt. Wird bei der Bezeichnung der Dateien vom Ort der Speicherung abstrahiert (Aufgabe der Replikatverwaltung), können die Zugriffsmethoden auf Dateien so erweitert werden, dass immer die günstigste Kopie automatisch ausgewählt wird.

Organisationsstruktur

Partner: ZIB, AEI, AIP, MPA, MPE, TUM, ZAH

Arbeitspaket-Verantwortlicher: Thomas Röblitz (ZIB)

Technische Ansprechpartner:

  • Thomas Radke (AEI)
  • Detlef Elstner (AIP)
  • Hans-Martin Adorf (MPA)
  • Wolfgang Voges (MPE)
  • Angelika Reiser (TUM)
  • Stefan Jordan (ZAH)
  • Thomas Röblitz (ZIB)

Arbeitsplan

  1. Spezifikation der Anforderungen und Entwurf der Architektur
    Zugriffsmethoden (Teilbereiche von Dateien, Firewalls, etc.), einheitliche Speicherverwaltung, Replikaverwaltung, Staging-Methoden; Berücksichtigung von Verbindungen zu anderen Arbeitspaketen, insbesondere zur Verwaltung der Metadaten
  2. Entwicklung der Zugriffsmethoden
    Zunächst werden Zugriffsmethoden für den Zugriff auf Teilbereiche lokaler Datensätze und Dateien entwickelt. Im zweiten Schritt werden diese so erweitert, dass die Anbindung an das Internet berücksichtigt wird.
  3. Entwicklung der Datenspeicherverwaltung
    Es wird eine flexible Schnittstelle für den Zugriff auf die lokale Datenspeicherverwaltung implementiert. Neben einer einheitlichen Schnittstelle für die Anwendungen muss diese Komponente leicht an unterschiedliche lokale Gegebenheiten angepasst werden können.
  4. Entwicklung der Replikatverwaltung
    Die Replikatverwaltung stellt einen Informationsdienst für die Zuordnung von logischen Dateinamen zu physikalischen Speicherorten bereit. In der ersten Version wird nur ein zentraler Informationsdienst unterstützt. Diese Version stellt auch Methoden für die Registrierung von Replikaten und den Zugriff auf diese mittels des logischen Namens bereit (wobei eine Kopie zufällig ausgewählt wird). Die zweite Version verwendet verteilte Informationsdienste und implementiert eine optimierte Auswahl einer Kopie.
  5. Test der Entwicklungen durch Adaption der Community-Anwendungen
    Ausgewählte Community-Anwendungen (z.B. zur entfernten Visualisierung hochvolumiger hierarchischer Simulationsdatensätze) integrieren schrittweise die bereitgestellte Funktionalität. Mit dem Testen der Entwicklungen soll eine hohe Qualität der Software sichergestellt werden.