Gefördert durch
BMBF Logo

 Datenstrommanagement

Motivation

Einige astrophysikalische Anwendungen erfordern eine effiziente und verteilte Verarbeitung großer Datenmengen, die sowohl in Datenbanken als auch als Datenströme vorliegen. Mit Hilfe des Datenstrommanagements können Mitglieder des AstroGrid-D Community Grids Datenströme publizieren und abonnieren und diese, gegebenenfalls auch an persistente Daten gekoppelt, effizient und verteilt verarbeiten.
  1. Verbreitung, Publikation und Verarbeitung von Daten im Grid.

    Forscher planen in zunehmenden Maße, große Datenmengen im Grid anzubieten (z.B. die Millennium-Simulation oder große astronomische Kataloge) und verteilt im Grid abzuarbeiten. Die dabei verwendeten Abläufe reichen von komplexen Operationen bis hin zu vollständigen Prozessbeschreibungen oder Workflows (siehe ProC).

    Durch Verwendung von mobilem Code, einer detaillierten Beschreibung und intelligenten Verteilungsmechanismen parallelisieren wir die Verarbeitung und minimieren die Netzlast. Eine ausgeglichene Lastverteilung zwischen den Gridknoten innerhalb des Netzwerks ist dabei vorrangig.

  2. Grid-basiertes Management und die Verarbeitung von Datenströmen.

    Die Korrelation und effiziente Verarbeitung von verteilten, persistenten Daten (z.B. Beobachungs- oder Simulationsdaten), gegebenenfalls zusammen mit kontinuierlich erzeugten Datenströmen von Sensoren, Messstationen, Teleskopen etc. ermöglicht der Forschung neue Erkenntnisse zu gewinnen. Der notwendige Schlüssel hierfür ist die Bereitstellung einer dezentralisierten, verteilten Informationsverarbeitung. 

    Um die erforderliche Effizienz zu erreichen, schlagen wir eine adaptive, im Netzwerk verteilte Anfrageverarbeitung vor, die die Anfragen zu den Datenquellen schickt und daher den Datenfluss im Netzwerk optimiert.

Architekturentwurf & Hintergrund

Das AstroGrid-D Datenstrommanagementsystem (DSM) ist eine Sammlung von Grid-Diensten, die strombasierte Verarbeitung erlauben. Ein Architekturüberblick ist im folgenden Bild gegeben.

Weitere Details des Designs und der Implementierung des Datenstrommanagements lassen sich unter den Projektdokumenten der "Verteilte Datenbankanfragen und Verwaltung von Datenströmen"-Arbeitsgruppe (WG4) nachlesen.
Das AstroGrid-D Datenstrommanagement basiert auf Forschung im Rahmen der StreamGlobe- und StarGlobe-Projekte des Lehrstuhls für Datenbanksysteme an der Technischen Universität München (IN.TUM).

Voraussetzungen

  • Java (Version 1.5 oder höher)
  • Globus Toolkit (GT4.0.x). DSM verwendet davon nur die Funktionalität von Java WS Core. (Der Java WS Core ist in der vollen Installation enthalten.)

Download

Das AstroGrid-D Datenstrommanagement steht als vorkompiliertes Binary zur Verfügung.
Download der aktuellen Version.

Installation

  1. Extrahiere das streamglobe.gar file vom DSM Archiv. Wenn man das DSM Archiv in das INSTALL_DIR (z.B. /home/globus/gars) gespeichert hat, wird streamglobe.gar in INSTALL_DIR extrahiert.
    unzip dsm-<version>.zip
  2. Installiere die Datenstrommanagement-Dienste vom streamglobe.gar file. Im INSTALL_DIR-Verzeichnis ist dies der Befehl
    $GLOBUS_LOCATION/bin/globus-deploy-gar streamglobe.gar
    Bemerkung: Hierbei sollte die Benutzerkennung verwendet werden, unter der auch der Service-Container laufen soll (z.B. globus). Andernfalls können Probleme mit Zugriffsrechten beim Starten oder der Deinstallation der Dienste auftreten.

  3. (Neu-)Start des Globus Service-Containers.
    Wenn das AstroGrid-D-Datenstrommanagement korrekt installiert wurde, laufen die folgende fünf Dienste im Service-Container:
    .../wsrf/services/streamglobe/ContentProvider
    .../wsrf/services/streamglobe/ContentProviderFactory
    .../wsrf/services/streamglobe/Peer
    .../wsrf/services/streamglobe/PeerFactory
    .../wsrf/services/streamglobe/SpeakerPeer
    Diese Information wird entweder auf dem Bildschirm angezeigt (wenn der Service-Container mit globus-start-container gestartet wurde) oder in der Logdatei des Service-Containers (z.B. $GLOBUS_LOCATION/var/container.log), wenn man das globus-start-container-detached oder das start-stop-Skript aus dem Quickstart Guide verwendet hat.

Konfiguration

Die Konfigurationsdatei des Datenstrommanagements ist $GLOBUS_LOCATION/etc/streamglobe/jndi-config.xml. Sie enthält die Konfiguration für alle Dienste des Datenstrommanagements. Für die meisten Installationen sollte die Grundkonfiguration ausreichend sein. Weitere Details zu Konfigurationsparametern sind im Folgenden beschrieben.

SpeakerPeer (<service name="streamglobe/SpeakerPeer" />)

  • gridDiscovery: Wenn dies auf true gesetzt ist, verwendet der SpeakerPeer Griddienste, um die Verfügbarkeit von verbundenen Rechnern zu prüfen. Das ist die Voreinstellung. Andernfalls verwendet der Dienst eine Multicastgruppe für diese Kommunikation. (Dies ist natürlich auf Installationen in lokalen Netzwerken beschränkt.)

De-Installation

  1. Entfernen des Datenstrommanagements aus dem Globus Service-Container durch:
    $GLOBUS_LOCATION/bin/globus-undeploy-gar streamglobe
  2. (Neu-)Start des Globus Service-Containers.