Genomorientierte Biotechnologie M-V --
Cluster B: Bioinformatik

Andreas Heuer

(Auszug aus dem Antrag)

Es werden die Bioinformatik-Anteile des MV-Forschungswettbewerb-Beitrags ``Biotechnologie-Konzeption Mecklenburg-Vorpommern -- Genomorientierte Biotechnologie'' dargestellt. Die Bioinformatik-Anteile werden aufgrund der gegenseitigen, engen Verzahnung als Bioinformatik-Cluster bezeichnet und aufeinander aufbauend beschrieben.

Beschreibung des Bioinformatik-Clusters

Die Bioinformatik-Arbeiten zu den oben genannten, anwendungsbezogenen Arbeitsbereichen in der Genom- und Proteomanalyse werden in einem Cluster durchgeführt, der Synergieeffekte zwischen verschiedenen Teilbereichen der Informatik (Datenmanagement, Mining, Visualisierungsverfahren, Hardware-Unterstützung) nutzen soll, gleichzeitig aber auch verschiedenartigste Techniken in einem Teilbereich (wie im Data Mining) integriert. Der Gesamtaufbau des Bioinformatik-Clusters ist in Abbildung [*] dargestellt.

Abbildung: Aufbau des Bioinformatik-Clusters
\begin{figure}\begin{center}
\epsfig{file=bausteine-bioinformatik.plan.eps,width=120mm}\end{center}\end{figure}

Die Bausteine des Bioinformatik-Clusters lassen sich in vier Gruppen einteilen:

  1. Data Management: Hier werden die Daten aus verschiedenen proprietären Quellen oder öffentlichen Datenbanken gesammelt, verdichtet, integriert und bereinigt. Je nach Anwendung werden hier auch Retrieval-Werkzeuge auf Dokumenten oder Anfragen auf strukturierten Daten realisiert. Eine Selektion der bereinigten Daten kann dann der zweiten Bausteingruppe Data Mining zur Verfügung gestellt werden. Werden (wie in einigen Arbeitsbereichen der Genom- und Proteomforschung keine Mining-Ergebnisse, sondern direkte Selektionen aus der Datenbank benötigt, so können die Anwendungsprozesse auch direkt auf die Data-Management-Schicht zugreifen.

    Neben der Integration von strukturierten Daten und Bildern (wie 2D-Gelen) sollen auch Textdokumente (Literatur) integriert werden. Um die Inhalte der Literaturstellen den weiteren Anwendungsprozessen nutzbar zu machen, müssen die dort unstrukturiert dargestellten Informationen über Auszeichnungstechniken (logisches Markup: XML) und Text-Mining-Verfahren nutzbar gemacht werden. Hierzu werden Synergieeffekte mit laufenden Forschungsarbeiten der Antragsteller im Bereich von Bilddatenbanken und Digitalen Bibliotheken ausgenutzt.

  2. Data Mining: Hier werden verschiedene Verfahren angewandt, um aus den vorliegenden Datenbeständen der Genom- und Proteomforschung abgeleitete Informationen zu gewinnen. Für die vier Arbeitsbereiche, in denen Mining-Methoden benötigt werden, bedeutet dies, daß die vier verschiedenen Verfahrensklassen in jeden der vier Arbeitsbereiche eingesetzt werden sollen. Die Mining-Verfahrensklassen sind: Diese Mining-Methoden werden durch datenbankbasierte Verfahren wie Assoziationsregeln auf der Data-Management-Ebene gestützt.

  3. Hardware-Unterstützung mit Parallelisierung der Verfahren: Um komplexe Mining-Verfahren auf extrem großen Datenbeständen performant gestalten zu können, müssen alle Möglichkeiten ausgeschöpft werden, um diese Verfahren auf Workstation-Clustern zu parallelisieren. Neben den Mining-Methoden müssen auch die Anfrage- und Retrieval-Verfahren der Data-Management-Ebene durch parallele Verfahren unterstützt werden.

  4. Data Visualization: Zum gesamten Prozeß der Darstellung und Nutzung der gewonnenen Informationen und zum Anstoßen der Mining-Prozesse durch den Genom- und Proteomforscher werden verschiedene Werkzeuge und Verfahren bereitgestellt, die zu folgenden Bausteinen gehören:



Mathias Bietz 2001-10-30