Genomorientierte Biotechnologie M-V --
Cluster B: Bioinformatik
Andreas Heuer
(Auszug aus dem Antrag)
Es werden die Bioinformatik-Anteile des
MV-Forschungswettbewerb-Beitrags ``Biotechnologie-Konzeption
Mecklenburg-Vorpommern -- Genomorientierte Biotechnologie''
dargestellt. Die Bioinformatik-Anteile werden aufgrund der gegenseitigen,
engen Verzahnung als Bioinformatik-Cluster bezeichnet und aufeinander
aufbauend beschrieben.
Die Bioinformatik-Arbeiten zu den oben genannten, anwendungsbezogenen
Arbeitsbereichen in der Genom- und Proteomanalyse werden in einem Cluster
durchgeführt, der Synergieeffekte zwischen verschiedenen Teilbereichen der
Informatik (Datenmanagement, Mining, Visualisierungsverfahren,
Hardware-Unterstützung) nutzen soll, gleichzeitig aber auch
verschiedenartigste Techniken in einem Teilbereich (wie im Data Mining)
integriert. Der Gesamtaufbau des Bioinformatik-Clusters ist in Abbildung
dargestellt.
Abbildung:
Aufbau des Bioinformatik-Clusters
 |
Die Bausteine des Bioinformatik-Clusters lassen sich in vier Gruppen
einteilen:
- Data Management: Hier werden die Daten aus verschiedenen proprietären
Quellen oder öffentlichen Datenbanken gesammelt, verdichtet, integriert und bereinigt.
Je nach Anwendung werden hier auch Retrieval-Werkzeuge auf Dokumenten oder Anfragen auf
strukturierten Daten realisiert. Eine Selektion der bereinigten Daten kann dann der
zweiten Bausteingruppe Data Mining zur Verfügung gestellt werden. Werden (wie in
einigen Arbeitsbereichen der Genom- und Proteomforschung keine Mining-Ergebnisse, sondern
direkte Selektionen aus der Datenbank benötigt, so können die Anwendungsprozesse auch
direkt auf die Data-Management-Schicht zugreifen.
Neben der Integration von strukturierten Daten und Bildern (wie 2D-Gelen) sollen auch
Textdokumente (Literatur) integriert werden. Um die Inhalte der Literaturstellen den
weiteren Anwendungsprozessen nutzbar zu machen, müssen die dort unstrukturiert
dargestellten Informationen über Auszeichnungstechniken (logisches Markup: XML) und
Text-Mining-Verfahren nutzbar gemacht werden. Hierzu werden Synergieeffekte mit laufenden
Forschungsarbeiten der Antragsteller im Bereich von Bilddatenbanken und
Digitalen Bibliotheken ausgenutzt.
- Data Mining: Hier werden verschiedene Verfahren angewandt, um aus den
vorliegenden Datenbeständen der Genom- und Proteomforschung abgeleitete Informationen zu
gewinnen. Für die vier Arbeitsbereiche, in denen Mining-Methoden benötigt werden,
bedeutet dies, daß die vier verschiedenen Verfahrensklassen in jeden der vier
Arbeitsbereiche eingesetzt werden sollen. Die Mining-Verfahrensklassen sind:
- Neuronale Netze
- KI-Lernmethoden
- Biomathematische Verfahren, z.B. Cluster-Analyse
- Visuelle Analyse
Diese Mining-Methoden werden durch datenbankbasierte Verfahren wie
Assoziationsregeln auf der Data-Management-Ebene gestützt.
- Hardware-Unterstützung mit Parallelisierung der Verfahren: Um
komplexe Mining-Verfahren auf extrem großen Datenbeständen performant
gestalten zu können, müssen alle Möglichkeiten ausgeschöpft werden, um
diese Verfahren auf Workstation-Clustern zu parallelisieren. Neben den
Mining-Methoden müssen auch die Anfrage- und Retrieval-Verfahren der
Data-Management-Ebene durch parallele Verfahren unterstützt werden.
- Data Visualization: Zum gesamten Prozeß der Darstellung und
Nutzung der gewonnenen Informationen und zum Anstoßen der Mining-Prozesse
durch den Genom- und Proteomforscher werden verschiedene Werkzeuge und
Verfahren bereitgestellt, die zu folgenden Bausteinen gehören:
- Agentenbasierte Steuerung der Mining-Prozesse: Hier werden die
verschiedenen Mining-Verfahren durch ein intelligentes Frontend ausgewählt.
Im Laufe der Projektarbeit sollten sich Kriterien herausbilden, welche
Verfahren für welche Daten bzw. für welche Fragestellungen am besten
geeignet sind. Diese Kriterien werden dem Auswahlsystem bekanntgemacht, das
dann dem Wissenschaftler die Auswahl der Verfahren abnimmt. Eignen sich
mehrere Verfahren oder ist nichts über die spezielle Eignung bekannt, so kann
der Agent auch mehrere Verfahren anstoßen und die Ergebnisse bewerten, um
eine Post-Prozeß-Auswahl vornehmen zu können.
- Werkzeuge zur Nutzung: Hier sollen Simulationswerkzeuge zur
Nutzung der Mining-Methoden für bestimmte Fragestellungen der Anwendung
entwickelt werden. Die Ergebnisse der Datenauswertungen sollen hiermit in die
Simulation anwendungsrelevanter Prozesse münden. Gleichzeitig sollen diese
Werkzeuge über Portalsysteme zur Verfügung gestellt werden.
E-Commerce-Techniken für die kommerzielle Verwertung sind zu entwickeln.
- Darstellungsmethoden: Zur Visualisierung der Ergebnisse sollen
verschiedene Techniken angeboten werden, die sich einerseits an den bewährten
Visualierungsmethoden für wissenschaftliche Daten orientieren, andererseits
aber auch neuartige, anwendungsspezifische Darstellungsformen (wie etwa
dreidimensionale, abstrahierte Animationen einer Zelle) erlauben.
Mathias Bietz
2001-10-30