Ordnung im Datensalat

Software berechnet Abstammungsbäumen aus Sequenzdaten

27.01.2004

Informatiker sind es gewohnt, schwierige Rechenprobleme zu beschreiben und zu lösen. Beschäftigen sie sich mit Fragestellungen aus der Biologie, lassen sich die Probleme jedoch kaum in glatte Rechnungen fassen. Daher müssen Computeralgorithmen möglichst gut angepasst und Näherungslösungen gefunden werden. Der Bioinformatiker Prof. Daniel Huson arbeitet an Programmen, die genetische Informationen ordnen und erschließen helfen.

Die Bioinformatik macht Wissen über die Gene der Lebewesen systematisch nutzbar

In der Biologie werden haufenweise Daten produziert - zum Beispiel in der Genetik bei der Analyse des Erbguts von Mensch, Tier oder Pflanze. Bei vielen Organismen verteilt sich das Erbgut auf viele Chromosomen, die Tausende von Genen enthalten können, die wiederum jeweils aus Millionen von Bausteinen bestehen, in den Symbolen der Genetiker aus den vier Buchstaben A, T, C und G. Will man nun einzelne Gene oder gar große Teile des Erbguts zweier Lebewesen im Detail miteinander vergleichen, ist der Überblick über die langen Reihen aus Buchstabensalat schwer zu behalten. Abhilfe schafft die Bioinformatik. In diesem Forschungsgebiet werden Datenbanken und Programme entwickelt, die die Datenflut überschaubar machen und den Wissenschaftlern sinnvolle Vergleiche und Folgerungen ermöglichen. Prof. Daniel Huson vom Wilhelm-Schickard-Institut für Informatik der Universität Tübingen arbeitet an Problemen der Bioinformatik zur Erforschung der genetischen Evolutionsgeschichte und der Verwandtschaftsbeziehungen von Lebewesen - ein vergleichsweise "altes" Gebiet der Bioinformatik, wie der Forscher schmunzelnd sagt. Denn auch die älteren Forschungen in der Bioinformatik gehen gerade mal in die 1960er Jahre zurück.

Wissenschaftlicher Nachwuchspreis für herausragende Immunologie-Forschung

News lesen

Damals begann man zunächst in der Biomathematik, die Organismen aufgrund molekularer Daten verwandtschaftlich zuzuordnen. Wenn Daniel Huson, der vor seinem Einstieg in die Bioinformatik ursprünglich als Mathematiker geforscht hat, heute von Bäumen spricht, meint er meistens nicht Pflanzen, sondern Verzweigungsbäume. Die entstehen auf dem Papier oder dem Computerbildschirm, wenn man die Verwandtschaftsbeziehungen von Lebewesen aufzeichnet. "Dahinter steht die Vorstellung, dass sich in der Evolution verschiedene Lebewesen aus einem gemeinsamen Vorläufer auseinander entwickelt haben, aber nicht wieder zusammengehen", erklärt Huson. Für viele Zusammenhänge sei das annähernd richtig. Auch Bakterien hat man versucht, auf diese Weise evolutionsgeschichtlich einzuordnen. In der Molekularbiologie wählt man dafür eine kleine Untereinheit der so genannten Ribosomen, die in allen Zellen vorkommen. Diese Zellorgane sind an der wichtigen Aufgabe beteiligt, die DNA zu lesen und in Eiweiße umzusetzen. Doch dabei ist man schnell an die Grenzen der Methode gestoßen.

"Bei der Verwandtschaft der Bakterien stimmt die Struktur der üblichen Verzweigungsbäume nicht. Nicht alle Bereiche des Erbguts haben die gleiche Evolutionsgeschichte", sagt der Forscher. Höhere Organismen bilden Keimzellen, also Ei- und Samenzellen, die bei den Nachkommen immer wieder neu zusammengestellt werden. Die einzelligen Bakterien bilden keine Keimzellen. Doch auch sie können ihr Erbgut austauschen und verändern: dazu lagern sich zwei Bakterienzellen aneinander und tauschen über eine Verbindung Teile ihres Erbguts aus. Auf diese Weise können zum Beispiel auch Resistenzen gegen Antibiotika von einem Bakterium zum anderen weitergegeben werden. "Das Genom, also die DNA des gesamten Organismus, ist wie eine Art Mosaik zusammengesetzt. Ein Bakteriengenom entwickelt sich im Allgemeinen nicht aus einem einzelnen Vorläufer", erläutert Daniel Huson. Will man die Verwandtschaftsbeziehungen zwischen den Bakterien darstellen, erhält man eher komplizierte Netzwerke als die üblichen Verzweigungsbäume. Um solche Netzwerke zu beschreiben hat Huson das Programm "SplitsTree" entwickelt. "Wenn man die klassische Baumverzweigungsmethode anwendet, erhält man immer eine Baumstruktur. Bei den Netzwerken ergibt sich nur dann eine Baumstruktur, wenn die Daten diese Struktur auch stützen", erklärt der Forscher.

91 Bakteriengenome, deren vollständige Sequenz von anderen Arbeitsgruppen ermittelt wurde, hat Daniel Huson zusammen mit dem Kollegen Stefan Schuster vom Tübinger Max-Planck-Institut für Entwicklungsbiologie verglichen und deren Verwandtschaftsbeziehungen ausschließlich auf der Basis der genetischen Daten mit Hilfe des Programms "Splitstree" dargestellt. "Insgesamt waren wir sehr zufrieden, dass diese Methode das allgemeine Bild der Abstammung der Bakterien gut unterstützt, wie zum Beispiel die auch schon aus anderen Eigenschaften abgeleitete Stellung der Archaeen als eigene, sehr ursprüngliche Gruppe, die nicht zu den Bakterien gehören", sagt Huson. Archaeen sind einzellige Lebewesen, die häufig an extremen Standorten leben, bei Temperaturen um den Siedepunkt des Wassers, bei hohen Salzkonzentrationen oder stark saurer Umgebung. In dem Netzwerk von Huson gibt es nicht nur Linien, sondern auch Rechtecke und Trapeze, die die Zusammengehörigkeit in zwei Richtungen deutlich machen. Bei dem Verfahren, das Huson entwickelt hat, werden die Genome paarweise verglichen, Buchstabe für Buchstabe der DNA-Sequenzen. "Man geht davon aus, dass, je mehr Sequenzstücke übereinstimmen, desto enger sind die Organismen verwandt. Bei Bakterien lässt sich mit der Reihenfolge der Gene nicht viel anfangen, der Gengehalt ist wichtiger", sagt Huson.

Hinter der bisherigen allgemeinen systematischen Einteilung der Organismen stecken vor allem Informationen über die äußeren Formen, die Morphologie der Lebewesen, ihre Anatomie, den Aufbau ihrer Gewebe und ihren Stoffwechsel. "Wir nutzen dagegen nur die Gene als Informationsquelle für die Verwandtschaftsbeziehungen", sagt Huson. Zudem sind einige Annahmen bei den Evolutionsmodellen auch vereinfacht: "Zum Beispiel sind wir davon ausgegangen, dass Mutationen überall gleich häufig vorkommen, was in der Praxis nicht stimmt." Eine Aussage oder ein Diagramm seien daher nicht absolut zu sehen. Wenn verschiedene Methoden unterschiedliche Ergebnisse lieferten, müsste man vor allem die Stellen untersuchen, an denen die verwandtschaftlichen Zuordnungen voneinander abweichen.

Der Bioinformatiker Daniel Huson hat bei dem bekannten Molekularbiologen Craig Venter gearbeitet, bevor er an die Tübinger Universität kam. Venter war damals Geschäftsführer des Unternehmens Celera Genomics in Rockville, Maryland, das die Entschlüsselung des menschlichen Erbguts vorangetrieben hat. Daniel Huson sieht die Bioinformatik als echten neuen Bereich, der sich von der Informatik unterscheidet: "In der reinen Informatik hat man die Aufgabe, ein Problem sauber zu beschreiben und Algorithmen, also Rechenanleitungen, zu entwickeln, die das Problem lösen können. In der Biologie sind die Probleme jedoch nicht so sauber zu beschreiben", erklärt der Forscher. Zunächst würden sie stark vereinfacht formuliert. "Doch in der wichtigen zweiten Runde sind viele Korrekturfaktoren nötig, um das biologische Problem halbwegs gut zu lösen", sagt Huson. Hier spielt biologisches Detailwissen eine wichtige Rolle. Daniel Huson geht zügig von der Grundlagenforschung zur Anwendung über. Für sein Programm "SplitsTree" hat er eine Implementierung in Java programmiert, um die Netzwerkmethode zur Berechnung und Visualisierung der genetischen Verwandtschaftsbeziehungen von Lebewesen für Biologen auf einem Webserver zugänglich zu machen. "Als Ergebnis unserer Forschungen haben wir dann mehr oder weniger zufriedene Biologen", sagt der Forscher augenzwinkernd.

https://www.bionity.com/de/news/34405/ordnung-im-datensalat.html