Riesige Datenmengen werden langsam eingekocht

Tübinger Bioinformatiker entwickeln Methoden zur rechnerischen Analyse ganzer Proteome

20.03.2007

Aufbauend auf dem entschlüsselten Genom ist die Proteomforschung entstanden, in der die Proteine in ihrem dynamischen Entstehen und Abbau in den Zellen eines Lebewesens untersucht werden. In einer menschlichen Gewebeprobe oder im Blutserum finden sich zu jedem Zeitpunkt ungefähr 100.000 verschiedene Proteine - die Datenmengen, mit denen Forscher es dabei zu tun bekommen, sind entsprechend riesig. Prof. Oliver Kohlbacher vom Wilhelm-Schickard-Institut für Informatik der Universität Tübingen arbeitet an Computerverfahren, mit denen sich die Datenflut beherrschen lässt. So hat seine Arbeitsgruppe in Zusammenarbeit mit Wissenschaftlern der FU Berlin und der Universität Saarbrücken eine Methode entwickelt, mit der das körpereigene Protein Myoglobin, ein Biomarker in der Herzinfarktdiagnose, deutlich zuverlässiger als bisher bestimmt werden kann.

"Zum Beispiel sind im Genom eines Schmetterlings immer auch die Gene für die Raupe und die Puppe enthalten. Zu einer bestimmten Zeit ist aber nur ein Bruchteil der Gene aktiv und wird in Proteine umgesetzt", sagt Oliver Kohlbacher. Es sei deutlich schwieriger, Proteine zu analysieren als Gene. "In der letzten Zeit hat es jedoch einige methodische Durchbrüche gegeben, die die Möglichkeiten stark erweitert haben." Die Massenspektrometrie war lange nur für kleine Moleküle einsetzbar. Nun können auch größere Biomoleküle, wie etwa Proteinbruchstücke, nach ihrer Masse sortiert werden. Zusammen mit weiteren Trennungsmethoden wie der Flüssigchromatografie lassen sich kurze Proteinstücke, so genannte Peptide, auch in großem Maßstab analysieren. Daraus ergeben sich vielfältige neue Anwendungen: Ganze Proteome lassen sich vergleichen - zum Beispiel aus Gewebeproben von gesunden und kranken Menschen. So können Proteine identifiziert werden, die nur in einem der Proteome vorkommen oder deren Menge sich in den beiden Proteomen stark unterscheidet. In manchen Fällen lassen sich so genannte Biomarker identifizieren, Stoffe, die eine bestimmte Erkrankung anzeigen, oder Proteine, die sich als Ansatzpunkt für neue Medikamente eignen könnten.

Ein Zielstoff in Oliver Kohlbachers Arbeitsgruppe war zum Beispiel das sauerstoffbindende Protein Myoglobin. Es versorgt unter anderem auch den Herzmuskel mit Sauerstoff. Es war bereits bekannt, dass die Myoglobinkonzentration im Blutserum in den Stunden unmittelbar nach einem Herzinfarkt deutlich ansteigt. "Die bisher erhältlichen kommerziellen Tests auf Myoglobin liefern sehr ungenaue Ergebnisse. Die EU forderte jedoch, dass die Myoglobinbestimmung standardisiert und eine Referenzmessmethode etabliert werden müsse", erklärt der Wissenschaftler. Er hatte sich das Ziel gesteckt, die Myoglobinmenge im Blutserum absolut bestimmbar zu machen. "Das Blutserum eines Patienten, bei dem das Vorliegen eines Herzinfarkts vermutet wird, ist relativ leicht zu gewinnen. Doch das Myoglobin, das zudem auch beim gesunden Menschen immer vorhanden ist, ist in der Probe mit tausenden von anderen Proteinen gemischt", sagt Kohlbacher. Um die langkettigen Proteine mit Hilfe der Chromatografie und Massenspektrometrie automatisiert analysieren zu können, werden sie zufällig zu Peptiden zerkleinert.

"Die Techniken zur Proteinanalyse erzeugen eine immense Datenflut. Aus einer Probe werden Datenmengen im Bereich von Gigabytes erzeugt, die schon nicht mehr auf eine CD passen würden", sagt Kohlbacher. Aufgabe der Bioinformatiker ist es, die wesentlichen Informationen herauszufischen. "Wir kochen die Daten langsam ein", beschreibt Kohlbacher bildhaft seine Vorgehensweise. Dafür braucht er eine breite Palette an Werkzeugen aus der Informatik. "Bioinformatiker sind nicht an bestimmten Methoden orientiert, sondern an den zu lösenden Problemen", sagt er. Die Datensätze von der Massenspektrometrie ergeben für jedes Peptid hunderte oder tausende von einzelnen Punkten, die es beschreiben. Die Bioinformatiker müssen Modelle finden, die die einzelnen Peptide am besten angenähert darstellen, aber mit einer deutlich geringeren Datenmenge. Schritt für Schritt wird das Datenvolumen reduziert. "Um dafür Rechenanleitungen, so genannte Algorithmen, zu entwickeln, muss man ein gutes Verständnis dafür haben, wie die Daten beschaffen sind, auch wissen, was während des Messvorgangs passiert", sagt der Forscher. Denn die Analyseergebnisse können fehlerhaft sein, jede Messmethode hat eine begrenzte Empfindlichkeit. Oliver Kohlbacher hat neben Informatik auch Chemie studiert. Er sieht einen Vorteil darin, dass er die Laborarbeit aus eigener Erfahrung kennt und sich die Abläufe sowie deren Fehleranfälligkeit besser vorstellen kann.

Doch noch größere Schwierigkeiten liegen in der Art der Proben. "Biologische Systeme sind komplex und unterliegen immer auch natürlichen Schwankungen. Nicht ein Wert, sondern ein ganzer Wertebereich eines bestimmten Stoffs ist bei gesunden Menschen zu finden", erklärt Kohlbacher. Er muss mit statistischen Verfahren arbeiten, die der Spannbreite normaler Werte Genüge tun. "Wir entwickeln Algorithmen, mit denen sich die statistisch relevanten Unterschiede in der Proteinzusammensetzung zum Beispiel zwischen einem gesunden und einem kranken Menschen herausarbeiten lassen."

Ziel sei es, schnelle und effiziente Algorithmen zu finden, die möglichst wenig Rechenkapazität binden und mindestens so schnell sind wie die Analyseprozesse im Labor - sonst würden sich dort die unbearbeiteten Daten anhäufen. "Im Moment brauchen wir noch 150 Prozessoren, auf welche die Berechnungen verteilt sind", sagt der Informatiker. Allerdings dauert die Auswertung einer Probe auf den Rechnern nur zwei Stunden, während die in der Entwicklungsphase der Myoglobinmessung parallel durchgeführte manuelle Auswertung zwei Tage Zeit benötigte. Zum Schluss der Auswertung ist das Datenvolumen bis in den Kilobytebereich reduziert. Dabei müssen auch die Peptide, die Bruchstücke längerer Proteine sind, wieder dem richtigen Protein zugeordnet werden. "Da kommt das entzifferte Genom wieder ins Spiel. Die Gene, die Proteinbauanleitungen, und Proteine entsprechen sich. An die Karte des Genoms lassen sich die Peptide sozusagen anhängen und sind damit wieder - meistens eindeutig - dem Protein zugeordnet", sagt Oliver Kohlbacher.

https://www.bionity.com/de/news/62891/riesige-datenmengen-werden-langsam-eingekocht.html