Biologische Experimente werden nachvollziehbar – überall, jederzeit

17.02.2017 - Luxemburg

Biologische Versuche erzeugen immer größere und komplexere Datensätze. So ist es schwieriger geworden, Experimente in anderen Forschungslaboren zu wiederholen, um die Ergebnisse zu bestätigen – oder zu widerlegen. Neben der hohen Komplexität der Daten sind anspruchsvolle, computerbasierte Auswerteverfahren ein Grund für diese Schwierigkeit. Wissenschaftler des Luxembourg Centre for Systems Biomedicine (LCSB) der Universität Luxemburg haben jetzt ein neues bioinformatisches Werkzeug entwickelt, mit dem die Auswertung biologischer und biomedizinischer Experimente besser nachvollziehbar und wiederholbar wird.

Die Arbeit, die unter Federführung von Prof. Paul Wilmes, Leiter der LCSB-Gruppe Eco-Systems Biology in enger Zusammenarbeit mit der LCSB-Bioinformatics Core Unit entstanden ist, ist jetzt im open access-Fachjournal Genome Biology veröffentlicht worden. Das neue bioinformatische Werkzeug trägt den Namen IMP und ist für Forscher im Internet unter dem weiterführenden Link "News Website" auf der rechten Seite verfügbar.

Der Grund für die Datenflut biologischer und biomedizinischer Forschung sind immer komplexere Untersuchungsobjekte – etwa die Zusammensetzung aller Mikroorganismen im Darm –, aber auch automatisierte Experimentiertechniken, die so genannte Hochdurchsatz-Versuche ermöglichen: Versuchsansätze, die noch vor wenigen Jahren langwierig von Hand ausgeführt werden mussten, können jetzt in kürzester Zeit nahezu beliebig oft und standardisiert wiederholt werden. Diesem Trend konnten die Auswerteverfahren noch nicht in vollem Umfang folgen: „Wenn man sich so komplexe Systeme mit unterschiedlichen Methoden anschaut, kommt immer etwas anderes dabei heraus”, sagt Paul Wilmes. Jedes Labor nutzt zudem seine eigenen Rechenprogramme, die oft geheim gehalten werden. Außerdem ändern sich die Rechenverfahren schnell, allein schon, wenn sie auf einem Computer mit einem anderen Betriebssystem ablaufen. „Deshalb ist es äußerst schwierig und oftmals sogar unmöglich, bestimmte Ergebnisse in einem anderen Labor zu reproduzieren“, so Wilmes: „Das ist aber das Fundament der Wissenschaft: Ein Versuch muss jederzeit an jedem beliebigen Ort wiederholbar sein und zu den gleichen Ergebnissen führen. Ansonsten lassen sich daraus keine allgemeingültigen Schlussfolgerungen ziehen.“

Diesem Missstand helfen die LCSB-Wissenschaftler nun ab. In der LCSB-Bioinformatics Core Unit ist dafür eine Initiative entstanden, die sich „R3 – Reproducible Research Results“ nennt. „Mit R3 wollen wir Wissenschaftler weltweit in die Lage versetzen, die Reproduzierbarkeit und die Transparenz ihrer Forschung zu erhöhen – durch systematisches Training, durch die Entwicklung von Methoden und Werkzeugen und durch die Etablierung der erforderlichen Infrastruktur“, sagt Dr. Reinhard Schneider, Leiter der Bioinformatics Core Unit.

Die Ergebnisse der R3-Initiative fließen dann in Projekte wie IMP ein: „IMP ist eine reproduzierbare Pipeline für die Analyse hochkomplexer Daten“, sagt Dr. Shaman Narayanasamy aus der Arbeitsgruppe von Paul Wilmes. Er ist Mitautor der Studie und hat sich mit dem Thema gerade promoviert: „Wir konservieren Computerprogramme in exakt dem Zustand, in dem sie bestimmte Experimentdaten verrechnet haben. Aus diesem quasi eingefrorenen Zustand können wir die Programme später wieder auftauen, wenn die Bearbeitung der Daten wiederholt oder neue Daten auf die gleiche Weise ausgewertet werden sollen.“ Außerdem fassen die Wissenschaftler verschiedene Komponenten der Auswertesoftware in so genannten Containern zusammen. Diese können in unterschiedlicher Reihenfolge kombiniert werden, ohne dass es zu Wechselwirkungen mit anderen Programmteilen kommt.

„Die Teilprogramme in den Containern können je nach Bedarf hintereinander geschaltet werden“, sagt der Erstautor der Studie, Yohan Jarosz von der Bioinformatics Core Uni. Es entsteht eine Pipeline, durch die die Daten hindurchfließen. Dadurch, dass die Rechenoperatoren in den Containern anschließend eingefroren werden, braucht man keine Referenzdaten, also Daten darüber, unter welchen Bedingungen – Art des Betriebssystems oder des Computerprozessors – die Auswertung erfolgen muss. „Dabei ist das ganze Verfahren vollkommen offen und transparent”, sagt Jarosz: Somit kann jeder Wissenschaftler jeden beliebigen Programmschritt verändern. Allerdings gibt es ein Logbuch, in dem die einzelnen Schritte festgehalten werden und dadurch nachvollziehbar bleiben.

Besonders wichtig ist für Paul Wilmes der Einsatz dieses Verfahrens bei der Analyse metagnomischer und metatransskriptorischer Daten. Solche Daten fallen an, wenn die Forscher beispielsweise ganze Bakteriengesellschaften etwa im menschlichen Darm oder in Kläranlagen untersuchen. Aus dem gesamten Genmaterial, das in der Probe enthalten ist, und den gesamten Genprodukten können sie herauslesen, welche Bakterienarten sich im Darm oder in der Kläranlage befinden. Aber nicht nur das: Die Wissenschaftler können auch sagen, wie viele Bakterien welcher Art vorhanden und aktiv sind, was für Stoffe sie zu einem bestimmten Zeitpunkt produzieren, und wie sich die Organismen gegenseitig beeinflussen.

Der Haken war bisher, dass entsprechende Untersuchungsergebnisse kaum von Forschern in anderen Laboren nachvollzogen werden können. Das hat sich mit IMP nun geändert. Wilmes: „Wir haben bereits Daten aus anderen Laboren ersten Tests mit IMP unterzogen. Dabei wurde klar: Wir können die Ergebnisse nachvollziehen – und unsere Berechnungen in IMP fördern deutlich mehr Details ans Licht, als es bei der ursprünglichen Untersuchung der Fall war; etwa bei der Identifizierung von Genen, die im Stoffwechsel der Bakteriengesellschaften eine besonders wichtige Rolle spielen.“

„Dank IMP kommen am LCSB in der Mikrobiomforschung jetzt ausschließlich standardisierte und reproduzierbare Methoden vom Wet-Lab, also dem Experimentallabor, bis hin zu Dry-Lab in dem vor allem Computersimulationen und -modellierungen laufen zu Einsatz. Wir haben hier international eine Vorreiterrolle“, sagt Wilmes. „IMP setzt auch dank R3 Standards, deren Anwendung auch für andere Institute als dem LCSB von größtem Interesse sein dürfte“, ergänzt Reinhard Schneider von der Bioinformatics Core Unit: „Wir machen die Technik anderen Forschern deshalb frei zugänglich – der Standard soll sich schnell durchsetzen. Denn nur reproduzierbare Ergebnisauswertungen bringen die Biomedizin langfristig voran.“

Weitere News aus dem Ressort Wissenschaft

Meistgelesene News

Weitere News von unseren anderen Portalen

Revolutioniert künstliche Intelligenz die Life Sciences?