Genomsequenzen einfacher bearbeiten

Neues Bioinformatik-Tool für automatische Erkennung repetitiver Genomabschnitte entwickelt

21.01.2020 - Deutschland

Die Entwicklung von Next-Generation-Sequencing (NGS) hat es Forschern ermöglicht, Genome zu untersuchen, die zuvor als zu komplex oder aufgrund ihrer Größe als zu teuer galten. Trotzdem ist die Analyse komplexer Pflanzengenome, die oft einen enormen Anteil an repetitiven Sequenzen besitzen, noch immer eine Herausforderung. Daher haben Bioinformatiker des Leibniz-Instituts für Pflanzengenetik und Kulturpflanzenforschung (IPK) in Gatersleben, der Martin-Luther-Universität Halle-Wittenberg (MLU) und des Leibniz-Instituts für Pflanzenbiochemie (IPB) nun „Kmasker plants“ entwickelt – ein Programm, welches durch die Identifizierung repetitiver Sequenzen die Analyse von Pflanzengenomen vereinfacht.

In der Bioinformatik wird der Begriff k-mer verwendet, um eine Nukleotidsequenz einer bestimmten Länge „k“ zu beschreiben. Indem sie solche Sequenzen festlegen und zählen, können Forscher sich wiederholende, also repetitive, Sequenzen in dem Genom, welches sie gerade untersuchen, quantifizieren und entsprechenden Positionen zuordnen. Bereits 2014 benutzten Wissenschaftler des IPK in Gatersleben diesen Ansatz, um das in-silico (Computer-basierte) Werkzeug „Kmasker“ zu entwicklen. Es diente der Erkennung von Wiederholungen bei der Charakterisierung des Genoms der Gerste (Schmutzer et al., 2014).

Die Verwendung von NGS gewinnt immer weiter an Bedeutung, dennoch ist die fehlerfreie Zusammensetzung der komplexen Genome aus NGS Ergebnissen noch immer eine Herausforderung. Aus diesem Grund beschlossen die Wissenschaftler vor Kurzem, ihrer Machbarkeitsstudie neues Leben einzuhauchen und ihr Projekt zu erweitern. Angeleitet von Dr. Thomas Schmutzer, ehemals Mitglied der Arbeitsgruppe „Bioinformatik und Informationstechnologie“ des IPK, heute tätig am Institut für Agrarwissenschaften der MLU, arbeiteten Forscher der Universität in Halle, des IPK in Gatersleben, des IPB in Halle sowie von Wageningen University & Research gemeinsam an der Neukonzeptionierung und Entwicklung von „Kmasker plants“. Die Zusammenarbeit wurde von den zwei Servicezentren „GCBN“ und „CiBi“ des Deutschen Netzwerks für Bioinformatik-Infrastruktur “de.NBI” unterstützt.

„Kmasker plants“ ermöglicht die schnelle und referenzfreie Analyse von Nukleotidsequenzen, basierend auf genomweit abgeleiteten k-meren. In Erweiterung der vorherigen Version können nun auch Vergleichsstudien zwischen verschiedenen Kultursorten oder nah verwandten Arten gemacht werden. Weiterhin ermöglicht das Tool die Identifizierung von geeigneten Sequenzen für die Fluoreszenz-in-situ-Hybridisierung (FISH) sowie von sogenannten „guide RNAs“ für die CRISPR/Cas9-basierte gezielte Veränderung von Genen. Zudem wurde „Kmasker plants“ als Webservice veröffentlicht, welcher vorberechnete Indizes für Gerste, Weizen und andere ausgewählte bedeutsame Nutzpflanzen beinhaltet.

Dr. Schmutzer betont, „dass dieses Werkzeug es Pflanzenforschern auf der ganzen Welt ermöglichen wird, Pflanzengenome zu testen und so, beispielsweise, interessante Repeat-freie Sequenzen zu identifizieren.“ Außerdem sei es dank der erweiterten Features möglich, Sequenzkandidatenregionen zu finden, die sich im Genom einer Art vervielfacht haben, aber in anderen Arten fehlen oder in kleineren Kopienanzahlen vorkommen. Dies ist ein häufig auftretender Effekt, welcher zur Entstehung landwirtschaftlich wichtiger phänotypischer Variationen verschiedener Kulturarten führt. Ein bedeutsames Beispiel ist das Vrn-H2 Gen, das in Wintergerste in einer einzigen Kopie vorhanden ist, während es in Sommergerste fehlt.

Der „Kmasker plants“ Webservice steht als Teil der IPK Crop Analysis Tool Suite (CATS) und somit als Service der de.NBI Service Plattform zur Verfügung. Alternativ kann auf den Quellcode via GitHub direkt zugegriffen und „Kmasker plants“ installiert werden.