Zeitaufwand für die Sequenzierung von Schlüsselmolekülen könnte von Jahren auf Minuten reduziert werden
Forschung demonstriert Potenzial für schnelle, genaue Glykan-Sequenzierung
Rensselaer Polytechnic Institute
Wie in den Proceedings of the National Academies of Sciences veröffentlicht, zeigte ein Team des Rensselaer Polytechnic Institute, dass maschinelles Lernen und Bilderkennungssoftware verwendet werden können, um schnell und genau Zuckerketten zu identifizieren - speziell vier synthetische Heparansulfate - basierend auf den elektrischen Signalen, die erzeugt werden, wenn sie durch ein winziges Loch in einem Kristallplättchen laufen.
"Glykosaminoglykane sind ein komplexes Repertoire an Sequenzen, so wie das Werk von Shakespeare oder ein Gedicht von Yates eine komplexe Sammlung von Buchstaben ist. Man braucht einen Experten, um sie zu schreiben und einen Experten, um sie zu lesen", sagt Robert Linhardt, leitender Forscher und Professor für Chemie und chemische Biologie am Rensselaer Polytechnic Institute. "Wir haben eine Maschine darauf trainiert, schnell das Äquivalent von Wörtern mit vier Buchstaben wie 'ababab' oder 'bcbcbc' zu lesen. Das sind einfache Sequenzen, die keine Bedeutung haben, aber sie zeigen uns, dass man der Maschine das Lesen beibringen kann. Wenn wir diese Technologie ausbauen und weiterentwickeln, hat sie das Potenzial, Glykane oder sogar Proteine in Echtzeit zu sequenzieren, was jahrelangen Aufwand überflüssig macht."
Kommerzielle Nanoporen-Sequenziergeräte werden zur Sequenzierung von DNA verwendet, die aus vier Nukleinsäureeinheiten besteht, die mit den Buchstaben A, C, G und T bezeichnet werden und in einer unendlichen Vielfalt von Konfigurationen aneinandergereiht sind. Das Gerät basiert auf einem Ionenstrom, der durch ein nur wenige Milliardstel Meter breites Loch in einer Membran fließt. DNA-Stränge werden auf einer Seite des Lochs platziert und mit dem Stromfluss hindurchgezogen. Jede Nukleinsäure blockiert das Loch ein wenig, wenn sie hindurchgeht, unterbricht den Strom und erzeugt ein bestimmtes Signal, das mit dieser Nukleinsäure verbunden ist. Die Geräte, die derzeit für Feldarbeiten eingesetzt werden, sind nur eine von mehreren relativ schnellen und automatisierten Techniken zur Sequenzierung von DNA.
Glykosaminoglykane, oder GAGs, sind eine strukturell komplexe Klasse von Glykanen - die essentiellen Zucker in lebenden Organismen - die auf den Zelloberflächen und der extrazellulären Matrix aller Tiere zu finden sind und viele Funktionen beim Zellwachstum und der Signalübertragung, der Antikoagulation und Wundreparatur sowie der Aufrechterhaltung der Zelladhäsion erfüllen. GAGs, die derzeit aus geschlachteten Tieren extrahiert werden, werden als Medikamente und Nutrazeutika verwendet.
Wie die DNA können GAGs in ihre konstituierenden Disaccharid-Zuckereinheiten unterteilt werden. Aber während die DNA aus nur vier Buchstaben in einer linearen Kette besteht, haben diese Glykane Dutzende von Grundeinheiten, einige mit angehängten Sulfatgruppen, Säuregruppen und Amidgruppen. Zum Beispiel könnte selbst ein relativ kleines, natürlich vorkommendes Heparansulfatmolekül aus sechs Zuckereinheiten 32.768 mögliche Sequenzen haben. Aufgrund dieser Herausforderung ist die Sequenzierung von Glykanen nach wie vor mühsam und erfordert akribische Laborarbeit und ausgefeilte Analysen, die Techniken mit Namen wie Flüssigchromatographie-Tandem-Massenspektrometrie und Kernspinresonanzspektroskopie beinhalten.
Im Rahmen seiner Arbeit sequenziert Linhardt, ein Glykan-Experte, der eine synthetische Variante des gängigen Blutverdünners Heparin entwickelt hat, GAGs, um natürlich vorkommende Formen zu verstehen und synthetische Varianten zu entwickeln.
"Mit Standard-Analyseverfahren haben wir zwei Jahre gebraucht, um das erste einfache GAG zu sequenzieren", sagt Linhardt, Mitglied des Rensselaer Center for Biotechnology and Interdisciplinary Studies. "Wir haben ein weiteres, bei dem wir den größten Teil der Sequenz herausgearbeitet haben, und es hat uns mehr als fünf Jahre gekostet - und wir werden wahrscheinlich weitere fünf Jahre brauchen, um es fertigzustellen."
Mit der Überlegung, dass die Nanoporen-Sequenzierung zur Identifizierung der Disaccharid-Einheiten in einem GAG verwendet werden könnte, baute das Forschungsteam sein eigenes Nanoporen-Gerät und synthetisierte vier Heparansulfat-GAG-Ketten mit dem vom Linhardt-Labor entwickelten chemoenzymatischen Prozess. Wichtig ist, dass diese vier Heparansulfate sehr einfach waren - sie bestanden aus Kombinationen von nur vier verschiedenen Arten von Zuckereinheiten, die zu einer etwa 40 Einheiten langen Kette zusammengefügt waren, und hatten eine sorgfältig kontrollierte Zusammensetzung und Abfolge.
Das Team ließ jedes Heparansulfat durch die Nanopore laufen und erstellte ein Diagramm, das die Spannung über die Zeit am Ausgang des Geräts darstellt. Jede der vier Varianten wurde mehr als 2.000 Mal durch das Gerät geleitet, was die statistische Wahrscheinlichkeit eines genauen Ergebnisses angesichts des rudimentären Designs der experimentellen Nanopore erhöht.
"Das Gerät sequenzierte das einfachste Heparansulfat in Echtzeit und produzierte ein Muster, das unsere Augen sofort für jede der vier Proben erkennen konnten", sagte Linhardt. "Man kann sofort erkennen, dass sie unterschiedlich sind."
Um eine unvoreingenommene Analyse zu gewährleisten, speiste das Team die Ergebnisse in eine kostenlose Software für maschinelles Lernen und Bilderkennung ein, die das tiefe neuronale Netzwerk von Google verwendet. Die Software wurde darauf trainiert, zwischen den vier verschiedenen Mustern zu unterscheiden und jede Variante von Heparansulfat zu identifizieren. Das erfolgreichste Machine-Learning-Modell lieferte eine Analyse mit einer Genauigkeit von fast 97 %.
"Der Informationsgehalt in einer GAG-Sequenz kann den einer vergleichbaren Menge an DNA oder RNA bei weitem übertreffen, was bedeutet, dass die Fähigkeit, GAG-Sequenzen schnell zu lesen, ein neues Fenster zum Verständnis der komplexen Biochemie des Lebens öffnet", sagte Curt Breneman, Dekan der Rensselaer School of Science. "Diese Proof-of-Concept-Studie verbindet innovative Nano-Detektionsmethoden mit modernsten Werkzeugen des maschinellen Lernens und zeigt die Kraft des interdisziplinären Denkens, um die Grenzen des Wissens zu erweitern."
Die Reduzierung der Geschwindigkeit, mit der die GAGs durch die Nanopore passieren, könnte die Genauigkeit erhöhen, und das Gerät kann auf zusätzliche Zuckereinheiten und komplexere Sequenzen trainiert werden, was alles zukünftige Forschungsziele sind. Linhardt sagte, dass die Maschine irgendwo zwischen 10 und 20 Zuckereinheiten lernen müsste, um ein GAG vollständig zu sequenzieren.
"Dies ist ein Proof of Concept; wir haben es dazu gebracht, Wörter mit zwei Buchstaben zu lesen", sagte Linhardt. "Sobald wir ihm das komplette Alphabet beigebracht haben, wird es in der Lage sein, alle verschiedenen Sequenzen zu lesen. Es wird in der Lage sein, alle Wörter zu lesen."
Hinweis: Dieser Artikel wurde mit einem Computersystem ohne menschlichen Eingriff übersetzt. LUMITOS bietet diese automatischen Übersetzungen an, um eine größere Bandbreite an aktuellen Nachrichten zu präsentieren. Da dieser Artikel mit automatischer Übersetzung übersetzt wurde, ist es möglich, dass er Fehler im Vokabular, in der Syntax oder in der Grammatik enthält. Den ursprünglichen Artikel in Englisch finden Sie hier.
Originalveröffentlichung
"Synthetic heparan sulfate standards and machine learning facilitate the development of solid-state nanopore analysis"; Proceedings of the National Academies of Sciences; 2021