Um alle Funktionen dieser Seite zu nutzen, aktivieren Sie bitte die Cookies in Ihrem Browser.
my.bionity.com
Mit einem my.bionity.com-Account haben Sie immer alles im Überblick - und können sich Ihre eigene Website und Ihren individuellen Newsletter konfigurieren.
- Meine Merkliste
- Meine gespeicherte Suche
- Meine gespeicherten Themen
- Meine Newsletter
SequenzalignmentEin Alignment (englisch: Abgleich, Anordnung, Ausrichtung), im Deutschen oft auch Alinierung genannt, dient dem Vergleich zweier oder mehrerer Strings (technischer Begriff für Zeichenfolge, Sequenz) und wird besonders häufig in der Bioinformatik und der molekularen Phylogenie verwendet, um die funktionelle oder evolutionäre Verwandtschaft (Homologie) von Nukleotidsequenzen- oder Aminosäuresequenzen zu untersuchen. Sequenzalignments sind ein Teilgebiet des Pattern Matchings. Weiteres empfehlenswertes Fachwissen
Das PrinzipEs gibt automatisierte Alignmentmethoden, man kann kleinere Datensätze jedoch auch manuell alignen. Die manuelle Methode ermöglicht eine größere Sorgfalt und den Ausschluss von hochvariablen und somit nicht alignbaren Positionen, die spätere Analysen stören würden. Beim Alignment ordnet man die Elemente eines untersuchten Strings denen des/der anderen Strings so zu, dass die Reihenfolge erhalten bleibt und jedes Element einem anderen Element oder einem Gap (Leerstelle, Lücke) in jedem String zugeordnet ist. Eine Fehlpaarung in dem Alignment entspricht einer Mutation. Die Gaps hingegen weisen auf eine Deletion oder eine Insertion hin. Die einander zugeordneten (alignierten) Elemente sollten identisch oder möglichst ähnlich sein, weil viele gleiche oder ähnliche Elemente in gleicher Reihenfolge auf eine evolutionäre oder funktionelle Verwandtschaft hinweisen. Die Ähnlichkeit der Elemente wird meist vorgegeben und hängt von den Eigenschaften der verwendeten Daten oder Scoring Matrizen ab. Damit ein sinnvolles Alignment möglich ist und da die Sequenzen oft unterschiedlich lang sind, dürfen Gaps in die Sequenzen eingefügt werden. Das Alignment von zwei Sequenzen wird als paarweises Alignment bezeichnet, das von mehreren als multiples Alignment. Beim paarweisen Alignment unterscheidet man weiterhin zwischen globalem, lokalem und semiglobalem Alignment. Kostenfunktion bei automatisierten AlignmentUm ein Alignment bewerten zu können, gibt es eine Kostenfunktion (alignment score), die meist gleiche und ähnliche alignierte Elemente positiv und sich stärker unterscheidende Kombinationen weniger positiv bis leicht negativ bewertet. Gaps werden ebenfalls negativ bewertet, allerdings gibt es so genannte affine Gap-Scores, die ein langes Gap weniger schlecht bewerten als mehrere kurze. Beispiel
Das oben dargestellte Alignment von zwei kurzen DNA-Sequenzen zeigt an der ersten Position (-A), dass ein Gap eingefügt werden kann, um Längenunterschiede auszugleichen. Das Gap wurde am Anfang der oberen Sequenz eingefügt und nicht in der Mitte, weil es aus der Sicht der Biologie wahrscheinlicher ist, dass eine Sequenz an den Enden mutiert als in der Mitte. An der vorletzten Stelle wurden C und G aligniert, da in der DNA durchaus Mutationen möglich sind, in denen statt eines C versehentlich ein G eingebaut wird, oder umgekehrt. Es wäre auch möglich gewesen, G und C jeweils mit einem Gap in der anderen Sequenz zu alignieren. Diese Entscheidung hängt von der verwendeten Kostenfunktion ab. Beim Proteinsequenzalignment entsprechen die Aminosäuresequenzen den Strings. Die Kostenfunktionen für die Ähnlichkeiten der einzelnen Aminosäuren untereinander sind etwas komplexer als bei der DNA. Paarweises AlignmentZwei homologe Sequenzen sollen derart untereinander geschrieben werden, dass jeweils homologe Symbole untereinander stehen. Dazu werden gegebenenfalls die oben erwähnten Lückensymbole "-" eingefügt. Ein Alignment zweier Sequenzen S, T wird als (S*, T*) notiert. Dabei ist S* die Verlängerung von S, bei der ausschließlich Lückensymbole eingefügt werden. T* ist eine entsprechende Verlängerung von T. Das Alignment zweier Lückensymbole ist nicht zulässig. Globales AlignmentBei einem globalen Alignment zwischen zwei Sequenzen werden alle Symbole berücksichtigt. Globale Alignments werden hauptsächlich verwendet, wenn die zu untersuchenden Sequenzen ähnlich lang sind und starke Sequenzhomologien erwartet werden. Um ein optimales Alignment zu erkennen wird eine Bewertungsfunktion (engl. score) verwendet. In einfachster Form (sollte aber den Bedürfnissen des Modells angepasst werden):
Allgemein gilt, der Gesamtscore ist die Summe aller match-, mismatch, und gap-scores. Das Alignment mit dem höchsten Score ist ein optimales Alignment. Dieses zu finden ist ein Optimierungsproblem, welches beim paarweisen Alignment mit der Methode der dynamischen Programmierung (Needleman-Wunsch-Algorithmus) relativ effizient gelöst werden kann. Beispiel
Für S = GAC und T = GC sind mögliche Lösungen:
Lokales AlignmentMethoden zum Finden von lokalen Alignments werden verwendet, wenn zwei Sequenzen auf Homologien untersucht werden sollen, jedoch keine Übereinstimmung auf der gesamten Länge der Sequenz zu erwarten ist. Das heißt ein lokales Alignment ist auf Teilbereiche der Sequenz beschränkt. Beispiele sind hierbei die Suche nach gleichen Sequenzmotiven oder Domänen bei Proteinen. Ein bekannter Algorithmus zur Berechnung von lokalen Alignments ist der Smith-Waterman-Algorithmus. Hierfür wird eine Scorefunktion verwendet. Es geht darum Ähnlichkeiten zu maximieren anstatt Unterschiede zu minimieren. Semiglobales AlignmentBei stark unterschiedlich langen Sequenzen sollte nach semiglobalen Alignments gesucht werden. Für die Berechnung des Score berücksichtigt man nur die internen Gaps, nicht die Terminalen. Multiples SequenzalignmentWährend das optimale Alignment von 2 Sequenzen mit Hilfe eines Computers recht schnell (d.h. in polynomieller Zeit) exakt berechnet werden kann (Laufzeit O(nm), n und m sind die Längen der Sequenzen), ist dies beim multiplen Sequenzalignment (engl. multiple sequence alignment) nicht mehr möglich, da die Laufzeit des Algorithmus zur exakten Berechnung des multiplen Alignment mit der Anzahl der Sequenzen exponentiell wächst (O(2knk), wobei k die Anzahl der Sequenzen und n die längste der zu vergleichenden Sequenzen ist). Um jedoch ein biologisch bzw. evolutionär sinnvolles Alignment berechnen zu können, aus dem sich tatsächlich Gemeinsamkeiten und Unterschiede in Sequenz, Struktur und Funktion ableiten lassen, braucht man viele lange Sequenzen. Deshalb werden Heuristiken verwendet, beispielsweise sogenannte Progressive Strategien (auch Hierarchische Methoden genannt). Hierbei werden zunächst alle optimalen paarweisen Alignments der zu untersuchenden Sequenzen berechnet und daraus durch Clusteranalyse (zum Beispiel unter Verwendung eines Neighbour-Joining-Algorithmus) ein phylogenetischer Baum abgeleitet (der sogenannte Guide Tree). Entlang dieses Baumes wird schließlich schrittweise (progressiv, nach dem Prinzip eines Greedy-Algorithmus) ein multiples Alignment bestimmt, wobei durch dieses heuristische Vorgehen die optimale Lösung nicht garantiert ist. Alignment-Algorithmen
heuristische Algorithmen für paarweises Alignment: heuristische Algorithmen für multiples Alignment:
Verwandte Themen
SoftwareHäufig genutzte Programme für allgemeine Sequenzalignments sind ClustalW und TCoffee sowie BLAST für die Datenbanksuche. Eine umfangreiche Liste verfügbarer Software kategorisiert nach Algorithmus und Art der Alignments findet sich hier: en:sequence alignment software. Online InterfaceDas Programm STRAP integriert fast alle frei verfügbaren Programme zur Berechnung von Sequenzalignments. Diese werden automatisch installiert und sind dann mit einer komfortablen graphischen Benutzeroberfläche aufrufbar. Dadurch erspart sich der Nutzer die individuelle Installation und das Erlernen der Kommandozeilensyntax der einzelnen Programme. Da das Berechnen großer Alignments viel Zeit in Anspruch nehmen kann, werden Ergebnisse langwieriger Berechnungen im Cache gespeichert. Wenn für mindestens zwei der Proteine auch 3D-Strukturen vorhanden sind, ist die kombinierte Anwendung von Sequenzalignment und 3D-Strukturüberlagerung zu empfehlen. Literatur
Siehe auch |
||||||||||||||
Dieser Artikel basiert auf dem Artikel Sequenzalignment aus der freien Enzyklopädie Wikipedia und steht unter der GNU-Lizenz für freie Dokumentation. In der Wikipedia ist eine Liste der Autoren verfügbar. |