Ein Schlüssel zur Analyse von Millionen Einzelzellen

Künstliche Intelligenz in der Biomedizin

27.01.2025
Astrid Eckert / TUM

Fabian Theis, Professor für die Mathematische Modellierung biologischer Systeme.

Unser Körper setzt sich aus etwa 75 Milliarden einzelner Zellen zusammen. Doch welcher Funktion geht jede dieser Zellen nach und wie unterscheiden sich die Zellen eines gesunden Menschen von Personen mit einer Erkrankung? Um Rückschlüsse ziehen zu können, müssen riesige Datenmengen analysiert und interpretiert werden. Dafür wird auf Methoden des maschinellen Lernens zurückgegriffen. Forschende der Technischen Universität München (TUM) und des Helmholtz Munich haben nun Selbstüberwachtes Lernen als vielversprechenden Ansatz an über 20 Millionen Zellen getestet.

In den letzten Jahren haben Forschende große Fortschritte in der Einzelzelltechnologie erzielt. Dadurch ist es möglich, Gewebe auf Grundlage einzelner Zellen zu untersuchen und die unterschiedlichen Funktionen einzelner Zelltypen überhaupt zu bestimmen. Diese Analysen können beispielsweise genutzt werden, um durch den Vergleich mit gesunden Zellen festzustellen, wie Rauchen, Lungenkrebs oder eine Covid-Erkrankung einzelne Zellstrukturen in der Lunge verändern.

Gleichzeitig fallen durch die Analysen immer größere Mengen an Daten an. Methoden des maschinellen Lernens sollen dabei unterstützen, Daten aus existierenden Datensätzen neu zu interpretieren, aussagekräftige Informationen aus den Mustern zu erkennen und diese auf andere Bereiche zu übertragen.

Selbstüberwachtes Lernen als neuer Ansatz

Fabian Theis, Professor für die Mathematische Modellierung biologischer Systeme, und sein Team haben in einer Studie untersucht, ob sich Selbstüberwachtes Lernen besser für die Analyse von großen Datenmengen eignet als andere Methoden. Die Studie wurde vor Kurzem bei Natur Machine Intelligence veröffentlicht. Diese Form des maschinellen Lernens arbeitet mit unbeschrifteten Daten. Dabei werden im Vorhinein keine klassifizierten Beispieldaten benötigt. Das heißt, die Daten müssen zuvor nicht händisch bestimmten Gruppen zugeordnet werden. Unbeschriftete Daten liegen in großer Anzahl vor und ermöglichen eine robuste Repräsentation großer Datenmengen.

Dem Selbstüberwachten Lernen liegen zwei Methoden zugrunde. Beim sogenannten maskierten Lernen wird ein Teil der Eingabedaten unkenntlich gemacht und das Modell so trainiert, dass es die fehlenden Teile rekonstruieren kann. Die Forschenden wendeten darüber hinaus kontrastives Lernen an, bei dem das Modell lernt, ähnliche Daten zusammenzubringen und unähnliche Daten zu trennen.

Beide Methoden des Selbstüberwachten Lernens testete das Team an über 20 Millionen Einzelzellen und verglich sie mit den Ergebnissen klassischer Lernmethoden. Die Forschenden konzentrierten sich bei der Bewertung der unterschiedlichen Methoden auf Aufgaben wie die Vorhersage von Zelltypen oder die Rekonstruktion der Genexpression.

Chancen für die Entwicklung virtueller Zellen

Die Ergebnisse der Studie zeigen, dass Selbstüberwachtes Lernen insbesondere bei Transfer-Aufgaben einen Mehrwert bietet. Das heißt, bei der Anwendung auf kleinere Datensätze, bei denen Informationen aus größeren Datenbanken übertragen werden. Darüber hinaus sind die Ergebnisse bei Zero-Shot Zellvorhersagen vielversprechend, also bei Aufgaben, die vorher nicht trainiert wurden. Der Vergleich zwischen maskiertem und kontrastivem Lernen zeigt, dass sich maskiertes Lernen besser für große Einzelzell-Datensätze eignet.

Mithilfe der Daten arbeiten die Forschenden daran, sogenannte virtuelle Zellen zu entwickeln, also umfassende Computermodelle, die die Vielfalt von Zellen in verschiedenen Datensätzen abbilden. Diese Modelle sind beispielsweise vielversprechend bei der Analyse von Zellveränderungen, wie es bei Krebserkrankungen der Fall ist. Die Ergebnisse der Studie liefern wertvolle Hinweise, wie solche Modelle effizienter trainiert und weiter verbessert werden können.

Originalveröffentlichung

Weitere News aus dem Ressort Wissenschaft

Meistgelesene News

Weitere News von unseren anderen Portalen

Revolutioniert künstliche Intelligenz die Life Sciences?

Verwandte Inhalte finden Sie in den Themenwelten

Themenwelt Zellanalyse

Die Zellanalyse ermöglicht es uns, Zellen in ihren vielfältigen Facetten zu erforschen und zu verstehen. Von der Einzelzellanalyse über die Durchflusszytometrie bis hin zur Bildgebungstechnologie – die Zellanalyse bietet uns wertvolle Einblicke in die Struktur, Funktion und Interaktion von Zellen. Ob in der Medizin, der biologischen Forschung oder der Pharmakologie – die Zellanalyse revolutioniert unser Verständnis von Krankheiten, Entwicklung und Behandlungsmöglichkeiten.

5+ Produkte
5 White Paper
5+ Broschüren
Themenwelt anzeigen
Themenwelt Zellanalyse

Themenwelt Zellanalyse

Die Zellanalyse ermöglicht es uns, Zellen in ihren vielfältigen Facetten zu erforschen und zu verstehen. Von der Einzelzellanalyse über die Durchflusszytometrie bis hin zur Bildgebungstechnologie – die Zellanalyse bietet uns wertvolle Einblicke in die Struktur, Funktion und Interaktion von Zellen. Ob in der Medizin, der biologischen Forschung oder der Pharmakologie – die Zellanalyse revolutioniert unser Verständnis von Krankheiten, Entwicklung und Behandlungsmöglichkeiten.

5+ Produkte
5 White Paper
5+ Broschüren