Cómo encontrar genes marcadores en grupos de células
Un nuevo método facilita la identificación de genes específicos del tipo de célula en los datos de una sola célula
Unsplash
¿Qué genes son específicos de un determinado tipo de célula, es decir, "marcan" su identidad? Con el creciente tamaño de los conjuntos de datos en la actualidad, responder a esta pregunta suele ser un reto. A menudo, los genes marcadores son simplemente genes que se han encontrado en poblaciones celulares específicas. Sin embargo, hay muchos más genes que podrían ser característicos de un tipo de célula concreto pero que permanecen sin descubrir.
"Association Plots(APL)", un nuevo método estadístico para visualizar la actividad de los genes dentro de una agrupación celular, facilita la búsqueda de sus genes marcadores. Los gráficos comparan la actividad de los genes de un clúster determinado con todos los demás clústeres del conjunto de datos. Además, permiten ver fácilmente qué genes se comparten con otros clusters.
"Los gráficos de asociación no sólo nos permiten identificar nuevos genes marcadores. También funciona a la inversa: somos capaces de emparejar clusters de identidad desconocida en un conjunto de datos con tipos de células, basándonos en una lista proporcionada de genes marcadores", afirma Elzbieta Gralinska, del Instituto Max Planck de Genética Molecular de Berlín.
La biotecnóloga trabaja en el equipo de Martin Vingron, que desarrolló la técnica, demostró su funcionalidad en dos conjuntos de datos disponibles públicamente y publicó los resultados en el Journal of Molecular Biology. Además, APL se ha publicado como módulo gratuito para el entorno estadístico R. El paquete APL permite a los investigadores inspeccionar visualmente sus datos de células individuales y seleccionar genes individuales con el cursor para conocer detalles más profundos.
Análisis y agrupación de células individuales
¿Por qué es necesario identificar los genes marcadores en primer lugar? Las tecnologías modernas de secuenciación son capaces de descifrar moléculas individuales de ARN en células individuales. A partir de una muestra de sangre, por ejemplo, se puede separar cada célula y descifrar una muestra de los ARN de la misma. Estos datos de una sola célula representan los genes activos que se transcribieron en moléculas de ARN.
La ventaja: en lugar de preguntarse a qué tipo de célula pertenece un ARN concreto, puede rastrearse hasta su célula de origen. La desventaja: la secuenciación de miles de ARN en cada una de las decenas de miles de células produce cantidades extraordinarias de datos.
Una solución es clasificar las células en función de su contenido de ARN. "Los datos de una sola célula se componen de una mezcla salvaje de muchos tipos de células diferentes. Nos interesan las células del mismo tipo, que deberían comportarse de forma similar", explica Martin Vingron. De ahí que tenga sentido agrupar computacionalmente células similares, afirma. "Para nosotros, los genes marcadores definen un tipo celular".
Explorar grupos de células de forma interactiva
Utilizando datos disponibles públicamente de glóbulos blancos, el equipo demostró cómo funciona el nuevo algoritmo. Los distintos tipos de glóbulos blancos, como las células T, las células B o los monocitos, se agrupan en conjuntos separados. Los investigadores confirmaron los genes marcadores conocidos y pudieron demostrar que los parientes cercanos entre las células sanguíneas también comparten una gran similitud en su actividad genética.
"Cada uno de los genes marcadores que encontramos con la LPA podría haber sido descubierto por al menos otro método existente para la identificación de genes marcadores", afirma Gralinska. Pero la ventaja de APL sobre los algoritmos existentes es su representación gráfica de los resultados, dice. "Las herramientas existentes proporcionan largas listas de genes y valores de puntuación. A menudo, los usuarios recorren la lista y se detienen en un punto de corte arbitrario", dice Gralinska.
En cambio, el nuevo método permite visualizar estos genes, hacer clic en cada uno de ellos y observar su actividad más de cerca, afirma. "No nos limitamos a proporcionar listas de genes marcadores, sino que permitimos a los usuarios revisar cómo se comportan estos genes", afirma la investigadora. "Con Association Plots, pueden bucear en sus datos para aprender más sobre cada tipo de célula". Además, dice, es muy fácil desglosar el papel biológico de los genes más interesantes en un paso posterior mediante el análisis de enriquecimiento de términos de Gene Ontology, que es compatible con el software APL, algo que considera "una característica muy útil."
El modelo matemático subyacente
Los datos de alta dimensión que contienen información sobre la actividad de los genes no pueden representarse visualmente sin pérdida de información. Lo mismo ocurre con los datos agrupados, lo que complica el análisis. "Nuestro truco es que tenemos en cuenta muchas más que dos o tres dimensiones, pero al final creamos un diagrama bidimensional", dice Gralinska.
Los diagramas de asociación se derivan de una técnica matemática que integra simultáneamente tanto los genes como las células en un espacio común de alta dimensión. La medición de las distancias entre los genes y un determinado grupo de células en este espacio da lugar a pares de valores que reflejan la asociación de un gen con un determinado grupo y dan una idea de su asociación con otros grupos.
"Una de las deficiencias de APL es que nos basamos en datos preagrupados, lo que significa que tenemos que recurrir a otras técnicas de agrupación", afirma Martin Vingron. "No obstante, esperamos que nuestro nuevo método encuentre muchos nuevos usuarios. Nos parece que un proceso visual e interactivo simplemente hace un mejor análisis".
Nota: Este artículo ha sido traducido utilizando un sistema informático sin intervención humana. LUMITOS ofrece estas traducciones automáticas para presentar una gama más amplia de noticias de actualidad. Como este artículo ha sido traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática. El artículo original en Inglés se puede encontrar aquí.