Explorando el paradigma actual de la regulación de los genes
¿Cuánta información específica de los tejidos contienen las secuencias potenciadoras?
¿Cómo saben las células cuándo deben activar un determinado gen? Esta información está codificada en la secuencia del ADN, pero nuestra comprensión de este código es incompleta. Los investigadores han probado ahora cuánta información puede extraerse de los datos de la secuencia para predecir qué gen está activo en cada tejido.
Unsplash
Un buen narrador sabe exactamente qué anécdotas darán vida a los personajes de sus historias. Contando la historia correcta en el momento adecuado, nuestro genoma consigue incluso dar lugar a cientos de tipos de células diferentes con historias vitales características que insuflan una identidad individual a cada célula.
Los fragmentos de ADN repartidos por el genoma albergan el código que dirige el guión de la vida de una célula, activando y desactivando sucesivamente los genes. Las secuencias denominadas potenciadoras desempeñan un papel destacado en este proceso. Atraen a las proteínas del factor de transcripción que inician la expresión de los genes, "potenciando" así su actividad. En algunos casos, se sitúan lejos del gen que activan.
Los investigadores Philipp Benner y Martin Vingron, del Instituto Max Planck de Genética Molecular (MPIMG), se propusieron descifrar las instrucciones de los patrones de activación en distintos tipos de células y tejidos embrionarios del ratón.
Mediante una serie de análisis estadísticos y bioinformáticos, los científicos identificaron varios centenares de secuencias de ADN específicas de cada tejido o "palabras clave" en los potenciadores que guían los factores de transcripción, no sólo confirmando secuencias ya conocidas por otros estudios, sino también identificando muchas nuevas. Los resultados se han publicado en varios artículos en NAR Genomics and Bioinformatics y en el Journal of Computational Biology.
Entrenamiento de un modelo
"Hoy en día, los investigadores asumen que toda la información está en la secuencia del ADN, incluida la información para tipos de células, tejidos y órganos específicos", dice Martin Vingron, Director del MPIMG. Según la teoría predominante, las proteínas de los factores de transcripción reconocen "palabras clave" en los potenciadores que son específicas para un determinado tipo de célula, lo que permite al genoma contar la historia de una célula saltando a los capítulos adecuados. "Queríamos ver hasta dónde nos llevaba este enfoque y probar sus límites", dice Vingron.
Los investigadores desarrollaron un programa capaz de identificar las secuencias de ADN que reconoce la célula para activar los genes de forma específica para cada tejido. Lo consiguieron entrenando un modelo estadístico con los datos experimentales existentes, diciéndole qué potenciador está activo en cada tejido. En concreto, utilizaron datos de secuenciación de ocho tejidos del ratón embrionario como el corazón, el pulmón, el cerebro o el hígado.
Aprender a predecir
Al comparar los datos de la secuencia entre los tejidos, el programa aprendió a reconocer patrones de secuencia en los potenciadores que son característicos de ciertos tejidos.
Esto indicó a los investigadores cuánta información reguladora específica del tipo de célula contiene realmente la secuencia de ADN de los potenciadores, explica Philipp Benner, que es investigador postdoctoral en el laboratorio de Vingron: "Cuanto mejor pueda clasificar nuestro algoritmo un potenciador determinado, más información contendrá sobre los tejidos o tipos celulares de los que es responsable".
Los clasificadores estadísticos también pueden identificar las subsecuencias de ADN que podrían subyacer a la activación génica específica del tipo de célula. De hecho, Benner encontró varios cientos de nuevas palabras clave, además de los patrones que se han identificado en otros estudios.
"En general, establecimos un modelo sólido y, lo que es más importante, interpretable", dice Benner.
Llegar a los límites
"Con nuestros métodos avanzados, las predicciones son prometedoras pero están lejos de ser perfectas", dice Vingron. "Nuestros resultados indican que en realidad podríamos tener sólo una comprensión fragmentaria del código regulador real específico del tipo de célula".
Es posible que no toda la información necesaria esté contenida en la secuencia de ADN de los potenciadores, sino que esté distribuida en otras partes del genoma. Algunas referencias cruzadas en el libro de historia del genoma podrían seguir ocultas en otras secuencias reguladoras, como las regiones promotoras que están muy cerca del propio gen.
Nota: Este artículo ha sido traducido utilizando un sistema informático sin intervención humana. LUMITOS ofrece estas traducciones automáticas para presentar una gama más amplia de noticias de actualidad. Como este artículo ha sido traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática. El artículo original en Inglés se puede encontrar aquí.
Publicación original
Benner, Philipp; "Computing leapfrog regularization paths with applications to large-scale k-mer logistic regression"; Journal of Computational Biology; 28.6 (2021): 560-569.
Benner, Philipp, and Martin Vingron; "Quantifying the Tissue-Specific Regulatory Information within Enhancer DNA Sequences"; NAR Genomics and Bioinformatics; 3.4 (2021).
Benner, Philipp, and Martin Vingron; "ModHMM: A modular supra-Bayesian genome segmentation method"; Journal of Computational Biology; 27.4 (2020): 442-457.