Acelerar la alineación de secuencias en el árbol de la vida
Un motor de búsqueda de secuencias para una nueva era de la genómica de la conservación
pixabay.com
Los seres humanos compartimos muchas secuencias de nucleótidos que componen nuestros genes con otras especies, en particular con los cerdos, pero también con los ratones e incluso con los plátanos. En consecuencia, algunas proteínas de nuestro cuerpo -cadenas de aminoácidos ensambladas según el plano de los genes- también pueden ser iguales (o similares) a algunas proteínas de otras especies. Estas similitudes pueden indicar a veces que dos especies tienen una ascendencia común, o simplemente pueden surgir si la necesidad evolutiva de una determinada característica o función molecular surge por casualidad en las dos especies.
Superar el estándar de oro de la investigación genómica comparativa
Pero, por supuesto, averiguar lo que se comparte con un cerdo o un plátano puede ser una tarea monumental; la búsqueda de una base de datos con toda la información sobre usted, el cerdo y el plátano es bastante complicada desde el punto de vista computacional. Los investigadores esperan que los genomas de más de 1,5 millones de especies eucariotas -que incluyen todos los animales, plantas y hongos- estén secuenciados en la próxima década. "Incluso ahora, con sólo cientos de miles de genomas disponibles (que representan en su mayoría pequeños genomas de bacterias y virus), ya estamos ante bases de datos con hasta 370 millones de secuencias. La mayoría de las herramientas de búsqueda actuales serían sencillamente impracticables y llevarían demasiado tiempo para analizar datos de la magnitud que esperamos en un futuro próximo", explica Hajk-Georg Drost, jefe del grupo de Biología Computacional del Departamento de Biología Molecular del Instituto Max Planck de Biología del Desarrollo de Tubinga.
"Durante mucho tiempo, el patrón de oro para este tipo de análisis solía ser una herramienta llamada BLAST", recuerda Drost. "Si intentabas rastrear cómo se mantenía una proteína por selección natural o cómo se desarrollaba en diferentes linajes filogenéticos, BLAST te daba las mejores coincidencias a esta escala. Pero es previsible que en algún momento las bases de datos crezcan demasiado para realizar búsquedas exhaustivas con BLAST".
Encontrar la aguja en el pajar - ¡pero rápido!
En el centro del problema se encuentra el equilibrio entre velocidad y sensibilidad: al igual que se pierden algunos huevos de Pascua pequeños o bien escondidos si se escanea brevemente una habitación, acelerar la búsqueda de similitudes de secuencias de proteínas en una base de datos suele conllevar la desventaja de perder algunas de las coincidencias menos obvias.
"Por eso, hace algún tiempo, empezamos a idear el algoritmo DIAMOND, con la esperanza de que nos permitiera tratar con grandes conjuntos de datos en un tiempo razonable", recuerda Benjamin Buchfink, colaborador y estudiante de doctorado en el grupo de investigación de Drost que lleva desarrollando DIAMOND desde 2013. "Lo hizo, pero también vino con una desventaja: no podía recoger algunas de las relaciones evolutivas más distantes". Eso significa que mientras el DIAMOND original puede haber sido lo suficientemente sensible como para detectar una determinada secuencia de aminoácidos humanos en un chimpancé, puede haber sido ciego a la ocurrencia de una secuencia similar en una especie evolutivamente más remota.
Una poderosa herramienta para futuras investigaciones
Aunque es útil para estudiar material extraído directamente de muestras ambientales, otros objetivos de investigación requieren herramientas más sensibles que el algoritmo de búsqueda original de DIAMOND. El equipo de investigadores de Tubinga y Garching ha podido modificar y ampliar DIAMOND para que sea tan sensible como BLAST y mantenga su velocidad superior: con el DIAMOND mejorado, los investigadores podrán realizar investigaciones genómicas comparativas con la precisión de BLAST a una velocidad computacional entre 80 y 360 veces superior. "Además, DIAMOND permite a los investigadores realizar alineaciones con una sensibilidad similar a la de BLAST en un superordenador, en un clúster de computación de alto rendimiento o en la Nube de forma verdaderamente masiva y paralela, haciendo posible alineaciones de secuencias a gran escala en un tiempo manejable", añade Klaus Reuter, colaborador del Max Planck Computing and Data Facility". Algunas consultas que con otras herramientas habrían tardado dos meses en un superordenador pueden realizarse en varias horas con la nueva infraestructura de DIAMOND. "Teniendo en cuenta el crecimiento exponencial del número de genomas disponibles, la velocidad y la precisión de DIAMOND son exactamente lo que la genómica moderna necesitará para aprender de toda la colección de todos los genomas, en lugar de tener que centrarse sólo en un número menor de especies concretas por falta de capacidad de búsqueda sensible", predice Drost. El equipo está pues convencido de que todas las ventajas de DIAMOND se harán patentes en los próximos años.
Nota: Este artículo ha sido traducido utilizando un sistema informático sin intervención humana. LUMITOS ofrece estas traducciones automáticas para presentar una gama más amplia de noticias de actualidad. Como este artículo ha sido traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática. El artículo original en Inglés se puede encontrar aquí.