Análisis de rutas en bioinformática: Mapeo de datos a información

0

Biólogo computacional y Kolabtree freelance Shaurya Jauhari escribe sobre los retos actuales que implica el análisis de vías en bioinformática y las posibles soluciones al problema. 

En la era contrastada de la "medicina imprecisa" (que nos impulsa a sintonizar con la medicina de precisión) y de la inundación de datos biomédicos provocada por los avances en las tecnologías instrumentales, persiste una laguna que se basa en gran medida en la asignación de datos a información. Los experimentos clínicos generan biomarcadores (técnicamente lista de genes o regiones genómicas más contemporáneas) que deben ser expuestos por sus implicaciones biológicas. El conjunto actual de herramientas que facilitan este esfuerzo es menos útil, ya que descuida la ipso facto, las interacciones espaciales del genoma dado su perfil de acomodación dentro del núcleo de cada célula eucariota. Este comentario trata de poner de relieve la naturaleza del problema, arrojar luz sobre la organización del genoma, reflexionar brevemente sobre las herramientas actuales de cartografía y conjeturar las posibles soluciones.

El diablo está en los detalles

Un grupo de esfuerzos para perfeccionar la resolución de los datos genómicos está rozando un esquema crucial de información. Estamos impulsando ansiosamente la probabilidad de un genoma $1000, aunque nos importa menos el análisis $100.000. Existe un gran compendio de repertorios que contienen las anotaciones a los resultados experimentales y los casos bajo un estudio biológico típico. Puede haber definiciones que indiquen las implicaciones biológicas de que un gen, o la vía de la que forman parte esos genes, se asocie a una enfermedad. Una vez más, este tipo de almacenes dinámicos de información han sido curados manualmente (antiguamente) y la gestión del conocimiento ha sido asumida por tuberías automatizadas que emplean ordenadores y TIC en general. Estas bases de datos se actualizan con una sabiduría científica orientada al consenso y han acogido un puñado de revisiones desde su creación. El conducto que relaciona los resultados experimentales con sus implicaciones biológicas está muy atenuado, en gran medida porque se descarta la "verdadera" biología subyacente.

Nuestro genoma, con una media de 2 metros de longitud, se aloja en el núcleo de cada una de las células que conforman nuestro cuerpo. Debido a la diminuta estructura de una célula y, sobre todo, de su núcleo, el genoma está empaquetado de forma un tanto forzada y blanda. Esto permite que regiones del genoma, bastante distantes desde una perspectiva lineal, se acerquen e interactúen. Este adagio es rechazado por el actual conjunto de herramientas de enriquecimiento (mapeo) y, por lo tanto, los resultados generados son desproporcionados.

Las regiones del genoma forman parte de grandes "grupos de acción" o vías de acceso que son técnicamente series de reacciones químicas que dan cuenta de un fenotipo; sano o enfermo. Cuando se examina un estado de enfermedad, los investigadores buscan los biomarcadores que se han desviado potencialmente y que aparentemente han transformado el cuerpo del organismo de tonificado a se movió. Imagínese persiguiendo una enfermedad difícil de combatir con información desajustada.

sdsdsPlanteamiento del problema - Flujo de trabajo del típico análisis de enriquecimiento. Hay una cierta
"idiomatismo" asociado al mapeo de las secuencias del genoma a los genes, y que orquesta la
resultados de la corriente.

Organización del genoma

Como ya se ha dicho, el genoma es lo suficientemente largo como para ser almacenado linealmente dentro del núcleo de una célula, para cada célula de nuestro cuerpo o de cualquier otro organismo vivo. Más bien, esta entidad de 2 metros está aplastada y apiñada en una estructura aparentemente desordenada, con bucles, giros y remolinos, como uno puede imaginar. Este interminable La cadena de nucleótidos o pares de bases -Adenina (A), Citosina (C), Timina (T) y Guanina (G)- estructura distintas topologías dentro del núcleo mientras se ajusta a la exigüidad. Forman bucles de cromatina, compartimentos/subcompartimentos, dominios/subdominios que cumplen una función, de acuerdo con el tipo de célula. (Obsérvese que los distintos tipos de células funcionan de manera diferente; una célula nerviosa tiene otras empresas que atender que una célula muscular; cada una tiene un papel exclusivo que desempeñar).


El genoma se enrolla y se extiende en espacios objetivos. (Crédito: https://doi.org/10.1038/nrg.
2016.112)

Bases de datos de rutas

Existen diversas ontologías y bases de datos, entre ellas la Enciclopedia de Genes y Genomas de Kioto (KEGG) (https://www.genome.jp/kegg/) y Gene Ontology (http://geneontology.org/Las pocas herramientas que voy a exponer en la próxima sección (y que a menudo son objeto de opinión) engendran términos de enriquecimiento que proceden "selectivamente" de dichas bases de datos. A partir de sus valores de significación estadística, se deduce si realmente representan un fenotipo de la lista o son sólo una cuestión de desarrollo aleatorio. (P.D. Hay un escrito sobre los valores p que presumiblemente ayudará a los profanos a entender la idea de significación estadística. Por favor, siga el enlace https://sway.office.com/WkyHrPnVB8Ec3zPD?play a su conveniencia).

Herramientas de enriquecimiento

El análisis de enriquecimiento es un protocolo computacional de novo regiones genómicas a sus definiciones registradas en las bases de datos a las que se ha aludido. Por lo que respecta a las herramientas (que actúan como conducto), se estructuran clásicamente bajo varios epígrafes, a saber, análisis de sobrerrepresentación (ORA), puntuación de clases funcionales (FCS), métodos basados en la topología de las vías (PT) y métodos de interacción de redes (NI).

Análisis de la sobrerrepresentación

El análisis de sobrerrepresentación, a través del dogma de la distribución hipergeométrica, evalúa el conjunto de genes diferencialmente expresados para los que podrían formar parte de una vía biológica. Básicamente, una prueba hipergeométrica considera cuatro atributos para llegar a una decisión, a saber

  1. Número total de genes en el ensayo considerado,
  2. Los genes expresados diferencialmente,
  3. Genes en la vía objetivo del número total de genes, y
  4. Genes expresados diferencialmente en la vía objetivo.


La esencia de la prueba hipergeométrica

A pesar de ser una metodología sencilla y directa, la ORA presenta sus propias limitaciones.

  • Democracia en juego; todos los genes se consideran por igual¿Por qué es un problema? Supongamos que los genes se filtran en función de cambio de pliegues. Seleccionamos los genes que abarcaban una diferencia de expresión mayor o igual a 2 veces (pliegues), tanto en sentido negativo como positivo. Aunque el mínimo era de 2 veces, este flujo de trabajo también capturaría genes con cambios de expresión de 3 veces, 4 veces y más. Seguramente, un gen con una disparidad de expresión de 4 veces es más prudente que un gen con un cambio de 2 veces. Esta manifestación está descartada por la ORA.
  • Considera sólo los genes más significativosDe nuevo, consideremos un gen con un cambio de pliegue de 1,9999 o un valor p <0,0051113; normalmente, un valor p <0,05 se considera estadísticamente significativo. La metodología ORA pasa por alto este gen en el resultado final. Está claro que hay una pérdida de información y una falta de flexibilidad. (P.S. Breitling et al. abordaron este problema proponiendo una extemporaneidad para evitar los umbrales. La revisión emplea un enfoque iterativo que añade un gen a la vez para compilar un conjunto de genes para los que una vía es óptimamente significativa).
  • Ningún gen funciona de forma aisladaEsto se debe a las limitaciones mencionadas anteriormente, ya que al tratar el gen como una entidad independiente se pierde la esencia de la contribución poligénica a un fenotipo. Uno de los objetivos del análisis de la expresión génica podría ser dilucidar cohortes de genes cuyos patrones de expresión sean congruentes. Esta sinfonía pone de relieve los genes funcionalmente afines o los que trabajan hacia un estado biológico común.
  • Vías independientes entre síLa ORA también asume que las vías no funcionan en tándem (o en sucesión). Esto es principalmente erróneo, ya que una serie de reacciones químicas podría preceder o proseguir una a otra.

Puntuación de la clase funcional

A diferencia de ORA, los métodos FCS subsumen todos los genes contextuales así como sus estadísticas de asociación (cambio de pliegues, valor p) y calculan un corriendo Puntuación de enriquecimiento para agrupaciones de genes (basada en algún conocimiento funcional como la Ontología de Genes o las vías KEGG). Por ejemplo, GSEA del Instituto Broad (http://software.broadinstitute.org/gsea/index.jsp). Una ejecución típica de FCS analizaría el cambio de expresión de los genes en general en la lista (no la clasificación por significación estadística o algo más) de genes expresados diferencialmente en un experimento. El resultado principal del análisis de enriquecimiento de conjuntos de genes es una puntuación de enriquecimiento (ES) que refleja el grado de sobrerrepresentación de un conjunto de genes en la parte superior o inferior de una lista clasificada de genes; ¿por qué superior e inferior? porque ahí están los genes más alejados de lo normal, en términos de cambio de expresión. Una puntuación ES positiva para un conjunto de genes (o una vía objetivo, GS) será indicativo de los genes de la lista (GL) que caen en la parte superior (más regulados; 1,2,3 ...), mientras que una puntuación ES negativa significará que los genes componentes se encuentran en la parte inferior (más regulados; n-3, n-2, n-1, n, donde n es el número total de genes). P.D. El ES se convierte en ES normalizado (NES) cuando se corrige el problema de las pruebas múltiples (tasa de falsos descubrimientos, p. ej. Método de Bonferroni).

En resumen, los métodos FCS son notablemente mejores que los métodos ORA por,

  • evitando el requisito de un umbral arbitrario para clasificar los genes como significativos o no significativos.
  • Apreciar la información sobre la expresión de los genes para rastrear los cambios sistemáticos en la vía; esto permite rendir cuentas sobre la interdependencia de los genes.

Sin embargo, los métodos del FCS también tienen ciertas deficiencias.

  • Dado que las vías se analizan de forma independiente, es posible que no se cuenten los genes que regulan varias vías.
  • Muchos métodos de SCA clasifican los genes de una lista sobre la base de los cambios en la expresión génica. Un escenario en el que la diferencia de rangos refleja una varianza desigual (y posiblemente exponencial) en la expresión podría ser quizás una medida injusta.

La normalización de las puntuaciones ES correspondientes a una lista de genes.

Enfoques basados en la topología de las vías

Una privación crucial de los métodos ORA y FCS es que ignoran la estructura de las vías. El orden de los genes que se regulan en una vía es esencial para rastrear los efectos causales. Comprensiblemente, podría haber exactamente dos vías con los mismos componentes génicos, pero la jerarquía de activación podría ser totalmente diferente. Si fuera por los métodos ORA/FCS, habrían dado lugar a términos de enriquecimiento similares. Eso es un problema. Los métodos Pathway Topology(PT) asumen la exclusividad en la función dependiendo de las interacciones específicas, lo que se ajusta a la lógica general también. Ejemplos de herramientas son SPIA (https://www.bioconductor.org/packages/release/bioc/manuals/SPIA/man/SPIA.pdf), GGEA y PARADIGM. En general, las herramientas de esta categoría tendrán una puntuación local y otra global. La puntuación local a nivel del gen calibrará los cambios de pliegue en la expresión del gen y de los genes anteriores, mientras que la puntuación global medirá el nivel de la vía para la relación con el conjunto de genes. Sin embargo, esto también hace que los métodos de PT sobreajusten los datos para una condición/tipo de célula peculiar.

Análisis basado en la interacción de redes

Se trata de una categoría bastante infravalorada que todavía se aplica escasamente, a pesar de su antigua formulación. Métodos como EnrichNet , NetPEA (http://www.dx.doi.org/10.1109/BIBM.2013.6732493) se han propuesto hace cerca de una década, pero no han ganado mucha tracción debido a las limitadas herramientas disponibles. Esta fachada limita la destreza del tema, ya que no hay mejoras documentadas. Esto se convierte en un problema de investigación abierto.

El aparente Panacea

Probablemente ahora tenga una idea sobre el enriquecimiento fundamental/análisis de vías y el tipo de herramientas que lo ayudan. Sin embargo, como he mencionado antes, todas las herramientas disponibles (que caen en las categorías marcadas) se basan en un parámetro sesgado de una ventana lineal a través de la región consultada. Si los segmentos del genoma que intervienen entran en este marco, aparecen como enriquecidoo no. El verdadero negocio es tener una herramienta que, tal vez, introduzca un centro y diámetro de un círculo hipotético, por así decirlo para destacar la organización 3D basada en las interacciones del genoma para la región.


GREAT ofrece varias opciones de avance para especificar la dimensión lineal alrededor del Sitio de Inicio de Transcripción de un gen.

Enrichr presenta una selección directa del tipo de genoma y del número de genes en la supuesta región lineal.

Como se deduce de la Figura 4, no se aprecia la "verdadera" organización espacial del genoma. Este es un problema y una profunda falla que persiste en el dominio actual del análisis de enriquecimiento. A pesar de ello, también hay una relevancia evidente de fábricas de transcripciónidentificados como sitios en el espacio nuclear que atraen a los elementos reguladores distantes para "festejar en casa". En broma, suelo comentar que, al igual que alguien que está enfadado con alguien o algo, las fábricas de transcripción (personificadas) podrían reprender al genoma.La transcripción se hará sobre mi cadáver, ¡nada más!". El tema adyacente de las fábricas de transcripción es objeto de un debate adyacente y futuro. Sin embargo, materializa el dogma de las interacciones cis-reguladoras que está mal en la práctica contemporánea.

Para terminar, me gustaría señalar que el análisis de las vías es una fracción crucial, y a menudo descuidada, de la Bioinformática de la tubería. Siempre hay margen para ampliar las metodologías existentes en función de los datos genómicos, que evolucionan mientras hablamos. Cuando dispongamos de un mayor volumen de datos, no sólo será un problema de infraestructura, sino también de algoritmos.

Necesidad de contratar a un consultor en bioinformática? Trabaja con científicos autónomos en Kolabtree. Es gratis publicar tu proyecto y obtener presupuestos de expertos.

Expertos relacionados: 

Autónomo de bioinformática | Genética vegetal | Biología del desarrollo | Terapia génica | Células madre |
Análisis de datos de secuenciación de ADN |Genética animal | Interacciones con otros medicamentos | Genética y genómica 

 


Kolabtree ayuda a las empresas de todo el mundo a contratar expertos bajo demanda. Nuestros freelancers han ayudado a las empresas a publicar artículos de investigación, desarrollar productos, analizar datos y mucho más. Sólo se necesita un minuto para decirnos lo que necesita hacer y obtener presupuestos de expertos de forma gratuita.


Comparte.

Sobre el autor

Shaurya Jauhari es un biólogo computacional con formación en ciencias de la computación y un buen conocimiento de la biología molecular pertinente. En la actualidad es investigador postdoctoral en la Universidad Médica de Guangzhou (China).

Dejar una respuesta

Expertos autónomos de confianza, listos para ayudarle con su proyecto


La mayor plataforma mundial de científicos autónomos  

No gracias, no estoy buscando contratar en este momento