Las aplicaciones del aprendizaje automático en la biología

0

El aprendizaje automático tiene varias aplicaciones en diversos campos, desde la asistencia sanitaria hasta el procesamiento del lenguaje natural. El Dr. Ragothanam Yennamalli, biólogo computacional y autónomo de Kolabtree, examina las aplicaciones de la IA y aprendizaje automático en biología. 

Aprendizaje automático e inteligencia artificial: estas tecnologías han irrumpido en el mundo y han cambiado nuestra forma de trabajar y vivir. Los avances en estas áreas han hecho que muchos las alaben o las condenen. Sin embargo, para una persona dedicada a la informática como yo, no son palabras nuevas. La IA y el ML, como se les llama popularmente, tienen varias aplicaciones y beneficios en una amplia gama de industrias. En particular, están revolucionando la forma en que se lleva a cabo la investigación biológica, dando lugar a nuevas innovaciones en todo el mundo. salud y la biotecnología.

¿Qué es el aprendizaje automático?

Aprendizaje automático y la estadística están estrechamente relacionados. La razón es que los métodos utilizados en la mayoría de los enfoques de aprendizaje automático tienen su origen en la estadística, como el análisis de regresión. Aunque los métodos de aprendizaje automático tienen muchas aplicaciones, sus aplicaciones a los datos biológicos desde los últimos 30 años aproximadamente han sido en la predicción de genes, la anotación funcional, la biología de sistemas, el análisis de datos de microarrays, el análisis de vías, etc.

Un patrón es lo que una máquina trata de identificar en unos datos determinados, a partir de los cuales intenta identificar un patrón similar en otro conjunto de datos. Los procesos de aprendizaje automático son bastante similares a los de la modelización predictiva y la minería de datos. Buscan datos para identificar patrones y alterar la acción del programa, en consecuencia.

Conocemos el aprendizaje automático y la IA a través de las herramientas de compra online, ya que se sugieren algunas recomendaciones relacionadas con nuestra compra. Esto ocurre porque los motores de recomendación funcionan con aprendizaje automático. El aprendizaje automático también tiene otras aplicaciones, como el filtrado de spam, la detección de amenazas de seguridad, la detección de fraudes y la personalización de las noticias.

El aprendizaje automático se clasifica principalmente en tres tipos: aprendizaje supervisado, aprendizaje no supervisado y aprendizaje de refuerzo.

Aprendizaje supervisado: Los algoritmos de aprendizaje automático supervisado requieren asistencia externa. La asistencia externa suele ser a través de un experto humano que proporciona una entrada curada para la salida deseada para predecir la precisión en el entrenamiento del algoritmo. El experto o el científico de datos determina las características o los patrones que utilizará el modelo. Una vez completado el entrenamiento, se puede aplicar a la prueba de otros datos para la predicción y la clasificación. Es supervisado porque el algoritmo aprende del conjunto de datos de entrenamiento, como un profesor que supervisa el proceso de aprendizaje de un alumno.

Además, el aprendizaje supervisado se divide en dos categorías: clasificación y regresión. En la clasificación, la variable de salida se clasifica en clases como "rojo" o "verde" o "enfermedad" o "no enfermedad". En la regresión, la variable de salida es un valor real como "dólares" o "peso".

Así, en los clasificadores supervisados se proporciona un conjunto de entrenamiento para entrenar a la máquina y se evalúa con un conjunto de pruebas. Lo más importante en estos clasificadores es cómo se construye el conjunto de entrenamiento. En la mayoría de los casos, tener un conjunto de entrenamiento de alta calidad hace o rompe el aprendizaje de la máquina. También hay que tener en cuenta los datos negativos que se proporcionan como parte del conjunto de entrenamiento. A veces, resulta difícil identificar un buen conjunto de datos negativos.

Por ejemplo, si quisiera desarrollar/entrenar una máquina para predecir si dos proteínas interactúan (interacciones proteína-proteína o PPI) o no; necesitaría un conjunto positivo de secuencias/estructuras de proteínas que se haya demostrado que interactúan físicamente (como cristalografía de rayos X, datos de RMN) y necesitaría un conjunto negativo de secuencias/estructuras de proteínas que se sabe que funcionan sin interactuar con. un compañero. En este caso, el conjunto negativo es relativamente grande en comparación con el conjunto positivo, ya que los datos de PPI conocidos son significativamente menores en comparación con el proteoma de un organismo. Por lo tanto, es necesario analizar críticamente los datos y esto lleva tiempo.

Aprendizaje no supervisado: En los algoritmos de aprendizaje no supervisado no se necesita ayuda externa. El programa informático busca automáticamente las características o patrones de los datos y los agrupa en clusters. Cuando introducimos nuevos datos para la predicción, entonces utiliza las características aprendidas previamente para clasificar los datos. Este método es muy útil en la era del big data porque requiere una gran cantidad de datos de entrenamiento. Se denomina aprendizaje no supervisado porque no hay ningún maestro ni supervisión.

El aprendizaje no supervisado se clasifica a su vez en tres clases: clustering, clustering jerárquico y modelo de mezcla gaussiana. En el método de clustering, se descubre la relación entre tipos de datos similares y se agrupan en clusters. En el clustering jerárquico, los datos se agrupan en base a pequeños clusters mediante alguna medida de similitud. A continuación, basándose en algún parámetro similar, los subconglomerados se agrupan de nuevo. En el modelo de mezcla gaussiana, cada componente de la mezcla presenta un clúster único.

Aprendizaje por refuerzo: En el aprendizaje por refuerzo, la decisión se toma sobre la base de la acción realizada que da un resultado más positivo. El alumno no sabe qué acción tomar, sino que puede decidirlo realizando acciones y viendo los resultados. Por lo tanto, este aprendizaje depende de la prueba y el error [5].

La aplicación más prometedora del aprendizaje automático y la inteligencia artificial es la medicina personalizada y la medicina de precisión. En los últimos años, muchas startups se han centrado en esto y han desarrollado pipelines. Merece la pena esperar para ver si se traducen en productos que beneficien al hombre común a largo plazo.

Aplicaciones del aprendizaje automático en biología

Identificación de las regiones de codificación de los genes
En el ámbito de la genómica, la secuenciación de nueva generación ha hecho avanzar rápidamente el campo al secuenciar un genoma en poco tiempo. Así, un área activa el aprendizaje automático se aplica a la identificación de regiones de codificación de genes en un genoma. Estas herramientas de predicción de genes que implican el aprendizaje automático serían más sensibles que las típicas búsquedas de secuencias basadas en homólogos.

Predicción de la estructura
En el ámbito de la proteómica, ya hemos hablado de la IPP. Pero el uso del aprendizaje automático en la predicción de estructuras ha llevado la precisión de 70% a más de 80%. El uso del aprendizaje automático en la minería de textos es bastante prometedor con el uso de conjuntos de entrenamiento para identificar nuevas o novedosas dianas farmacológicas a partir de múltiples artículos de revistas y la búsqueda en bases de datos secundarias.

Redes neuronales
El aprendizaje profundo es un subcampo más reciente del aprendizaje automático que es la extensión de las redes neuronales. En el aprendizaje profundo, "profundo" se refiere al número de capas a través de las cuales se transforman los datos. Así, el aprendizaje profundo es similar a una red neuronal con múltiples capas. Estos nodos multicapas tratan de imitar cómo piensa el cerebro humano para resolver los problemas. Las redes neuronales ya son utilizadas por el aprendizaje automático. Los algoritmos de aprendizaje automático basados en redes neuronales necesitan datos refinados o significativos de conjuntos de datos sin procesar para realizar el análisis. Pero el aumento de los datos de la secuenciación del genoma dificulta el procesamiento de la información significativa y la realización del análisis. Las múltiples capas de las redes neuronales filtran la información y la comunican a cada capa, lo que permite refinar la salida.

Los algoritmos de aprendizaje profundo extraen características de grandes conjuntos de datos, como un grupo de imágenes o genomas, y desarrollan un modelo sobre la base de las características extraídas. Una vez desarrollado el modelo, los algoritmos pueden utilizarlo para analizar otros conjuntos de datos. Toy en día, los científicos utilizan algoritmos de aprendizaje profundo para realizar la clasificación de imágenes celulares, el análisis del genoma, el descubrimiento de fármacos y también para averiguar cómo se vinculan los datos de las imágenes y del genoma con los registros médicos electrónicos. Hoy en día, el aprendizaje profundo es un campo activo en la biología computacional. El aprendizaje profundo se aplica a datos biológicos de alto rendimiento que ayudan a comprender mejor un conjunto de datos de alta dimensión. En la biología computacional, el aprendizaje profundo se utiliza en la genómica reguladora para la identificación de variantes reguladoras, el efecto de la mutación utilizando la secuencia de ADN, el análisis de células enteras, la población de células y tejidos [11].

La IA en la sanidad
Los hospitales y los proveedores de servicios sanitarios están utilizando ampliamente el aprendizaje automático y la IA para mejorar la satisfacción de los pacientes, ofrecer tratamientos personalizados, hacer predicciones precisas y mejorar la calidad de vida. También se está utilizando para hacer más eficientes los ensayos clínicos y ayudar a acelerar el proceso de descubrimiento y suministro de medicamentos.

Citando el trabajo de Google que emplea La IA en los datos sanitarios [17, 18]

Los médicos ya están inundados de alertas y demandas de atención: ¿podrían los modelos ayudar a los médicos con las tediosas tareas administrativas para que puedan centrarse mejor en el paciente que tienen delante o en los que necesitan atención adicional? ¿Podemos ayudar a los pacientes a recibir una atención de alta calidad independientemente del lugar donde la busquen?

Y desde el punto de vista del paciente

¿Cuándo podré volver a casa? ¿Me mejoraré? ¿Tendré que volver al hospital?

Herramientas de aprendizaje automático utilizadas en biología

Perfil de la célula: Hace unos años, los programas informáticos para el análisis de imágenes biológicas sólo medían un único parámetro de un grupo de imágenes. En 2005, una bióloga computacional, Anne Carpenter, del MIT y Harvard, lanzó un software llamado CellProfiler para la medición de características individuales cuantitativas como el número de células fluorescentes en el campo de la microscopía. Pero, actualmente CellProfiler puede producir miles de características mediante la implementación de técnicas de aprendizaje profundo.

DeepVariant: La aplicación del aprendizaje profundo se utiliza ampliamente en herramientas para la minería de datos del genoma. Verily life science y Google desarrollaron una herramienta basada en el aprendizaje profundo llamada DeepVariant que predice un tipo común de variación genética con mayor precisión en comparación con las herramientas convencionales.

Atomwise: Otro campo es el del descubrimiento de fármacos en el que el aprendizaje profundo contribuye de forma significativa. Una empresa de biotecnología con sede en San Francisco llamada Atomwise ha desarrollado un algoritmo que ayuda a convertir las moléculas en píxeles 3D. Esta representación ayuda a dar cuenta de la estructura 3D de las proteínas y las pequeñas moléculas con precisión atómica. A continuación, utilizando estas características, el algoritmo puede predecir las pequeñas moléculas que posiblemente interactúen con una proteína determinada [12].

Existen diferentes tipos de métodos de aprendizaje profundo, como las redes neuronales profundas (DNN), las redes neuronales recurrentes (RNN), las redes neuronales de convolución (CNN), los autoencodificadores profundos (DA), las máquinas profundas de Boltzman (DBM), las redes profundas de creencia (DBN) y las redes residuales profundas (DRN), etc. En el campo de la biología algunos métodos como, DNN, RNN, CNN, DA y DBM son los más utilizados [13]. La traducción de datos biológicos para realizar la validación de biomarcadores que revelen el estado de la enfermedad es una tarea clave en biomedicina. Las DNN desempeñan un papel importante en la identificación de biomarcadores potenciales a partir de datos del genoma y del proteoma. El aprendizaje profundo también juega un papel importante en el descubrimiento de fármacos [14].

La CNN ha utilizado la herramienta computacional desarrollada recientemente DeepCpG para predecir los estados de metilación del ADN en células individuales. En la metilación del ADN, los grupos metilo se asocian a la molécula de ADN y alteran las funciones de la molécula de ADN sin causar ningún cambio en la secuencia. DeepCpG también se utiliza para la predicción de motivos conocidos que son responsables de la variabilidad de la metilación. DeepCpG predijo un resultado más preciso en comparación con otros métodos cuando se evaluó utilizando cinco tipos diferentes de datos de metilación. La metilación del ADN es un marcador epigenético ampliamente estudiado [15].

TensorFlow es un marco de aprendizaje profundo desarrollado por investigadores de Google. TensorFlow es un software desarrollado recientemente que acelera el diseño y el entrenamiento de las DNN. Se implementa en varias mejoras como la visualización gráfica y la complicación de tiempo. La principal mejora de TensorFlow es que está disponible con herramientas de apoyo llamadas TensorBoard que se utilizan para visualizar el progreso del entrenamiento del modelo. Puede proporcionar la visualización de un modelo complejo [16].

En conclusión, la IA y el aprendizaje automático están cambiando la forma en que los biólogos llevan a cabo la investigación, la interpretan y la aplican para resolver problemas. A medida que la ciencia se vuelve cada vez más interdisciplinaria, es inevitable que la biología siga tomando prestado el aprendizaje automático, o mejor aún, que el aprendizaje automático marque el camino.

Necesidad de contratar a un consultor de aprendizaje automático para un proyecto? Consulta a los expertos freelance en Kolabtree. ¡Es gratis publicar tu proyecto y obtener presupuestos!

Agradecimiento: El autor desea agradecer al Sr. Arvind Yadav su ayuda en esta entrada del blog.

Referencias y lecturas adicionales:

  1. http://www.bbc.com/news/technology-43127533
  2. https://www.wired.com/story/why-artificial-intelligence-researchers-should-be-more-paranoid/
  3. https://www.theverge.com/2018/2/20/17032228/ai-artificial-intelligence-threat-report-malicious-uses
  4. http://www.thehindu.com/opinion/lead/the-politics-of-ai/article22809400.ece?homepage=true
  5. https://www.economist.com/news/science-and-technology/21713828-silicon-valley-has-squidgy-worlds-biology-and-disease-its-sights-will
  6. Raina, C. K. (2016). Una revisión de las técnicas de aprendizaje automático. Revista internacional sobre tendencias recientes e innovadoras en informática y comunicaciones4(3), 395-399.
  7. Jordan, M. I., & Mitchell, T. M. (2015). El aprendizaje automático: Tendencias, perspectivas y perspectivas. Ciencia349(6245), 255-260.
  8. Praveena, M., & Jaiganesh, V. (2017). Una revisión de la literatura sobre los algoritmos de aprendizaje automático supervisado y el proceso de refuerzo. Revista Internacional de Aplicaciones Informáticas169(8), 32-35.
  9. Forsberg, F., & Álvarez González, P. (2018). Aprendizaje automático no supervisado: Una investigación de algoritmos de clustering en un pequeño conjunto de datos.
  10. Gosavi, A. (2009). Aprendizaje por refuerzo: Un estudio tutorial y avances recientes. INFORMS Journal on Computing21(2), 178-192.
  11. Angermueller, C., Pärnamaa, T., Parts, L., & Stegle, O. (2016). Aprendizaje profundo para la biología computacional. Biología de sistemas moleculares12(7), 878.
  12. Webb, S. (2018). Aprendizaje profundo para la biología. Nature. 2018 554(7693):555-557.
  13. Mahmud, M., Kaiser, M. S., Hussain, A., & Vassanelli, S. (2018). Aplicaciones del aprendizaje profundo y el aprendizaje de refuerzo a los datos biológicos. Transacciones del IEEE sobre redes neuronales y sistemas de aprendizaje29(6), 2063-2079.
  14. Mamoshina, P., Vieira, A., Putin, E., & Zhavoronkov, A. (2016). Aplicaciones del aprendizaje profundo en biomedicina. Farmacéutica molecular13(5), 1445-1454.
  15. Angermueller, C., Lee, H. J., Reik, W., & Stegle, O. (2017). DeepCpG: predicción precisa de los estados de metilación del ADN de una sola célula utilizando el aprendizaje profundo. Biología del genoma18(1), 67.
  16. Rampasek, L., & Goldenberg, A. (2016). Tensorflow: ¿La puerta de entrada de la biología al aprendizaje profundo? Sistemas celulares2(1), 12-14.
  17. https://ai.googleblog.com/2018/05/deep-learning-for-electronic-health.html
  18. Rajkomar et al., (2018) "Aprendizaje profundo escalable y preciso con registros sanitarios electrónicos".", npj Medicina Digital, 1(1)

Kolabtree ayuda a las empresas de todo el mundo a contratar expertos bajo demanda. Nuestros freelancers han ayudado a las empresas a publicar artículos de investigación, desarrollar productos, analizar datos y mucho más. Sólo se necesita un minuto para decirnos lo que necesita hacer y obtener presupuestos de expertos de forma gratuita.


Comparte.

Sobre el autor

El Dr. Ragothaman Yennamalli se doctoró en Biología Computacional y Bioinformática en 2008 en la Universidad Jawaharlal Nehru de Nueva Delhi. Realizó una investigación posdoctoral en la Universidad Estatal de Iowa (2009-2011), la Universidad de Wisconsin-Madison (2011-2012) y la Universidad de Rice (2012-2014). Actualmente es profesor asistente en la Universidad Jaypee de Tecnología de la Información, Waknaghat, Himachal Pradesh, India.

Dejar una respuesta

Expertos autónomos de confianza, listos para ayudarle con su proyecto


La mayor plataforma mundial de científicos autónomos  

No gracias, no estoy buscando contratar en este momento