Les applications de l'apprentissage automatique en biologie

0

L'apprentissage automatique a plusieurs applications dans divers domaines, allant de la santé au traitement du langage naturel. Le Dr Ragothanam Yennamalli, biologiste informatique et collaborateur indépendant de Kolabtree, examine les applications de l'IA et de l'apprentissage automatique. apprentissage machine en biologie. 

Apprentissage automatique et intelligence artificielle - ces technologies ont pris d'assaut le monde et ont changé notre façon de travailler et de vivre. Les progrès réalisés dans ces domaines ont amené de nombreuses personnes à les louer ou à les décrier. Cependant, pour un informaticien comme moi, ces mots ne sont pas nouveaux. L'IA et le ML, comme on les appelle communément, ont plusieurs applications et avantages dans un large éventail de secteurs. Elles sont notamment en train de révolutionner la façon dont la recherche biologique est effectuée, ce qui conduit à de nouvelles innovations dans de nombreux domaines. soins de santé et la biotechnologie.

Qu'est-ce que l'apprentissage automatique ?

Apprentissage automatique et les statistiques sont étroitement liées. La raison en est que les méthodes utilisées dans la plupart des approches d'apprentissage automatique sont issues des statistiques, comme l'analyse de régression. Les méthodes d'apprentissage automatique ont de nombreuses applications, mais depuis une trentaine d'années, leurs applications aux données biologiques concernent la prédiction des gènes, l'annotation fonctionnelle, la biologie des systèmes, l'analyse des données des biopuces, l'analyse des voies, etc.

Les modèles sont ce qu'une machine essaie d'identifier dans des données données données, en utilisant lesquelles elle essaie d'identifier un modèle similaire dans un autre ensemble de données. Les processus d'apprentissage automatique sont assez similaires à la modélisation prédictive et à l'exploration de données. Ils recherchent des données pour identifier des modèles et modifier l'action du programme en conséquence.

Nous connaissons l'apprentissage automatique et l'IA grâce aux outils d'achat en ligne, puisque certaines recommandations sont suggérées en rapport avec notre achat. Cela se produit parce que les moteurs de recommandation fonctionnent sur l'apprentissage automatique. L'apprentissage automatique a également d'autres applications, comme le filtrage des spams, la détection des menaces pour la sécurité, la détection des fraudes et la personnalisation des flux d'informations.

L'apprentissage automatique est principalement classé en trois catégories : l'apprentissage supervisé, l'apprentissage non supervisé et l'apprentissage par renforcement.

Apprentissage supervisé : Les algorithmes d'apprentissage automatique supervisés nécessitent une assistance externe. L'assistance externe se fait généralement par le biais d'un expert humain qui fournit des données curatives pour la sortie souhaitée afin de prédire la précision de l'apprentissage des algorithmes. L'expert ou le scientifique des données détermine les caractéristiques ou les modèles que le modèle doit utiliser. Une fois la formation terminée, le modèle peut être appliqué au test d'autres données pour la prédiction et la classification. Il s'agit d'une méthode supervisée car l'algorithme apprend à partir de l'ensemble de données d'entraînement, comme un enseignant qui supervise le processus d'apprentissage d'un élève.

En outre, l'apprentissage supervisé se divise en deux catégories : la classification et la régression. Dans la classification, la variable de sortie est classée dans des classes telles que "rouge" ou "vert" ou "maladie" ou "non-maladie". Dans la régression, la variable de sortie est une valeur réelle telle que "dollars" ou "poids".

Ainsi, dans les classifieurs supervisés, un ensemble d'apprentissage est fourni pour former la machine et celle-ci est évaluée avec un ensemble de test. Le plus important dans ces classifieurs est la façon dont on construit un ensemble d'apprentissage. Dans la plupart des cas, le fait de disposer d'un ensemble d'apprentissage de haute qualité fait ou défait l'apprentissage automatique. Il faut également tenir compte des données négatives qui sont fournies dans le cadre de l'ensemble d'apprentissage. Parfois, il est difficile d'identifier un bon ensemble de données négatives.

Par exemple, si je voulais développer/entraîner une machine pour prédire si deux protéines interagissent (interactions protéine-protéine ou IPP) ou non, j'aurais besoin d'un ensemble positif de séquences/structures de protéines dont l'interaction physique a été prouvée (comme la cristallographie aux rayons X, les données RMN) et j'aurais besoin d'un ensemble négatif de séquences/structures de protéines dont on sait qu'elles fonctionnent sans interagir avec un partenaire. Dans ce cas, l'ensemble négatif est relativement important par rapport à l'ensemble positif, puisque les données des PPI connues sont nettement moins nombreuses que le protéome d'un organisme. Il est donc nécessaire de procéder à une analyse critique des données, ce qui prend du temps.

Apprentissage non supervisé : Dans les algorithmes d'apprentissage non supervisé, aucune assistance externe n'est requise. Le programme informatique recherche automatiquement la caractéristique ou le modèle des données et les regroupe en groupes. Lorsque nous introduisons de nouvelles données pour la prédiction, il utilise les caractéristiques apprises précédemment pour classer les données. Cette méthode est très utile à l'ère du big data car elle nécessite une grande quantité de données de formation. Elle est appelée apprentissage non supervisé parce qu'il n'y a pas d'enseignant ou de supervision impliqués.

L'apprentissage non supervisé est ensuite classé en trois catégories : le clustering, le clustering hiérarchique et le modèle de mélange gaussien. Dans la méthode de clustering, on découvre la relation entre des données similaires et on les regroupe en clusters. Dans le clustering hiérarchique, les données sont regroupées sur la base de petits clusters par une certaine mesure de similarité. Ensuite, sur la base de certains paramètres similaires, les sous-clusters sont à nouveau regroupés. Dans le modèle de mélange gaussien, chaque composant du mélange présente un cluster unique.

Apprentissage par renforcement : Dans l'apprentissage par renforcement, la décision est prise sur la base des actions entreprises qui donnent des résultats plus positifs. L'apprenant ne sait pas quelle action prendre, il peut décider en effectuant des actions et en voyant les résultats. Ainsi, cet apprentissage dépend des essais et des erreurs [5].

La mise en œuvre la plus prometteuse de l'apprentissage automatique et de l'intelligence artificielle concerne la médecine personnalisée et la médecine de précision. Ces dernières années, de nombreuses startups se sont concentrées sur ce sujet et ont développé des pipelines. Il vaut la peine d'attendre pour voir si ceux-ci se traduisent par des produits de base qui bénéficient au commun des mortels à long terme.

Applications de l'apprentissage automatique en biologie

Identification des régions codantes des gènes
Dans le domaine de la génomique, le séquençage de nouvelle génération a fait progresser rapidement le domaine en séquençant un génome en peu de temps. Ainsi, un domaine actif de l'apprentissage automatique est appliqué à l'identification des régions de codage des gènes dans un génome. Ces outils de prédiction des gènes, qui font appel à l'apprentissage automatique, seraient plus sensibles que les recherches typiques de séquences basées sur les homologues.

Prédiction de la structure
En protéomique, nous avons déjà abordé la question des IPP. Mais l'utilisation de l'apprentissage automatique dans la prédiction des structures a fait passer la précision de 70% à plus de 80%. L'utilisation de l'apprentissage automatique dans l'exploration de textes est assez prometteuse, avec l'utilisation d'ensembles d'entraînement pour identifier des cibles médicamenteuses nouvelles ou inédites à partir de plusieurs articles de journaux et la recherche de bases de données secondaires.

Réseaux neuronaux
L'apprentissage profond est un sous-domaine plus récent de l'apprentissage automatique qui est l'extension du réseau neuronal. Dans l'apprentissage profond, le terme "profond" fait référence au nombre de couches par lesquelles les données sont transformées. Ainsi, l'apprentissage profond est similaire à un réseau neuronal à plusieurs couches. Ces nœuds multicouches tentent d'imiter la façon dont le cerveau humain pense pour résoudre les problèmes. Les réseaux neuronaux sont déjà utilisés par l'apprentissage automatique. Les algorithmes d'apprentissage automatique basés sur les réseaux neuronaux ont besoin de données raffinées ou significatives à partir d'ensembles de données brutes pour effectuer l'analyse. Mais l'augmentation des données issues du séquençage du génome a rendu difficile le traitement d'informations significatives, puis l'analyse. Les couches multiples d'un réseau neuronal filtrent les informations et les communiquent à chaque couche, ce qui permet d'affiner le résultat.

Les algorithmes d'apprentissage profond extraient des caractéristiques de grands ensembles de données comme un groupe d'images ou des génomes et développent un modèle sur la base des caractéristiques extraites. Une fois le modèle développé, les algorithmes peuvent l'utiliser pour analyser d'autres ensembles de données. Tujourd'hui, les scientifiques utilisent des algorithmes d'apprentissage profond pour effectuer la classification d'images cellulaires, l'analyse du génome, la découverte de médicaments et aussi pour découvrir comment les données d'image et de génome sont liées aux dossiers médicaux électroniques. Aujourd'hui, l'apprentissage profond est un domaine actif de la biologie computationnelle. L'apprentissage profond est appliqué aux données biologiques à haut débit, ce qui permet de mieux comprendre les ensembles de données à haute dimension. En biologie computationnelle, l'apprentissage profond est utilisé en génomique régulatrice pour l'identification de variantes régulatrices, l'effet de la mutation en utilisant la séquence d'ADN, l'analyse de cellules entières, de populations de cellules et de tissus [11].

L'IA dans les soins de santé
L'apprentissage automatique et l'IA sont largement utilisés par les hôpitaux et les prestataires de services de santé pour améliorer la satisfaction des patients, fournir des traitements personnalisés, faire des prédictions précises et améliorer la qualité de vie. Elles sont également utilisées pour rendre les essais cliniques plus efficaces et contribuer à accélérer le processus de découverte et d'administration des médicaments.

Pour citer le travail de Google qui emploie L'IA dans les données de santé [17, 18]

Les médecins sont déjà inondés d'alertes et de demandes d'attention - les modèles pourraient-ils aider les médecins à accomplir des tâches administratives fastidieuses afin qu'ils puissent mieux se concentrer sur le patient qui se trouve devant eux ou sur ceux qui nécessitent une attention particulière ? Pouvons-nous aider les patients à obtenir des soins de haute qualité, quel que soit l'endroit où ils les cherchent ?

Et du point de vue du patient

Quand pourrai-je rentrer chez moi ? Est-ce que je vais aller mieux ? Devrai-je revenir à l'hôpital ?

Outils d'apprentissage automatique utilisés en biologie

Profileur de cellules: Il y a quelques années, les logiciels d'analyse d'images biologiques ne mesuraient qu'un seul paramètre à partir d'un groupe d'images. En 2005, une biologiste informaticienne, Anne Carpenter du MIT et de Harvard, a publié un logiciel appelé CellProfiler pour la mesure de caractéristiques quantitatives individuelles telles que le nombre de cellules fluorescentes dans le domaine de la microscopie. Mais, actuellement, CellProfiler peut produire des milliers de caractéristiques en mettant en œuvre des techniques d'apprentissage profond.

DeepVariant: L'application de l'apprentissage profond est largement utilisée dans les outils d'exploration des données du génome. Verily life science et Google ont développé un outil basé sur l'apprentissage profond appelé DeepVariant qui prédit un type commun de variation génétique avec plus de précision que les outils conventionnels.

Atomwise: La découverte de médicaments est un autre domaine dans lequel l'apprentissage profond contribue de manière significative. Une société de biotechnologie basée à San Francisco, appelée Atomwise a développé un algorithme qui permet de convertir les molécules en pixels 3D. Cette représentation permet de rendre compte de la structure 3D des protéines et des petites molécules avec une précision atomique. Ensuite, en utilisant ces caractéristiques, l'algorithme peut prédire les petites molécules qui peuvent interagir avec une protéine donnée [12].

Il existe différents types de méthodes d'apprentissage profond, comme le réseau neuronal profond (DNN), le réseau neuronal récurrent (RNN), le réseau neuronal à convolution (CNN), l'autoencodeur profond (DA), la machine de Boltzman profonde (DBM), le réseau de croyance profond (DBN) et le réseau résiduel profond (DRN), etc. Dans le domaine de la biologie, certaines méthodes telles que DNN, RNN, CNN, DA et DBM sont les plus couramment utilisées [13]. La traduction des données biologiques pour effectuer la validation des biomarqueurs qui révèlent l'état de la maladie est une tâche essentielle en biomédecine. Le DNN joue un rôle important dans l'identification de biomarqueurs potentiels à partir des données du génome et du protéome. L'apprentissage profond joue également un rôle important dans la découverte de médicaments [14].

CNN a été utilisé l'outil de calcul DeepCpG récemment développé pour prédire les états de méthylation de l'ADN dans les cellules individuelles. Dans la méthylation de l'ADN, les groupes méthyles sont associés à la molécule d'ADN et modifient les fonctions de la molécule d'ADN sans provoquer de changements dans la séquence. DeepCpG a également été utilisé pour la prédiction des motifs connus qui sont responsables de la variabilité de la méthylation. DeepCpG a prédit des résultats plus précis en comparaison avec d'autres méthodes lors de l'évaluation utilisant cinq types différents de données de méthylation. La méthylation de l'ADN est un marqueur épigénétique très largement étudié [15].

TensorFlow est un cadre d'apprentissage profond développé par les chercheurs de Google. TensorFlow est un logiciel récemment développé qui accélère la conception et l'entraînement des DNN. Il est mis en œuvre dans plusieurs améliorations comme la visualisation graphique et la complication du temps. La principale amélioration de TensorFlow est qu'il est disponible avec des outils de soutien appelés TensorBoard utilisés pour la visualisation de la progression de la formation du modèle. Il peut fournir la visualisation d'un modèle complexe [16].

En conclusion, l'IA et l'apprentissage automatique changent la façon dont les biologistes mènent leurs recherches, les interprètent et les appliquent pour résoudre des problèmes. La science devenant de plus en plus interdisciplinaire, il est inévitable que la biologie continue à emprunter à l'apprentissage automatique ou, mieux encore, que l'apprentissage automatique ouvre la voie.

Besoin d'engager un consultant en apprentissage machine pour un projet ? Consultez des experts freelance sur Kolabtree. C'est gratuit de poster votre projet et d'obtenir des devis !

Remerciements : L'auteur tient à remercier M. Arvind Yadav pour son aide dans la rédaction de cet article.

Références et lectures complémentaires :

  1. http://www.bbc.com/news/technology-43127533
  2. https://www.wired.com/story/why-artificial-intelligence-researchers-should-be-more-paranoid/
  3. https://www.theverge.com/2018/2/20/17032228/ai-artificial-intelligence-threat-report-malicious-uses
  4. http://www.thehindu.com/opinion/lead/the-politics-of-ai/article22809400.ece?homepage=true
  5. https://www.economist.com/news/science-and-technology/21713828-silicon-valley-has-squidgy-worlds-biology-and-disease-its-sights-will
  6. Raina, C. K. (2016). Une revue sur les techniques d'apprentissage automatique. International Journal on Recent and Innovation Trends in Computing and Communication (Journal international sur les tendances récentes et innovantes en informatique et en communication)4(3), 395-399.
  7. Jordan, M. I., & Mitchell, T. M. (2015). Machine learning : Tendances, perspectives et perspectives. Science349(6245), 255-260.
  8. Praveena, M., & Jaiganesh, V. (2017). Une revue de la littérature sur les algorithmes d'apprentissage automatique supervisé et le processus de boosting. Journal international des applications informatiques169(8), 32-35.
  9. Forsberg, F., & Alvarez Gonzalez, P. (2018). Apprentissage automatique non supervisé : Une enquête sur les algorithmes de clustering sur un petit ensemble de données.
  10. Gosavi, A. (2009). Reinforcement learning : A tutorial survey and recent advances. INFORMS Journal on Computing21(2), 178-192.
  11. Angermueller, C., Pärnamaa, T., Parts, L., & Stegle, O. (2016). L'apprentissage profond pour la biologie computationnelle. Biologie des systèmes moléculaires12(7), 878.
  12. Webb, S. (2018). L'apprentissage profond pour la biologie. Nature. 2018 554(7693):555-557.
  13. Mahmud, M., Kaiser, M. S., Hussain, A. et Vassanelli, S. (2018). Applications de l'apprentissage profond et de l'apprentissage par renforcement aux données biologiques. IEEE transactions sur les réseaux neuronaux et les systèmes d'apprentissage29(6), 2063-2079.
  14. Mamoshina, P., Vieira, A., Putin, E. et Zhavoronkov, A. (2016). Applications de l'apprentissage profond en biomédecine. Pharmacie moléculaire13(5), 1445-1454.
  15. Angermueller, C., Lee, H. J., Reik, W. et Stegle, O. (2017). DeepCpG : prédiction précise des états de méthylation de l'ADN à l'échelle de la cellule unique à l'aide de l'apprentissage profond. Biologie du génome18(1), 67.
  16. Rampasek, L., & Goldenberg, A. (2016). Tensorflow : La passerelle de la biologie vers l'apprentissage profond ? Systèmes cellulaires2(1), 12-14.
  17. https://ai.googleblog.com/2018/05/deep-learning-for-electronic-health.html
  18. Rajkomar et al, (2018) "Scalable and accurate deep learning with electronic health records".", npj Digital Medicine, 1(1)

Kolabtree aide les entreprises du monde entier à embaucher des experts à la demande. Nos freelances ont aidé des entreprises à publier des articles de recherche, à développer des produits, à analyser des données, et bien plus encore. Il suffit d'une minute pour nous dire ce dont vous avez besoin et obtenir gratuitement des devis d'experts.


Partager.

À propos de l'auteur

Le Dr Ragothaman Yennamalli a obtenu son doctorat en biologie computationnelle et bioinformatique en 2008 à l'université Jawaharlal Nehru de New Delhi. Il a effectué des recherches postdoctorales à l'université d'État de l'Iowa (2009-2011), à l'université du Wisconsin-Madison (2011-2012) et à l'université Rice (2012-2014). Il est actuellement professeur adjoint à la Jaypee University of Information Technology, Waknaghat, Himachal Pradesh, Inde.

Laissez une réponse