Les applications de l'apprentissage automatique en biologie

0

Apprentissage automatique has several applications in diverse fields, ranging from soins de santé to natural language processing. Dr. Ragothanam Yennamalli, a computational biologist and Kolabtree freelancer, examines the applications of AI and apprentissage machine en biologie. 

Machine Learning and Intelligence artificielle — these technologies have stormed the world and have changed the way we work and live. Advances in these areas have led to many either praising it or decrying it. However, for a computational person like me, they are not new words. AI and ML, as they’re popularly called, have several applications and benefits across a wide range of industries. Most notably, they are revolutionizing the way biological research is performed, leading to new innovations across soins de santé et biotechnologie.

Qu'est-ce que l'apprentissage automatique ?

Apprentissage automatique et statistiques are closely knit. The reason is that the methods used in most machine learning approaches have origins from statistics such as regression analysis. While there are many applications for machine learning methods, their applications to biological data since the last 30 years or so have been in gene prediction, functional annotation, systems biology, microarray analyse des données, pathway analysis, etc.

Patterns is what a machine tries to identify in a given data, using which it tries to identify a similar pattern in another set of data. The processes of machine learning are quite similar to predictive modelling and data mining. They search data to identify patterns and alter the action of program, accordingly.

Nous connaissons l'apprentissage automatique et l'IA grâce aux outils d'achat en ligne, puisque certaines recommandations sont suggérées en rapport avec notre achat. Cela se produit parce que les moteurs de recommandation fonctionnent sur l'apprentissage automatique. L'apprentissage automatique a également d'autres applications, comme le filtrage des spams, la détection des menaces pour la sécurité, la détection des fraudes et la personnalisation des flux d'informations.

L'apprentissage automatique est principalement classé en trois catégories : l'apprentissage supervisé, l'apprentissage non supervisé et l'apprentissage par renforcement.

Apprentissage supervisé : Supervised machine learning algorithms require external assistance. The external assistance is usually through a human expert who provides curated input for the desired output to predict accuracy in algorithm training. The expert or data scientist determines the features or patterns that the model would use. Once the training is completed, then it can be applied to test another data for the prediction and classification. It is supervised because the algorithm learns from the training data set akin to a teacher supervising the learning process of a student.

En outre, l'apprentissage supervisé se divise en deux catégories : la classification et la régression. Dans la classification, la variable de sortie est classée dans des classes telles que "rouge" ou "vert" ou "maladie" ou "non-maladie". Dans la régression, la variable de sortie est une valeur réelle telle que "dollars" ou "poids".

Ainsi, dans les classifieurs supervisés, un ensemble d'apprentissage est fourni pour former la machine et celle-ci est évaluée avec un ensemble de test. Le plus important dans ces classifieurs est la façon dont on construit un ensemble d'apprentissage. Dans la plupart des cas, le fait de disposer d'un ensemble d'apprentissage de haute qualité fait ou défait l'apprentissage automatique. Il faut également tenir compte des données négatives qui sont fournies dans le cadre de l'ensemble d'apprentissage. Parfois, il est difficile d'identifier un bon ensemble de données négatives.

For example, if I would want to develop/train a machine to predict if two proteins interact (Protein-Protein interactions or PPI) or not; I would require a positive set of protein sequences/structures that have been proven to interact physically (such as X-ray crystallography, NMR data) and I would require a negative set of protein sequences/structures that  are known to work without interacting with. a partner. In this case, the negative set is relatively large in comparison to the positive set, since the data of known PPI is significantly less as compared to the proteome of an organism. Thus, critically analyzed data is needed and this takes time.

Apprentissage non supervisé : Dans les algorithmes d'apprentissage non supervisé, aucune assistance externe n'est requise. Le programme informatique recherche automatiquement la caractéristique ou le modèle des données et les regroupe en groupes. Lorsque nous introduisons de nouvelles données pour la prédiction, il utilise les caractéristiques apprises précédemment pour classer les données. Cette méthode est très utile à l'ère du big data car elle nécessite une grande quantité de données de formation. Elle est appelée apprentissage non supervisé parce qu'il n'y a pas d'enseignant ou de supervision impliqués.

L'apprentissage non supervisé est ensuite classé en trois catégories : le clustering, le clustering hiérarchique et le modèle de mélange gaussien. Dans la méthode de clustering, on découvre la relation entre des données similaires et on les regroupe en clusters. Dans le clustering hiérarchique, les données sont regroupées sur la base de petits clusters par une certaine mesure de similarité. Ensuite, sur la base de certains paramètres similaires, les sous-clusters sont à nouveau regroupés. Dans le modèle de mélange gaussien, chaque composant du mélange présente un cluster unique.

Apprentissage par renforcement : Dans l'apprentissage par renforcement, la décision est prise sur la base des actions entreprises qui donnent des résultats plus positifs. L'apprenant ne sait pas quelle action prendre, il peut décider en effectuant des actions et en voyant les résultats. Ainsi, cet apprentissage dépend des essais et des erreurs [5].

The most promising implementation of machine learning and artificial intelligence is in personalized medicine and in médecine de précision. In recent years, many startups have focused on this and have developed pipelines. It is worth waiting to see if these translate into commodities that benefit the common man in the long run.

Applications de l'apprentissage automatique en biologie

Identification des régions codantes des gènes
In the area of génomique, next-generation sequencing has rapidly advanced the field by sequencing a genome in a short time. Thus, an active area machine learning is applied to identifying gene coding regions in a genome. Such gene prediction tools that involve machine learning would be more sensitive than typical homolog based sequence searches.

Prédiction de la structure
Sur proteomics, we touched upon PPI earlier. But, the use of machine learning in structure prediction has pushed the accuracy from 70% to more than 80%. The use of machine learning in text-mining is quite promising with using training sets to identify new or novel drug targets from multiple journal articles and searching secondary databases.

Réseaux neuronaux
Apprentissage profond is a more recent subfield of machine learning that is the extension of neural network. In deep learning “deep” refers to the number of layers through which data is transformed. So, deep learning is similar to neural network with multi-layers. These multi-layers nodes try to mimic how the human brain thinks to solve the problems. Neural networks are already used by machine learning. Neural network-based machine learning algorithms needs refined or significant data from raw data sets to perform analysis. But increasing data of genome sequencing made it difficult to process meaningful information and then perform the analysis. Multi layers in neural network filter the information and communicate to each layer and permit to refine the output.

Les algorithmes d'apprentissage profond extraient des caractéristiques de grands ensembles de données comme un groupe d'images ou des génomes et développent un modèle sur la base des caractéristiques extraites. Une fois le modèle développé, les algorithmes peuvent l'utiliser pour analyser d'autres ensembles de données. Tujourd'hui, les scientifiques utilisent des algorithmes d'apprentissage profond pour effectuer la classification d'images cellulaires, l'analyse du génome, la découverte de médicaments et aussi pour découvrir comment les données d'image et de génome sont liées aux dossiers médicaux électroniques. Aujourd'hui, l'apprentissage profond est un domaine actif de la biologie computationnelle. L'apprentissage profond est appliqué aux données biologiques à haut débit, ce qui permet de mieux comprendre les ensembles de données à haute dimension. En biologie computationnelle, l'apprentissage profond est utilisé en génomique régulatrice pour l'identification de variantes régulatrices, l'effet de la mutation en utilisant la séquence d'ADN, l'analyse de cellules entières, de populations de cellules et de tissus [11].

L'IA dans les soins de santé
Machine learning and AI are being used extensively by hospitals and health service providers to improve patient satisfaction, deliver personalized treatments, make accurate predictions and enhance the quality of life. It is also being used to make les essais cliniques more efficient and help speed up the process of drug discovery and delivery.

Pour citer le travail de Google qui emploie L'IA dans les données de santé [17, 18]

Les médecins sont déjà inondés d'alertes et de demandes d'attention - les modèles pourraient-ils aider les médecins à accomplir des tâches administratives fastidieuses afin qu'ils puissent mieux se concentrer sur le patient qui se trouve devant eux ou sur ceux qui nécessitent une attention particulière ? Pouvons-nous aider les patients à obtenir des soins de haute qualité, quel que soit l'endroit où ils les cherchent ?

Et du point de vue du patient

Quand pourrai-je rentrer chez moi ? Est-ce que je vais aller mieux ? Devrai-je revenir à l'hôpital ?

Outils d'apprentissage automatique utilisés en biologie

Profileur de cellules: Il y a quelques années, les logiciels d'analyse d'images biologiques ne mesuraient qu'un seul paramètre à partir d'un groupe d'images. En 2005, une biologiste informaticienne, Anne Carpenter du MIT et de Harvard, a publié un logiciel appelé CellProfiler pour la mesure de caractéristiques quantitatives individuelles telles que le nombre de cellules fluorescentes dans le domaine de la microscopie. Mais, actuellement, CellProfiler peut produire des milliers de caractéristiques en mettant en œuvre des techniques d'apprentissage profond.

DeepVariant: L'application de l'apprentissage profond est largement utilisée dans les outils d'exploration des données du génome. Verily life science et Google ont développé un outil basé sur l'apprentissage profond appelé DeepVariant qui prédit un type commun de variation génétique avec plus de précision que les outils conventionnels.

Atomwise: La découverte de médicaments est un autre domaine dans lequel l'apprentissage profond contribue de manière significative. Une société de biotechnologie basée à San Francisco, appelée Atomwise a développé un algorithme qui permet de convertir les molécules en pixels 3D. Cette représentation permet de rendre compte de la structure 3D des protéines et des petites molécules avec une précision atomique. Ensuite, en utilisant ces caractéristiques, l'algorithme peut prédire les petites molécules qui peuvent interagir avec une protéine donnée [12].

Different types of deep learning methods exist such as deep neural network (DNN), recurrent neural network (RNN), convolution neural network (CNN), deep autoencoder (DA), deep Boltzman machine (DBM), deep belief network (DBN) and deep residual network (DRN) etc. In the field of biology some methods like, DNN, RNN, CNN, DA and DBM are most commonly used methods [13]. Translation of biological data to perform validation of biomarqueurs that reveal disease state is a key task in biomedicine. DNN plays significant role in the identification of potential biomarkers from genome and proteome data. Deep learning also play important role in drug discovery [14].

CNN a été utilisé l'outil de calcul DeepCpG récemment développé pour prédire les états de méthylation de l'ADN dans les cellules individuelles. Dans la méthylation de l'ADN, les groupes méthyles sont associés à la molécule d'ADN et modifient les fonctions de la molécule d'ADN sans provoquer de changements dans la séquence. DeepCpG a également été utilisé pour la prédiction des motifs connus qui sont responsables de la variabilité de la méthylation. DeepCpG a prédit des résultats plus précis en comparaison avec d'autres méthodes lors de l'évaluation utilisant cinq types différents de données de méthylation. La méthylation de l'ADN est un marqueur épigénétique très largement étudié [15].

TensorFlow est un cadre d'apprentissage profond développé par les chercheurs de Google. TensorFlow est un logiciel récemment développé qui accélère la conception et l'entraînement des DNN. Il est mis en œuvre dans plusieurs améliorations comme la visualisation graphique et la complication du temps. La principale amélioration de TensorFlow est qu'il est disponible avec des outils de soutien appelés TensorBoard utilisés pour la visualisation de la progression de la formation du modèle. Il peut fournir la visualisation d'un modèle complexe [16].

En conclusion, l'IA et l'apprentissage automatique changent la façon dont les biologistes mènent leurs recherches, les interprètent et les appliquent pour résoudre des problèmes. La science devenant de plus en plus interdisciplinaire, il est inévitable que la biologie continue à emprunter à l'apprentissage automatique ou, mieux encore, que l'apprentissage automatique ouvre la voie.

Besoin d'engager un consultant en apprentissage machine pour un projet ? Consultez des experts freelance sur Kolabtree. C'est gratuit de poster votre projet et d'obtenir des devis !

Remerciements : L'auteur tient à remercier M. Arvind Yadav pour son aide dans la rédaction de cet article.

Références et lectures complémentaires :

  1. http://www.bbc.com/news/technology-43127533
  2. https://www.wired.com/story/why-artificial-intelligence-researchers-should-be-more-paranoid/
  3. https://www.theverge.com/2018/2/20/17032228/ai-artificial-intelligence-threat-report-malicious-uses
  4. http://www.thehindu.com/opinion/lead/the-politics-of-ai/article22809400.ece?homepage=true
  5. https://www.economist.com/news/science-and-technology/21713828-silicon-valley-has-squidgy-worlds-biology-and-disease-its-sights-will
  6. Raina, C. K. (2016). Une revue sur les techniques d'apprentissage automatique. International Journal on Recent and Innovation Trends in Computing and Communication (Journal international sur les tendances récentes et innovantes en informatique et en communication)4(3), 395-399.
  7. Jordan, M. I., & Mitchell, T. M. (2015). Machine learning : Tendances, perspectives et perspectives. Science349(6245), 255-260.
  8. Praveena, M., & Jaiganesh, V. (2017). A revue de la littérature on supervised machine learning algorithms and boosting process. Journal international des applications informatiques169(8), 32-35.
  9. Forsberg, F., & Alvarez Gonzalez, P. (2018). Apprentissage automatique non supervisé : Une enquête sur les algorithmes de clustering sur un petit ensemble de données.
  10. Gosavi, A. (2009). Reinforcement learning : A tutorial survey and recent advances. INFORMS Journal on Computing21(2), 178-192.
  11. Angermueller, C., Pärnamaa, T., Parts, L., & Stegle, O. (2016). L'apprentissage profond pour la biologie computationnelle. Biologie des systèmes moléculaires12(7), 878.
  12. Webb, S. (2018). L'apprentissage profond pour la biologie. Nature. 2018 554(7693):555-557.
  13. Mahmud, M., Kaiser, M. S., Hussain, A. et Vassanelli, S. (2018). Applications de l'apprentissage profond et de l'apprentissage par renforcement aux données biologiques. IEEE transactions sur les réseaux neuronaux et les systèmes d'apprentissage29(6), 2063-2079.
  14. Mamoshina, P., Vieira, A., Putin, E. et Zhavoronkov, A. (2016). Applications de l'apprentissage profond en biomédecine. Pharmacie moléculaire13(5), 1445-1454.
  15. Angermueller, C., Lee, H. J., Reik, W. et Stegle, O. (2017). DeepCpG : prédiction précise des états de méthylation de l'ADN à l'échelle de la cellule unique à l'aide de l'apprentissage profond. Biologie du génome18(1), 67.
  16. Rampasek, L., & Goldenberg, A. (2016). Tensorflow : La passerelle de la biologie vers l'apprentissage profond ? Systèmes cellulaires2(1), 12-14.
  17. https://ai.googleblog.com/2018/05/deep-learning-for-electronic-health.html
  18. Rajkomar et al, (2018) "Scalable and accurate deep learning with electronic health records".", npj Digital Medicine, 1(1)

Kolabtree helps businesses worldwide hire freelance scientists and industry experts on demand. Our freelancers have helped companies publish research papers, develop products, analyze data, and more. It only takes a minute to tell us what you need done and get quotes from experts for free.


Unlock Corporate Benefits

• Secure Payment Assistance
• Onboarding Support
• Dedicated Account Manager

Sign up with your professional email to avail special advances offered against purchase orders, seamless multi-channel payments, and extended support for agreements.


Partager.

À propos de l'auteur

Le Dr Ragothaman Yennamalli a obtenu son doctorat en biologie computationnelle et bioinformatique en 2008 à l'université Jawaharlal Nehru de New Delhi. Il a effectué des recherches postdoctorales à l'université d'État de l'Iowa (2009-2011), à l'université du Wisconsin-Madison (2011-2012) et à l'université Rice (2012-2014). Il est actuellement professeur adjoint à la Jaypee University of Information Technology, Waknaghat, Himachal Pradesh, Inde.

Laissez une réponse