As aplicações da aprendizagem de máquinas em biologia

0

Aprendizagem da máquina has several applications in diverse fields, ranging from saúde to natural language processing. Dr. Ragothanam Yennamalli, a computational biologist and Kolabtree freelancer, examines the applications of AI and aprendizagem de máquinas em biologia. 

Machine Learning and Inteligência Artificial — these technologies have stormed the world and have changed the way we work and live. Advances in these areas have led to many either praising it or decrying it. However, for a computational person like me, they are not new words. AI and ML, as they’re popularly called, have several applications and benefits across a wide range of industries. Most notably, they are revolutionizing the way biological research is performed, leading to new innovations across saúde e biotecnologia.

O que é aprendizado de máquina?

Aprendizagem da máquina e estatísticas are closely knit. The reason is that the methods used in most machine learning approaches have origins from statistics such as regression analysis. While there are many applications for machine learning methods, their applications to biological data since the last 30 years or so have been in gene prediction, functional annotation, systems biology, microarray análise de dados, pathway analysis, etc.

Patterns is what a machine tries to identify in a given data, using which it tries to identify a similar pattern in another set of data. The processes of machine learning are quite similar to predictive modelling and data mining. They search data to identify patterns and alter the action of program, accordingly.

Estamos cientes da aprendizagem da máquina e da IA através de ferramentas de compras on-line, uma vez que algumas recomendações são sugeridas relacionadas à nossa compra. Isto acontece porque os motores de recomendação funcionam na aprendizagem de máquinas. O aprendizado de máquinas também tem outras aplicações, como filtragem de spam, detecção de ameaças à segurança, detecção de fraudes e personalização de feeds de notícias.

O aprendizado de máquinas é categorizado em três tipos: aprendizado supervisionado, aprendizado não supervisionado e aprendizado de reforço.

Aprendizagem supervisionada: Supervised machine learning algorithms require external assistance. The external assistance is usually through a human expert who provides curated input for the desired output to predict accuracy in algorithm training. The expert or data scientist determines the features or patterns that the model would use. Once the training is completed, then it can be applied to test another data for the prediction and classification. It is supervised because the algorithm learns from the training data set akin to a teacher supervising the learning process of a student.

Além disso, o aprendizado supervisionado é dividido em duas categorias, classificação e regressão. Na classificação, a variável de saída é categorizada em classes como "vermelho" ou "verde" ou "doença" ou "não-doença". Na regressão, a variável de saída é um valor real, tal como "dólares" ou "peso".

Assim, nos classificadores supervisionados é fornecido um conjunto de treinamento para treinar a máquina e este é avaliado com um conjunto de testes. O mais importante nestes classificadores é como se faz para construir um conjunto de treinamento. Na maioria dos casos, ter um conjunto de treinamento de alta qualidade faz ou quebra o aprendizado da máquina. Deve-se considerar também os dados negativos que são fornecidos como parte do conjunto de treinamento. s vezes, torna-se difícil identificar um bom conjunto de dados negativos.

For example, if I would want to develop/train a machine to predict if two proteins interact (Protein-Protein interactions or PPI) or not; I would require a positive set of protein sequences/structures that have been proven to interact physically (such as X-ray crystallography, NMR data) and I would require a negative set of protein sequences/structures that  are known to work without interacting with. a partner. In this case, the negative set is relatively large in comparison to the positive set, since the data of known PPI is significantly less as compared to the proteome of an organism. Thus, critically analyzed data is needed and this takes time.

Aprendizagem sem supervisão: Em algoritmos de aprendizagem sem supervisão, não é necessária assistência externa. O programa de computador busca automaticamente a característica ou padrão dos dados e os agrupa em clusters. Quando introduzimos novos dados para a previsão, então ele usa recursos aprendidos anteriormente para classificar os dados. Este método é muito útil na era dos grandes dados, pois requer uma enorme quantidade de dados de treinamento. É chamado de aprendizagem não supervisionada porque não há professor ou supervisão envolvida.

O aprendizado não supervisionado é ainda classificado em três classes, tais como agrupamento, agrupamento hierárquico e modelo de mistura Gaussiano. No método de agrupamento, descobre-se a relação entre tipos de dados semelhantes e agrupa-se em clusters. No agrupamento hierárquico, os dados são agrupados com base em pequenos clusters por alguma medida de similaridade. Em seguida, com base em alguns subgrupos de parâmetros similares, os dados são agrupados novamente. No modelo de mistura Gaussiano, cada componente de mistura apresenta um cluster único.

Reforço da aprendizagem: No reforço da aprendizagem, a decisão é tomada com base em ações tomadas que dão um resultado mais positivo. O aprendiz não tem conhecimento de qual ação tomar, ele pode decidir executando ações e vendo os resultados. Portanto, este aprendizado depende da tentativa e do erro [5].

The most promising implementation of machine learning and artificial intelligence is in personalized medicine and in medicina de precisão. In recent years, many startups have focused on this and have developed pipelines. It is worth waiting to see if these translate into commodities that benefit the common man in the long run.

Aplicações da aprendizagem de máquinas em biologia

Identificação de regiões codificadoras de genes
In the area of genomics, next-generation sequencing has rapidly advanced the field by sequencing a genome in a short time. Thus, an active area machine learning is applied to identifying gene coding regions in a genome. Such gene prediction tools that involve machine learning would be more sensitive than typical homolog based sequence searches.

Previsão de estrutura
Em proteomics, we touched upon PPI earlier. But, the use of machine learning in structure prediction has pushed the accuracy from 70% to more than 80%. The use of machine learning in text-mining is quite promising with using training sets to identify new or novel drug targets from multiple journal articles and searching secondary databases.

Redes neurais
Aprendizado profundo is a more recent subfield of machine learning that is the extension of neural network. In deep learning “deep” refers to the number of layers through which data is transformed. So, deep learning is similar to neural network with multi-layers. These multi-layers nodes try to mimic how the human brain thinks to solve the problems. Neural networks are already used by machine learning. Neural network-based machine learning algorithms needs refined or significant data from raw data sets to perform analysis. But increasing data of genome sequencing made it difficult to process meaningful information and then perform the analysis. Multi layers in neural network filter the information and communicate to each layer and permit to refine the output.

Algoritmos de aprendizado profundo extraem características de grandes conjuntos de dados como um grupo de imagens ou genomas e desenvolvem um modelo com base nas características extraídas. Uma vez desenvolvido o modelo, então os algoritmos podem usar o modelo desenvolvido para realizar análises de outros conjuntos de dados. To dia, os cientistas utilizam algoritmos de aprendizado profundo para realizar a classificação de imagens celulares, análise de genoma, descoberta de drogas e também descobrir como os dados de imagem e os dados de genoma estão ligados aos registros médicos eletrônicos. Agora o aprendizado profundo do dia é um campo ativo na biologia computacional. O aprendizado profundo aplicado em dados biológicos de alto rendimento que ajudam a subestimar melhor o conjunto de dados de alta dimensão. Em biologia computacional, o aprendizado profundo é usado em genômica regulatória para a identificação de variantes regulatórias, efeito da mutação usando seqüência de DNA, análise de células inteiras, população de células e tecidos [11].

IA na saúde
Machine learning and AI are being used extensively by hospitals and health service providers to improve patient satisfaction, deliver personalized treatments, make accurate predictions and enhance the quality of life. It is also being used to make ensaios clínicos more efficient and help speed up the process of drug discovery and delivery.

Para citar o trabalho do Google empregando IA em dados de saúde [17, 18]

Os médicos já estão inundados de alertas e exigências sobre sua atenção - poderiam os modelos ajudar os médicos com tarefas tediosas e administrativas para que eles possam se concentrar melhor no paciente à sua frente ou aqueles que precisam de atenção extra? Podemos ajudar os pacientes a obter atendimento de alta qualidade, não importa onde eles o procurem?

E do ponto de vista do paciente

Quando poderei ir para casa? Eu poderei melhorar? Terei que voltar para o hospital?

Ferramentas de aprendizagem de máquinas utilizadas em Biologia

Perfilador de células: Há poucos anos, o software para análise de imagens biológicas media apenas um único parâmetro a partir de um grupo de imagens. Como, em 2005, uma bióloga computacional, Anne Carpenter do MIT e Harvard lançou um software chamado CellProfiler para a medição de características quantitativamente individuais como número de células fluorescentes no campo de microscopia. Mas, atualmente, o CellProfiler pode produzir milhares de características através da implementação de técnicas de aprendizado profundo.

DeepVariant: A aplicação do aprendizado profundo é amplamente utilizada em ferramentas para mineração de dados genômicos. Verdadeiramente ciência da vida e o Google desenvolveu uma ferramenta baseada no aprendizado profundo chamada DeepVariant que prevê um tipo comum de variação genética com mais precisão em comparação com as ferramentas convencionais.

Atomwise: Outro campo é o da descoberta de drogas, no qual o aprendizado profundo contribui significativamente. Uma empresa de biotecnologia sediada em São Francisco chamada Atomwise desenvolveu um algoritmo que ajuda a converter moléculas em pixels 3D. Esta representação ajuda a contabilizar a estrutura 3D de proteínas e pequenas moléculas com precisão atômica. Então, usando estas características, o algoritmo pode prever pequenas moléculas que possivelmente interagem com determinada proteína [12].

Different types of deep learning methods exist such as deep neural network (DNN), recurrent neural network (RNN), convolution neural network (CNN), deep autoencoder (DA), deep Boltzman machine (DBM), deep belief network (DBN) and deep residual network (DRN) etc. In the field of biology some methods like, DNN, RNN, CNN, DA and DBM are most commonly used methods [13]. Translation of biological data to perform validation of biomarcadores that reveal disease state is a key task in biomedicine. DNN plays significant role in the identification of potential biomarkers from genome and proteome data. Deep learning also play important role in drug discovery [14].

A CNN tem sido usada recentemente a ferramenta computacional DeepCpG desenvolvida para prever estados de metilação do DNA em células únicas. Na metilação do DNA, grupos de metil associados à molécula de DNA e alteram as funções da molécula de DNA, causando quaisquer mudanças na seqüência. DeepCpG também é utilizado para a previsão de motivos conhecidos responsáveis pela variabilidade da metilação. DeepCpG previu resultados mais precisos em comparação com outros métodos quando da avaliação utilizando cinco tipos diferentes de dados de metilação. A metilação do DNA é um marcador epigenético mais amplamente estudado [15].

TensorFlow é uma estrutura de aprendizagem profunda desenvolvida por pesquisadores do Google. O TensorFlow é um software recentemente desenvolvido que acelera o projeto e o treinamento de DNN. Ele é implementado em várias melhorias como visualização gráfica e complicação de tempo. A principal melhoria do TensorFlow é que, ele está disponível com ferramentas de apoio chamadas TensorBoard, usadas para visualização do progresso do treinamento do modelo. Ele pode proporcionar a visualização de um modelo complexo [16].

Em conclusão, a IA e a aprendizagem de máquinas estão mudando a maneira como os biólogos realizam pesquisas, as interpretam e as aplicam para resolver problemas. À medida que a ciência cresce cada vez mais interdisciplinarmente, é inevitável que a biologia continue a tomar emprestado do aprendizado de máquinas, ou melhor ainda, o aprendizado de máquinas irá liderar o caminho.

Necessidade de contratar um consultor de aprendizagem de máquinas para um projeto? Consulte os especialistas freelance sobre Kolabtree. É grátis para publicar seu projeto e receber orçamentos!

Agradecimento: O autor gostaria de agradecer ao Sr. Arvind Yadav por ajudar neste post do blog.

Referências e Leituras Adicionais:

  1. http://www.bbc.com/news/technology-43127533
  2. https://www.wired.com/story/why-artificial-intelligence-researchers-should-be-more-paranoid/
  3. https://www.theverge.com/2018/2/20/17032228/ai-artificial-intelligence-threat-report-malicious-uses
  4. http://www.thehindu.com/opinion/lead/the-politics-of-ai/article22809400.ece?homepage=true
  5. https://www.economist.com/news/science-and-technology/21713828-silicon-valley-has-squidgy-worlds-biology-and-disease-its-sights-will
  6. Raina, C. K. (2016). Uma revisão sobre técnicas de aprendizagem de máquinas. International Journal on Recent and Innovation Trends in Computing and Communication (Revista Internacional sobre Tendências Recentes e de Inovação em Computação e Comunicação)4(3), 395-399.
  7. Jordan, M. I., & Mitchell, T. M. (2015). Aprendizado de máquinas: Tendências, perspectivas, e perspectivas. Ciência349(6245), 255-260.
  8. Praveena, M., & Jaiganesh, V. (2017). A revisão da literatura on supervised machine learning algorithms and boosting process. Jornal Internacional de Aplicações Informáticas169(8), 32-35.
  9. Forsberg, F., & Alvarez Gonzalez, P. (2018). Aprendizagem sem supervisão da máquina: Uma Investigação de Algoritmos de Clustering em um Pequeno Conjunto de Dados.
  10. Gosavi, A. (2009). Reforço da aprendizagem: Uma pesquisa tutorial e avanços recentes. INFORMS Journal on Computing21(2), 178-192.
  11. Angermueller, C., Pärnamaa, T., Parts, L., & Stegle, O. (2016). Aprendizagem profunda para biologia computacional. Biologia de sistemas moleculares12(7), 878.
  12. Webb, S. (2018). Aprendizagem profunda para a biologia. Natureza. 2018 554(7693):555-557.
  13. Mahmud, M., Kaiser, M. S., Hussain, A., & Vassanelli, S. (2018). Aplicações do aprendizado profundo e do aprendizado de reforço aos dados biológicos. Transações de IEEE em redes neurais e sistemas de aprendizagem29(6), 2063-2079.
  14. Mamoshina, P., Vieira, A., Putin, E., & Zhavoronkov, A. (2016). Aplicações do aprendizado profundo em biomedicina. Farmacêuticos moleculares13(5), 1445-1454.
  15. Angermueller, C., Lee, H. J., Reik, W., & Stegle, O. (2017). DeepCpG: previsão precisa dos estados de metilação de DNA de célula única usando aprendizado profundo. Biologia do genoma18(1), 67.
  16. Rampasek, L., & Goldenberg, A. (2016). Tensorflow: A porta de entrada da biologia para o aprendizado profundo... Sistemas celulares2(1), 12-14.
  17. https://ai.googleblog.com/2018/05/deep-learning-for-electronic-health.html
  18. Rajkomar et al., (2018) "Scalable and accurate deep learning with electronic health records", npj Medicina Digital, 1(1)

A Kolabtree ajuda empresas em todo o mundo a contratar especialistas sob demanda. Nossos freelancers têm ajudado empresas a publicar artigos de pesquisa, desenvolver produtos, analisar dados e muito mais. Leva apenas um minuto para nos dizer o que você precisa fazer e obter cotações de especialistas gratuitamente.


Compartilhe.

Sobre o Autor

Dr. Ragothaman Yennamalli concluiu seu doutorado em Biologia Computacional e Bioinformática em 2008 pela Universidade Jawaharlal Nehru, Nova Delhi. Ele conduziu pesquisas de pós-doutorado na Iowa State University (2009-2011), University of Wisconsin-Madison (2011-2012), e Rice University (2012-2014). Atualmente ele é professor assistente na Universidade Jaypee de Tecnologia da Informação, Waknaghat, Himachal Pradesh, Índia.

Deixe uma resposta