生物学における機械学習の応用

0

機械学習 has several applications in diverse fields, ranging from ヘルスケア to natural language processing. Dr. Ragothanam Yennamalli, a computational biologist and Kolabtree freelancer, examines the applications of AI and 機械学習 生物学における 

Machine Learning and 人工知能 — these technologies have stormed the world and have changed the way we work and live. Advances in these areas have led to many either praising it or decrying it. However, for a computational person like me, they are not new words. AI and ML, as they’re popularly called, have several applications and benefits across a wide range of industries. Most notably, they are revolutionizing the way biological research is performed, leading to new innovations across ヘルスケア そして バイオテクノロジー.

機械学習とは?

機械学習 そして statistics are closely knit. The reason is that the methods used in most machine learning approaches have origins from statistics such as regression analysis. While there are many applications for machine learning methods, their applications to biological data since the last 30 years or so have been in gene prediction, functional annotation, systems biology, microarray データ分析, pathway analysis, etc.

Patterns is what a machine tries to identify in a given data, using which it tries to identify a similar pattern in another set of data. The processes of machine learning are quite similar to predictive modelling and data mining. They search data to identify patterns and alter the action of program, accordingly.

私たちが機械学習やAIを意識するのは、オンラインショッピングツールで、購入した商品に関連したお勧め商品が提案されるからです。これは、レコメンデーションエンジンが機械学習に基づいて動作しているために起こります。機械学習は、スパムフィルタリング、セキュリティ脅威の検出、詐欺の検出、ニュースフィードのパーソナライズなど、他の用途にも使用されています。

機械学習は、大きく分けて「教師あり学習」「教師なし学習」「強化学習」の3種類があります。

監視下での学習。 Supervised machine learning algorithms require external assistance. The external assistance is usually through a human expert who provides curated input for the desired output to predict accuracy in algorithm training. The expert or data scientist determines the features or patterns that the model would use. Once the training is completed, then it can be applied to test another data for the prediction and classification. It is supervised because the algorithm learns from the training data set akin to a teacher supervising the learning process of a student.

さらに、教師付き学習は、分類と回帰の2つのカテゴリーに分けられる。分類では、出力変数を「赤」や「緑」、「病気」や「非病気」などのクラスに分類します。回帰では、出力変数は「ドル」や「体重」などの実数値です。

つまり、教師付き分類器では、機械を学習するためにトレーニングセットが提供され、テストセットで評価されます。これらの分類器で最も重要なことは、学習セットをどのように構築するかということです。多くの場合、質の高い学習セットを用意することが、機械学習の成否を左右します。また、学習セットの一部として提供されるネガティブデータについても考慮する必要があります。時には、良いネガティブデータセットを特定するのが難しくなることもあります。

For example, if I would want to develop/train a machine to predict if two proteins interact (Protein-Protein interactions or PPI) or not; I would require a positive set of protein sequences/structures that have been proven to interact physically (such as X-ray crystallography, NMR data) and I would require a negative set of protein sequences/structures that  are known to work without interacting with. a partner. In this case, the negative set is relatively large in comparison to the positive set, since the data of known PPI is significantly less as compared to the proteome of an organism. Thus, critically analyzed data is needed and this takes time.

教師なしの学習。 教師なし学習アルゴリズムでは、外部の支援は必要ありません。コンピュータプログラムは、データの特徴やパターンを自動的に検索し、それらをクラスターに分類します。予測のために新しいデータを導入すると、以前に学習した特徴を使ってデータを分類します。この方法は、膨大な量の学習データを必要とするため、ビッグデータの時代には非常に有効です。教師や監督が介在しないため、教師なし学習と呼ばれています。

教師なし学習はさらに、クラスタリング、階層型クラスタリング、ガウス混合モデルの3つのクラスに分類される。クラスタリングでは,類似した種類のデータ間の関係性を見つけ出し,クラスターに分類する.階層型クラスタリングでは、データは類似性の測定によって小さなクラスタに基づいてグループ化されます。その後、類似したパラメータに基づいて、再びサブクラスタをグループ化します。ガウス混合モデルでは、各混合成分が固有のクラスタを示します。

強化学習です。 強化学習では、より肯定的な結果をもたらす行動をとったことに基づいて決定されます。学習者はどの行動を取るべきかの知識はなく、行動を実行して結果を見ることで決定することができる。そのため、この学習は、試行錯誤に依存しています[5]。

The most promising implementation of machine learning and artificial intelligence is in personalized medicine and in 精密医療. In recent years, many startups have focused on this and have developed pipelines. It is worth waiting to see if these translate into commodities that benefit the common man in the long run.

生物学における機械学習の応用

遺伝子コード領域の特定
In the area of genomics, next-generation sequencing has rapidly advanced the field by sequencing a genome in a short time. Thus, an active area machine learning is applied to identifying gene coding regions in a genome. Such gene prediction tools that involve machine learning would be more sensitive than typical homolog based sequence searches.

構造予測
proteomics, we touched upon PPI earlier. But, the use of machine learning in structure prediction has pushed the accuracy from 70% to more than 80%. The use of machine learning in text-mining is quite promising with using training sets to identify new or novel drug targets from multiple journal articles and searching secondary databases.

ニューラルネットワーク
ディープラーニング is a more recent subfield of machine learning that is the extension of neural network. In deep learning “deep” refers to the number of layers through which data is transformed. So, deep learning is similar to neural network with multi-layers. These multi-layers nodes try to mimic how the human brain thinks to solve the problems. Neural networks are already used by machine learning. Neural network-based machine learning algorithms needs refined or significant data from raw data sets to perform analysis. But increasing data of genome sequencing made it difficult to process meaningful information and then perform the analysis. Multi layers in neural network filter the information and communicate to each layer and permit to refine the output.

深層学習アルゴリズムは、画像群やゲノムなどの大規模なデータセットから特徴を抽出し、抽出した特徴に基づいてモデルを開発します。モデルが開発されると、アルゴリズムは開発されたモデルを使って他のデータセットの分析を行うことができます。T今日、科学者たちは深層学習アルゴリズムを用いて、細胞画像の分類、ゲノム解析、創薬を行い、また、画像データやゲノムデータが電子カルテとどのようにリンクするかを調べています。 今日、深層学習は計算生物学において活発な分野となっています。深層学習は、ハイスループットの生物学的データに適用され、高次元のデータセットをより良く理解するのに役立ちます。計算生物学では、深層学習は、レギュラトリーゲノミクスにおいて、DNA配列を用いた制御バリアントの同定、変異の影響、全細胞、細胞集団、組織の分析などに用いられている[11]。

ヘルスケアにおけるAI
Machine learning and AI are being used extensively by hospitals and health service providers to improve patient satisfaction, deliver personalized treatments, make accurate predictions and enhance the quality of life. It is also being used to make 臨床試験 more efficient and help speed up the process of drug discovery and delivery.

Googleが採用している作品を引用すると ヘルスケアデータのAI化 [17, 18]

モデルは、医師が目の前の患者さんや特別な配慮が必要な患者さんに集中できるように、退屈な管理業務を支援することができるでしょうか。また、患者がどこにいても質の高い医療を受けられるようにすることは可能でしょうか。

また、患者さんの立場から

いつ家に帰れるのか?治るのでしょうか?また病院に来なければならないのでしょうか?

生物学で使われる機械学習ツール

セルプロファイラー:数年前、生物学的画像解析のためのソフトウェアは、画像群から単一のパラメータを測定するだけでした。2005年には、MITとハーバード大学の計算生物学者であるAnne Carpenter氏が セルプロファイラー は、顕微鏡分野で蛍光細胞数のような定量的に個々の特徴を測定するためのものです。しかし、現在のCellProfilerは、深層学習技術を実装することで、数千もの特徴量を作り出すことができます。

DeepVariant:深層学習の応用は、ゲノムデータのマイニングツールに広く使われています。 ベリィライフサイエンス と呼ばれる深層学習をベースにしたツールをGoogleが開発しました。 DeepVariant は、従来のツールと比較して、一般的なタイプの遺伝的変異をより正確に予測することができます。

アトムワイズ:また、深層学習が大きく貢献する創薬分野もあります。サンフランシスコに拠点を置くバイオテック企業である アトムワイズ は、分子を3Dピクセルに変換するアルゴリズムを開発しました。この表現は、タンパク質や小分子の3D構造を原子レベルの精度で説明するのに役立つ。そして、これらの特徴を用いて、アルゴリズムは、与えられたタンパク質と相互作用する可能性のある小分子を予測することができる[12]。

Different types of deep learning methods exist such as deep neural network (DNN), recurrent neural network (RNN), convolution neural network (CNN), deep autoencoder (DA), deep Boltzman machine (DBM), deep belief network (DBN) and deep residual network (DRN) etc. In the field of biology some methods like, DNN, RNN, CNN, DA and DBM are most commonly used methods [13]. Translation of biological data to perform validation of バイオマーカー that reveal disease state is a key task in biomedicine. DNN plays significant role in the identification of potential biomarkers from genome and proteome data. Deep learning also play important role in drug discovery [14].

CNNは、最近開発された計算機ツールDeepCpGを用いて、単一細胞内のDNAメチル化状態を予測します。DNAメチル化では、メチル基がDNA分子に結合し、配列に変化をもたらすことなくDNA分子の機能を変化させます。また、DeepCpGは、メチル化の変動に関与する既知のモチーフの予測にも使用されました。DeepCpGは、5種類の異なるメチル化データを用いて評価したところ、他の手法と比較してより正確な結果を予測しました。DNA メチル化は、最も広く研究されているエピジェネティックなマーカーである[15]。

TensorFlow は、Googleの研究者によって開発された深層学習フレームワークです。TensorFlowは最近開発されたソフトウェアで、DNNの設計とトレーニングを高速化します。TensorFlowは、DNNの設計と学習を高速化するために最近開発されたソフトウェアで、グラフィカルな表示や時間の短縮など、いくつかの改良が加えられている。TensorFlowの主な改良点は、モデル学習の進捗状況を可視化するためのTensorBoardと呼ばれるサポートツールが用意されていることだ。これは、複雑なモデルの視覚化を提供することができます[16]。

結論として、AIと機械学習は、生物学者が研究を行い、それを解釈し、問題解決のために応用する方法を変えつつあります。科学がますます学際的になっていく中で、生物学が機械学習を利用し続けるのは必然であり、むしろ機械学習が道を切り開いていくのではないかと思います。

を採用する必要があります。 機械学習コンサルタント プロジェクトのために?Kolabtreeでフリーランスの専門家に相談してみませんか?あなたのプロジェクトを投稿して、見積もりをもらうのは無料です

Acknowledgement このブログ記事に協力してくれたArvind Yadav氏に感謝します。

参考文献・参考資料

  1. http://www.bbc.com/news/technology-43127533
  2. https://www.wired.com/story/why-artificial-intelligence-researchers-should-be-more-paranoid/
  3. https://www.theverge.com/2018/2/20/17032228/ai-artificial-intelligence-threat-report-malicious-uses
  4. http://www.thehindu.com/opinion/lead/the-politics-of-ai/article22809400.ece?homepage=true
  5. https://www.economist.com/news/science-and-technology/21713828-silicon-valley-has-squidgy-worlds-biology-and-disease-its-sights-will
  6. レイナ、C.K. (2016).機械学習技術に関するレビュー。 インターナショナル・ジャーナル・オン・リーセント・アンド・イノベーション・トレンド・イン・コンピューティング・アンド・コミュニケーション4(3), 395-399.
  7. Jordan, M. I., & Mitchell, T. M. (2015).機械学習。Trends, Perspectives, and prospects. サイエンス349(6245), 255-260.
  8. Praveena, M., & Jaiganesh, V. (2017). A 文献調査 on supervised machine learning algorithms and boosting process. インターナショナル・ジャーナル・オブ・コンピュータ・アプリケーションズ169(8), 32-35.
  9. フォルスバーグ、F., & アルバレス・ゴンザレス、P. (2018).教師なしの機械学習。An Investigation of Clustering Algorithms on a Small Dataset.
  10. Gosavi, A. (2009).reinforcement learning:A tutorial survey and recent advances. INFORMSジャーナル オン コンピューティング21(2), 178-192.
  11. Angermueller, C., Pärnamaa, T., Parts, L., & Stegle, O. (2016).計算生物学のための深層学習。 分子システム生物学12(7), 878.
  12. Webb, S. (2018).生物学のためのディープラーニングNature.2018 554(7693):555-557.
  13. Mahmud, M., Kaiser, M. S., Hussain, A., & Vassanelli, S. (2018).深層学習と強化学習の生物学的データへの応用。 IEEE Transactions on Neural Networks and Learning Systems29(6), 2063-2079.
  14. Mamoshina, P., Vieira, A., Putin, E., & Zhavoronkov, A. (2016).生物医学における深層学習の応用。 分子薬剤学13(5), 1445-1454.
  15. Angermueller, C., Lee, H. J., Reik, W., & Stegle, O. (2017).DeepCpG:深層学習を用いた単一細胞のDNAメチル化状態の正確な予測。 ゲノムバイオロジー18(1), 67.
  16. Rampasek, L., & Goldenberg, A. (2016).Tensorflow。生物学の深層学習へのゲートウェイ? セルシステム2(1), 12-14.
  17. https://ai.googleblog.com/2018/05/deep-learning-for-electronic-health.html
  18. Rajkomarら、(2018)「電子健康記録を用いたスケーラブルで正確な深層学習", npj Digital Medicine, 1(1)

Kolabtree helps businesses worldwide hire freelance scientists and industry experts on demand. Our freelancers have helped companies publish research papers, develop products, analyze data, and more. It only takes a minute to tell us what you need done and get quotes from experts for free.


Unlock Corporate Benefits

• Secure Payment Assistance
• Onboarding Support
• Dedicated Account Manager

Sign up with your professional email to avail special advances offered against purchase orders, seamless multi-channel payments, and extended support for agreements.


共有しています。

著者について

2008年、ニューデリーのジャワハルラール・ネルー大学で計算生物学とバイオインフォマティクスの博士号を取得。その後、アイオワ州立大学(2009年~2011年)、ウィスコンシン大学マディソン校(2011年~2012年)、ライス大学(2012年~2014年)でポスドク研究を行いました。 現在、インドのヒマーチャル・プラデーシュ州ワクナガットにあるJaypee University of Information Technologyの助教授を務めている。

返信を残す