生物学における機械学習の応用

0

機械学習は、ヘルスケアから自然言語処理まで、多様な分野でいくつかのアプリケーションがあります。計算生物学者であり、KolabtreeのフリーランサーでもあるRagothanam Yennamalli博士が、AIのアプリケーションを検証し 機械学習 生物学における 

Machine Learning and Artificial Intelligence — these technologies have stormed the 世界 と、私たちの仕事や生活のあり方を大きく変えてきました。これらの進歩は 地域 have led to many either praising it or decrying it. However, for a computational person like me, they are not new words. AI and ML, as they’re popularly called, have several applications and benefits across a wide range of industries. Most notably, they are revolutionizing the way biological research is performed, leading to new innovations across ヘルスケア やバイオテクノロジーを活用しています。

機械学習とは?

機械学習 と統計学は密接に結びついています。というのも、ほとんどの機械学習アプローチで使われている手法は、回帰分析などの統計学を起源としているからです。 機械学習法の応用例は数多くありますが、ここ30年ほどの生物データへの応用は、遺伝子予測、機能アノテーション、システムバイオロジー、マイクロアレイデータ解析、パスウェイ解析などです。

パターンとは、機械が与えられたデータの中から特定しようとするもので、それを使って別のデータセットの中から同様のパターンを特定しようとするものです。機械学習のプロセスは、予測モデリングやデータマイニングとよく似ています。データを検索してパターンを特定し、それに応じてプログラムの動作を変更します。

私たちが機械学習やAIを意識するのは、オンラインショッピングツールで、購入した商品に関連したお勧め商品が提案されるからです。これは、レコメンデーションエンジンが機械学習に基づいて動作しているために起こります。機械学習は、スパムフィルタリング、セキュリティ脅威の検出、詐欺の検出、ニュースフィードのパーソナライズなど、他の用途にも使用されています。

機械学習は、大きく分けて「教師あり学習」「教師なし学習」「強化学習」の3種類があります。

監視下での学習。 教師付き機械学習アルゴリズムには、外部からの支援が必要です。外部からの支援は、通常、人間の専門家を介して行われます。専門家は、アルゴリズム学習の精度を予測するために、望ましい出力のためのキュレーション入力を行います。専門家やデータサイエンティストは、モデルが使用する特徴やパターンを決定します。トレーニングが完了すると、別のデータをテストして予測と分類を行うことができるようになります。教師が生徒の学習プロセスを監督するように、アルゴリズムがトレーニングデータセットから学習するため、監督下で行われます。

さらに、教師付き学習は、分類と回帰の2つのカテゴリーに分けられる。分類では、出力変数を「赤」や「緑」、「病気」や「非病気」などのクラスに分類します。回帰では、出力変数は「ドル」や「体重」などの実数値です。

つまり、教師付き分類器では、機械を学習するためにトレーニングセットが提供され、テストセットで評価されます。これらの分類器で最も重要なことは、学習セットをどのように構築するかということです。多くの場合、質の高い学習セットを用意することが、機械学習の成否を左右します。また、学習セットの一部として提供されるネガティブデータについても考慮する必要があります。時には、良いネガティブデータセットを特定するのが難しくなることもあります。

例えば、2つのタンパク質が相互作用するかどうか(Protein-Protein Interaction: PPI)を予測する機械を開発・学習したい場合、物理的に相互作用することが証明されているタンパク質の配列・構造の正のセット(X線結晶構造解析やNMRデータなど)と、パートナーと相互作用せずに機能することが知られているタンパク質の配列・構造の負のセットが必要になります。この場合、既知のPPIのデータは生物のプロテオームに比べて著しく少ないため、ネガティブセットはポジティブセットに比べて相対的に大きくなります。したがって、批判的に分析されたデータが必要であり、これには時間がかかります。

教師なしの学習。 教師なし学習アルゴリズムでは、外部の支援は必要ありません。コンピュータプログラムは、データの特徴やパターンを自動的に検索し、それらをクラスターに分類します。予測のために新しいデータを導入すると、以前に学習した特徴を使ってデータを分類します。この方法は、膨大な量の学習データを必要とするため、ビッグデータの時代には非常に有効です。教師や監督が介在しないため、教師なし学習と呼ばれています。

教師なし学習はさらに、クラスタリング、階層型クラスタリング、ガウス混合モデルの3種類に分類される。クラスタリング法では、類似した種類のデータ間の関係を見つけ出し、クラスタに分類する。階層型クラスタリングでは、データを以下の基準でグループ化する。 クラスターは,ある類似度測定によってグループ化される.そして,いくつかの類似したパラメータに基づいて,再びサブクラスタがグループ化される.ガウス混合モデルでは,各混合成分は一意なクラスタを示す.

強化学習です。 強化学習では、より肯定的な結果をもたらす行動をとったかどうかで判断します。学習者はどのような行動をとればよいかを知らないので、行動を実行し、結果を見ることによって決定することができます。そのため、この学習は 裁判 とエラーになることがあります[5]。

機械学習や人工知能の実装で最も期待されているのは、個別化医療やプレシジョン・メディシンである。近年、多くのスタートアップ企業がこの分野に注力し、パイプラインを開発しています。これらが長期的には庶民の利益につながる商品になるかどうか、待ってみる価値はあると思います。

生物学における機械学習の応用

遺伝子コード領域の特定
ゲノムの分野では、次世代シーケンサーにより、短時間でゲノムの配列が決定され、急速に進歩しています。そのため、ゲノム中の遺伝子コード領域を特定するために、機械学習を応用することが盛んに行われています。このような機械学習を用いた遺伝子予測ツールは、典型的なホモログベースの配列検索よりも感度が高いと考えられます。

構造予測
プロテオミクスでは、先ほどPPIに触れました。しかし、構造予測に機械学習を用いることで、70%だった精度が80%以上になりました。テキストマイニングにおける機械学習の利用は、複数の雑誌記事や二次データベースの検索から新規または新規の創薬ターゲットを特定するためのトレーニングセットを使用することで、非常に有望です。

ニューラルネットワーク
深層学習は、ニューラルネットワークを拡張した機械学習の最近のサブフィールドである。深層学習の「深層」とは、データが変換される層の数を意味します。つまり、深層学習は、複数の層を持つニューラルネットワークに似ています。これらの多層ノードは、問題を解決するために人間の脳が考える方法を模倣しようとします。ニューラルネットワークは、すでに機械学習で使われています。ニューラルネットワークに基づく機械学習アルゴリズムは、分析を行うために、生データセットから洗練されたデータや重要なデータを必要とします。しかし、ゲノム解析によるデータの増加に伴い、意味のある情報を処理して解析を行うことが困難になった。ニューラルネットワークでは、複数の層が情報をフィルタリングし、各層に伝達して出力を精緻化します。

深層学習アルゴリズムは、画像群やゲノムなどの大規模なデータセットから特徴を抽出し、抽出した特徴に基づいてモデルを開発します。モデルが開発されると、アルゴリズムは開発されたモデルを使って他のデータセットの分析を行うことができます。T今日、科学者はディープラーニングアルゴリズムを使用して、細胞画像の分類、ゲノム分析、創薬、また、どのように イメージ のデータやゲノムデータが電子カルテと連携しています。 深層学習は、計算生物学における活発な分野である。ディープラーニングは、ハイスループットの生物学的データに適用され、高次元のデータセットについてより良い理解を得るのに役立っています。計算生物学では、ディープラーニングは、制御バリアントの同定、DNA配列を用いた変異の影響、解析、遺伝子発現の解析など、制御ゲノミクスに利用されている。 丸ごと セル細胞や組織の集団である[11]。

ヘルスケアにおけるAI
機械学習やAIは、病院での活用が広がっており 健康 サービスプロバイダーは、患者の満足度向上、個別化された治療の提供、正確な予測、生活の質の向上を目指しています。また、臨床試験の効率化や創薬・送達プロセスのスピードアップにも活用されています。

Googleが採用している作品を引用すると ヘルスケアデータのAI化 [17, 18]

モデルは、医師が目の前の患者さんや特別な配慮が必要な患者さんに集中できるように、退屈な管理業務を支援することができるでしょうか。また、患者がどこにいても質の高い医療を受けられるようにすることは可能でしょうか。

また、患者さんの立場から

いつ家に帰れるのか?治るのでしょうか?また病院に来なければならないのでしょうか?

生物学で使われる機械学習ツール

セルプロファイラー:数年前、生物学的画像解析のためのソフトウェアは、画像群から単一のパラメータを測定するだけでした。2005年には、MITとハーバード大学の計算生物学者であるAnne Carpenter氏が セルプロファイラー は、顕微鏡分野で蛍光細胞数のような定量的に個々の特徴を測定するためのものです。しかし、現在のCellProfilerは、深層学習技術を実装することで、数千もの特徴量を作り出すことができます。

DeepVariant:深層学習の応用は、ゲノムデータのマイニングツールに広く使われています。 ベリィライフサイエンス と呼ばれる深層学習をベースにしたツールをGoogleが開発しました。 DeepVariant は、従来のツールと比較して、一般的なタイプの遺伝的変異をより正確に予測することができます。

アトムワイズ:また、深層学習が大きく貢献する創薬分野もあります。サンフランシスコに拠点を置くバイオテック企業である アトムワイズ は、分子を3Dピクセルに変換するアルゴリズムを開発しました。この表現は、タンパク質や小分子の3D構造を原子レベルの精度で説明するのに役立つ。そして、これらの特徴を用いて、アルゴリズムは、与えられたタンパク質と相互作用する可能性のある小分子を予測することができる[12]。

深層学習には、深層ニューラルネットワーク(DNN)、リカレントニューラルネットワーク(RNN)、畳み込みニューラルネットワーク(CNN)、深層オートエンコーダ(DA)、深層ボルツマンマシン(DBM)、深層信念ネットワーク(DBN)、深層残差ネットワーク(DRN)など様々な手法が存在します。生物学の分野では、DNN、RNN、CNN、DA、DBMなどの手法が最もよく使用されています[13]。病気を明らかにするバイオマーカーの検証を行うための生物学的データの変換 状態 は、生物医学における重要な課題である。DNNはゲノムやプロテオームデータから潜在的なバイオマーカーを同定する際に重要な役割を果たす。また、ディープラーニングは創薬においても重要な役割を担っている[14]。

CNNは、最近開発された計算機ツールDeepCpGを用いて、単一細胞内のDNAメチル化状態を予測します。DNAメチル化では、メチル基がDNA分子に結合し、配列に変化をもたらすことなくDNA分子の機能を変化させます。また、DeepCpGは、メチル化の変動に関与する既知のモチーフの予測にも使用されました。DeepCpGは、5種類の異なるメチル化データを用いて評価したところ、他の手法と比較してより正確な結果を予測しました。DNA メチル化は、最も広く研究されているエピジェネティックなマーカーである[15]。

TensorFlow は、Googleの研究者によって開発された深層学習フレームワークです。TensorFlowは最近開発されたソフトウェアで、DNNの設計とトレーニングを高速化します。TensorFlowは、DNNの設計と学習を高速化するために最近開発されたソフトウェアで、グラフィカルな表示や時間の短縮など、いくつかの改良が加えられている。TensorFlowの主な改良点は、モデル学習の進捗状況を可視化するためのTensorBoardと呼ばれるサポートツールが用意されていることだ。これは、複雑なモデルの視覚化を提供することができます[16]。

結論として、AIと機械学習は、生物学者が研究を行い、それを解釈し、問題解決のために応用する方法を変えつつあります。科学がますます学際的になっていく中で、生物学が機械学習を利用し続けるのは必然であり、むしろ機械学習が道を切り開いていくのではないかと思います。

を採用する必要があります。 機械学習コンサルタント プロジェクトのために?Kolabtreeでフリーランスの専門家に相談してみませんか?あなたのプロジェクトを投稿して、見積もりをもらうのは無料です

Acknowledgement このブログ記事に協力してくれたArvind Yadav氏に感謝します。

参考文献・参考資料

  1. http://www.bbc.com/news/technology-43127533
  2. https://www.wired.com/story/why-artificial-intelligence-researchers-should-be-more-paranoid/
  3. https://www.theverge.com/2018/2/20/17032228/ai-artificial-intelligence-threat-report-malicious-uses
  4. http://www.thehindu.com/opinion/lead/the-politics-of-ai/article22809400.ece?homepage=true
  5. https://www.economist.com/news/science-and-technology/21713828-silicon-valley-has-squidgy-worlds-biology-and-disease-its-sights-will
  6. レイナ、C.K. (2016).機械学習技術に関するレビュー。 インターナショナル・ジャーナル・オン・リーセント・アンド・イノベーション・トレンド・イン・コンピューティング・アンド・コミュニケーション4(3), 395-399.
  7. Jordan, M. I., & Mitchell, T. M. (2015).機械学習。Trends, Perspectives, and prospects. サイエンス349(6245), 255-260.
  8. Praveena, M., & Jaiganesh, V. (2017).教師付き機械学習アルゴリズムとブースティングプロセスに関する文献レビュー。 インターナショナル・ジャーナル・オブ・コンピュータ・アプリケーションズ169(8), 32-35.
  9. フォルスバーグ、F., & アルバレス・ゴンザレス、P. (2018).教師なしの機械学習。An Investigation of Clustering Algorithms on a Small Dataset.
  10. ゴザビ、A. (2009).強化学習:チュートリアル 調査 と最近の進歩について説明します。 INFORMSジャーナル オン コンピューティング21(2), 178-192.
  11. Angermueller, C., Pärnamaa, T., Parts, L., & Stegle, O. (2016).計算生物学のための深層学習。 分子システム生物学12(7), 878.
  12. Webb, S. (2018).生物学のためのディープラーニングNature.2018 554(7693):555-557.
  13. Mahmud, M., Kaiser, M. S., Hussain, A., & Vassanelli, S. (2018).深層学習と強化学習の生物学的データへの応用。 IEEE Transactions on Neural Networks and Learning Systems29(6), 2063-2079.
  14. Mamoshina, P., Vieira, A., Putin, E., & Zhavoronkov, A. (2016).生物医学における深層学習の応用。 分子薬剤学13(5), 1445-1454.
  15. Angermueller, C., Lee, H. J., Reik, W., & Stegle, O. (2017).DeepCpG:深層学習を用いた単一細胞のDNAメチル化状態の正確な予測。 ゲノムバイオロジー18(1), 67.
  16. Rampasek, L., & Goldenberg, A. (2016).Tensorflow。生物学の深層学習へのゲートウェイ? セルシステム2(1), 12-14.
  17. https://ai.googleblog.com/2018/05/deep-learning-for-electronic-health.html
  18. Rajkomarら、(2018)「電子健康記録を用いたスケーラブルで正確な深層学習", npj Digital Medicine, 1(1)

Kolabtreeは、世界中の企業がオンデマンドで専門家を雇えるようにします。当社のフリーランサーは、企業が研究論文を発表したり、製品を開発したり、データを分析したりするのに役立っています。それはあなたが行う必要があるものを教えて、無料で専門家からの見積もりを取得するために1分だけかかります。


共有しています。

著者について

2008年、ニューデリーのジャワハルラール・ネルー大学で計算生物学とバイオインフォマティクスの博士号を取得。その後、アイオワ州立大学(2009年~2011年)、ウィスコンシン大学マディソン校(2011年~2012年)、ライス大学(2012年~2014年)でポスドク研究を行いました。 現在、インドのヒマーチャル・プラデーシュ州ワクナガットにあるJaypee University of Information Technologyの助教授を務めている。

返信を残す