生物信息学中的路径分析。将数据映射为信息

0

计算生物学家 和Kolabtree自由职业者 绍利亚-乔哈里(Shaurya Jauhari) 写到目前在生物信息学中进行路径分析所涉及的挑战和可能的解决方案。 

在 "不精确医学"(推动我们转向精准医学)和仪器技术进步带来的生物医学数据泛滥的对比时代,一个空白持续存在,主要是以数据和信息的映射为前提。临床实验产生的生物标志物(更确切地说,是基因或基因组区域的清单),必须对其生物学意义进行阐述。目前促进这种努力的一套工具的目的性不强,因为它忽略了 依然如此鉴于基因组在每个真核细胞的细胞核内的容纳情况,其空间相互作用。这篇评论是要强调问题的性质,阐明基因组的组织,简要地反映目前的绘图工具,并猜想可能的解决方案。

魔鬼在细节中

一系列旨在磨练基因组数据分辨率的努力,在一个关键的信息计划下刷屏了。我们正在焦急地推动$1000基因组的可能性,尽管对$100,000的分析关心不够。存在着一个庞大的汇编,其中有对实验结果和典型生物研究下的案例的注释。可能会有一些定义,说明一个基因的生物学意义,或者这些基因所处的路径,与某种疾病有关。同样,这些动态的信息存储是由人工策划的(以前),知识管理已经被采用计算机和信息通信技术的自动管道所取代。这些数据库是以共识为导向的科学智慧来更新的,并且自成立以来已经接受了少数的修订。将实验结果映射到其生物学意义上的渠道被明显压制,主要是因为潜在的 "真正的 "生物学被否定了。

我们的基因组,平均长度约为2米,被容纳在我们身体的每一个细胞的细胞核内。由于细胞的框架很小,尤其是它的细胞核,基因组是以某种紧张和柔软的方式包装的。这使得基因组中那些从线性角度看相当遥远的区域能够靠近并相互影响。这句谚语被目前的富集(绘图)工具套件严重拒绝,因此产生的结果是不相称的。

基因组中的区域是更大的 "行动组 "或 "行动组 "的一部分。 路径 从技术上讲,这些生物标志物是一系列化学反应,代表着一种表型;健康或疾病。当检查疾病状态时,调查人员正在寻找有可能出现问题的生物标志物,这些标志物显然已经将有机体从健康状态转变为疾病状态。 有光泽的抽搐了一下.想象一下,用错位的信息来追逐一个艰难的疾病。

sdsds问题陈述--典型富集分析的工作流程。有一定的
与基因组序列与基因的映射有关的 "成语",以及协调了
下游的结果。

基因组组织

如前所述,基因组的长度足以线性地储存在细胞核内,对于我们身体的每个细胞或任何其他生物体来说都是如此。相反,这个2米长的实体被挤成一个看似杂乱无章的结构,其中有循环、转折和漩涡,正如人们可以想象的那样。这 无尽的 一串核苷酸或碱基对--腺嘌呤(A)、胞嘧啶(C)、胸腺嘧啶(T)和鸟嘌呤(G)在核内形成不同的拓扑结构,同时适应外显性。根据细胞类型,它们形成染色质环、区段/子区段、域/子域,为某种目的服务。请注意,不同种类的细胞功能不同;神经细胞比肌肉细胞有其他业务需要满足;每一个细胞都有其独特的作用)。


基因组盘绕并蔓延到客观空间。(Credit: https://doi.org/10.1038/nrg.
2016.112)

路径数据库

存在各种不同的本体论和数据库,其中京都基因和基因组百科全书(KEGG)(https://www.genome.jp/kegg/)和Gene Ontology (http://geneontology.org/我将在接下来的章节中介绍的几个工具(通常是有意见的)会从上述数据库中 "选择性地 "获得富集术语。根据它们的统计学意义值,可以得出它们是否真正代表了所列的表型或只是一个随机发展的问题。(附:有一篇关于P值的文章,大概可以帮助外行人理解P值的概念 统计意义.请点击以下链接 https://sway.office.com/WkyHrPnVB8Ec3zPD?play 在你方便的时候)。)

丰富的工具

富集分析是一个计算协议,其内容包括 崭新的 谈到这些工具,它们的结构可以分为几个部分,即过度代表性分析(ORA)、功能分类评分(FCS)、路径拓扑(Pathway)。说到工具,(作为一个管道),它们的结构通常分为几个部分,即过度代表分析(ORA)、功能类别评分(FCS)、基于路径拓扑(PT)的方法和网络交互(NI)方法。

过度代表性分析

通过超几何分布的教条,过度代表分析评估了差异表达的基因集,以确定哪些基因可能是生物途径的一部分。基本上,超几何测试考虑了四个属性来达成决定,即。

  1. 所考虑的试验中的基因总数。
  2. 差异表达的基因。
  3. 目标途径中的基因占总基因数的比例,以及
  4. 在目标途径中出现的差异表达基因。


超几何检验的本质

尽管是一种简单明了的方法,但ORA也有其自身的局限性。

  • 发挥民主;所有的基因都被平等地考虑。; 为什么这是一个问题呢?让我们假设基因是根据以下因素过滤的 折叠变化.我们筛选出表达差异大于或等于2倍(折)的基因,包括负向和正向的。尽管最小值是2倍,但这个工作流程也会捕捉到表达量变化为3倍、4倍及以上的基因。当然,一个表达量相差4倍的基因比一个变化为2倍的基因更慎重。这种表现形式被ORA打了折扣。
  • 只考虑最重要的基因再如,让我们考虑一个倍数变化为1.9999或p值<0.0051113的基因;通常,p值<0.05被认为具有统计学意义。ORA方法在最终结果中掩盖了这个基因。显然,这存在着信息损失和缺乏灵活性。(P.S. Breitling等人通过提出一个避免阈值的外设来解决这一困境。该修订案采用了一种迭代的方法,每次附加一个基因来编制一组基因,对这些基因来说,一个途径是最重要的)。)
  • 没有一个基因是孤立地工作的这源于前述的局限性,即把基因作为一个独立的实体,就失去了多基因对表型贡献的核心。 基因表达分析的一个目标可能是阐明表达模式一致的基因群落。这种交响乐突出了功能相近的基因或致力于共同生物状态的基因。
  • 相互独立的途径ORA还假定,各种途径不会串联(或连续)工作。这主要是有缺陷的,因为一系列的化学反应很可能是先有或后有的。

功能等级评分

与ORA相反,FCS方法包含了所有的背景基因以及它们的关联统计(折合变化,P值)并计算出一个 运行 基因分组的富集分数(基于一些功能知识,如基因本体论或KEGG途径)。 例如,Broad研究所的GSEA (http://software.broadinstitute.org/gsea/index.jsp).一个典型的FCS运行会分析实验中差异表达基因列表中整体基因的表达变化(不是按统计学意义或其他方式进行排名)。基因组富集分析的主要结果是一个富集分数(ES),它反映了一个基因组在基因排名列表的顶部或底部的过度代表程度;为什么是顶部和底部?因为就表达变化而言,那里是离正常值最远的基因。一个基因组(或一个目标通路)的ES分数为正。 ǞǞǞ)将显示出列表中的基因(GL)落在最上面(最上调;1,2,3 ...),而负的ES分数意味着组件基因落在最下面(最下调;n-3, n-2, n-1, n,其中n是基因总数)。P.S. ES在修正多重测试问题(错误发现率,例如:"错误发现率")后变成了正常化ES(NES)。 邦费罗尼法).

综上所述,FCS方法在以下方面明显优于ORA方法。

  • 避开了将基因划分为重要或不重要的任意阈值的要求。
  • 欣赏基因表达的信息,以跟踪路径中的系统性变化;这使得对基因的相互依赖性负责。

尽管FCS方法也有某些缺点。

  • 由于路径是独立分析的,调节几个路径的基因可能没有被计算在内。
  • 许多FCS方法根据基因表达的变化对列表中的基因进行排名。排名的差异反映了表达的不平等(可能是指数级的)差异,这种情况也许是一种不公平的衡量标准。

对与基因列表有关的ES分数进行归一化。

基于路径拓扑学的方法

ORA和FCS方法的一个重要缺陷是,它们忽略了路径的结构。路径中被调控的基因的顺序对于追踪因果效应至关重要。可以理解的是,可能正好有两条具有相同基因成分的途径,但激活的层次可能完全不同。如果是ORA/FCS方法,它们会产生类似的富集项。这就是一个问题。Pathway Topology(PT)方法假定功能的排他性取决于具体的相互作用,这也符合一般逻辑。工具的例子有SPIA (https://www.bioconductor.org/packages/release/bioc/manuals/SPIA/man/SPIA.pdf)、GGEA和PARADIGM。一般来说,这一类的工具应该有一个局部和一个全局的分数。基因水平的局部得分应校准基因和上游基因表达的折叠变化,而全局得分应衡量与基因组相关的路径水平的措施。尽管如此,这也使得PT方法对某一特殊条件/细胞类型的数据过度拟合。

基于网络相互作用的分析

这是一个相当低调的类别,尽管它的表述已经过时,但仍然很少有人实施。像EnrichNet、NetPEA (http://www.dx.doi.org/10.1109/BIBM.2013.6732493)在近十年前就被提出来了,但由于可用的工具有限,它们没有获得很大的吸引力。这种门面制约了主题的灵巧性,因为没有改进的记录。这变成了一个开放式的研究问题。

显然 磐石

你现在可能对基本的富集/路径分析以及帮助它的那种工具有了叙述。然而,正如我之前提到的,所有可用的工具(属于标记的类别)都依赖于一个倾斜的参数,即跨越被查询区域的线性窗口。如果基因组的中间片段落入这个框架,它们就被列为 丰富的,否则就不是。真正的交易是要有一个工具,也许,输入一个 中心 一个假设的圆,因为它是为了突出该区域基于基因组相互作用的三维组织。


GREAT提供了几个高级选项来指定基因的转录起始点周围的线性尺寸。

Enrichr提出了直接选择基因组类型和推定的线性区域的基因数量。

从图4中可以推断出,对基因组的 "真正 "空间组织没有认识。这是一个问题,也是目前富集分析领域中持续存在的一个深刻的断层。尽管如此,也有一个明显的相关性,那就是 转录工厂在核空间中,转录工厂被确定为引诱遥远的调控元素来 "内部聚会 "的地点。我经常开玩笑地说,就像一个对某人或某事感到愤怒的人通常会说,转录工厂(人格化)可以想象会对基因组进行训斥--"抄写将在我的尸体上进行,没有其他办法!"。".转录工厂的相邻主题是一些相邻的、未来讨论的主题。然而,它具体化了顺式调控相互作用的教条,这在当代实践中是错误的。

最后,我想说的是,路径分析是一个重要的,但经常被忽视的部分。 生物信息学 管线。随着基因组数据的发展,现有的方法学总是有扩展的余地,而基因组数据在我们说话的同时也在发展。当我们可以获得大量的数据时,这不仅是一个基础设施问题,也是一个算法问题。

需要 聘请生物信息学顾问?在Kolabtree上与自由职业的科学家合作。发布您的项目并获得专家的报价是免费的。

相关专家。 

生物信息学自由职业者 | 植物遗传学 | 发育生物学 | 基因治疗 | 干细胞 |
DNA测序数据分析 |动物遗传学 | 药物相互作用 | 遗传学和基因组学 

 


Kolabtree帮助全球企业按需雇佣专家。我们的自由职业者已经帮助企业发表研究论文,开发产品,分析数据,以及更多。只需一分钟就可以告诉我们你需要做什么,并免费获得专家的报价。


分享。

关于作者

Shaurya Jauhari是一位具有计算机科学背景的计算生物学家,对相关的分子生物学有相当的了解。他目前是中国广州医科大学的博士后研究人员。

发表回复

值得信赖的自由职业者专家,随时为您的项目提供帮助


世界上最大的科学家自由职业平台  

不,谢谢,我现在不打算雇用。