《电子技术应用》
您所在的位置:首页 > 通信与网络 > 设计应用 > 基于网络资本评估的蛋白质节点重要性排序
基于网络资本评估的蛋白质节点重要性排序
2016年微型机与应用第08期
许睿,李琳芳
(河南科技学院 信息工程学院,河南 新乡 453003)
摘要: 蛋白质是生物体生命活动中最为核心的物质基础。如何用定量分析的方法识别蛋白质网络中那些是关键蛋白质,或者评价某些蛋白质的重要程度,这是蛋白质组学中亟待解决的重要问题之一。从蛋白质网络拓扑特征出发,结合交通网络中可达性的概念,具体量化每一个蛋白质节点的作用,通过统计整个蛋白质网络的网络资本值的变化量,来衡量蛋白质节点的重要性,为进一步识别关键蛋白质提供了理论和实验的依据。
Abstract:
Key words :

  许睿,李琳芳

  (河南科技学院 信息工程学院,河南 新乡 453003)

  摘要:蛋白质是生物体生命活动中最为核心的物质基础。如何用定量分析的方法识别蛋白质网络中那些是关键蛋白质,或者评价某些蛋白质的重要程度,这是蛋白质组学中亟待解决的重要问题之一。从蛋白质网络拓扑特征出发,结合交通网络中可达性的概念,具体量化每一个蛋白质节点的作用,通过统计整个蛋白质网络的网络资本值的变化量,来衡量蛋白质节点的重要性,为进一步识别关键蛋白质提供了理论和实验的依据。

  关键词:可达性;网络资本评估;关键蛋白质;节点重要性

0引言

  在生物界,蛋白质是各种生物体生命活动中最核心的物质基础,承担着一系列生理功能的传递、执行等功能。在细胞的一系列生命过程中,有一部分蛋白质在其中参与了多个生命过程,而其他蛋白质只参加很少的生命过程,通过衡量这些蛋白质对于生命活动的影响程度,将前者称为关键蛋白质,将后者称为非关键蛋白质。

  如何识别关键蛋白质?首先需要对蛋白质网络中的蛋白质节点的重要性进行排序。研究表明,在蛋白质网络中,蛋白质所在的位置表现出来的拓扑特性与该蛋白质在生命活动中具有的功能有很大的联系[1]。因此本文通过分析单个蛋白质节点失效前后整个蛋白质网络资本下降的程度,来评估该蛋白质节点在蛋白质网络中的作用大小,进而实现蛋白质网络中的蛋白质节点的重要性排序。

1相关定义说明

  1.1蛋白质节点可达性

  在蛋白质网络中,蛋白质节点的可达性是指某个蛋白质节点与其他蛋白质节点之间的相互作用关系之和,它表示该蛋白质节点与其他蛋白质节点相互连接的密切程度,同时反映出该蛋白质节点在蛋白质网络中的影响力。

  将蛋白质网络中的每个蛋白质抽象为一个节点,蛋白质与蛋白质之间的作用关系被抽象为一条边,蛋白质与蛋白质之间的相互作用构成了一个无向网络。用一个无向图G表示蛋白质网络,则在图G中,有n个蛋白质节点构成顶点集合V,其中存在任意两个蛋白质节点i、j∈V,G对应的邻接矩阵为矩阵C,用C(i, j)表示蛋白质节点i、j之间是否存在直接相互作用,即表示在无向图G中这两个蛋白质节点是否存在直接连接。

  1.jpg

  在图G中,dij为蛋白质节点i到蛋白质节点j的最短路径长度。蛋白质节点j之外的其他蛋白质节点到蛋白质节点j的最短距离反映了这些点到蛋白质节点j的难易程度,间接地反映了其他蛋白质节点对于蛋白质节点j的影响能力或相互作用能力。蛋白质节点j的可达性(Accessibility, Ac)定义为蛋白质网络中其他蛋白质节点对蛋白质节点j的影响之和。可达性公式为:

  Acj=∑ni=1,i≠j1dij(2)

  可达性描述的是蛋白质网络中蛋白质节点之间相互影响力之和。对某个蛋白质节点而言,该蛋白质节点可达性越大,表明该蛋白质节点在与蛋白质网络中的其他蛋白质节点之间的联系也就越密切,对蛋白质网络中其他蛋白质节点的影响力也就越大。将所有蛋白质节点的可达性用矩阵的形式表示出来,就形成了该蛋白质节点的可达性评价矩阵,记为H(Ac)。

  2.png

  3.png

  在式(3)中,i=1,…,n且i≠n,i表示除去蛋白质节点n之外所有其他蛋白质节点,蛋白质节点n对应的可达性Ac(n)等于i表示的这些蛋白质节点到蛋白质节点n的最短距离的倒数之和。

  1.2网络资本评估

  对蛋白质复合物内部的拓扑结构而言,偏重于分析该蛋白质节点对蛋白质复合物内部的局部影响力,但对整个蛋白质网络而言,则需要分析该蛋白质节点对整个网络功能的全局影响力,因为一个蛋白质节点的失效,影响的不仅是其周边与其直接相连的蛋白质节点,还可能会造成其他蛋白质节点之间的连锁反应,进而影响整个蛋白质网络的功能。为此,本文在节点可达性的基础上定义了蛋白质网络资本NC (Network Cost),用以描述整个蛋白质网络内蛋白质节点相互作用的强弱[2]。网络资本NC公式如下:

  4.png

  蛋白质网络中的网络资本是指整个网络中所有蛋白质节点的可达性之和,表明整个网络内所有蛋白质节点之间的相互影响力。

 1.3关键蛋白质节点集合

  关键蛋白质集合是指使将某个节点失效后,蛋白质网络的网络资本下降到一定程度(阈值Tmin)时节点的集合。f(G)为蛋白质网络资本值下降函数,Gc为G去掉节点集合c后的子网,ΔfNC(Gc)为G变成Gc后网络资本的改变值,使ΔfNC(Gc)→Tmin的网络元素集合L=C。对于不同的蛋白质网络,它们的拓扑结构有很大的差异,因此阈值Tmin必须根据具体的蛋白质网络来进行确定,本文将阈值Tmin设置为0.3。

2基于网络资本评估的节点重要性评价标准的有效性分析

  本章采用基于网络资本评估的标准对经典的ARPA网络进行节点重要性评估以验证算法的有效性。ARPA(Advanced Research Project Agency)网络是研究关键节点识别时常常使用的验证网络,该网络包括21个节点和26条边。ARPA网络平均度值在2~3之间,大部分节点的度值为2。ARPA网络拓扑结构如图1所示。

001.jpg

  图1ARPA网络拓扑结构图ARPA网络是验证节点重要性评价标准的经典网络。参考文献[3]提出基于生成树数目的节点重要性评价方法,依据节点为网络提供最短可用路由的能力来进行节点重要度评价。参考文献[4]提出了一种利用节点间关联特性的评价方法,通过定义Node Importance Contribution Matrix来评价网络中不同节点间的连接关系对节点重要性的影响。首先依据参考文献[3]、[4]中的评价标准分别对于ARPA网络进行节点重要性评价,得到它们对于ARPA网络中各个节点的权值。然后,在相同的实验条件下,采用本文中基于网络资本评估的节点重要性评价标准,得到该网络中各个节点的权值。综合以上3种方法得到的结果如表1所示。

002.jpg

  在表1中,参考文献[3]得到网络中最重要的6个关键节点,其重要度按从大到小排序为:节点3、14、6、12、2、19,但对于节点7、8、9、10、11,其重要度均为0.879 7,无法区分排序。参考文献[4]得到的节点重要度按从大到小排序为3、12、19、6、4、5、11、14、13、18、10、7等。本算法得到的12个重要节点,其重要度按从大到小排序为:节点3、12、6、14、2、9、19、4、11、7、15、21。本算法得到的重要节点与参考文献[3]有9个节点重合,与参考文献[4]有8个节点重合;如果将参考文献[3]和参考文献[4]的结果合并,则本文得到的前10个重要节点都是重合的,而且3种算法得到的最关键的节点都是节点3。这说明本文采用的方法在网络的节点重要度评估方面有很好的效果。本文算法给出了12个节点的重要度,占ARPA网络节点总数的57%。

3结论

  本文提出一种衡量蛋白质网络中蛋白质节点重要性的标准,用可达性具体度量每一个节点在网络中的作用,通过分析节点失效后对整个网络资本的影响能力,衡量该节点的重要性。通过简单的实验分析,本文提出的标准可以准确地识别出网络中最重要的节点,同时可以有效地分析出网络中其他重要性比较靠前的节点。对大型蛋白质网络来说,关键蛋白质的个数一般不超过蛋白质网络中蛋白质节点总数的20%,其中重要度位居前列的TOP 1%和TOP 5%的蛋白质是网络中最重要的蛋白质节点,对蛋白质网络整体功能影响最大。因此,本文的标准可以为进一步研究关键蛋白质的识别方法提供理论和实验的依据。

参考文献

  [1] DA SILVA J P M, ACENCIO M L, MOMBACH J C M, et al. In silico network topologybased prediction of gene essentiality[J]. Physica A: Statistical Mechanics and its Applications, 2008, 387(4):10491055.

  [2] 黄金才,成清,刘彦君,等. 一种基于网络资本评价的关键核挖掘方法[J].山东大学学报(工学版),2012,42(1):15.

  [3] 陈勇,胡爱群,胡俊,等. 通信网中最重要节点的确定方法[J].高技术通讯,2004,14(1):2124.

  [4] 赵毅寰,王祖林,郑晶,等. 利用重要性贡献矩阵确定通信网中最重要节点[J].北京航空航天大学学报,2009,35(9):10761079.


此内容为AET网站原创,未经授权禁止转载。