跳过主要内容

加权相关网络分析的R包

抽象的

背景

相关网络在生物信息学应用中得到越来越多的应用。例如,加权基因共表达网络分析是一种系统生物学方法,用于描述基因在微阵列样本之间的相关模式。加权相关网络分析(WGCNA)可用于寻找高度相关基因的聚类(模块),使用模块特征基因或模块内hub基因对这些聚类进行总结,使模块彼此之间以及与外部样本特征相关联(使用特征基因网络方法)。并用于计算模块的隶属度。相关网络促进了基于网络的基因筛选方法,可用于识别候选生物标志物或治疗靶点。这些方法已成功应用于各种生物学背景,如癌症、小鼠遗传学、酵母遗传学和脑成像数据分析。虽然相关网络方法的部分已在单独的出版物中进行了描述,但有必要提供一个用户友好的、全面的、一致的软件实现和附带的教程。

结果

WGCNA R软件包是用于执行加权相关网络分析的各个方面的R功能的全面集合。该包装包括用于网络结构的功能,模块检测,基因选择,拓扑特性计算,数据仿真,可视化和与外部软件的接口。与R包一起,我们还提供了R软件教程。虽然方法开发是由基因表达数据的激励,但是底层数据挖掘方法可以应用于各种不同的设置。

结论

WGCNA软件包为加权相关网络分析提供了R函数,如基因表达数据的共表达网络分析。R包及其源代码和其他资料可在以下网站免费获得http://www.genetics.ucla.edu/labs/horvath/CoexpressionNetwork/Rpackages/WGCNA

背景

在生物学中,关联网络越来越多地被用于分析大型、高维数据集。相关网络是建立在定量测量之间的相关性的基础上的,这些相关性可以被描述N×m矩阵X= [XIL.,其中行索引对应于网络节点(一世= 1,…,N)和列索引(L.= 1,…,m)对应于样本测量值:

X = [ X 一世 j ] = X 1 X 2 X N MathType@MTEF@5@5@ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI +魔术师率领= rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemiwaGLaeyypa0Jaei4waSLaemiEaG3aaSbaaSqaaiabdMgaPjabdQgaQbqabaGccqGGDbqxcqGH9aqpdaqadaqaauaabeqaeeaaaaqaaiabdIha4naaBaaaleaacqaIXaqmaeqaaaGcbaGaemiEaG3aaSbaaSqaaiabikdaYaqabaaakeaacqWIVlctaeaacqWG4baEdaWgaaWcbaGaemOBa4gabeaaaaaakiaawIcacaGLPaaaaaa@422B@
(1)

我们指的是一世-扔X一世作为一世-节点配置文件穿过m样品测量。

有时是定量措施(称为样本特征)为列提供X.例如,T.= (T.1,…,T.m)可以测量生存时间,也可以是一个二元指标变量(疾病状态)。抽象地说,我们定义了一个样本特征T.作为向量m对应于数据矩阵列的组件X.样品特征可用于定义节点意义测量。例如,一个基于特征的节点意义测量可以定义为相关关系的绝对值一世-th节点配置文件X一世和样品特质

T.GS一世= |corX一世T.) |。(2)

或者,相关测试p值[118金宝搏 或以回归为基础的p值来评估之间的统计显著性X一世和样品特质T.可用于定义基于p值的节点意义测量,例如通过定义

GS一世= -log.P.一世。(3)

相关网络方法背后的基本原理是使用网络语言来描述行之间的成对关系(相关性)X(公式1)尽管存在其他统计技术来分析相关矩阵,网络语言对生物学家来说是特别直观的,并允许简单的社会网络类比。相关网络可用于解决包括以下在内的许多分析目标。首先,关联网络可以用来寻找相互连接节点的集群(模块)。因此,网络模块是一组行X(等式1)根据适当定义的互连度量紧密连接。

第二分析目标是通过代表来总结给定模块的节点配置文件,例如,高度连接的集线器节点,其位于模块中。将模块或其代表的分析集中在基于网络的数据减少方法。将模块与节点相关联而气可以缓解多个测试问题。

第三个分析目标是确定“重要的”模块。为此,可以使用节点显著性度量来识别具有高平均节点显著性的模块(称为模块显著性)。

第四个分析目标是根据所有网络节点与已识别模块的距离来注释它们。这可以通过定义模块成员关系的模糊度量来实现,该度量将二进制模块成员关系指标概括为定量度量。模块隶属度的模糊度量可以用来识别位于两个或多个模块之间和接近它们的节点。

第五个分析目标是定义给定节点种子集的网络邻域。直观地说,一个邻居由节点组成,这些节点与给定的节点集高度相连。因此,邻域分析有助于通过关联筛选策略找到与给定的感兴趣节点集交互的节点。

第6个分析目标是根据节点筛选标准筛选节点,筛选标准可以基于节点显著性度量、模块成员信息、网络拓扑属性(如高连通性)等。

第7个分析目标是对比一个网络与另一个网络。这种差分网络分析可以用来识别不同条件下连接模式或模块结构的变化。第8个分析目标是找到两个或多个网络之间共享的模块(共识模块分析)。由于共识模块的定义是多个网络中的构建模块,因此它们可能代表了网络的基本结构属性。

上述分析目标的不完整枚举表明,相关网络可以用作数据探索技术(类似于集群分析,因子分析或其他维度减少技术)和作为筛选方法。例如,相关网络可用于筛选与样本特征有关的模块和血管显示集线器。相关网络允许一个生成应在独立数据或设计验证实验中验证的可测试假设。

基因共表达网络

在下文中,我们侧重于基因的共表达网络,这表示相关性网络方法的主要应用。共表达网络已发现有用的用于描述基因转录之间的两两关系[118金宝搏 -118金宝搏 ].在共同表达网络中,我们将节点称为“基因”,到节点配置文件X一世作为基因表达分布,并向节点意义测量GS一世作为基因意义措施。可以在表格中找到重要的网络相关术语词汇表118金宝搏 .在这里,我们介绍了一个R软件包,总结并扩展了我们之前的加权基因共表达网络分析(WGCNA)的工作[118金宝搏 118金宝搏 -118金宝搏 ].WGCNA已被用于分析来自脑癌的基因表达数据[118金宝搏 ],酵母细胞周期[118金宝搏 ],小鼠遗传学[118金宝搏 -118金宝搏 ,灵长类动物的脑组织[118金宝搏 -118金宝搏 )、糖尿病(118金宝搏 ,慢性疲劳症患者[118金宝搏 植物[118金宝搏 ].虽然这些出版物具有各种形式可用的软件代码,但需要一个全面的R包,总结和标准化方法和功能。为了解决这种需求,我们介绍了WGCNA R包,该包装还包括增强和新颖的共表达网络分析功能。

表1 WGCNA术语表。

结果

数字118金宝搏 概述典型分析步骤以及它们背后的理由。为了确定共表达模块是否在生物学上有意义,可以使用功能性富集和基因本体信息。

图1
图1

WGCNA方法论概述.这张流程图简要介绍了加权基因共表达网络分析的主要步骤。

WGCNA软件包中包含的功能概述

WGCNA包包含一套全面的功能,用于执行大型高维数据集的相关网络分析。WGCNA包中的功能可分为以下类别:1。网络建设;2.模块检测;3.模块和基因选择;4.拓扑特性的计算;5.数据仿真;6.可视化;7.与外部软件包接口。在我们的网站上发布的R封装手册中提供了一个详细描述的已实现功能的详尽符号列表。在这里,我们简要概述了包装的主要功能,并突出了新的贡献。

第一类:网络建设功能

网络完全指定了网络邻接矩阵A.IJ.,一个对称的N×N在[0,1]中具有分量的矩阵一种IJ.编码节点之间的网络连接强度一世j.为了计算邻接矩阵,有一个中间量叫做共同表达相似之处sIJ.首先是定义。默认方法定义了共表达式相似性S.IJ.为节点剖面间相关系数的绝对值一世jS.IJ.= |corX一世Xj) |。

WGCNA软件包还实现了替代的共表达测度,例如更稳健的相关性测度(双权重中相关性[118金宝搏 或斯皮尔曼相关)。可以定义带符号的共表达式度量来跟踪共表达式信息的符号。为方便起见,我们定义了共表达相似度度量,使其在[0,1]中取值。

利用阈值化方法,将共表达式相似度转化为邻接关系。一种未加权的网络邻接一种IJ.基因表达谱之间X一世Xj是否可以用硬性阈值来定义共表达相似度S.IJ.作为

一种 一世 j = { 1 如果 S. 一世 j τ ; 0. 否则 MathType@MTEF@5@5@ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI +魔术师率领= rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemyyae2aaSbaaSqaaiabdMgaPjabdQgaQbqabaGccqGH9aqpdaGabaqaauaabaqaciaaaeaacqaIXaqmaeaacqqGPbqAcqqGMbGzcqqGGaaicqWGZbWCdaWgaaWcbaGaemyAaKMaemOAaOgabeaakiabgwMiZkabes8a0jabcUda7aqaaiabicdaWaqaaiabb + gaVjabbsha0jabbIgaOjabbwgaLjabbkhaYjabbEha3jabbMgaPjabbohaZjabbwgaLjabcYcaSaaaaiaawUhaaaaa@4E15@
(4)

在哪里τ是“硬”阈值参数。因此,两个基因被连接(一种IJ.= 1),如果它们的表达式配置文件之间的绝对相关性超过(硬)阈值τ.硬阈值过程在函数signumAdjacencyFunction中实现。虽然未加权网络被广泛使用,但它不能反映底层共表达信息的连续性,因此可能导致信息丢失。相反,加权网络允许邻接值在0和1之间连续。加权网络邻接性可以通过将共表达相似度提高到某次幂来定义[118金宝搏 118金宝搏 ]:

一种 一世 j = S. 一世 j β MathType@MTEF@5@5@ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI +魔术师率领= rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemyyae2aaSbaaSqaaiabdMgaPjabdQgaQbqabaGccqGH9aqpcqWGZbWCdaqhaaWcbaGaemyAaKMaemOAaOgabaGaeqOSdigaaOGaeiilaWcaaa@3841@
(5)

β≥1。邻接函数从表达式数据中计算邻接矩阵。方程中的邻接关系118金宝搏 意味着加权邻接一种IJ.两个基因之间的差异与它们在对数尺度上的相似性成正比,日志一种IJ.) =β×日志S.IJ.).用于加权和未加权网络的邻接功能要求用户选择阈值参数,例如通过应用近似虚拓扑标准[118金宝搏 ].该包提供函数挑选,逼近的挑选,有助于选择参数,以及用于评估网络是否呈现规模无拓扑的功能ScaleFreeplot。数字118金宝搏 在模拟表达式数据中显示标识无标度拓扑的图。

图2
figure2

网络可视化情节.A.全网络连通性分布的对数-对数图。的X-轴表示整个网络连通性的对数,y-轴为相应频率分布的对数。在这幅图上,分布近似遵循一条直线,这被称为近似无标度拓扑。B.经典多维标度结果。在这个图中,模块倾向于形成独立的“手指”。分子内枢纽基因位于指尖。C.网络热图图。层次集群树状图中的分支对应于模块。用颜色编码的模块成员资格显示在树状图下方和右侧的颜色条中。在热图中,高共表达互联性由逐渐饱和的黄色和红色表示。模块对应于高度相互关联的基因块。 Genes with high intramodular connectivity are located at the tip of the module branches since they display the highest interconnectedness with the rest of the genes in the module.

类别2:模块检测功能

一旦网络构造,模块检测通常是一个逻辑的下一步。模块定义为密集相互连接的基因的簇。[中的几种网络互连措施118金宝搏 ].默认情况下,我们使用拓扑重叠度量[118金宝搏 118金宝搏 -118金宝搏 ]因为它在多个应用程序运作良好。使用无监督聚类,即不使用的先验定义的基因组WGCNA识别基因模块。用户具有的几个模块的检测方法选择。默认方法是使用标准的R函数hclust [分级聚类118金宝搏 ];层次聚类树状图的分支与模块相对应,可以使用一种可用的分支切割方法来识别,例如常量高度切割或两种动态分支切割方法[118金宝搏 ].

在图118金宝搏 我们将基因网络的网络热示例图(互连曲线图)与相应的分层聚类树形图和所得模块一起。数字118金宝搏 通过多维缩放图提供模块结构的替代可视化(标准R函数cmdscale)。

分层集群的一个缺点是很难确定数据集中有多少(如果有的话)集群。虽然动态树木切割方法的高度和形状参数为分支切割和模块检测提供了改进的灵活性,但如何选择最优切割参数或如何估计数据集中的聚类数量仍然是一个有待研究的问题[118金宝搏 ].虽然我们的默认参数值在多个应用程序中工作得很好,但在实践中,我们建议执行集群稳定性/鲁棒性分析。共表达模块可以反映真正的生物信号(例如途径),或者它可能反映噪声(例如,技术伪影,组织污染或假阳性)。为了测试所识别的模块是否在生物学上有意义,可以使用基因本体信息(功能性富集分析)。朝此目的,我们提供了一个R教程,描述了如何使用相关的外部软件包和数据库接口WGCNA包。

总结模块的配置文件

已经实现了几个选项来总结给定模块的基因表达谱。例如,函数模块eigengenes表示的模块表达式问:由模的特征基因E.问:,定义为表达式矩阵的第一个主分量。的eigengeneE.可以被认为是一个加权平均表达谱。特征基因计算包含在包转嫁给实现缺失值的插补[118金宝搏 118金宝搏 ].或者,用户可以使用模块内连接性度量来定义连接最紧密的模块内枢纽基因作为模块代表。可以证明,模块内hub基因与模块特征基因高度相关[118金宝搏 ].

模块成员资格的模糊衡量

分层群集和大多数其他标准聚类方法,如麦细管(PAM)分区[118金宝搏 ]导致二进制模块分配,即一个节点是在或模块的外部。在一些应用中,可能是有利的,以限定用于所有节点模块的成员的一个连续的,模糊的措施。这种措施是特别有用的,以确定位于一个模块,或者是两个或多个模块之间的中间节点的边界附近的节点。如在详细说明[118金宝搏 ,节点的模块成员一世在模块问:可以定义为

K. C O. R. 一世 问: = cor X 一世 E. 问: MathType@MTEF@5@5@ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI +魔术师率领= rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4saS0aa0baaSqaaiabdogaJjabd + gaVjabdkhaYjabcYcaSiabdMgaPbqaaiabcIcaOiabdghaXjabcMcaPaaakiabcQda6iabg2da9iabbogaJjabb + gaVjabbkhaYjabcIcaOiabdIha4naaBaaaleaacqWGPbqAaeqaaOGaeiilaWIaemyrau0aaWbaaSqabeaacqGGOaakcqWGXbqCcqGGPaqkaaGccqGGPaqkcqGGSaalaaa@47F6@
(6)

在哪里X一世是节点的配置文件吗一世E.问:模的模特征因子是什么问:.模块成员度量 K. C O. R. 一世 问: MathType@MTEF@5@5@ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI +魔术师率领= rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4saS0aa0baaSqaaiabdogaJjabd + gaVjabdkhaYjabcYcaSiabdMgaPbqaaiabcIcaOiabdghaXjabcMcaPaaaaaa@369C@ 位于[- 1,1],并指定节点的距离一世是模块问:问:= 1,…,问:.较大的| K. C O. R. 一世 问: MathType@MTEF@5@5@ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI +魔术师率领= rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4saS0aa0baaSqaaiabdogaJjabd + gaVjabdkhaYjabcYcaSiabdMgaPbqaaiabcIcaOiabdghaXjabcMcaPaaaaaa@369C@ |,更类似的节点一世是对象的eigengene问:th模块。在某些刊物内[118金宝搏 118金宝搏 ], K. C O. R. 一世 问: MathType@MTEF@5@5@ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI +魔术师率领= rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4saS0aa0baaSqaaiabdogaJjabd + gaVjabdkhaYjabcYcaSiabdMgaPbqaaiabcIcaOiabdghaXjabcMcaPaaaaaa@369C@ 被称为签名模块Eigengene(ME)的连接度量K..这就是为什么我们命名为相应的R函数signedkme的原因。

自动逐块模块检测

许多微阵列基因表达测量报告数以万计的不同基因(或探针)的表达水平。由于内存大小和处理器速度的限制,在如此多的节点之间构建和分析一个完整的网络可能具有计算上的挑战性。WGCNA软件包包含了应对这一挑战的几项改进。块模块的功能是用来处理大数据集中的网络构建和模块检测。该函数首先使用k-means聚类(函数projectiveKMeans)的一种变体,将节点预聚为大型集群,称为块。接下来,对每个块应用分层聚类,并将模块定义为生成的树状图的分支。为了跨块合成模块检测结果,执行了一个自动模块合并步骤(函数mergeclosemmodules),合并特征基因高度相关的模块。按块划分的方法节省了大量的时间和内存:标准的单块网络分析N节点需要O.N2)内存和O.N3.)计算,而具有块大小的块明智的方法NB.只需要O. N B. 2 的MathType @ MTEF @ 5 @ 5 + = feaagaart1ev2aaatCvAU​​fKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemOBa42aa0baaSqaaiabdkgaIbqaaiabikdaYaaaaaa @ 2FA6 @ )内存和O.N N B. 2 的MathType @ MTEF @ 5 @ 5 + = feaagaart1ev2aaatCvAU​​fKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemOBa42aa0baaSqaaiabdkgaIbqaaiabikdaYaaaaaa @ 2FA6 @ )计算,在标准计算机上的7 000块中进行分析。

共识模块检测

当处理代表不同网络的多个邻接矩阵时,发现它是很有趣的共识的模块,定义为全部或大多数网络中存在的模块[118金宝搏 ].直观地,只有当所有输入网络都同意该连接时,两个节点应仅在共识网络中连接。这自然建议在两个节点之间定义共识网络相似性,作为输入网络相似度的最小值。在某些情况下,由于所得到的措施可能更加稳健,因此可以用合适的量级(例如第一四分位数)更换最小的情况。可以逐步执行共识模块检测,以实现最大控制和潜在能力,或者在一个步骤中使用函数blockwiseConsensusmodule来计算横跨给定数据集的共识模块以类似于单个的块 - 方向模块检测数据集。

第3类:模块和基因选择的功能

在生物学上或临床上显着的模块和基因是许多共表达分析的主要目标。生物或临床意义的定义取决于正在考虑的研究问题。抽象地说,我们定义了作为函数的基因意义措施GS这给每个基因分配了一个非负数;越高GS一世毕传了生物重要是基因一世.在功能富集分析中,基因显著性测量可以指示通路成员。在基因敲除实验中,基因意义可以指示敲除的必要性。微阵列样本特征T.可以用来定义一个基于性状的基因显著性度量为性状与表达谱之间的绝对相关,公式118金宝搏 .模块意义的衡量标准可以定义为模块基因的平均基因意义(图118金宝搏 ).当处理一个样本特征时T.,用于测量模块特征基因之间的统计显著性E.和特征T.可以定义,例如,使用相关性(公式2)或p值(公式3)从单变量回归模型中得到的E.T..具有高特征意义的模块可以代表与样品特征相关的途径。与特征相关的模块中具有高模块成员资格的基因(图118金宝搏 )是自然需要进一步验证的候选者[118金宝搏 118金宝搏 118金宝搏 118金宝搏 ].

图3
图3

模块和特征基因网络图.A.跨模块平均基因显著性的Barplot。在这个例子中,我们使用了一个基于性状的基因显著性方程118金宝搏 .一个模块的平均基因显著性越高,该模块与感兴趣的临床特征的相关性越显著。B.基因意义散点图(y-axis)与模块成员资格(X- 在最重要的模块(绿色模块,见图A)中。在与兴趣特征相关的模块中,具有高模块成员的基因通常也具有高基因意义。C.模块eigengenes的分层聚类树木图(由其颜色标记)和微阵列样品特征y.D.特征基因网络中包含性状的邻接关系的热图y.热图中的每一行和每一列对应一个模块特征基因(以颜色标注)或特征(以y).在热图中,绿色代表低邻接(负相关),红色代表高邻接(正相关)。

第4类:研究拓扑特性的功能

网络的许多拓扑性质可以用网络概念简捷地描述,也称为网络统计或指数[118金宝搏 118金宝搏 ].网络概念包括整个网络连接(度),岩石连接,拓扑重叠,聚类系数,密度等网络概念等网络概念的差异分析可能揭示基因表达中的调节变化[118金宝搏 118金宝搏 ].WGCNA包实现了多种功能,例如SoftConnectivity,IntramodularConentiventy,Tomsimilarity,ClusterCoeF,NetworkConcepts,用于计算这些网络概念。基本R功能可用于创建这些概念的摘要统计信息,并用于测试其跨网络的差异。

用于测量集群结构的网络概念

基因聚类树和TOM图显示了相互连接模式,通常表明存在大型模块。网络理论提供了大量直观的网络概念,用于描述聚类树和热图中描述的基因之间的成对关系[118金宝搏 ].为了说明这一点,我们将在下面描述两个网络概念。通过图形的目视检查118金宝搏 118金宝搏 ,基因似乎是高度相互连接,例如绿松石模块基因形成的TOM情节一个红色方形。该模块的基因中密集的连接属性问:可以使用模块密度的概念来测量,该概念被定义为模块基因的平均邻接:

图4
装具

雌性小鼠肝脏表达数据的实施例WGCNA分析.A.平均连锁等级聚类得到的基因树状图。树状图下面的颜色行显示了动态树切割决定的模块分配。B.基因网络拓扑重叠的热图。在热图中,每一行和每一列对应一个基因,浅色表示拓扑重叠度低,红色逐渐加深表示拓扑重叠度高。沿对角线较暗的方块对应模块。左侧和顶部显示了基因树状图和模块分配。C.模块特征基因的层次聚类,总结聚类分析中发现的模块。树状图的分支(元模块)将正相关的特征基因分组在一起。D.特征基因网络中包含性状权重的邻接关系的热图。 Each row and column in the heatmap corresponds to one module eigengene (labeled by color) or weight. In the heatmap, green color represents low adjacency (negative correlation), while red represents high adjacency (positive correlation). Squares of red color along the diagonal are the meta-modules. E. A scatterplot of gene significance for weight (GS, Equation118金宝搏 )与模块成员身份(mm,方程式118金宝搏 )。GS和MM呈极显著相关,说明棕色模块的hub基因也倾向于与体重高度相关。F.在棕色模块中30个连接最紧密的基因的网络。在这个网络中,我们只显示一个连接的相应拓扑重叠大于0.08的阈值。

D. E. N S. 一世 T. y 一种 问: = 一世 j 一世 一种 一世 j 问: N 问: N 问: 1 MathType@MTEF@5@5@ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI +魔术师率领= rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemiraqKaemyzauMaemOBa4Maem4CamNaemyAaKMaemiDaqNaemyEaKNaeiikaGIaemyqae0aaWbaaSqabeaacqGGOaakcqWGXbqCcqGGPaqkaaGccqGGPaqkcqGH9aqpjuaGdaWcaaqaamaaqababaWaaabeaeaacqWGHbqydaqhaaqaaiabdMgaPjabdQgaQbqaaiabcIcaOiabdghaXjabcMcaPaaaaeaacqWGQbGAcqGHGjsUcqWGPbqAaeqacqGHris5aaqaaiabdMgaPbqabiabggHiLdaabaGaemOBa42aaWbaaeqabaGaeiikaGIaemyCaeNaeiykaKcaaiabcIcaOiabd6gaUnaaCaaabeqaaiabcIcaOiabdghaXjabcMcaPaaacqGHsislcqaIXaqmcqGGPaqkaaaaaa@5AE0@
(7)

在哪里一种问:表示N问:×N问:模块的基因所形成的子网络所对应的邻接矩阵问:.另一个有用的概念是聚类系数基因一世,这是一个“浮灵”的衡量标准[118金宝搏 ].具体来说,

C L. S. T. E. R. C O. E. F 一世 = L. 一世 m 一世 L. 一种 一世 L. 一种 L. m 一种 m 一世 { L. 一世 一种 一世 L. 2 L. 一世 一种 一世 L. 2 } MathType@MTEF@5@5@ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI +魔术师率领= rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4qamKaemiBaWMaemyDauNaem4CamNaemiDaqNaemyzauMaemOCaiNaem4qamKaem4Ba8MaemyzauMaemOzay2aaSbaaSqaaiabdMgaPbqabaGccqGH9aqpjuaGdaWcaaqaamaaqababaWaaabeaeaacqWGHbqydaWgaaqaaiabdMgaPjabdYgaSbqabaGaemyyae2aaSbaaeaacqWGSbaBcqWGTbqBaeqaaiabdggaHnaaBaaabaGaemyBa0MaemyAaKgabeaaaeaacqWGTbqBcqGHGjsUcqWGPbqAcqGGSaalcqWGSbaBaeqacqGHris5aaqaaiabdYgaSjabgcMi5kabdMgaPbqabiabggHiLdaabaWaaiWaaeaadaqadaqaamaaqababaGaemyyae2aaSbaaeaacqWGPbqAcqWGSbaBaeqaaaqaaiabdYgaSjabgcMi5 kabdmgapbqabiabgghildaacagloagaayzkaawaawbaaeqabagaegomaidaaiabgkhitmaaqababagaeiikagiaemyyae2aasbaaeaacqwgpbqacqwgsbabaeqaaiabcmcapmaacaaabeqaaiabikdayaaaaeaacqwgsbabcqghgjsucqwgpbqaaeqacqghris5aagaay5eaiaaw2haaaaacqgguaglaaa@77ab@
(8)

在未加权网络中,clustercoef.一世当且仅当所有邻居的基因等于1一世也是相互联系的。对于加权网络,0≤一种IJ.≤1表示0≤clustercoef.一世≤1 [118金宝搏 ].平均聚类系数已被用于测量网络中存在的模块结构的程度[118金宝搏 118金宝搏 ].

类别5:用模块化结构模拟微阵列数据的功能

简单但足够真实的模拟数据通常是重要的评价新的数据挖掘方法。WGCNA包包括仿真函数simulateDatExpr, simulateMultiExpr, simulateDatExpr5Modules,这些模块产生具有可定制模块化(集群)结构的表达式数据集。用户可以通过指定一组种子特征基因来选择模块结构,每个模块一个特征基因,每个模块都围绕该特征基因构建。模块基因被模拟,显示出与种子的相关性逐渐降低,从而导致基因的模块内连通性逐渐降低。用户可以指定模块的大小和背景基因的数量,即模块外的基因。可以模拟种子特征基因,以反映模块之间的依赖关系(函数模拟特征基因网络)。

类别6:可视化功能

模块结构和表达式数据中的网络连接可以以几种不同的方式可视化。例如,可以通过使用功能划线仪来产生的基因基因连接的热图曲线图来可视化共表达模块结构。例子在图中提出118金宝搏 118金宝搏 .另一种方法是多维定标曲线图;一个示例在图呈现118金宝搏 .模块之间的关系可以通过特征基因的层次聚类树状图或对应的特征基因网络的热图(功能标签为heatmap)来总结,如图所示118金宝搏 ,118金宝搏 .该包包括若干附加功能,旨在帮助用户可视化输入数据和结果。这些功能依赖于R和包中提供的基本绘图功能[118金宝搏 ]和域[118金宝搏 ].

第7类:用于与其他软件包连接的功能

为了加强WGCNA结果与其他网络可视化软件包和基因本体分析软件的集成,我们创建了几个R函数和相应的教程。例如,我们的R函数exportNetworkToVisANT和exportNetworkToCytoscape允许用户以适合VisANT的格式导出网络[118金宝搏 ]及Cytoscape [118金宝搏 ], 分别。

我们的在线R教程还展示了如何用直接在r上直接提供的基因本体封装WGCNA结果,例如:Gosim [118金宝搏 ].许多基于基因本体论的功能富集分析软件程序,如David [118金宝搏 ,朋友118金宝搏 ], Webgestalt [118金宝搏 只需将基因标识符列表作为输入。ingenious路径分析允许用户输入基因表达数据或基因标识符。

鼠标数据应用

作为WGCNA分析类型的一个例子,我们描述了一个来自雌性小鼠肝脏表达数据的网络分析。这项分析的数据和生物学结果已于[118金宝搏 ].简言之,在雌性小鼠肝脏mRNA水平通过微阵列测量的超过23,000个探针组。除了表达数据,测量多个生理和代谢性状。为了计算的原因,原来的分析中提出[118金宝搏 限制在3600个最相关的基因,为简单起见,我们将使用相同的基因组(尽管我们注意到所提出的包装也能够处理所有基因)。虽然我们使用相同的数据,但模块检测方法略有不同,结果相似但不相同。用于执行此分析的代码是在我们的网页上发布的教程的一部分。

网络和识别的18个模块如图所示118金宝搏 .为了了解这些模块的生理意义,我们将18个模块特征基因与体重、胆固醇水平、胰岛素水平等生理特征进行了关联。完整的模块-特征相关表在附带的教程中提供。

在下文中,我们只将鼠标体重视为样品特征。以下三个模块的模块eIgengenes与体重高度相关:棕色(409个基因,重量相关R.= 0.59,相关p值P.= 5 × 10-14),红色(221个基因,R.= 0.51,P.= 3×10-10)和鲑鱼(91个基因,R.= 0.43,P.= 2 × 10-7).

我们使用了在线软件David [118金宝搏 [确定是否在已知的基因本体中判断三种体重相关模块是否显着富集。棕色模块在“糖蛋白”分类中有显着富集(P.= 2 × 10-24本杰明更正)和“信号”(P.= 1 × 10-22).红色模块在“细胞周期”中富集(P.= 9 × 10-24)及“染色体”(P.= 5 × 10-20).鲑鱼组件在“脂质合成”类别中含量最高(P.= 1 × 10-16).总体而言,高浓缩分数表明这些模块确实是生物学上有意义的。

为了研究模块之间的关系,我们将它们的特征因子关联起来。一般情况下,模块之间的关系可以通过特征基因之间的关联网络(即特征基因对应的节点)来研究。在这些模块之间的元网络中,模块之间的邻接关系反映了模块特征基因之间的相关性,特征基因中的模块称为元模块[118金宝搏 ].一个样本性状,如体重,可以作为特征基因网络的一个附加节点。样本特征和特征基因之间的邻接性有时被称为特征基因显著性[118金宝搏 ].数字118金宝搏 使用树木图(分层集群树)和热线图绘图描绘EIGENGENE网络。我们发现Eigengenes可能表现出高度显着的相关性,例如,红色和棕色模块高度相关。相关的EIGENGEN组对应于元模块,并且可识别为EIGENGENE树枝图的分支,并且作为沿着热图绘图的对角线的红线。数字118金宝搏 表示有四个元模块(分支)。体重落在元模块内,将蓝色,棕色,红色,三文鱼和黄色模块分组。在实践中,很难确定元模块的底层模块是否真正截然不同,或者是否应该合并。有时基因本体信息可以提供一些线索。

有趣的是在体重相关模块中找到居中位于体重相关模块中,因为它们的表达配置文件表示整个模块的[118金宝搏 ].要找到模块内的枢纽基因,可以使用模块隶属度度量K.,等式118金宝搏 .数字118金宝搏 显示了基于体重的基因显著性测量之间的散点图GS一世,等式118金宝搏 和模块成员在棕色模块中。

基因显著性与模块隶属度高度相关,说明棕色模块中的hubgenes也与体重高度相关。这表明,基因意义和模块成员(模块内连接)可以结合在一个系统生物学筛选方法中,以发现体重相关基因[118金宝搏 ].数字118金宝搏 显示棕色模块中最相关基因中的游戏图。此简要说明说明WGCNA如何导致在独立数据集中需要验证的可测试假设。这个例子和数字的教程118金宝搏 可以在我们的网页上找到。

教程

我们提供一套全面的在线教程,通过关联网络分析的主要步骤指导用户。教程提供R代码用户可以将和粘贴到r会话中,以及输入和输出的注释和解释。该代码被组织成短部分,每个部分地址解决特定任务。特别是,教程涵盖了以下主题:相关网络施工,逐步和自动模块检测,共识模块检测,eigengene网络分析,差异网络分析,与外部软件包的接口以及数据仿真。教程使用模拟和实际基因表达数据集。

讨论

WGCNA包补充R的其他网络相关包,例如Bioconductor的一般网络结构[118金宝搏 ,基因网络富集分析[118金宝搏 ,基因共表达网络的功能分析[118金宝搏 ], 和别的。虽然大多数现有包装仅关注未加权网络,但WGCNA实现了加权和未加权相关网络的方法。WGCNA可以用作数据探索工具或作为基因筛选(排名)方法。例如,WGCNA可用于探索网络中的模块(群集)结构,以测量基因和模块之间的关系(模块成员信息),探讨模块(Eigengene网络)之间的关系,以及秩序基因之间的关系O.R.mO.dules (e.g. with regard to their relationship with a sample trait). WGCNA can be used to generate testable hypotheses for validation in independent data sets. For example, WGCNA may suggest that a module (e.g. a putative pathway) is associated with a disease outcome. Since correlation networks are based on correlations between quantitative variables, one can use a correlation test p-value [118金宝搏 或以回归为基础的p值来评估变量对之间的统计显著性。例如,可以直接给模糊模块的隶属度度量附加一个显著性级别 K. C O. R. 一世 问: MathType@MTEF@5@5@ + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI +魔术师率领= rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4saS0aa0baaSqaaiabdogaJjabd + gaVjabdkhaYjabcYcaSiabdMgaPbqaaiabcIcaOiabdghaXjabcMcaPaaaaaa@369C@ .标准微阵列数据挖掘技术与基因共表达网络分析的关系在[118金宝搏 ].

用户应该知道在WGCNA包实现的方法的局限性。首先,WGCNA假定微阵列数据已经适当预处理和标准化。以标准化表达数据,几个R取代功能已经在Bioconductor的软件包[实施118金宝搏 ].虽然所有归一化方法都与WGCNA兼容,但我们建议使用生物学最有意义的归一化方法关于所考虑的应用程序。其次,类似于大多数其他数据挖掘方法,在处理技术人工制品,组织污染物或实验设计不良时,WGCNA的结果可以偏置或无效。第三,虽然已经实现了几种共表达模块检测方法,但包不提供确定哪种方法最好的方法。虽然在几个真实数据应用程序中已经良好地执行了默认的分层群集方法,但是希望将这些和其他方法与多个真实的基准数据集进行比较。第四,此包仅限于无向网络。在文献中呈现了定向边缘和构建定向网络的方法,例如在[118金宝搏 -118金宝搏 ].

结论

WGCNA R包提供了一组全面的功能,用于执行加权相关网络分析。WGCNA包也可用于描述基因表达谱,图像数据,遗传标记数据,蛋白质组学数据和其他高维数据之间的相关结构。

可用性和要求

项目名称:WGCNA R包

项目主页:188体育投188体育投注http://www.genetics.ucla.edu/labs/horvath/CoexpressionNetwork/Rpackages/WGCNA

操作系统:平台独立

编程语言:R

许可证:GNU GPL 3

确认

我们要感谢俊东,娃富勒,丹Geschwind,稳汀科伦,文林,杰克Lusis,迈克·梅森,杰里米·米勒,保罗·米契尔,斯坦尼尔森,迈克·奥尔德姆,安吉拉Presson,阿蒂拉凡纳斯,林旺有帮助的讨论和建议。这项工作是由赠款P50CA092131,5P30CA016042-28和NS050151-01的部分资助。

参考文献

  1. 1.

    Fisher RA:关于从小样本推导出的相关系数的“可能误差”。密特隆1915年,1:学会年会。

    谷歌学者

  2. 2.

    周旭,高明杰,王伟:基于基因表达数据最短路径分析的传递功能注释。Proc Natl Acad Sci USA2002,99(20):12783-12788。

    pmed中央中科院文章PubMed谷歌学者

  3. 3.

    Steffen M, Petti A, Aach J, D'haeseleer P, Church G:信号转导网络的自动建模。www.188bet com2002,3:34。

    pmed中央文章PubMed谷歌学者

  4. 4.

    STUART JM,SEGAL E,Koller D,KIM SK:一种基因 - 用于全球保护遗传模块的基因共存网络。科学2003,302(5643):249-255。

    中科院文章PubMed谷歌学者

  5. 5.

    张B,霍瓦特S:总体框架的加权的基因共表达网络分析。STAT APPL GEAT MOL BIOL2005, 4:第十七条。

    谷歌学者

  6. 6.

    作者简介:凯瑞(Carey VJ), Gentry J (Gentry J), Whalen E (Whalen E), Gentleman R (Gentleman R)。生物信息学2005年,21:135-136。

    中科院文章PubMed谷歌学者

  7. 7.

    基于经验的贝叶斯方法推断大规模基因关联网络。生物信息学2005,21(6):754-764。

    中科院文章谷歌学者

  8. 8.

    庄春林,陈春明,谢桂生:一种基于模式识别的遗传滞后相互作用研究。生物信息学2008,24(9):1183-1190。

    中科院文章PubMed谷歌学者

  9. 9。

    Cokus S, Rose S, Haynor D, Gronbech-Jensen N, Pellegrini M:酵母中细胞周期转录因子网络的建模。www.188bet com2006,7:381。

    pmed中央文章PubMed谷歌学者

  10. 10.

    陆Horvath)年代,张B,卡尔森M, K,朱年代,Felciano R, Laurance M,赵W,蜀Q,李Y,舍,Liau L,吴H, Geschwind D, Febbo P, Kornblum) H, Cloughesy T,纳尔逊年代,米歇尔P:致癌信号网络分析在胶质母细胞瘤识别该小说作为一个分子的目标。Proc Natl Acad Sci USA2006,103(46):17402-17407。

    pmed中央中科院文章PubMed谷歌学者

  11. 11.

    霍维斯S,东杰:基因共表达网络分析的几何解释。PLO计算生物学2008.

    谷歌学者

  12. 12.

    基于特征基因网络的共表达模块间关系研究。BMC系统生物学2007年,1:54。

    pmed中央文章PubMed谷歌学者

  13. 13.

    张博,方志刚,王志刚,王志刚:基因连接、功能和序列守恒:酵母共表达网络的预测。BMC基因组学2006.那7(40):

    谷歌学者

  14. 14.

    基于遗传和网络分析的小鼠体重相关基因的研究。公共科学图书馆遗传学2006年,2(8):E130。

    pmed中央文章PubMed谷歌学者

  15. 15.

    Fuler T,Ghazalpour A,Aten J,Drake T,Lusis A,Horvath S:加权基因共同表达网络分析策略应用于小鼠体重。哺乳动物基因组2007,6(18):463-472。

    文章谷歌学者

  16. 16.

    张Emilsson V, Thorleifsson G B, Leonardson,辛克F,朱J,卡尔森,Helgason,沃尔特斯G, Gunnarsdottir年代,Mouy M, Steinthorsdottir V, Eiriksdottir G, Bjornsdottir G, Reynisdottir我,配图D, Helgadottir,采取,采取,Styrkarsdottir U, Gretarsdottir年代,Magnusson K, Stefansson H, Fossdal R, Kristjansson K,Gislason H, Stefansson T, Leifsson B, Thorsteinsdottir U, Lamb J, Gulcher MJ, Reitman, Kong A, Schadt E, Stefansson K:基因表达的遗传学及其对疾病的影响。自然2008,452(7186):423-8。

    中科院文章PubMed谷歌学者

  17. 17.

    van Nas A, Guhathakurta D, Wang S, Yehya S, Horvath S, Zhang B, Ingram Drake L, Chaudhuri G, Schadt E, Drake T, Arnold A, Lusis A:阐明性腺激素在两性二态基因共表达网络中的作用。内分泌学2008.

    谷歌学者

  18. 18.

    奥尔德姆男,霍瓦特S,Geschwind d:保护与人类和黑猩猩基因脑共表达网络的演进。Proc Natl Acad Sci USA2006、103(47):17973 - 17978。

    pmed中央中科院文章PubMed谷歌学者

  19. 19.

    阿尔茨海默病和正常衰老中转录变化的系统水平分析。J Neurosci.2008年,28(6):1410 - 1420。

    pmed中央中科院文章PubMed谷歌学者

  20. 20.

    Oldham MC, Konopka G, Iwamoto K, Langfelder P, Kato T, Horvath S, Geschwind DH:人脑转录组的功能组织。自然神经科学2008,11(11):1271-1282。

    pmed中央中科院文章PubMed谷歌学者

  21. 21.

    Keller MP,Choi Y,Wang P,Belt Davis D,Rabaglia Me,Oler,Stapleton DS,Argmann C,Schueler KL,Edwards S,Steinberg Ha,Chaibub Neto E,Kleinhanz R,Turner S,Hellerstein Mk,Schadt EE,Yandell BS,KENDZIORSKI C,ATTIE AD:2型糖尿病的基因表达网络模型将细胞周期调节与糖尿病易感性联系起来。基因组res.2008年,18(5):706 - 716。

    pmed中央中科院文章PubMed谷歌学者

  22. 22.

    Presson A,Sobel E,Papp J,Suarez C,惠斯勒T,Rajeevan M,Vernon S,Horvath S:集成加权基因同学网络分析与慢性疲劳综合征的应用。BMC系统生物学2008.那2(9.5.):

    谷歌学者

  23. 23.

    王志强,王志强,王志强,等:植物环境胁迫表型与基因、共表达模块和分子标记的关系。BMC系统生物学2008.2:

    谷歌学者

  24. 24.

    Wilcox Rr:稳健估计与假设检验导论.学术出版社;1997年。

    谷歌学者

  25. 25.

    王志强,王志强:基因网络的拓扑重叠度量。www.188bet com2007,8:22。

    pmed中央文章PubMed谷歌学者

  26. 26.

    Ravasz E,Somera A,Mongru D,Oltvai Z,BarabásiA:代谢网络中模块化的分层组织。科学2002、297(5586):1551 - 1555。

    中科院文章PubMed谷歌学者

  27. 27.

    李A,Horvath S:网络邻域分析,具有多节点拓扑重叠度量。生物信息学2007年,23(2):222 - 231。

    文章PubMed谷歌学者

  28. 28.

    Kaufman L,Rousseeuw P:在数据中寻找群体:聚类分析导论.纽约:John Wiley&Sons,Inc;1990年。

    谷歌学者

  29. 29.

    张斌,张立军,张立军:基于层次聚类树的聚类定义:动态树切割包。生物信息学2008,24(5):719-720。

    中科院文章PubMed谷歌学者

  30. 30.

    Dudoit S,Fridlyand Y:用于估计数据集中的簇的数目基于预测的重采样方法。基因组Biol.2002年,3 (7):RESEARCH0036。

    pmed中央文章PubMed谷歌学者

  31. 31.

    Hastie T,Tibshirani R,Sherlock G,Eisen M,Brown P,Botstein D:忽略基因表达阵列的缺失数据。斯坦福统计系技术报告1999年。

    谷歌学者

  32. 32.

    Troyanskaya O, Cantor M, Sherlock G, Brown P, Hastie T, Tibshirani R, Botstein D, Altman RB: DNA微阵列缺失值估算方法。生物信息学2001年,17(6):520 - 525。

    中科院文章PubMed谷歌学者

  33. 33.

    Dong J,Horvath S:了解模块中的网络概念。BMC系统生物学2007年,1:24。

    pmed中央文章PubMed谷歌学者

  34. 34.

    Watts DJ, Strogatz SH:“小世界”网络的集体动态。自然1998,393(6684):440-2。

    中科院文章PubMed谷歌学者

  35. 35.

    陈志强,杨永强,陈志强,等。基因芯片技术在不同基因表达中的应用。Statistica中央研究院2002.

    谷歌学者

  36. 36.

    (2006年)FDT:字段:空间数据的工具。技术。代表,国家大气研究中心,科罗拉多州博尔德2007. [http://www.image.ucar.edu/gsp/software/fields.]

    谷歌学者

  37. 37.

    胡Z,Snitkin ES,得利斯C:VisANT:在系统生物学网络的综合框架。简要Bioinform2008,9(4):317-325。

    pmed中央中科院文章PubMed谷歌学者

  38. 38.

    Wang JT, Ramage D, Amin N, Schwikowski B, Ideker T: Cytoscape:一种生物分子相互作用网络集成模型的软件环境。基因组研究2003年,13(11):2498 - 2504。

    pmed中央中科院文章PubMed谷歌学者

  39. 39.

    GOSim -一个用于计算术语和基因产物之间的信息理论GO相似性的r -包。www.188bet com2007.8:

    谷歌学者

  40. 40。

    Dennis G,Sherman B,Hosack D,Yang J,Gao W,Lane H,Lempicki R:David:用于注释,可视化和集成发现的数据库。基因组Biol.2003,4(5):P3。

    文章PubMed谷歌学者

  41. 41。

    Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT, Harris MA, Hill DP, Issel-Tarver L, Kasarskis A, Lewis S, Matese JC, Richardson JE, Ringwald M, Rubin GM, Sherlock G:基因本体:生物学统一的工具。NAT Genet.2000年,25日:25 - 29。

    pmed中央中科院文章PubMed谷歌学者

  42. 42。

    张博,基洛夫,史迪:WebGestalt:一种用于探索不同生物背景下基因集的集成系统。核酸res.2005,33(Web服务器问题):W741-W748。

    pmed中央中科院文章PubMed谷歌学者

  43. 43.

    Liu M, Liberzon A, Kong SW, Lai WR, Park PJ, Kohane IS, Kasif S:基于网络的2型糖尿病模型受影响生物过程分析。Plos Genet.2007年,3(6):E96。

    pmed中央文章PubMed谷歌学者

  44. 44.

    Hegar C,Clement K,Zucker JD:无监督的多实例学习基因组数据的功能分析。在机器学习:ECML 2006.施普林格柏林/海德堡;2006:186 - 197。

    章节谷歌学者

  45. 45.

    mr . R, Huber W, Carey V, Irizarry R, Dudoit S:使用R和Bioconductor的生物信息学和计算生物学解决方案。在.Springer-Verlag纽约;2005年。

    谷歌学者

  46. 46.

    OPGEN-RHEIN R,Strimmer K:从与因果网络的相关性:一个简单的近似学习算法及其在高维植物基因表达数据中的应用。BMC系统生物学2007.1:

    谷歌学者

  47. 47.

    利用遗传标记定位定量性状网络的边缘:NEO软件。BMC系统生物学2008.2:

    谷歌学者

  48. 48.

    Chaibub Neto E, Ferrara CT, Attie AD, Yandell BS:从分离群体推断因果表现型网络。遗传学2008,179(2):1089-1100。

    pmed中央文章PubMed谷歌学者

下载参考

作者信息

从属关系

作者

相应的作者

对应到Steve Horvath.

附加信息

作者的贡献

这两个作者都共同开发了这些方法并写了这篇文章。PL将功能打包到R包中。这位作者都读到并批准了最终手稿。

作者为图像提交的原始文件

权利和权限

本文由BioMed Central Ltd授权发表。188bet金博宝欧洲杯哪里能买球这是一篇基于知识共享署名许可协议(http://creativecommons.org/licenses/by/2.0)提供任何介质中的不受限制使用,分发和再现,所以提供了正确的工作。

重印和权限

关于这篇文章

引用这篇文章

加权相关网络分析的R包。www.188bet com9,559(2008)。https://doi.org/10.1186/1471-2105-9-559.

下载引用

关键词

  • 相关网络
  • 模块成员资格
  • 模块Eigengene
  • 布朗模块
  • 分层群体树木图