跳过主要内容

发现原核病毒同源组之间的功能关联:概念的证明

摘要

背景

病毒组学领域从宏基因组学的最新发展中受益匪浅,主要集中在病毒发现方面。然而,对病毒基因组数量的不断增加的功能注释却很滞后。在原核病毒同源组(pVOGs)数据库中,蛋白质簇的注释程度突出了这一点,目前9518个pVOGs中有83%的功能未知。

结果

在这项研究中,我们描述了一种机器学习方法来探索pvog之间潜在的功能关联。我们测量了7个基因组特征,并将它们作为随机森林分类器的输入来预测pVOGs对之间的蛋白质-蛋白质相互作用。在系统评估了模型在10个不同数据集上的性能后,我们得到了一个平均精度为0.77的预测器,接收操作特征(Area Under Receiving Operation Characteristic, AUROC)得分为0.83。将其应用于一组2,133,027个pVOG-pVOG相互作用,使我们能够预测267,265个假定的相互作用,报告的概率大于0.65。在预期的错误发现率为0.27的情况下,我们通过预测它们与功能注释的pVOG之间的相互作用,将95.6%以前未注释的pVOG置于功能上下文中。

结论

我们相信,这种概念证明的方法,包装在一个可复制和自动化的工作流,可以代表一个重要的步骤,以获得更完整的噬菌体生物学。

背景

在感染细菌和古菌的所有环境中,病毒的巨大多样性,在这里统称为噬菌体,长期以来一直被假定[118金博宝 ].病毒宏基因组学或病毒基因组学,应用宏基因组学方法来识别和研究混合样本中的病毒,使我们能够更有效地对噬菌体多样性进行分类。在它们的分类水平上,在它们的基因组内容和编码功能水平上,新的信息正在积累。在不同的环境中发现了新的世系,例如crAssphage [118金博宝 ]及巨噬细胞[118金博宝 ]在人类肠道或在海洋生物群落中宿主范围相对较广的感染弧菌科的新型噬菌体中[118金博宝 ,揭示了病毒层多样性中尚未探索的部分[118金博宝 ].

同时,我们对噬菌体功能库的看法正在扩大。描述噬菌体蛋白编码的功能是了解它们在生态系统中作为过程驱动者的重要一步,通过它们与细菌宿主的相互作用。例如,噬菌体基因组可能编码以前认为只由细胞生物执行的功能,例如参与光合作用和碳代谢的辅助代谢基因,这一点正变得越来越清楚[118金博宝 ]或硫氮循环[118金博宝 ].

然而,大多数病毒蛋白的功能注释仍然具有挑战性。Paez-Espino等。[118金博宝 通过对构建的包含25000个病毒蛋白家族的数据库进行蛋白质相似性搜索,在总共610万个蛋白中,能够将5.1%与具有已知功能的蛋白进行匹配,而Elbehery等人[118金博宝 能够找到50%的匹配物来匹配一个相对研究充分的环境,人类肠道。这些例子显示了经典方法(如序列相似性搜索)在病毒基因和蛋白质注释方面的不足[118金博宝 ].这主要是因为(1)目前沉积的噬菌体序列只捕获了其自然发生的多样性的一小部分,(2)它们表现出高突变率和新基因的更高频率,导致更高的序列多样性。

将已编码的蛋白质聚类为蛋白质家族提供了一个快速功能注释框架[118金博宝 [因为通常在同一家庭中的蛋白质进行类似的功能。对噬菌体蛋白质家族的有用资源是原核病毒局部群体(PVOGS)数据库[118金博宝 ,尽管我们注意到,在病毒编码的蛋白质之间建立同源关系可能具有挑战性,因为病毒基因组之间的水平基因转移和重组是它们进化的主要驱动因素。pvog是基于来自感染细菌或古细菌宿主的大约3000个病毒的近30万个蛋白质编码基因,这些基因已经被聚成9518个同源组。然而,目前9518 pVOGs中83%是由假设的蛋白质组成的,这些蛋白质没有有意义的功能注释。

生物学功能是一个松散定义的术语,并且可以取决于检查的上下文。这引起了一个框架,其描述了蛋白质在分子,细胞或表型水平上的功能[118金博宝 ].在比较基因组学中,克服了缺乏同源性证据引起的问题的既定方法是利用基因组信息来改善功能预测[118金博宝 ].在原核生物中,编码功能相关蛋白的基因通常表现出相似的系统发育特征,即多个基因组的共现模式[118金博宝 ].此外,它们往往受到普遍调控,并以单一的转录单元(操纵子)组织,具有相同的方向[118金博宝 ].对病毒基因组也进行了类似的观察,其中的基因是按保留方向的盒式结构组织的[118金博宝 ].

通过与其他基因的关联,预测未知基因及其产物的功能,通常称为内疚关联[118金博宝 ,可以作为注释蛋白质功能的一种替代方法。在流行的STRING数据库中,功能关联的概念已经成功地应用于所有生命领域的生物体[118金博宝 ].它包含了大量的蛋白质,这些蛋白质在综合的相互作用网络中具有功能关联。一种专门为病毒蛋白质设计的STRING版本目前可用(病毒。字符串,118金博宝 ])。它的主要重点是对病毒-宿主相互作用进行分类,将蛋白质-蛋白质相互作用网络从种内扩展到种间相互作用。

在这里,我们通过基于关联内疚信号预测pvog对之间的相互作用来探索功能性关联的潜力。我们测量了对pvog的噬菌体基因组参考集上的7个特征,即共现、平均基因组距离、方向关系(共方向、收敛、发散)、平均核苷酸身份和平均氨基酸身份,并利用随机森林分类器整合这些值来预测pVOG-pVOG相互作用。尽管我们用一个相对较小的已知物理相互作用蛋白质对的数据集来训练当前版本的预测管道[118金博宝 ],我们将相关的软件公开可用,以便用户可以在可用后将其应用于更大的数据集。

方法

交互的数据集

与随机森林倾斜的监督机器的相互作用(1)和潜在的非交互(0)蛋白对的离散地标记的地面实际数据集[118金博宝 ]建造如下:从PVOGS数据库中检索了噬菌体蛋白质家族的概况隐马尔可夫模型(HMMS),并从PVOGS数据库中检索其功能注释[118金博宝 ](http://dmk-brain.ecn.uiowa.edu/pVOGs/downloads.html,访问01/2020)。要建立交互数据集(1),我们使用了完整的数据库,一个公开的物理分子交互信息数据库[118金博宝 (访问04/2019)定义102对相互作用蛋白对的阳性集合,标记为1。虽然完整无缺包含实验证明参与物理分子相互作用的蛋白质对,但这不是我们的预测管道的要求,我们注意到,阳性集可能很容易扩展到包括定义更松散的相互作用对,一旦它们变得可用。

很难建立非相互作用(0),因为蛋白质对之间的相互作用可能取决于非常特定的细胞条件。因此,从RefSeq中存在的所有可能的蛋白对中随机抽取10个不同的阴性组[118金博宝 在噬菌体基因组上发现完整蛋白,但在阳性组中不存在。通过查询从RefSeq数据库中检索噬菌体基因组。

“病毒[ORGN]不是“细胞有机体”[ORGN]和vhost细菌[过滤器]或vhost古菌[过滤器]和“完整基因组”[所有字段]”

感染细菌和古菌的病毒(2019年1月1日获取)。使用带有默认选项的hmmsearch v3.2.1将蛋白-蛋白相互作用翻译为pVOG-pVOG相互作用[118金博宝 ,根据完整蛋白质列表查询所有pVOG HMM配置文件,并选择比特分数最高的命中(附加文件118金博宝 ).

由于我们对预测同一基因组上的蛋白质对之间的相互作用很感兴趣,所有不能与至少在一个基因组上同时发生的pVOG对显著匹配的蛋白质对都被排除在外。从剩余数据中随机选取10个不同的负(非交互)数据集,每个数据集包含102个pVOG对,每个pVOG对与相同的102个正(交互)pVOG对结合,形成10个训练数据集N1-N10。最后,目标数据集由9518个pvog的所有可能的成对组合组成,不包括自对和地面真值集的204对。

特征选择与测量

表中提供了所有测量到的基因组特征的描述118金博宝 .所有噬菌体基因组用EMBOSS包版本6.6.0.0的transeq实用程序翻译为6帧,选项" -clean-frame 6-table 11 " [118金博宝 ].随后,针对翻译后的RefSeq基因组,使用所有pVOGs HMM配置文件进行hmmsearch,并在自定义python脚本的帮助下对结果进行解析,以提取有关基因组发生、距离和方向的相关信息。

表1本研究用于预测pVOG-pVOG功能关联的特征

随机森林分类

超参数调优是基于将每个数据集分割为70%的训练和30%的拒绝。该训练集用于随机搜索和五倍交叉验证方法,可从python的scikit-learn包版本0.21.3 [118金博宝 ].选择了已知会影响分类器性能的参数的子集,例如要使用的最大深度和决策树的数量。为这些参数定义了一系列值,并且基于整个参数空间的随机选择构建了500个分类器。每个分类器用于五倍交叉验证以选择具有HyperParameters最佳组合的模型。

这个过程为我们提供了10个数据集的最佳模型。为了计算每个模型在不同数据集上的性能,将剩下的9个数据集作为模型的输入。同样的数据分割为70%的训练和30%的抵抗,但没有进行超参数优化。用于目标数据集分类的模型和训练集的最终组合是基于其在以下描述的指标中的一致的更高性能而确定的。

性能评估,模型和数据集选择

对于每个分类问题,有四种可能的结果:

  • 观察结果,在这种情况下是pVOG-pVOG相互作用,可以被正确地识别并标记为属于阳性类(True positive, TP)。

  • 一个观察可以被正确地识别和标记为属于阴性类(真阴性,TN)。

  • 观察可以错误地识别并标记为属于正类,而实际上它属于负类(假阳性,FP)。

  • 一个观察结果可能被错误地识别和标记为属于阴性类别,而实际上它属于阳性类别(假阴性,FN)。

这些可以总结为评估分类性能的各种指标。在这里,我们使用了以下方法:

  • 精度:正确标记的相互作用的总和,无论是正的还是负的,除以所有预测的总和((TP + TN)/(TP + TN + FP + FN))。

  • 精度:真实正的总和除以所有正向预测的总和。(TP / (TP + FP))

  • 回忆(或灵敏度):真阳性数除以真阳性数和假阴性数之和。(tp / (tp + fn))

  • F1分数:精度和召回率之间的调和平均值。((2 x(精度+召回))/(精度+召回))

  • 受试者工作特性曲线下面积(AUROC):在考虑真阳性和假阳性的情况下,表示分类器性能的单个值。一般情况下,希望AUROC评分高于0.5,这意味着分类器的性能优于随机[118金博宝 ].

注释处理

pvog仍然是最全面的病毒蛋白功能注释平台之一。目前,pvog是用其组成蛋白的所有术语进行功能性注释的[118金博宝 ].由于pvog包含不同数量的蛋白质,而蛋白质注释是自由文本字段,因此它们在数量和语法格式上都可能不同。所有出现的“假设的蛋白质”都被“未知”所取代,“蛋白质”和“假定的”也被删除。在重新格式化之后,将具有最高计数的注释选择为描述pVOG的单个注释。所有与标注相关的统计数据都是根据处理后的标注进行计算的。为了量化pVOG对的功能注释之间的相似度,利用所有pVOG注释中出现的术语构建语料库。以下术语被排除在外:‘假话’,‘假话’,‘假话获得’,‘假话’,‘假话蛋白质’,‘连字符’,‘预测’,‘蛋白质’,‘未知’,‘假定’,‘噬菌体’,‘噬菌体’,‘否’,‘注释’,‘提供’,‘基因’,‘在’,‘保守’,‘#’和‘&’。接下来,根据单词的反出现频率(term的1-frequency)为每个单词分配权重,为更独特的词分配更高的权重。对于每个pVOG,构造了其自身注释项的频率向量。最后,我们计算了每个至少有3或10项的pVOG对的两个项-频率向量之间的加权余弦距离。

结果

我们通过预测对pVOGs之间的相互作用,探索了噬菌体蛋白功能关联的潜力。我们在10个不同的数据集N1-N10上评估了几个随机森林分类器的性能(见方法)。首先,将每个数据集分成70%的训练集和30%的坚持集。通过对500个不同分类器的超参数优化,选择在坚持集上性能最好的分类器作为候选模型。然后,将剩下的9个数据集分成70%的训练集和30%的坚持集。训练集用于训练之前的候选模型,并对抵抗集进行预测,为我们提供每个模型和数据集组合的性能指标。对所有数据集重复此过程。因此,我们得到了一个基于N8数据集优化的分类器,在所有数据集上比其他9个候选模型表现得更好。平均准确率为0.77(±0.03),AUROC评分为0.83(±0.05)。118金博宝 一个;附加文件118金博宝 ,118金博宝 ,118金博宝 ).在绝对数字上,每62个交互中有47.5(±1.9)个被正确分类为阳性或阴性。其平均精密度为0.78(±0.04),平均回想得分为0.8(±0.05)。

图。1
图1

一个ROC曲线说明了最终最佳随机森林分类器在用于超参数优化的数据集上的性能(N8,灰色粗线),以及在其余数据集上的性能(AUROC = Receiver Operating Characteristic下的面积)。b基于基尼系数的每个特征对分类的相对重要性

特征重要性得分使用基尼重要性(Gini importance)计算,基尼重要性定义为在森林中所有树木上平均的节点杂质总减少量[118金博宝 ].直观地说,它给出了在特征值随机排列时分类准确性如何变化的衡量。预测一对pVOGs之间相互作用的最重要特征是噬菌体基因组中假定的相互作用者之间的共存(平均相对重要性为0.24±0.02)(图。118金博宝 b).虽然这是预期的,因为蛋白质需要存在于同一个基因组上才能相互作用,但这仍然是一个重要的结果,因为如果候选蛋白质经常出现在不同的基因组上,信号可能会降低。HMM基因组之间的平均距离的相对重要性排名第二(均值= 0.22±0.03),其次是平均AAI(0.19±0.03)和平均ANI(0.18±0.02)。基因组方向特征似乎在预测蛋白质相互作用中没有发挥重要作用,可能是因为许多噬菌体蛋白倾向于按相同方向编码[118金博宝 (附加文件118金博宝 ,118金博宝 ).

我们将性能最好的分类器应用到所有通过过滤标准的pVOG对的目标数据集,即至少在一个基因组上同时发生。该数据集包括9518个唯一pvog中的9369个(98.4%)。根据500棵决策树的截断值≥0.65,预测2,133,027对pVOGs中有766,080对(35.9%)相互作用,其中443,786对正相互作用(57.9%)具有高置信度。额外的文件118金博宝 显示所有2,133,027个目标PVOG对所预测的随机林分类器预测的交互概率分布,显示已知和未知的PVOG可以在许多情况下链接。注意,低于和高置信度预测之间的截止值为0.65是任意的,但比使用随机森林的许多分类研究中使用的截止值更严格。

接下来,我们利用来自预测交互的信息为带有未知函数的pvog提供初步注释。在最终数据集中,总共有53,999个预测交互(7%)发生在两个都被注释的pVOG对之间。这些交互可以看作是验证我们方法的一种额外方法118金博宝 ).此外,325464个预测(42.4%)有一个未注释的pVOG与一个具有已知功能注释的pVOG交互。对于其余386,617个交互对(50.5%),两个pvog都没有注释。

表2预测带注释函数的pvog对之间的前15个交互

在使用0.65的截断值时,原始7974个带有未知函数的pvog中,共有7627个(95.6%)与带有注释函数的pvog相匹配,通过关联罪恶感提供了关于它们的函数的初步提示(附加文件118金博宝 ).混淆矩阵由N8数据集的最终最佳模型中的62个抵抗交互计算得到,TP = 27, FP = 10, TN = 18, FN = 7。最终模型的错误发现率FP/(TP + FP)为0.27,因此我们预计在443,786个预测的功能关联中,错误阳性对不超过12万对。

我们探讨了两个pvog注释函数的相似性与预测的相互作用概率之间的关系。为了量化注释函数中的相似性,我们使用了注释项向量之间的加权余弦距离(见方法),其中具有类似功能注释的pvog具有较低的余弦距离值,反之亦然。我们通过在最终的训练集上测试来验证这种方法,我们观察到交互对的加权余弦距离小于非交互对的加权余弦距离(图)。118金博宝 a).如预期,相互作用和非相互作用蛋白对之间的分离是不完美的,反映了一个噪声信号。数字118金博宝 b和c分别显示了至少有3个和10个注释项的预测pVOG-pVOG相互作用之间的相关性。尽管存在噪声信号,但我们观察到余弦距离与相互作用概率之间存在逆关系,这为我们发现病毒蛋白之间功能关联的概念验证方法提供了进一步的支持。值得注意的是,预测交互得分很低的pVOG对都具有较高的余弦距离,而大多数预测交互得分很低的pVOG对,尤其是标注良好且至少有10个标注项的pVOG对,往往具有较高的预测交互得分。

图2
图2.

一个最终训练集中正交互和负交互的加权余弦距离得分密度图(n = 184)。b相互作用概率和加权余弦概率的线性回归曲线对于PVog对之间的一组592,062预测,每个预测具有至少三个信息的注释项(R = - 0.126,p= 0.0)。c与(b)相同,对于一组146,456个预测,每个pVOG对至少有10个信息性注释项(r =−0.141,p= 0.0)

讨论

高通量病毒组学实验为环境噬菌体提供了新的线索,可以说是生物圈中最未被探索的组成部分。虽然现在序列组装可以使这些噬菌体在基因组分辨率上被定位,但理解它们编码的蛋白质的功能仍然具有挑战性。在这里,我们开发了一种方法,通过机器学习方法整合不同基因组信号来预测噬菌体蛋白之间的功能关联,从而为它们的解释提供初步线索。该分类器在抵抗数据集上表现良好,在34个正面交互中预测了27个,在28个负面交互中预测了18个(图)。118金博宝 a).在我们的分析中,两个基因的共现和平均距离被认为是最重要的特征,与基因组组织的存在一致[118金博宝 ]及功能基因盒[118金博宝 在噬菌体。有趣的是,方向并不重要,因为与细菌相比,噬菌体的转录方向更加一致[118金博宝 ].

有几项进展有望进一步改进交互预测。首先,我们使用了一个小的地面真值集,仅限102个正面相互作用,代表了在完整数据库中的物理相互作用蛋白质[118金博宝 ].随机森林分类器的应用使我们能够预测数百万蛋白质对之间的相互作用概率,展示了机器学习方法在可用信息有限的数据集的效用。然而,我们预计,未来使用更多高质量已知交互的训练数据集的扩展几乎肯定会提高预测器的准确性。第二,其他有意义的罪恶感关联特征可能被纳入预测因子(表)118金博宝 ).例如,基因共表达提供了一个强大的功能信号,与这里包含的基因组信号互补[118金博宝 ,118金博宝 ].第三,使用更大的病毒基因组参考集也应该是有益的,因为它将更好地反映连接相互作用的噬菌体蛋白质的任何基因组信号。此外,包括不同的病毒序列,包括来自宏基因组数据集的序列,将允许在更大的病毒多样性中识别蛋白质之间的功能关联,从而减少数据库偏差[118金博宝 ].我们希望这种自动化的、可复制的蛇制造技术[118金博宝 通过GitHub存储库提供的工作流(参见Methods)将帮助用户方便地实现这些和其他添加,并进一步改进对噬菌体蛋白之间功能关联的预测。

结论

综上所述,通过预测噬菌体蛋白家族(pvog)与功能注释蛋白的相互作用,我们预测了95.6%之前未被功能注释的噬菌体蛋白家族(pvog)的功能关联。在预期的错误发现率为0.27,这仍然代表了获得更完整的噬菌体生物学图像的重要一步。像这里描述的这种方法,将极大地有利于噬菌体基因组注释的持续努力,并进一步促进它们在形成微生物群落中的作用的生态和进化推论。

数据和材料的可用性

原始数据由公开可访问的数据共享平台Zenodo提供https://zenodo.org/record/4576599.用于分析的源代码请参见https://github.com/mgxlab/pvogs_function..snakemake [118金博宝 GitHub存储库中也可以使用自动时尚的所有必要步骤。

缩写

AAI:

平均氨基酸同一性

ANI:

平均核苷酸身份

AUROC:

接收器工作特性下的面积

FN:

假阴性

外交政策:

假阳性

嗯:

隐马尔可夫模型

pVOG:

原核病毒矫形器

TN:

真正的负

TP:

真阳性

参考文献

  1. 1.

    全球噬菌体多样性。细胞。2003;113:141。

    中科院文章谷歌学术

  2. 2.

    Dutilh BE, Cassman N, McNair K, Sanchez SE, Silva GGZ, Boling L, Barr JJ, Speth DR, Seguritan V, Aziz RK,等。在人类粪便宏基因组的未知序列中发现的高度丰富的噬菌体。Nat Commun。2014;5:1-11。

    文章谷歌学术

  3. 3.

    Devoto AE, Santini JM, Olm MR, Anantharaman K, Munk P, Tung J, Archie EA, Turnbaugh PJ, Seed KD, Blekhman R, et al.;巨噬细胞感染普氏菌及其变异在肠道微生物中广泛存在。Nat Microbiol。2019;4:693 - 700。

    中科院文章PubMed谷歌学术

  4. 4.

    Kauffman km,Hussain Fa,杨j,anvalo p,棕色jm,chang wk,vaninsberghe d,elsherbini j,sharma rs,cutler mb等。非尾DsDNA病毒的主要血统作为未被识别的海洋细菌杀伤者。自然。2018; 554:118-22。

    中科院文章谷歌学术

  5. 5.

    Krishnamurthy SR,Wang D.原始和病毒暗物质的挑战。病毒res。2017; 239:136-42。

    中科院文章谷歌学术

  6. 6.

    Roux S, Brum JR, Dutilh BE, Sunagawa S, Duhaime MB, Loy A, Poulos BT, Solonenko N, Lara E, Poulain J,等。全球丰富的海洋病毒的生态基因组学和潜在生物地球化学影响。大自然。2016;537:689 - 93。

    中科院文章谷歌学术

  7. 7。

    Breitbart M, Thompson LR, Suttle CA, Sullivan MB,探索海洋病毒的巨大多样性。海洋学。2007;20:135-9。

    文章谷歌学术

  8. 8。

    陈义马,黄杰,马科维茨,等。IMG/VR:培养和非培养DNA病毒和逆转录病毒的数据库。核酸Res. 2017;45: D457-65。

    中科院谷歌学术

  9. 9。

    人类病毒蛋白聚类数据库(HVPC):一个用于人类病毒多样性和功能注释的宏基因组数据库。Microbiol前面。2018;9:1110。

    文章PubMed谷歌学术

  10. 10.

    Mokili JL,Rohwer F,Dutilh是。病毒发现中的偏心神经和未来的观点。Currogin Virol。2012; 2:63-77。

    中科院文章PubMed谷歌学术

  11. 11.

    Tatusov RL, Koonin EV, Lipman DJ。蛋白质家族的基因组视角。科学。1997;278(80. -):631 - 7。

    中科院文章谷歌学术

  12. 12.

    原核病毒同源组(pVOGs):比较基因组学和蛋白质家族注释的资源。核酸Res. 2017;45: D491-8。

    中科院文章谷歌学术

  13. 13.

    陈志强,陈志强,陈志强,等。基于基因和基因组的预测功能研究。中华医学杂志。1998;283:707-25。

    中科院文章谷歌学术

  14. 14.

    基于基因组背景的蛋白质功能预测:定量评价和定性推断。基因组研究》2000;10:1204-10。

    中科院文章PubMed谷歌学术

  15. 15.

    佩莱格里尼M,马克特EM,汤普森MJ,艾森伯格D,叶芝TO。通过比较基因组分析分配蛋白质功能:蛋白质系统发育图谱。美国国立科学研究院1999;96:4285-8。

    中科院文章PubMed谷歌学术

  16. 16.

    关键词:基因,基因环境保护,操纵子生物化学学报2000;25:474-9。

    中科院文章谷歌学术

  17. 17.

    Minot S, Wu GD, Lewis JD, Bushman FD。人类肠道中不同病毒基因盒的保存。PLoS ONE。2012; 7: e42342。

    中科院文章PubMed谷歌学术

  18. 18。

    奥利弗·s·联想负罪感正在全球蔓延。大自然。2000;403:601-3。

    中科院文章谷歌学术

  19. 19。

    Szklarczyk D, Gable AL, Lyon D, Junge A, Wyder S, huertacepas J, Simonovic M, Doncheva NT, Morris JH, Bork P, et AL .;增加覆盖范围的蛋白质-蛋白质关联网络,支持全基因组实验数据集的功能发现。核酸学报2018;47:D607-13。

    文章PubMed谷歌学术

  20. 20.

    Cook H,Doncheva N,Szklarczyk D,Von Mering C,Jensen L.病毒.string:病毒 - 宿主蛋白质 - 蛋白质互动数据库。病毒。2018; 10:519。

    文章PubMed谷歌学术

  21. 21.

    Orchard S, Ammari M, Aranda B, Breuza L, Briganti L, Broackes-Carter F, Campbell NH, Chavali G, Chen C, del-Toro N, et al.;完整的MIntAct项目作为11个分子相互作用数据库的公共管理平台。核酸Res. 2014;42: D358-63。

    中科院文章谷歌学术

  22. 22.

    布雷曼L.随机森林。马赫学习。2001; 45:5-32。

    文章谷歌学术

  23. 23.

    o'Leary Na,Wright MW,Frister Jr,Ciufo S,Haddad D,McVeigh R,Rajput B,Robbertse B,Smith-White B,Ako-Adjei D等。NCBI的参考序列(Refseq)数据库:当前状态,分类管理扩展和功能注释。核酸RES。2016; 44:D733-45。

    文章谷歌学术

  24. 24.

    Eddy SR.加速轮廓HMM搜索。公共科学图书馆。2011;7:e1002195。

    中科院文章PubMed谷歌学术

  25. 25.

    Madeira F, Park YM, Lee J, Buso N, Gur T, Madhusoodanan N, Basutkar P, Tivey ARN, Potter SC, Finn RD,等。EMBL-EBI搜索和序列分析工具api核酸Res. 2019;47: W636-41。

    中科院文章PubMed谷歌学术

  26. 26.

    Jain C, Rodriguez-R LM, Phillippy AM, Konstantinidis KT, Aluru S.对90K原核基因组的高通量ANI分析揭示了清晰的物种边界。Nat Commun。2018;9:1-8。

    文章谷歌学术

  27. 27.

    比较:比较基因组学的工具箱。https://github.com/dparks1134/CompareM.2020年4月1日。

  28. 28.

    Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O, Blondel M, pretenhofer P, Weiss R, Dubourg V, et al.;Scikit-learn: python中的机器学习。J Mach Learn Res. 2011; 12:2825-30。

    谷歌学术

  29. 29.

    ROC分析导论。模式识别Lett. 2006; 27:861-74。

    文章谷歌学术

  30. 30.

    布雷曼L.随机森林。机器学习。2001;45:5-32。

  31. 31.

    Akhter S,Aziz RK,Edwards RK。PHISPY:一种用于在结合相似性和组成的策略的细菌基因组中寻找血管的新算法。核酸RES。2012; 40:E126-E126。

    中科院文章PubMed谷歌学术

  32. 32.

    Mavrich TN, Hatfull GF。噬菌体的进化因宿主、生活方式和基因组的不同而不同。Nat Microbiol。2017;2:1-9。

    文章谷歌学术

  33. 33.

    关键词:整合组学,生物信息学,生物信息学,生物信息学,生物信息学铜绿假单胞菌病毒PA5OCT突出了巨型噬菌体的分子复杂性。环境微生物。2020; 22:2165-81。

    中科院文章PubMed谷歌学术

  34. 34.

    Kornienko M, Fisunov G, Bespiatykh D, Kuptsov N, Gorodnichev R, klima K, Kulikov E, Ilina E, Letarov A, Shitikov E.转录景观金黄色葡萄球菌Kayvirus噬菌体vb_saum - 515 a1。病毒。2020;12:1320。

    中科院文章PubMed谷歌学术

  35. 35.

    关联的元基因组罪责:一个operonic视角。PLoS ONE。2013; 8: e71484。

    中科院文章PubMed谷歌学术

  36. 36.

    Köster J, Rahmann S. Snakemake:一个可扩展的生物信息学工作流引擎。生物信息学。2012;28:2520-2。

    文章谷歌学术

下载参考资料

确认

我们感谢乌得勒支大学MGX集团的所有成员在手稿修订期间提出的宝贵意见。

资金

本研究得到了荷兰科学研究组织(NWO) Vidi Grant 864.14.004和欧洲研究理事会(ERC) consolidated Grant 865694的支持。资助机构在研究的设计、数据的收集、分析和解释以及手稿的撰写中都没有发挥作用。

作者信息

从属关系

作者

贡献

NP和BED构思了这项研究。NP执行分析并编写源代码。NP和BED策划设计了分析,撰写并修改了最终稿件。所有作者阅读并批准了最终的手稿。

相应的作者

对应到Bas大肠Dutilh

道德声明

伦理批准和同意参与

不适用。

同意出版

不适用。

相互竞争的利益

两位作者宣称他们没有相互竞争的利益。

附加信息

出版商的注意事项

金宝搏官网下载施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

补充信息

额外的文件1

.根据报告的e值和位分数,将RefSeq蛋白对相互作用到它们的最佳匹配pvog

附加文件2:图S1

.从所有数据集(N1-N10)获得的10个不同射频分类器的性能指标。每个分类器都使用各自的数据集进行优化,并使用其余9个数据集作为输入来评估性能。箱线图显示中位、下四分位数和上四分位数,晶须延伸至四分位数间范围的1.5倍;钻石是异常值。出于可视化目的,y轴从0.4开始

附加文件3:图S2

.所有分类器的平均绝对准确度。barplot代表正确分类的平均数量;误差柱代表标准差。红色虚线:拒绝符集中的交互次数(n =62)

附加文件4:图S3

.用于性能评估的10个数据集(N1-N10)的ROC曲线。每个数据集作为地面真相集,用于随机森林分类器的参数优化(70%训练)。最终得到的最佳模型用于预测顽固样本集(原始样本的30%),其ROC曲线用一条较粗的线描述。其余9个数据集作为最佳模型的输入,用于训练(70%)和坚持(30%),其ROC曲线显示为更透明的直线(AUROC = Receiver Operating Characteristic下的面积)。

附加文件5:图S4

.目标数据集中2,133,027对pVOG对的预测概率分布图。正面互动的概率大于0.5。根据图例,根据pvog的注释状态对堆叠的条进行着色

额外的文件6

.主表包含所有已加工的PVOG对,它们的预测标签(0负,1表示正面),预测概率,可用注释(原始和处理)和特征值。可通过https://zenodo.org/record/4576466

权利和权限

开放获取本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

再版和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

发现原核病毒同源组之间的功能关联:概念证明。www.188bet com22日,438(2021)。https://doi.org/10.1186/s12859-021-04343-w

下载引用