跳转到主要内容

RSEM:具有或不具有参考基因组的RNA-SEQ数据的准确转录物定量

一种协议文章发表于2013年7月11日

抽象的

背景

RNA-SEQ正在旋转测量转录物丰富的方式。来自RNA-SEQ数据的转录物定量的关键挑战是将读数映射到多种基因或同种型的读数。在没有测序基因组的情况下,该问题对于用de novo转录组组件进行量化尤其重要,因为难以确定哪些转录物是同种型的同种型。第二个重要问题是RNA-SEQ实验的设计,就读取,读取长度和读取来自cDNA片段的一端或两端。

结果

我们呈现RSEM,一种用户友好的软件包,用于量化基因和来自单端或配对结束RNA-SEQ数据的异构体积。RSEM输出丰度估计,95%的信誉间隔和可视化文件,也可以模拟RNA-SEQ数据。与其他现有工具相比,该软件不需要参考基因组。因此,与DE Novo转录组汇编器组合,RSEM使得能够对没有测序基因组的物种进行准确的转录物定量。在模拟和真实数据集上,RSEM对依赖于参考基因组的量化方法具有优异的或相当的性能。利用RSEM有效地使用模棱两可映射的能力,我们表明,最佳的基因级丰度估计最多是以大量的短单端读取获得的。另一方面,通过使用配对末端读取,可以改善单个基因内同种型的相对频率的估计,这取决于每个基因的可能接头形式的数量。

结论

RSEM是从RNA-Seq数据中定量转录本丰度的准确和用户友好的软件工具。由于它不依赖于参考基因组的存在,它特别适用于转录组从头组装的定量。此外,RSEM为RNA-Seq定量实验的成本效益设计提供了有价值的指导,而RNA-Seq目前相对昂贵。

背景

RNA-Seq是一种强大的转录组分析技术,预计将取代微阵列[1]。RNA- seq实验利用测序技术的最新进展,从样本RNA片段中提取的cdna末端产生数百万个相对较短的序列。产生的reads可用于许多转录组分析,包括转录本定量[2-7.]、差分表达式测试[8.9.],基于参考的基因注释[6.10]和de novo转录程序组装[1112]。在本文中,我们专注于转录量定量的任务,这是基因和同种型水平的相对丰富的估计。测序后,量化任务通常涉及两个步骤:(1)读取对参考基因组或转录组的映射,以及(2)基于读取映射的基因和同种型丰度的估计。

定量的主要复杂性是RNA-SEQ读数并不总是唯一地映射到单个基因或同种型。以前,我们已经表明,使用统计模型妥善考虑读取映射不确定性对于实现最准确的丰度估计至关重要[7.]。在本文中,我们介绍了一个用户友好的软件包,RSEM(RNA-SEQ通过期望最大化),其实现了我们的量化方法,并为我们的原始模型提供了扩展。RSEM独特的关键特征是缺乏参考基因组的要求。相反,它只要求用户提供一组参考记录序列,例如由de novo转录组汇编器产生的参考录序列序列[1112]。对我们原始方法的扩展包括配对端(PE)和可变长度读取、片段长度分布和质量分数的建模。此外,现在计算每个基因和亚型的丰度的95%可信区间(CI)和后验平均估计(PME),以及最大似然估计(ML)。最后,RSEM现在可以通过概率加权读取对齐和读取深度图来可视化其输出。

通过模拟和真正的RNA-SEQ数据的实验,我们发现RSEM对其他相关方法具有卓越的量化准确性。通过额外的实验,我们获得了关于PE数据值的令人惊讶的结果,以及用于估算转录物丰富的质量评分信息。尽管PE读取提供的信息比单端(SE)读取更多信息,但我们的实验表明,对于相同的测序吞吐量(就碱基测序的碱基的数量而言),SHORT SE读取允许在基因中获得最佳的定量精度 -等级。虽然一个人会假设质量分数提供有价值的信息,用于正确读取读取的映射,但是对于RNA-SEQ与Illumina的错误配置文件读取,考虑到质量评分的模型不会显着提高模型的量化精度只使用读取序列。

相关工作

在一些初始RNA-SEQ论文中使用的简单定量方法[1314这一方法至今仍被用于计算每个基因对应的读取数,可能通过其序列的“可映射性”来校正基因的计数[15和它的长度。这种方法的主要问题是:(1)丢弃数据,如果不考虑“可映射性”,就产生有偏差的估计,(2)对选择性剪接基因产生不正确的估计[16(3)(3)对估算同种型丰富的任务并不良好。后来发展了几种方法,通过“拯救”映射到多个基因的读取(“多reads”)来解决第一问题[1718]。一些其他方法通过在同种型水平上建模RNA-SEQ数据来解决后两项问题,但不是第一个问题5.]。后来,我们开发了RSEM背后的方法,它通过使用RNA-SEQ读取和EM算法的生成模型来解决所有这些问题,以估算同种型和基因水平的丰度[7.]。自RSEM方法发表以来,已发展出若干采用类似统计方法的方法[3.4.6.19-22]。

在已开发的方法中,只有RSEM和IsoEM能够完全处理同型异构体和基因之间不明确的读取图,这两种方法的作者都表明,这对获得最佳估计精度很重要[4.7.]。与ISOEM相比,RSEM能够建模非均匀序列无关的读取开始位置分布(RSPD),例如由某些RNA-SEQ协议产生的3'-偏置的分布[1]。此外,RSEM可以计算PME和95% ci,而IsoEM只能产生ML估计数。最后,RSEM是我们所知道的唯一一种不需要全基因组序列就能工作的统计方法,它可以对只有转录序列可用的物种进行RNA-Seq分析。

执行

典型的RSEM运行只包含两个步骤。首先,生成一组参考转录本序列并进行预处理,以供后续RSEM步骤使用。其次,将一组RNA-Seq reads与参考转录本进行比对,并利用比对结果来估计丰度及其可信度区间。这两个步骤由用户友好的脚本执行rsem-prepare-referenceRSEM - 计算表达式。RSEM工作流程的步骤在图中映衬1并在下面的部分中进行更详细的描述。

图1
图1

RSEM软件工作流程。标准的RSEM工作流(由实心箭头指示)只包含运行两个程序(rsem-prepare-referenceRSEM - 计算表达式),自动使用领结读取对齐。具有替代对齐程序的工作流另外使用由虚线箭头连接的步骤。两个额外的项目,RSEM-BAM2WIG.RSEM-绘图模型,允许可视化RSEM的输出。还可以通过由虚线箭头所示的工作流模拟RNA-SEQ数据。

参考序列准备

RSEM被设计用于与转录序列对齐的reads,而不是整个基因组序列。使用转录水平比对有几个优点。首先,对于真核生物样本,RNA-Seq读序列对基因组的比对由于剪接和聚腺苷化而变得复杂。跨越剪接连接或延伸到多聚(A)尾巴的Reads在基因组水平上对齐是一个挑战,尽管有工具可以对齐剪接连接Reads [23-25]。第二,使用转录水平比对可以很容易地分析来自没有测序基因组但有明显特征的转录组(可能通过RNA-Seq转录组组装)的物种的样本[1112])。最后,所有可能的转录物的总长度通常比基因组的长度小得多,允许在转录层水平上更快地对准。

可以指定一组转录物rsem-prepare-reference用两种方式之一。最简单的方法是提供Rescript序列的Fasta格式化文件。例如,可以从参考基因组数据库,de novo转录组汇编器或est数据库获得这样的文件。或者,使用——gtf选项,可以提供Gene注释文件(以GTF格式)和完整基因组序列(以快速格式)提供。对于常见的物种,可以从诸如UCSC基因组浏览器数据库之类的数据库中轻松下载这些文件[26]和合奏[27]。如果存在现有基因注释的质量,则可以使用基于参考的RNA-SEQ转录组合体汇编器,例如袖扣[28],以GTF格式提供一种改进的基因预测集。当需要基因级丰度估计时,可以指定指定哪些转录物来自同一基因的附加文件(通过——transcript-to-gene-map选项)或者如果提供了GTF文件,则每个转录物的“GEEE_ID”属性可用于确定基因成员资格。对于指定转录物的任一方法,RSEM产生自己的一组预处理的转录序列,以供以后的步骤使用。对于poly(a)mRNA分析,RSEM将附加到Poly(a)尾序列以参考转录物,以允许更准确的读取对齐(禁用——no-polyA)。用于准备参考序列的脚本仅需要一次每种参考转录组,因为转录序列以样本 - 独立的方式预处理。

读取映射和丰度估计

RSEM - 计算表达式脚本处理读取的对齐对参考记录序列和相对丰富的计算。默认情况下,RSEM使用Bowtie对齐程序[29]来对齐读取,并使用专门为RNA-Seq定量选择的参数。或者,用户可手动运行不同的对齐程序,以SAM格式提供对齐[30.] 至RSEM - 计算表达式

当使用替代对准器时,必须注意适当地设置对准器参数,以便RSEM可以提供最好的丰度估计。首先,也是最关键的一点是,必须将对齐器配置为报告一次读取的所有有效对齐,而不仅仅是单个的“最佳”对齐。其次,我们建议配置对齐器,以便在确定有效对齐时,只考虑每个读取的短前缀(一个“种子”)内的匹配和不匹配。例如,默认情况下,RSEM运行“蝴蝶结”来查找一个读取的前25个碱基中最多有两个不匹配的所有对齐。这个想法是允许RSEM来决定哪些对齐最有可能是正确的,而不是给对齐者这个责任。由于RSEM比read aligners使用更详细的RNA-Seq读取生成过程模型,这导致了更准确的估计。最后,为了减少RSEM的运行时间和内存使用,有必要配置对齐器来抑制具有大量有效对齐的读取(例如,> 200)的对齐报告。

原始的RSEM包只支持固定长度的SE RNA-Seq读取,而不支持质量评分信息,而新包支持多种输入数据类型。RSEM现在支持SE和PE读取以及可变长度的读取。读取可以以FASTA或FASTQ格式给出。如果读取以FASTQ格式给出,RSEM将使用质量分数数据作为其统计模型的一部分。如果没有提供质量分数,RSEM使用我们之前描述的位置相关的误差模型[7.]。

读取对齐后,RSEM使用期望最大化(EM)算法为其统计模型计算ML丰度估计数(见方法)。有很多选项可以指定RSEM使用的模型,应该根据产生输入读取的RNA-Seq协议进行定制。例如,如果使用特定于链的协议,则- 特定于特定于选项应该指定。否则,假定一个读有相等的可能性来自意义或反义方向。片段长度分布由——片段长度选择的家庭选择对于SE分析尤为重要。对于PE分析,RSEM了解数据的片段长度分布。如果协议产生高度5'或3'偏置的读取位置分布,那么- rspd选项应该指定,以便RSEM可以估计读起始位置分布(RSPD),这可能允许更准确的丰度估计[7.]。

除了计算ML丰度估计之外,RSEM还可以使用其模型的贝叶斯版本,以产生每种基因和同种型的丰富的PME和95%CI。这些值由Gibbs采样(参见方法)计算,并且可以通过指定来获得——calc-ci选项。95%的CIS对于评估样品的差异表达,特别是对于重复基因或同种型,因为CIS由于随机采样效果和读取映射歧义而捕获不确定性。我们建议使用CIS与差异表达式工具的结果结合使用,该工具目前不会考虑来自多欧分配的方差。可以使用PME值代替ML估计,因为它们非常相似,但具有通常包含在95%CIS内的方便性,这有时不是小ML估计的情况。

RSEM的主要输出包括两个文件,一个用于异构级估计,另一个用于基因级估计。就两项措施提供了丰富的估计。首先是估计来自给定同植物或基因衍生的片段的数量。我们只能估计这个数量,因为读数通常不会唯一地映射到单个成绩单。该计数通常是非整数值,并且是给予ML丰度的同种型或基因衍生自同种型或基因的可接近和未过滤片段的数量的期望。这些(可能圆形)计数可以由差异表达方法(如Edger)使用[9.]或Deseq [8.]。丰度的第二个度量是由一个给定的亚型或基因组成的转录本的估计部分。这个度量值可以直接作为0到1之间的值使用,也可以乘以106.在每百万(TPM)的转录物方面获得措施。在流行的RPKM上,转录物分数测量是优选的[18]和fpkm [6.],因为它独立于平均表达的转录本长度,因此更具有跨样本和物种的可比性[7.]。

可视化

RSEM可以为基因组浏览器中的曲目产生两个不同的RNA-SEQ数据可视化的输出,例如UCSC基因组浏览器[31]。当指定--out-BAM选项时,RSEM将读取对齐从转录到基因组坐标映射,并输出BAM格式的结果对齐[30.]。BAM文件中的每一个对齐(使用MAPQ字段)都根据它是真正对齐的概率进行加权(给定RSEM学习到的ML参数)。在基因组浏览器中可视化BAM文件使用户能够看到所有的读取对齐和RSEM分配给它们的后向概率。可以进一步处理BAM文件RSEM-BAM2WIG.编程生成UCSC的WIG格式文件,其给出了ML参数给出了与每个基因组位置重叠的预期读数。Wiggle可视化对于查看跨成绩单读取的分布非常有用。UCSC基因组浏览器中的BAM和WIG可视化的示例如图所示2。为了生成可视化,必须为参考准备脚本提供GTF格式化的注释文件,以便读取对齐可以映射回基因组坐标。

图2
图2.

在UCSC基因组浏览器中的RSEM可视化。在UCSC基因组浏览器中,从鼠标RNA-SEQ数据集SRR065546的RSEM输出的示例可视化。(a)蠕动输出的同时可视化,其给出了基因组中的每个位置的预期读取深度,以及BAM输出,这使得概率加权读取对准。在BAM轨道中,配对读数通过薄的黑线连接,读取的黑暗表示其对准的后验概率(黑色意义高概率)。(b)预期读取深度(顶部轨道)的示例基因从无唯一映射计算的读取深度仅读取(底部轨道)。

为了帮助诊断RNA-Seq数据生成或量化中的潜在问题,RSEM还允许从给定样本中学习到的测序模型的可视化。这是通过运行RSEM-绘图模型关于产出的计划RSEM - 计算表达式。许多地块是由RSEM-绘图模型,包括学习到的片段和读长分布、RSPD和测序错误参数。SRA实验SRX018974为RNA-Seq数据集生成的三个图[25]在附加文件中显示1

模拟

RSEM还允许根据其所基于的生成模型对RNA-Seq数据集进行模拟(参见方法)。仿真结果由RSEM-SIMULES-读取程序,其作为输入丰度估计,测序模型参数和参考转录物(由rsem-prepare-reference)。通常,通过在真实数据集上运行RSEM获得丰度估计和排序模型,但也可以手动设置它们。

结果与讨论

与相关工具的比较

为了评价RSEM,我们将其性能与一些相关的定量方法进行了比较。我们比较了IsoEM (v1.0.5) [4.]袖扣(v1.0.1)[6., rQuant (v1.0) [2], RSEM的原始实现(v0.6) [32]。味噌(3.],它使用类似于RSEM、IsoEM和Cufflinks的概率模型,因为它目前只计算每个基因的替代剪接形式的相对频率,而不是全局转录片断,所以没有被包括在比较中。为了公平起见,我们只对袖扣进行了量化分析。也就是说,它被配置为计算我们提供给所有方法的一组基因注释的丰度估计数,并且不被允许预测新的转录本。袖扣和rQuant都需要读取到基因组序列,我们使用TopHat [24] 以此目的。TOPHAT被提供有基因注释和平均片段长度,并且不允许预测新颖的剪接连接。对于RSEM和ISOEM,需要对转录序列进行对齐,我们使用了Bowtie [29]。由于有限的“金标”数据,评估RNA-SEQ量化方法的准确性,我们测试了模拟和实际数据的方法。在模拟数据上,我们还测量了方法的计算性能(以时间和内存)。

模拟数据

由于没有发表RNA-Seq数据模拟器,我们使用RSEM软件包中的模拟器进行了实验。该模拟器使用简单而广泛使用的RNA-Seq片段模型,从样本中转录本的所有可能起始位点统一独立地取样。模拟中使用的模型与袖链和IsoEM明确假设的模型相同,而rQuant则隐含地使用了该模型。因此,我们的模拟实验是测试当数据从它们所假定的模型生成时,各种方法的执行情况如何。我们最初尝试使用一个未发表的外部模拟软件包Flux Simulator [33),但是软件中的一些错误使我们无法使用它来完成本文的目的。

我们使用模拟器从小鼠转录组中以非链特异性的方式生成了一组2000万个RNA-Seq片段。从这些片段模拟对端读取,通过简单地抛出每对的第二次读取来构建单端读取集。使用了两个鼠标参考转录集:RefSeq注释[34] Ensembl注释[27)(见方法)。RefSeq集是保守的,平均每个基因有20852个基因和1.2个亚型。相比之下,Ensembl集有22329个基因,平均每个基因有3.4个亚型。我们已经在RSEM网站上提供了这次实验的模拟数据。

对于每个模拟集,我们通过测试方法计算丰度估计,并使用先前使用的中位数百分比(MPE),误差分数(EF)和假阳性(FP)统计数据来测量转录分数估计的准确性[7.]。MPE是来自真实值的估计值百分比的中位数。10%EF是大量估计百分比大于10%的转录物的分数。最后,FP统计是具有少于1 TPM的成绩单的分数,预测至少具有至少1个TPM的丰度。计算估计的三种估计数:(1)基因相对丰度,(2)全局同种型相对丰富,(3)基因内同种型相对丰富。

数字3.给出了RefSeq模拟集上五种方法估算丰度的误差分布,使用[4.]。桌子1给出了MPE, 10% EF,和FP比率的方法。ensemble bl模拟集的结果显示在附加文件中2。RSEM V0.6和栅栏仅在SE数据上运行,因为它们不处理PE数据。

图3
图3.

四种RNA-SEQ定量方法的准确性。RSEM、IsoEM、Cufflinks和rQuant对模拟RNA-Seq数据估计的误差百分比分布。从PE数据得到的整体亚型和基因估计的误差分布分别如图(A)和(B)所示。SE数据的整体亚型和基因估计误差分布分别如图(C)和(D)所示。

表1应用于模拟数据的量化方法的精度措施

对于PE和SE读取,RSEM和ISOEM优于袖扣和栅格。在这两对方法之间的性能方面可能有两种主要原因。首先,袖扣和栅栏不完全处理映射到多个基因(“基因MultieReads”)。袖扣使用“救援”-like策略进行多read的初始分数分配,这大致相当于RSEM和ISOEM使用的EM算法的一次迭代。至于栅栏,从[2这种方法是否和如何处理基因多读。造成这种表现差距的第二个原因是,袖链和rQuant需要将读序列与基因组比对,而不是与转录组比对。正如我们在实施部分所讨论的,将RNA- seq读到基因组序列的比对对于真核生物来说是一个挑战,因为它们的RNA转录本是拼接和聚腺苷化的。

在RefSeq和ensemble bl集合中,方法的相对性能是相似的,尽管Cufflinks在ensemble集合中有令人惊讶的低精度。对Cufflinks结果的进一步检查显示,这种方法在一个转录本子集上产生了异常高的丰度估计。这个子集包括比平均片段长度(280个碱基)更短的转录本(不包括poly(A)尾巴),这表明袖链的当前实现不能正确处理短转录本。

对于PE数据,RSEM和IsoEM可以比较,但是对于SE数据,RSEM稍微准确一些。与IsoEM相比,RSEM的这一相对较小的改进可能是由于对poly(a)尾部处理的更详细的实现,这在IsoEM的原始版本中并不存在,直到最近才引入到其软件中。当前版本的RSEM对RSEM v0.6的改进是由于对SE数据的片段长度建模,这最初是由[4.]以提高准确性。

MAQC数据

在实际数据上基准测试RNA-SEQ定量方法是挑战,因为我们很少知道样品中的“真实”转录物丰富。目前,QRT-PCR似乎是制作“黄金标准”丰富测量的最流行的技术,尽管没有仔细的实验​​设计和数据分析,它可以给出不准确的结果[35]。虽然RNA-SEQ通常被认为是比微阵列更准确的量化技术[1],是否还优于QRT-PCR,仍有待观察。

对于我们的测试,我们使用的数据来自微阵列质量控制(MAQC)项目中使用的样本[36],正如RNA-SEQ量化精度的许多其他研究中所做的[3738]。MAQC项目评估了多种微阵列平台和技术,包括TaqMan qRT-PCR,用于两个人类RNA样本,一个来自脑组织(HBR),另一个来自混合组织类型(UHR)。该项目的TaqMan qRT-PCR测量包括一个小子集(1000个)基因的丰度值,在两个样本的每个样本上有4个技术重复。最近,三个小组在两个MAQC样本上生成了RNA-Seq数据[253739]。

我们对每个MAQC RNA-Seq数据集应用了定量方法,并将其丰度预测值与qRT-PCR值进行了比较。所有方法均提供人类RefSeq基因注释。在模拟实验中,Cufflinks只以量化的方式运行,TopHat只被允许映射到注释中出现的拼接节点。Cufflinks和IsoEM分别使用或不使用其序列特异性偏差校正模式,这可以提高随机六聚体引物协议生成的RNA-Seq库的定量准确性,该协议用于所有MAQC RNA-Seq数据。我们没有使用RSEM的位置特异性偏倚校正(RSPD),因为这只适用于oligo-dT引物RNA-Seq文库,该文库通常倾向于来自转录本3'端。

为了评估RNA-SEQ丰富预测与QRT-PCR测量的相似性,我们计算了丰度值对数的Pearson相关性。我们使用了日志转换,以防止关联值由最丰富的成绩单主导。为避免零问题,仅计算QRT-PCR和所有方法预测的那些基因的相关值。我们另外计算了每种方法的假阳性(FP),真正的正(TP),假阴性(Fn),以及真正的负(Tn)计数,其中“正”表示非零预测丰富和真理由QRT确定-PCR测量。

每个MAQC RNA-Seq样品上测试方法的相关值见表2。通常,该方法对每个样本具有相当的相关值。确认[38[侧链的偏压校正模式具有比其他方法更高的相关性,特别是在HBR样品上的预测。与袖扣不同,ISOEM的偏置校正模式对其与这些样品的QRT-PCR值的相关性没有显着影响。没有记录变换丰富计算的Spearman和Pearson相关值产生了类似的结果(附加文件3.)。这些方法的TP、FP、TN和FN计数也具有可比性(附加文件3.)。

表2使用MAQC QRT-PCR值的定量方法预测的相关性

可以通过许多因素来解释这些数据集上的方法(具有偏置校正除外的跨克链接除外)之间的清晰区别。首先,QRT-PCR测量仅在Refseq集合中仅提供1,000(5%),总共有19,005个基因。在用Refseq的注释中过滤QRT-PCR基因并具有非零丰度(参见方法),只能使用716来进行相关分析。其次,这组基因被偏向具有相对独特的序列的单同种型基因和基因,降低了这些数据的能力,将这些方法区分在同种型定量或多欧洲处理的方法中。该组中每个基因的平均同种型数量为1.1,与所有基因的1.7相比(P.<10−115,情绪的中位测试)。类似地,设定中基因的平均“可用性”(参见方法)为0.96,而所有基因为0.91(P.<10-6)。最后,qRT-PCR值的偏差,可能是由于可变的扩增效率[35],可能导致了不准确的金标准。

运行时间和内存

除了比较量化方法的准确性之外,我们还测量了它们的运行时间和内存使用情况。为此目的,我们使用了2000万片碎片的模拟鼠标Refseq数据集,其尺寸与由Illumina基因组分析仪IIX的单个车道产生的数据相当。桌子3.在SE和PE数据上列出每个方法的运行时间和峰值内存使用情况。附加文件4.给出模拟鼠标集合体集数据集的相应值。所有方法都在8 Core 2.93 GHz Linux服务器上运行,并启用了32 GB的RAM和超线程。与弓形虫对齐对转录序列集并使用RSEM的定量使用最少的内存,约为1.1 GB。袖扣和栅格的峰值内存用法是由于运行Tophat以对准对基因组的读取。这两种方法的量化程序分别需要0.4和1.6 GB的存储器上的REFSEQ数据集。ISOEM是最快的方法,但具有最大的内存要求,高达14 GB。应当注意,除了ML估计之外,该方法的运行时间不是完全相当的,因为RSEM和沟槽补充了CI,而另一种方法仅计算M1估计。

表3定量方法在SE和PE数据上的运行时间和内存使用情况

RSEM所需的运行时间和内存与读取对齐的次数成线性关系,而读取对齐的次数通常与读取的次数成正比。尽管当前版本的RSEM有一个并行EM算法,但它并不比原始版本快,原因有两个。首先,当前版本运行EM算法进行更多的迭代以提高精度。在这个数据集上,当前版本运行了4802次迭代,而旧版本运行了643次。第二,当前版本的运行时间包括计算95%可信区间的时间,这需要大量的计算,并不是原始版本的特性。

实验结果

通过将RSEM扩展到PE数据模型,并读取质量分数信息,我们开始确定这些更复杂的数据类型是否允许提高丰度估计精度。为此,我们进行了两组模拟实验。在第一组实验中,我们比较了体育阅读和体育阅读的性能。对于第二个问题,我们测试了质量分数是否提供了提高估计准确性的信息。

配对与单端读取

我们之前表明,对于SE RNA-Seq协议,在提高基因水平丰度估计的准确性方面,reads的数量比reads的长度更重要[7.]。在固定的测序通量(根据总碱基数)下,我们发现在小鼠和玉米中SE RNA-Seq分析的最佳读长都在25个碱基左右。这一结果被后来的一项研究证实[4.]。最近的研究得出了得出的结论,PE读数可以在SE读数上提供改善的估计精度,特别是对于可选的基因的同种型[3.4.]。使用RSEM立即扩展到模型PE数据,我们决定使用自己的模拟测试这些结果。

我们模拟具有四种不同配置的RNA-SEQ数据:(1)(1)2000万,35个基础SE读数,(2)2000万,70个基部SE读数,(3)2000万,35个基础PE读数,和(4)4000万35垒式读。后者三种配置在测序的碱基的数量方面给出了相同的吞吐量,因此在成本方面是最可比的,因为一个简单的经济模型,其中一个每序列数量支付。我们为人类和小鼠模拟,以及Refseq和Ensembl注释,以确定物种或注释集是否是一个因素。除了为每种配置的不同物种和注释集进行模拟,我们还模拟了且没有测序误差以评估可变读取对准灵敏度是否有影响。

桌子4.给出了从RefSeq模拟数据集计算的RSEM估计的MPE, 10% EF和FP(附加文件5.给出ENSEMBL集的相应值)。如预期的那样,随着读取的数量固定,70个基础读取比35基础读取更好地获得了更好的估计精度。确认以前的结果[3.4.],在读取数和总吞吐量固定的情况下,PE读取比SE读取提高了估计精度(与SE 70基本精度比较)。然而,在相同的测序量下,短SE reads在基因水平上提供了最高的估计精度。这一结果适用于两个物种,无论read是否包含测序错误。这些结果表明,如果主要目的是准确地估计基因的丰度,那么大量SE短reads的测序是最好的。例如,在PE 35碱基reads的Illumina车道和SE 35碱基reads的Illumina车道之间进行选择,我们的模拟显示后者将为基因水平的估计提供最好的总体量化结果。在这个场景中使用SE读取的另一个优点是,两个SE读取通道可以并行运行,而PE通道的两端当前是一个接一个地生成的。因此,使用较短的SE reads可以节省测序时间。这个结果依赖于带有片段长度分布的SE估计过程,因为SE数据不容易用于自动确定该分布。然而,这种分布通常可以提前通过其他方法获得。

表4从具有各种属性的RNA-SEQ数据集获得的精度

另一方面,如果主要关注的是单个基因中选择性剪接事件的相对频率,那么PE数据可以根据转录组提供更准确的估计。对于人类RefSeq模拟,PE数据比SE数据有更大的精度提高,这一结果可以解释为人类RefSeq注释在每个基因上平均有更多的亚型(1.6),而小鼠RefSeq注释(1.2)。这进一步得到了使用Ensembl注释的模拟结果的支持,平均每个基因有明显更多的同型异构体(人类为6.3,小鼠为3.4)。因此,对于基因经历了大量可变剪接事件的物种,PE数据可能更有利于推断这些事件的相对频率。虽然基因水平和基因内亚型水平估计的结果是清楚的,但全球亚型水平估计的结果是混合的。在某些模拟集中,SE数据比PE数据性能更好(具有相同的吞吐量),而在其他模拟集中,情况则相反。这可以用这样一个事实来解释,即亚型的全球丰度是其基因丰度和其基因内丰度的产物。因此,可以通过在其他两个水平上产生更好的丰度估计来提高整体同型丰度精度。通过更准确的基因水平估计SE数据和通过更准确的基因内亚型估计PE数据改进了全局isoform水平估计。

总体而言,我们建议研究人员在决定测序参数之前仔细考虑其RNA-SEQ实验的目标,例如读取长度和读数。虽然可以倾向于产生长和PE读取,但如果唯一的目标是基因丰富的量化,则使用较大数量的SE读取可能更具成本效率。如果目标是分析基因内同种型频率或执行诸如转录组件的非量化任务,则应优选PE读取。为了确定用特定转录机设置的定量测序策略,可以使用RSEM仿真工具。

RNA-SEQ定量的质量评分的值

我们进行了模拟实验,以确定使用质量分数(而不仅仅是读取序列本身)是否提高了RNA-Seq数据量化的准确性。采用不同的序列误差模型进行了两个SE仿真。模拟使用鼠标RefSeq转录集作为参考。在第一个模拟中,根据给定读取位置的质量分数给出的错误的理论概率,在给定读取位置引入错误。即在具有Phred质量分数的位置引入错误的概率问:是10问:/ 10。在第二仿真中,测序误差的概率给出了质量分数问:是由训练数据确定的(我们称之为“经验”模型)。对于两个模拟数据集,我们使用两种不同的模型用RSEM估计丰度:一种是考虑质量分数(“质量分数”模型),另一种是使用我们的原始误差模型,它不考虑质量分数,而是估计一个依赖于位置和基础的序列误差模型(“profile”模型)。计算了两个RSEM模型在两个模拟数据集上的丰度估计数的MPE、10% EF和FP统计值(表5.)。我们发现即使在遵循质量分数给出的理论概率之后,即使在质量分数给出的理论概率时,质量分数模型的准确性实际上与概况模型的精度毫无区别。使用Ensembl脚本集模拟相似的结果(附加文件6.)。这表明,出于从RNA-SEQ数据的定量的目的,来自Illumina的读取的质量评分提供了很少的额外信息。然而,这并不建议不需要建模测序错误。相反,这些结果表明,可以单独从读取序列中学习有效的测序误差模型。我们强调这些结果仅用于量化的任务。SNP检测等应用肯定需要考虑质量得分信息。

表5质量评分模型对量化准确性的影响

结论

我们介绍了RSEM,用于从RNA-SEQ数据进行基因和同种型水平定量的软件包。通过使用实际数据的模拟和评估,我们已经表明RSEM对其他量化方法具有卓越的性能或相当的性能。与其他工具不同,RSEM不需要参考基因组,因此应该对De Novo转录组组件进行定量。软件包具有许多其他有用的功能,用于RNA-SEQ研究人员,包括可视化输出和CI估计。此外,该软件是用户友好的,通常需要大多数命令来估计原始RNA-SEQ读取的丰富,并使用标准格式的参考签字文件。最后,RSEM的仿真模块对于确定用于量化实验的最佳测序策略是有价值的。利用该模块,我们已经确定了大量的短期读取是最适合基因级定量的,而PE读数可以改善小鼠和人记录组的基因异构型频率。

RSEM将继续开发,以便及时了解最新的测序技术和关于RNA-SEQ协议的细节的研究。未来的工作将包括将额外的偏置纳入模型,例如特定于序列的读取位置偏好[3840和特定于转录本的读取分布[41]。我们还打算增加对由ABI SOLiD序列生成的颜色空间读取和读取对齐中的indels的支持。

可用性和要求

  • 项目名:RSEM

  • 项目主页188体育投188体育投注http://deweylab.biostat.wisc.edu/rsem.

  • 操作系统:任何POSIX兼容平台(例如,Linux,Mac OS X,Cygwin)

  • 编程语言:C ++,Perl

  • 其他需求:Pthreads;领结(29]对于默认对齐模式RSEM - 计算表达式;r for.RSEM-绘图模型

  • 许可:GNU GPL。

方法

统计模型

RSEM使用的统计模型可以由图中所示的定向图形模型表示4.。与我们原始统计模型相比[7.],此模型已以四种方式扩展。首先,使用一对观察随机变量,PE读取现在建模,R.1R.2。对于SE的情况,R.2被视为一个潜在的随机变量。其次,一个或一对读取所派生的片段的长度现在被建模,并由潜在的随机变量表示F。分布F使用全局片段长度分布指定λF,它被截断和规格化,因为一个片段是从一个特定的有限长度的抄本中导出的。也就是说,在哪里一世是成绩单的长度一世。利用片段长度分布进行RNA-Seq定量是由[6.]用于配对端数据,其后由[4.]用于单端数据。

图4
图4.

RSEM使用的定向图形模型。该模型包括N一组随机变量,一个每个测序的RNA-SEQ片段。片段N,它的父转录本、长度、起始位置和方向用潜在变量表示GNFNS.NO.N分别。对于PE数据,观察到的变量(阴影圆圈)是读取的长度(),质量分数()和序列()。对于SE数据,,未被注意的。模型的主要参数由矢量给出θ,表示从每个文本中获得一个片段的先验概率。

第三个扩展允许读取的长度变化(例如454个数据)。读取的长度由观察到的随机变量表示L.(或者L.1L.2对于PE读数)。类似于片段长度模型,分布L.使用全局读取长度分布指定λR.,它被截断并规范化,给定特定的片段长度。在符号,。最后,现在将使用一次读取的质量分数来建模该读取序列的概率。读取的质量分数字符串由随机变量表示问:。为量化的目的,我们不指定问:随机变量,因为观察到并且不依赖于任何其他随机变量(即,我们只对读取其质量分数的读取的条件可能性感兴趣)。我们使用经验误差函数而不是依赖于所暗示的错误的理论概率,而不是依赖于所暗示的错误。ε。鉴于读取位置一世有质量分问:一世并且来自参考字符C,表示读取字符的条件概率R.一世P.R.一世|问:一世c) =εR.一世,问一世c)。如果质量分数不可用或不可靠,那么我们的位置和参考字符依赖的错误模型[7.] 可能用过了。

期望 - 最大限度

给定一组RNA-SEQ数据,RSEM的主要目标是计算参数的ML值,θ,在上一节中呈现的模型,其中θ一世表示片段衍生自转录物的概率一世(与θ0.表示从中可以导出没有对齐的读取的“噪声”转录物)。一旦估计,θ值转换为转录分数(我们表示τ)使用等式在哪里成绩单的有效长度是多少一世[6.[给出多聚(A)转录本和对于聚(a)+转录物,在哪里一种是poly(a)尾巴的长度。有效长度可以认为是一个片段可能开始的位置在转录序列的平均数量一世

RSEM计算近似的ML估计θ使用EM算法(详情请参阅[7.])。估计是近似的,因为对准用于限制可以导出读取的可能位置。在EM的前20个迭代(和每100次迭代)期间,碎片长度,RSPD和排序错误分布的参数以及θ。在所有其他迭代期间,只有θ参数已更新。该估算策略是对RSEM原始实施的改进,这估计了除此之外的所有参数θEM之前使用唯一映射读取。当所有的算法都停止时θ一世值≥10-7具有不到10的相对变化-3。收敛后,RSEM输出MLτ值,以及给予来自每个转录物的RNA-SEQ片段的数量的预期值,给定ML参数。

为了加快推断,会过滤掉读取大量对齐(默认情况下至少200个)的数据。我们另外过滤掉了可能来自poly(A)尾部的读取,因为对齐器可能不总是检测到这些读取有许多对齐。由于对齐近似和这种过滤策略,所描述的EM程序的直接应用将导致包含高度重复序列(包括poly(a)尾巴)的转录本的偏丰度估计。因此,我们对ML估计器进行了轻微的修改,以调整这种偏差。的成绩单一世,我们计算一个值m一世,是一个read (fragment)从transcript生成的概率一世不会有大量的对齐。一般来说,价值m一世这取决于片段长度分布、读长分布、RSPD、协议的链特异性以及poly(a)尾巴的长度。在EM的最大化步骤中,我们的修改是设置θ一世成正比C一世/ (纳米一世), 在哪里C一世是源自转录物的预期片段数一世N是未过滤片段的总数。

吉布斯抽样

除了计算ML估计之外,RSEM除了贝叶斯版本的模型还可以计算PME和95%的丰富。在贝叶斯模型中,θ参数被视为具有Dirichlet先前分布的潜在随机变量。Dirichlet分布的参数(α)被设置为一个,这使得前面的等效于均匀分布和最大的后验估计值θ等于ML估计。

RSEM通过两阶段采样过程计算pme和95% CIs。首先,折叠式Gibbs采样算法的一个标准应用[42用于获得采样的计数矢量集,其中每个矢量表示映射到每个转录的片段的数量。在每轮GIBBS采样算法期间,给出所有其他片段的当前映射,重新采样每个片段的真实映射。根据由EM算法计算的ML参数对每个片段的初始映射进行采样。算法运行到样本1000计数矢量。

抽样过程的第二阶段是抽样值θ给定每个计数载体从第一阶段采样。给定计数矢量,C,一个θ向量的后验分布抽样,后验分布是一个简单的狄利克雷分布α一世=C一世+ 1。每个计数向量为50θ对向量进行采样,总共得到5万个样本θ。这θ样本被转换为转录片断(τ),总结得到每个转录本丰度的PME和95% CI。

为了验证RSEM生成的CIs,我们使用小鼠RefSeq注释模拟了RNA-Seq数据集,并估算了RSEM从50%可信度到95%可信度的CIs。然后,我们计算真实丰度落在可信区间内的所有转录本中丰度至少为1 TPM(表6.)。结果表明,95%可信区间是合理准确的,并且这些区间是紧密的(因为正确预测的转录水平的比例随着可信水平的下降而下降)。用鼠标集成注释模拟的数据估计的ci不太准确(附加文件7.)。我们调查了为什么CIS在该组上不太准确,发现许多CI由于Ensembl集合中的Dirichlet之前和较大数量的转录物而向下偏置。虽然Ensembl集合的CIS没有表现出来以及Refseq集合,但我们预计它们仍然非常有用,以便在样本中比较丰度,因为CIS中的偏差应该是一致的。然而,这些结果表明,需要进一步的工作来开发能够更好地处理大量成绩单的现有分布,这些分布具有典型的RNA-SEQ数据集。

表6 RSEM信誉间隔估计的准确性

参考序列

参考转录组注释使用两个来源:UCSC Genome Browser Database中的RefSeq基因注释[26和ensemble发行版63注释[27]。用于人员和小鼠的Refseq注释的基因组版本分别构建36.1(UCSC HG18)并分别构建37(UCSC MM9)。对于人类注释,使用构建37(UCSC HG19)代替。REFSeq和Ensembl注释都被过滤以除去位于非标准染色体上的非编码基因和基因(例如,CHR1_Random和CHR5_H2_HAP1)。此外,我们鉴定了位于多重非重叠位置的少量Refseq基因,并重命名它们,使得每个基因源自独特的基因座。

模拟

RSEM采用的生成统计模型易于模拟RNA-Seq数据。除了模型的主要参数(例如,丰度,片段和读长分布,测序错误模型参数),必须提供质量评分信息来模拟读。为了模拟的目的,我们使用质量分数的一阶马尔可夫链模型为每次读取生成质量分数字符串。仿真模型的参数来自序列读取档案(Sequence Read Archive, SRA)中的真实RNA-Seq数据集。小鼠模拟参数从SRA登录SRX026632中学习,该系统由约420万个PE 35碱基序列组成,序列来自C2C12小鼠成肌细胞poly(a)+ RNA文库[3.]。对于人类模拟,我们从SRA Resciveion SRX016368学习参数,其中由MAQC UHR样本测序的〜9300万SE 35读数[37]。由于人类数据为SE reads, RSEM提供了一个片段长度分布μ= 200且σ= 29以便学习其他模型参数。但是,对于模拟,使用碎片长度分布生成人和鼠标数据μ= 280,σ= 17,用于[3.]用于类似的模拟。最后,为了模拟MRNA具有多(a)尾部的事实,我们将125附加到每个转录物的末尾。

MAQC验证

从基因表达(Geo)下载Taqman QRT-PCR测量(平台GPL4097)。对于每个样品,将基因的丰度作为将检测阈值传递给所有技术复制的所有探针的值的平均值。下列的 [37[如果75%的探针通过检测阈值,则认为基因被认为是表示的。将Geo记录中的每个基因列出的Refseq转录物放入用于基因组注释中的每个基因的Refseq access。只保留了那些Geo Resights的那些基因是保留了注释摘录的超集。这样做是为了确保RNA-SEQ估计与QRT-PCR探针的值相当,这仅保证对应于Geo记录中给出的申请。该滤波产生了一组716基因,其中656和618分别在UHR和HBR中检测。

为了分析过滤后的qRT-PCR基因在整个人类RefSeq基因集中的代表性,我们计算了每个基因的“可映射性”。对于每个亚型,我们从其序列中生成所有可能的35个碱基读取,并用Bowtie将它们与整个转录集对齐,最多允许两种不匹配。一个亚型的可映射性被计算为仅与其基因的亚型对齐的读取的部分。然后,一个基因的可映射性被计算为其亚型可映射性的平均值。

缩写

pe:

配对结束

SE:

单头

ML:

最大似然

PME:

后指的是估计

CI:

信誉间隔

迈普:

中位数百分比错误

英孚:

误差分数

FP:

假阳性

RSPD:

读起始位置分布

参考

  1. 1.

    Wang Z,Gerstein M,Snyder M:RNA-SEQ:用于转录组织的革命性工具。自然评论Genetics 2009,10:57-63。10.1038 / NRG2484

    pmed中央中科院文章PubMed谷歌学者

  2. 2.

    Bohnert r,Räqschg:rquant.web:基于RNA-SEQ的转录程序定量的工具。核酸研究2010,(38个Web服务器):W348-51。

  3. 3.

    Katz Y,Wang et,Airoldi Em,Burge CB:RNA测序实验的分析和设计,用于识别同种型调节。自然方法2010,7(12):1009-15。10.1038 / nmeth.1528

    pmed中央中科院文章PubMed谷歌学者

  4. 4.

    Nicolae M,Mangul S,Mădoiui,Zelikovsky A:估计来自RNA-SEQ数据的替代剪接同种型频率。在生物信息学的算法中,计算机科学的讲义。由:Moulton V,Singh M. Liverpool,英国:斯普林克·柏林/海德堡;2010年:202-214。

    谷歌学者

  5. 5.

    江H,Wong WH:RNA-SEQ中同种型表达的统计推论。Bioinformatics 2009,25(8):1026-1032。10.1093 / Bioinformatics / BTP113

    pmed中央中科院文章PubMed谷歌学者

  6. 6。

    通过RNA-Seq的转录本组装和定量分析,揭示了细胞分化过程中未注释的转录本和亚型转换。生物技术学报,2010,28(5):511-515。10.1038 / nbt.1621

    pmed中央中科院文章PubMed谷歌学者

  7. 7.

    Li B,Ruotti V,Stewart RM,Thomson Ja,Dewey CN:RNA-SEQ基因表达估计与读取映射不确定性。Bioinformatics 2010,26(4):493-500。10.1093 / Bioinformatics / BTP692

    pmed中央文章PubMed谷歌学者

  8. 8.

    Anders S,Huber W:序列计数数据的差异表达分析。基因组生物学2010,11(10):R106 ..

    pmed中央文章PubMed谷歌学者

  9. 9.

    罗宾逊MD,麦卡锡DJ,SMCYTH GK:Edger:用于数字基因表达数据差异表达分析的生物导体包。生物信息学2010,26:139-40。10.1093 / Bioinformatics / BTP616

    pmed中央中科院文章PubMed谷歌学者

  10. 10.

    Guttman M, Garber M, Levin JZ, Donaghey J, Robinson J, Adiconis X, Fan L, Koziol MJ, Gnirke A, Nusbaum C, Rinn JL, Lander ES, Regev A:从头开始重建小鼠细胞类型特异性转录组揭示了保守的多外显子结构。生物工程学报,2010,28(5):503-510。10.1038 / nbt.1633

    pmed中央中科院文章PubMed谷歌学者

  11. 11.

    Robertson G,Schein J,Chiu R,Corbett R,Field M,Jackman SD,Mungall K,Lee S,Okada HM,Qian JQ,Griffith M,Raymond A,Thiessen N,Cezard T,Butterfield Ys,Newsome R,Chan SK,她R,Varhol R,Kamoh B,Prabhu Al,Tam A,Zhao Y,Moore Ra,Hirst M,Marra Ma,Jones SJM,无源PA,Birol I:De Novo集装和RNA-SEQ数据分析。自然方法2010,7(11):909-12。10.1038 / nmeth.1517

    中科院文章PubMed谷歌学者

  12. 12.

    Grabherr MG,哈斯BJ, Yassour M,莱文生理改变,汤普森哒,阿米特我,Adiconis X,风扇L, Raychowdhury R,曾问,陈Z, Mauceli E, Hacohen N, Gnirke, Rhind N,迪帕尔马F, Birren BW, Nusbaum C, Lindblad-Toh K,弗里德曼N, Regev答:全身没有参考基因组转录组装配从RNA-Seq数据。生物技术学报,2011,29(7):644-52。10.1038 / nbt.1883

    pmed中央中科院文章PubMed谷歌学者

  13. 13.

    Nagalakshmi U,Wang Z,Waern K,Shou C,Raha D,Gerstein M,Snyder M:RNA测序定义的酵母基因组的转录景观。科学2008,320(5881):1344-1349。10.1126 / Science.11​​58441.

    pmed中央中科院文章PubMed谷歌学者

  14. 14.

    Marioni JC, Mason CE, Mane SM, Stephens M, Gilad Y: RNA-seq:技术重现性的评估和与基因表达阵列的比较。基因组研究2008,18(9):1509-17。10.1101 / gr.079558.108

    pmed中央中科院文章PubMed谷歌学者

  15. 15.

    Morin R,Bainbridge M,Fejes A,Hirst M,Krzywinski M,Pugh T,McDonald H,Varhol R,Jones S,Marra M:使用随机灌注cDNA和大规模平行的短读测序分析Hela S3转录组。Biotechniques 2008,45:81-94。10.2144 / 000112900

    中科院文章PubMed谷歌学者

  16. 16.

    Wang X, Wu Z, Zhang X: Isoform abundance inference提供了更准确的RNA-seq基因表达水平的估计。生物信息学与计算生物学,2010,8(增刊1):177-92。

    中科院文章PubMed谷歌学者

  17. 17。

    FAULKNER GJ,Forrest Arr,Chalk Am,Schroder K,Hayashizaki Y,Carninci P,Hume Da,Grimmond SM:用于多映射短序列标签的救援战略通过笼子改进转录活动的调查。基因组学2008,91(3):281-8。10.1016 / J.YGENO.2007.11.003

    中科院文章PubMed谷歌学者

  18. 18.

    Mortazavi A,Williams Ba,MCCue K,Schaeffer L,Wold B:通过RNA-SEQ进行映射和定量哺乳动物转录om。自然方法2008,5(7):621-8。10.1038 / nmeth.1226

    中科院文章PubMed谷歌学者

  19. 19.

    冯杰,李波,江t:从短序列读取的同种型的推理。计算生物学2011,18(3):305-21。10.1089 / cmb.201010243

    pmed中央中科院文章PubMed谷歌学者

  20. 20.

    Paşaniuc B, Zaitlen N, Halperin E:准确估计RNA-seq实验中同源基因的表达水平。计算生物学报,2011,18(3):459-68。10.1089 / cmb.2010.0259

    文章PubMed谷歌学者

  21. 21.

    Richard H, Schulz MH, Sultan M, Nürnberger A, Schrinner S, Balzereit D, Dagand E, Rasche A, Lehrach H, Vingron M, Haas SA, Yaspo ML:从RNA-Seq实验的外显子表达水平预测备选亚型。核酸研究2010,38(10):e112..

    pmed中央文章PubMed谷歌学者

  22. 22.

    Taub M,Lipson D,Speed TP:用于分配模糊的短读的方法。信息和系统的通信2010,10(2):69-82。

    文章谷歌学者

  23. 23.

    De Bona F, Ossowski S, Schneeberger K, Ratsch G:短序列reads的最佳剪接比对。2008年生物信息学,24 (16):i174 - 180。10.1093 /生物信息学/ btn300

    文章PubMed谷歌学者

  24. 24.

    Trapnell C, Pachter L, Salzberg SL:发现剪接连接与RNA-Seq。生物信息学2009,25(9):1105 - 11所示。10.1093 /生物信息学/ btp120

    pmed中央中科院文章PubMed谷歌学者

  25. 25.

    Au KF, Jiang H, Lin L, Xing Y, Wong WH: SpliceMap在RNA-seq配对数据中检测剪接连接。核酸研究,2010,38(14):4570-8。10.1093 / nar / gkq211

    pmed中央中科院文章PubMed谷歌学者

  26. 26.

    Fujita PA, Rhead B,茨威格,Hinrichs, Karolchik D,克莱恩女士,高盛M,理发师GP,克劳森H,科埃略,Diekhans M, Dreszer TR, Giardine BM,哈特RA, Hillman-Jackson J,许F, Kirkup V,库恩RM,学会了K,李CH, Meyer LR,波尔,兰尼BJ,罗KR,史密斯KE, Haussler D,肯特WJ: UCSC基因组浏览器数据库:2011年更新。核酸研究2011,(39数据库):D876-82。

  27. 27.

    Flicek P, Amode先生,巴雷尔D,比尔K,布伦特年代,陈Y,克拉珀姆P,科茨克,Fairley年代,菲茨杰拉德,戈登L,亨德里克斯米,每小时T,约翰逊N, Kahari, Keefe D,基南年代,Kinsella R, Kokocinski F, Kulesha E,拉尔森P, Longden我,麦克拉伦W, Overduin B, Pritchard B, Riat HS,里奥斯D,里奇GRS, ruffy M,舒斯特尔M, Sobral D, Spudich G,Tang YA, Trevanion S, Vandrovcova J, Vilella AJ, White S, Wilder SP, Zadissa A, Zamora J, Aken BL, Birney E, Cunningham F, Dunham I, Durbin R, Fernández-Suarez XM, Herrero J, Hubbard TJP, Parker A, Proctor G, Vogel J, Searle SMJ: ensemble BL 2011。核酸研究2011,(39数据库):D800-6。

  28. 28.

    关键词:转录组,RNA-Seq,新转录本2011年生物信息学。2011年6月21日首次在线发布

    谷歌学者

  29. 29。

    Langmead B,Trapnell C,Pop M,Salzberg SL:超快速和记忆高DNA序列对人类基因组的对准。基因组生物学2009,10(3):R25 ..

    pmed中央文章PubMed谷歌学者

  30. 30.

    Li H,Hander B,Wysoker A,Fennell T,Ruan J,Homer N,188体育投188体育投注Marth G,Abecasis G,Durbin R:序列对齐/地图格式和SAMTools。Bioinformatics 2009,25(16):2078-9。10.1093 / Bioinformatics / BTP352

    pmed中央文章PubMed谷歌学者

  31. 31.

    肯特WJ,Sugnet CW,Furey Ts,Roskin Km,Pringle Th,Zahler Am,Haussler,David:UCSC的人类基因组浏览器。基因组研究2002,12(6):996-1006。

    pmed中央中科院文章PubMed谷歌学者

  32. 32.

    李家,江H,Wong WH:在RNA-SEQ数据中以短读率建模不均匀性。Genome Biology 2010,11(5):R50 ..

    pmed中央文章PubMed谷歌学者

  33. 33.

    磁通模拟器[http://flux.sammeth.net/simulator.html.]

  34. 34.

    Pruitt KD,Tatusova T,Klimke W,Maglott Dr:NCBI参考序列:当前状态,政策和新举措。核酸研究2009,(37数据库):D32-6。

  35. 35.

    Bustin SA:为什么需要QPCR出版指南? - MIQE的情况。方法2010,50(4):217-26。10.1016 / J.YMET.2009.12.006

    中科院文章PubMed谷歌学者

  36. 36.

    Shi L,Reid Lh,Jones Wd,Shippy R,Warrington Ja,Baker Sc,Collins PJ,De Longueville F,Kawasaki Es,Lee Ky,Luo Y,Sun Ya,Willey JC,Setterquist Ra,Fischer Gm,Tong W,Draganyp,dix dj,frueh fw,goodsaid fm,赫尔曼d,jensen rv,johnson cd,lobenhofer ek,puri rk,schrf u,thierry-mieg j,王c,威尔逊m,浪漫pk,zhang l,amur s,baoW,Barbacioru CC,Lucas AB,Bertholet V,Boysen C,Bromley B,Brown D,Brunner A,Canales R,Cao XM,CEBULA TA,Chen Jj,Cheng J,Chu TM,Chudin E,Corson J,Corton JC,Chudin E,Corson J,Corton JC,Croner LJ,Davies C,Davison Ts,Delenstarr G,Deng X,Dorris D,Eklund Ac,风扇XH,方H,Fulmer-Smentek S,Fuscoe JC,Gallagher K,GE W,Guo L,Guo X,Hager J,Haje PK,Han J,Han T,Harbottle HC,Harris SC,Handwell E,Hauser Ca,Hester S,Hong H,Hurban P,Jackson Sa,Ji H,Knight Cr,Kuo WP,Leclerc Je,Levy S,Li Qz,刘c,刘y,leomardi mj,ma y,magnuson sr,maqsodi b,mcdaniel t,mei n,myklebost o,ning b,novoradovskaya n,orr ms,osborn tw,papallo a,patterson t:微阵列质量控制(MAQC)项目显示基因表达测量的间际和跨插图再现性。自然生物技术2006,24(9):1151-61。10.1038 / NBT1239.

    中科院文章PubMed谷歌学者

  37. 37.

    Bullard JH,法律e,Hansen Kd,Dudoit S:MRNA-SEQ实验中标准化和差异表达的统计方法评估。www.188bet comBMC生物信息学2010,11:94.101186 / 1471-2105-11-94

    pmed中央文章PubMed谷歌学者

  38. 38.

    Roberts A,Trapnell C,Donaghey J,RINN JL,Pachter L:通过校正片段偏差来提高RNA-SEQ表达估计。基因组生物学2011,12(3):R22 ..

    pmed中央文章PubMed谷歌学者

  39. 39.

    Wang et,Sandberg R,罗S,Khrebtukova I,张L,Mayr C,Kingsmore SF,Schroth GP,培训CB:人体组织转录组中的替代同种类调节。自然2008,456(7221):470-6。10.1038 / Nature07509.

    pmed中央中科院文章PubMed谷歌学者

  40. 40。

    Hansen KD,Brenner Se,Dudoit S:illumina转录组测序的偏见,由随机六聚集灌注引起。核酸研究2010,38(12):E131 ..

    pmed中央文章PubMed谷歌学者

  41. 41。

    Wu Z, Wang X, Zhang X: Using non-uniform read distribution models to improve isoform expression inference in RNA-Seq.中文信息学报。2011年生物信息学,27(4):502 - 8。10.1093 /生物信息学/ btq696

    中科院文章PubMed谷歌学者

  42. 42.

    刘伙伴:贝叶斯计算中的崩溃Gibbs采样器,应用于基因调节问题。美国统计协会2004,89(427):958-966。10.2307 / 2290921

    文章谷歌学者

下载参考

致谢和资助

我们感谢Victor Ruotti,Ron Stewart,Angela Elwell,以及Jennifer Bolin的反馈,以及关于RNA-SEQ协议的有价值的讨论。我们还感谢此稿件的审稿人以获得其建设性评论。BL部分由James Thomson麦克阿瑟博士和Mutgridge研究所的资助部分资助了生物学和医学中的计算和信息学研究所。NIH授予1R01HG005232-01A1部分地支持CD。

作者信息

从属关系

作者

相应的作者

对应到Colin n Dewey.

附加信息

作者的贡献

BL编写了RSEM软件,参与开发了方法学和实验,进行了计算实验,并协助撰写了论文。CD共同开发了方法和实验,并撰写了手稿。所有作者阅读并批准最终稿件。

电子辅料

作者为图片提交的原始文件

权利和权限

本文由BioMed Central Ltd.授权出版。188bet金博宝欧洲杯哪里能买球这是一篇根据知识共享署名许可(http://creativecommons.org/licenses/by/2.0)提供任何介质中的不受限制使用,分发和再现,所以提供了正确的工作。

重印和权限

关于这篇文章

引用这篇文章

RSEM:准确的转录定量从RNA-Seq数据有或没有参考基因组。www.188bet com12日,323(2011)。https://doi.org/10.1186/1471-2105-12-323

下载引用

关键词

  • 丰富的估计
  • 数向量
  • 片段长度分布
  • 读取长度分布
  • 成绩单分数
\