首页/ 产品解读 / 新闻详情

测序数据不好?是不是建库出了问题?!——从测序数据看文库构建

高通量测序中的文库构建指的是在DNA两端连接特定的接头从而使其符合测序平台要求的过程,在高通量测序过程中,文库质量直接影响最终测序数据的质量,打个比方,如果文库上机测序的浓度很低,样本在FlowCell上扩增所形成的DNA样本簇就会很少,测序数据量也将减少,这就可能导致测序失败,所以我们说文库的质量控制和质量评估也是NGS中的关键步骤。
 

文库如何质控?
评估文库质量的方法有哪些?


 文库质控:文库在上机之前都有会进行质量检测,质量检测合格的文库才会上机测序。文库上机之前的文库质控主要包括文库片段大小和文库浓度的质控,具体质控标准和实验设计见往期推送:文库质检方案的合理设计--文库分布、文库浓度、文库质量。

▇ 文库评估:文库评估方法除了文库大小和浓度之外,还包括文库转化率、文库复杂度、均一性、准确性和覆盖度等。


      1)文库转化率:是评估文库质量的重要指标,它指的是文库中两端都连上接头的目的片段占总片段数的比值,也代表测得产量与理论最高产量之间的比值,这里的理论最高产量考虑了PCR的扩增效率问题及纯化产生的损失。计算方法如下:
 

理论最高产量=输入量×(1+PCR扩增效率)(PCR循环数)×(纯化回收率)(clean up数)
 

为什么说文库转化率是重要指标呢?这是因为只有双端都连接上接头的目的片段才能在FlowCell上面通过桥式扩增形成簇,最终完成测序过程,而不是双端都连上接头的目的片段最终都不能完成测序过程,视为无效片段,如果这样的片段过多直接影响最终输出数据的过少,甚至可能直接导致测序的失败。
 

blob.png

图1.双端带接头的DNA片段在Flowcell上扩增图
 

2)文库复杂度:指的是文库中DNA序列的复杂程度,一定的文库复杂度对后期测序数据的分析尤为重要,复杂度高的文库测序得到的数据重复读数少,可以带来更多有意义的信息,反之,低复杂度的文库在信号读取时往往产生簇信号混杂,易产生低质量的测序数据。

文库复杂度与Input样本质量、文库的转化率、文库扩增时循环数有关。当文库的转化率越高时,能从样品种捕获更多的特异分子,文库复杂度就越高;当输入样本量越低或文库扩增循环数越多时,文库中不能带来有意义信息的重复读数就会增多,则文库的复杂度越低。

 

表1.测序数据关键参数比较

Sample Input

Library Prep

Uniquely Mapped

Duplication Rate

Transcripts   Detected

Genes Detected

4 μg

A*

69%

31%

111.370

20.547

B*

76%

24%

112.136

21.016

500 μg

A*

64%

36%

109.810

20.134

B*

71%

29%

110.690

20.644


       3)均一性:指的是读取数据在基因组或目标区域的分布均一程度。其生信分析图如图2所示,一般认为覆盖越均匀,达到特定深度所需的测序数据就越少,覆盖均一性的偏向通常是在文库制备和文库扩增步骤中引入的,也就是说,覆盖均一性很多时候取决于GC含量。

blob.png

图2.测序数据均一性
 

4)准确性:

NGS文库制备的准确性越高,你对变异报告的信任程度就越高。核苷酸错误通常在PCR扩增以及测序过程中引入。测序错误通常低于1%。通过使用高保真PCR试剂,可尽量减少文库扩增的错误。NGS对照样品也有助于评估NGS流程的准确性。

blob.png

图3.PCR扩增存在一定的错配率

 

5)测序深度和覆盖度:

假设对长1000 bp的目标区域进行捕获测序,每个read长10 bp,总共得到3000个reads,把所有的reads对比到目标区域后,1000 bp的目标区域中有990 bp的位置至少有1个read覆盖到,换言之剩余的10bp没有1个read覆盖。

则此时:

测序深度(depth)3000*10/1000=30 也就是说测序深度为30*

覆盖度(coverage)990/1000*100%=99% 这次测序覆盖度为99%

 

同理:

假设对长100bp的目标区域进行捕获测序,每个read长5bp,总共得到200个reads,把所有的reads对比到目标区域后,100bp的目标区域中有98bp的位置至少有1个read覆盖到,换言之剩余的2bp没有1个read覆盖。

深度(depth)200*5/1000=10 也就是说测序深度为 10*

覆盖度(coverage)98/100*100%=98% 这次测序覆盖度为98%
 

文库构建中的哪些步骤会直接影响测序质量?
 

NGS的最终目的就是得到优秀测序数据助力于下游科学研究或实际应用,其中文库构建是测序数据的重要影响因素,文库构建一般包括以下几类步骤(以DNA为例):样本片段化、接头连接、分选/纯化、文库扩增。文库对测序数据的影响,具体到文库构建的每个步骤,参考表2。

表2.建库步骤对测序结果的影响

步骤

评估指标

对测序结果的影响

样本片段化

打断随机性

文库质量;测序数据的均一性和覆盖度

片段大小是否集中

文库浓度;测序数据覆盖度

接头连接

接头连接效率

文库转化率;文库复杂度;均一性;准确性和覆盖度

分选/纯化

片段大小的一致性

片段大小与测序仪大小不匹配将无法上机测序

回收效率

文库浓度;测序数据覆盖度

文库扩增

扩增偏好性

文库复杂度;均一性

扩增效率

文库浓度;文库复杂度


 


 

400-6111-883