近年来NGS飞速发展,各大测序平台百花齐放,这里小翌整理了一些NGS相关基础概念,供同学们查看。
测序基础概念
NGS(下一代测序技术):又称高通量测序,以高输出量和高解析度为主要特色,能一次并行对几十万到几百万条DNA分子进行序列读取,在提供丰富的遗传学信息的同时,还可大大降低测序费用、缩短测序时间的测序技术。
Sanger法测序(一代测序):是一种利用DNA聚合酶来延伸结合在待定序列模板上的引物的测序技术。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。
基因组学(genomics):基因组学是研究生物基因组和如何利用基因的一门学问。用于概括涉及基因作图、测序和整个基因组功能分析的遗传学分支。该学科提供基因组信息以及相关数据系统利用,试图解决生物,医学,和工业领域的重大问题。
功能基因组学(Functional Genomics):又称为后基因组学(postgenomics),它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质得研究转向多个基因或蛋白质同时进行系统的研究。这是在基因组静态的碱基序列弄清楚之后转入对基因组动态的生物学功能学研究。研究内容包括基因功能发现、基因表达分析及突变检测。基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育上功能,如参与形态建成等。采用的手段包括经典的减法杂交,差示筛选,cDNA代表差异分析以及mRNA差异显示等,但这些技术不能对基因进行全面系统的分析,新的技术应运而生,包括基因表达的系统分析(Serial Analysis of Gene Expression, SAGE),cDNA微阵列(cDNA microarray),DNA 芯片(DNA chip)和序列标志片段显示(sequence tagged fragments display)
比较基因组学(Comparative Genomics):比较基因组学是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,阐明物种进化关系,及基因组的内在结构。
表观遗传学:研究在不改变DNA序列的前提下,通过某些机制引起可遗传的基因表达或细胞表现型的变化的一门遗传学分支学科。表观遗传现象包括DNA甲基化、RNA干扰、基因组印记、母体效应、基因沉默、核仁显性、休眠转座子激活和RNA编辑等。其研究内容主要包括两类:一类为基因选择性转录表达的调控,有DNA甲基化、基因印记、组蛋白共价修饰和染色质重塑;另一类为基因转录后的调控,包括基因组中非编码RNA、微小RNA、反义RNA、内含子及核糖开关等。
计算生物学:计算生物学是指开发和应用数据分析及理论的方法、数学建模、计算机仿真技术等。当前,生物学数据量和复杂性不断增长,每14个月基因研究产生的数据就会翻一番,单单依靠观察和实验已难以应付。因此,必须依靠大规模计算模拟技术,从海量信息中提取有用的数据。
基因组印记:指基因根据亲代的不同而有不同的表达。印记基因的存在能导致细胞中两个等位基因的一个表达而另一个不表达。基因组印记是一正常过程,此现象在一些低等动物和植物中已发现多年。印记的基因只占人类基因组中的少数,可能不超过5%,但在胎儿的生长和行为发育中起着至关重要的作用。基因组印记病主要表现为过度生长、生长迟缓、智力障碍、行为异常。目前在肿瘤的研究中认为印记缺失是引起肿瘤常见的遗传学因素之一。
DNA甲基化:指在DNA甲基化转移酶的作用下,在基因组CpG二核苷酸的胞嘧啶5碳位共价键结合一个甲基基团。正常情况下,人类基因组“垃圾”序列的CpG二核苷酸相对稀少,并且总是处于甲基化状态,与之相反,人类基因组中大小为100-1000 bp左右且富含CpG二核苷酸的CpG岛则总是处于未甲基化状态,并且与56%的人类基因组编码基因相关。人类基因组序列草图分析结果表明,人类基因组CpG岛约为28890个,大部分染色体每1 Mb就有5-15个CpG岛,平均值为每Mb含10.5个CpG岛,CpG岛的数目与基因密度有良好的对应关系。由于DNA甲基化与人类发育和肿瘤疾病的密切关系,特别是CpG岛甲基化所致抑癌基因转录失活问题,DNA甲基化已经成为表观遗传学和表观基因组学的重要研究内容。
宏基因组学(Metagenomic):又叫微生物环境基因组学、元基因组学。它通过直接从环境样品中提取全部微生物的DNA,构建宏基因组文库,利用基因组学的研究策略研究环境样品所包含的全部微生物的遗传组成及其群落功能。它是在微生物基因组学的基础上发展起来的一种研究微生物多样性、开发新的生理活性物质(或获得新基因)的新理念和新方法。其主要含义是: 对特定环境中全部微生物的总DNA(也称宏基因组,metagenomic)进行克隆,并通过构建宏基因组文库和筛选等手段获得新的生理活性物质;或者根据rDNA数据库设计引物,通过系统学分析获得该环境中微生物的遗传多样性和分子生态学信息。
基因定位(Gene Mapping):基因所属连锁群或染色体的测定,即所属连锁群或染色体以及基因在染色体上的位置的测定。基因定位是遗传学研究中的重要环节,基于发现一些有类似表型效应的基因紧密连锁的以及基因的位置与它们的功能相关的原理。
融合基因(Gene Fusion):将基因组位置不同的两个基因中的一部分或全部整合到一起,形成新的基因,称作融合基因,或嵌合体基因。该基因有可能翻译出融合或嵌合体蛋白。
基因表达谱(Gene Expression Profile):指通过构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,大规模cDNA测序,收集cDNA序列片段、定性、定量分析其mRNA群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱。
单核苷酸多态性(Single Nucleotide Polymorphism,SNP):SNP代表个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。不同物种、个体基因组DNA序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化,其中有些单核苷酸多态性可能与疾病有关,但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时,相对于正常组织,癌症中特异的单核苷酸变异是一种体细胞突变(somatic mutation),称做单核苷酸位点变异(SNV,Single Nucleotide Variation)。
Genotype和Phenotype:即基因型与表型。基因型又称遗传型,指生物的全部遗传物质(基因)组成。 但一般只表示个别或少数基因位点上的等位基因的组成。表型指生物体个别或少数性状以至全部性状的表现。
基因组拷贝数变异(Copy Number Variation,CNV):基因组变异的一种形式,通常使基因组中大片段的DNA形成非正常的拷贝数量。例如人类正常染色体拷贝数是2,有些染色体区域拷贝数变成1或3,该区域发生拷贝数缺失或增加,位于该区域内的基因表达量也会受到影响。如果把一条染色体分成A-B-C-D四个区域,则A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分别发生了C区域的扩增及缺失,扩增的位置可以是连续扩增如A-B-C-C-D也可以是在其他位置的扩增,如A-C-B-C-D。CNVs广泛存在于正常个体,且相对单核苷酸多态性(SNPs)在整个基因组中覆盖的核苷酸总数至少高3倍,在遗传变异和物种进化方面具有重要意义。
基因组结构变异(Structure Variation,SV):通常是指基因组内大于1 kb的DNA片段缺失、插入、重复、倒位、易位以及DNA拷贝数目变化(CNVs)。人类基因组结构变异涉及数千片段不连续的基因组区域,含数百万DNA碱基对,可含数个基因及调控序列,多种基因功能因此缺失或改变,导致机体表型变化、疾病易感性改变或发生疾病。对基因组结构变异的研究,有助于用动态的观点全面分析基因组遗传变异得到整合的基因型,理解结构变异的潜在医学作用及机体整体功能的复杂性。文章从人类基因组结构变异的类型、研究方法, 对个体表型、疾病及生物进化的影响等方面综合阐述人类基因组结构变异的全新研究进展。
Segment Duplication:一般称为SD区域,译为重复片段倍增,是指参考基因组序列中出现DNA片段长度>1 kb的两个或两个以上拷贝,不同拷贝质检的序列同源性>90%。串联重复在人类基因多样性的灵长类基因中发挥重要作用。
测序类型相关概念
单细胞全基因组测序:单细胞全基因组测序技术是在单细胞水平对全基因组进行扩增与测序的一项新技术。其原理是将分离的单个细胞的微量全基因组DNA进行扩增,获得高覆盖率的完整的基因组之后通过外显子捕获进而高通量测序用于揭示细胞群体差异和细胞进化关系。全基因组扩增技术主要分为两种类型:一是基于热循环以PCR为基础的扩增技术,如简并寡核苷酸引物PCR(DOP-PCR)、连接反应介导的PCR(LM-PCR)、扩增前引物延伸反应(PEP)等;二是基于等温反应不以PCR为基础的扩增技术,如多重置换扩增(MDA)和基于引物酶的全基因组扩增(pWGA)。
甲基化测序:DNA甲基化是表观遗传学(Epigenetics)的重要组成部分,在维持正常细胞功能、遗传印记、胚胎发育以及人类肿瘤发生中起着重要的作用。在哺乳动物中,甲基化一般发生在CpG的胞嘧啶5位碳原子上。通过Illumina高通量测序平台,对所有富集的甲基化DNA片段进行高通量测序,研究人员能够获得全基因组范围内高精度的甲基化状态,为深入的表观遗传调控分析提供了更有利的切入点。
靶向测序:对感兴趣的基因区域设计芯片和探针,进行区域DNA富集后高精确度的序列分析,相比于全基因组和转录组测序,靶向区域测序的目标序列较少,可达到的测序深度较高,成本较低,可以获得质量较高的测序结果。该测序常用于临床上进行疾病相关致病基因和易感基因的信息获取,用于临床指导个性化治疗方案的制定。
Moleculo长测序:Moleculo方法,它的巧妙点就是可以把Illumina不算太长的序列,拼接成一个一个10 kb读长的序列,然后,再拼出基因组来。在全新的基因组组装工作中,也就是我们通常所说的“De Novo”工作中,核心的技术点,是能否得到大量的、长读长的序列。所以,得到长的读长序列,一直是做De novo工作的科学家所追求的有效技术手段。另外,长读长的序列还可以帮助科学家来确定染色体单体的基因型。Illumina标准的HiSeq/MiSeq测序方法,提供了一次给出大量序列的方法。它的序列,精度也很高,每个G的数据的测序成本也很低,但是,相对于De novo工作来说,它的读长还是不够长。举例来说,Illumina旗下的MiSeq测序仪它的测序长度是:双端各300个碱基。把这双端的300个碱基拼起来,中间交错100个碱基,可以得到一个500碱基的读长,要用500碱基读长的序列来组装一个和人类基因组大小相近的一个基因组,也就是单倍体长度为30亿个碱基长度的基因组,就相当于用筷子那么长(25厘米)的铁轨,来拼出一个京沪铁路(1300公里)。大家稍微想一想,就可以想出其中的难度。
Paired-End Sequencing 双向/双端测序:在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序。
Single-Read Sequencing单向/单端测序:首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在Flowcell上生成DNA簇,上机测序单端读取序列。
外显子测序(Whole Exon Sequencing):外显子组靶向测序采用了旨在检测出编码外显子的富集策略,是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。 外显子组包括约1%的基因组,另外还包含约85%的致病突变。对于尝试找出6800多种罕见病病因的基因研究人员而言,外显子组测序可检测出单核苷酸变异(SNV)、小部分基因插入或缺失(indel)以及罕见的新生突变,由此说明复杂疾病的遗传率。外显子组测序外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。
ChIp测序(ChIp-seq):染色质免疫共沉淀技术(Chromatin Immunoprecipitation,ChIP)也称结合位点分析法,是研究体内蛋白质与DNA相互作用的有力工具,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将ChIP与第二代测序技术相结合的ChIP-Seq技术,能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。
ChIP-Seq的原理是:首先通过染色质免疫共沉淀技术(ChIP)特异性地富集目的蛋白结合的DNA片段,并对其进行纯化与文库构建;然后对富集得到的DNA片段进行高通量测序。研究人员通过将获得的数百万条序列标签精确定位到基因组上,从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。
基因组重测序(Genome Re-sequencing):全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。
De novo测序:也称为从头测序,其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。
RNA测序(RNA-Seq):又称转录组测序,是基于第二代测序技术的转录组学研究方法:首先提取生物样品的全部转录的RNA,然后反转录为cDNA后进行的二代高通量测序,在此基础上进行片段的重叠组装,从而可得到一个个的转录本。进而可以形成对该生物样品当前发育状态的基因表达状况的全局了解。进一步说,若和下一阶段的生物样品的RNA-Seq转录组进行比较,则可以得到全部的(在转录层面)基因表达的上调及下调--这就形成了表达谱,针对关键基因则可以形成你要想要的pathway的构建。
mRNA测序(mRNA-seq):即研究特定细胞在某一功能状态下所能转录出来的mRNA的类型与拷贝数。对于真核生物,用带有Oligo(dT)的磁珠富集mRNA,对于原核生物,用试剂盒去除rRNA,向得到的mRNA中加入Fragmentation Buffer使其片断成为短片段,再以片断后的mRNA为模板,用六碱基随机引物(random hexamers)合成cDNA第一链,并加入缓冲液、dNTPs、RNase H 和DNA polymerase I 合成cDNA第二链,之后参照DNA文库构建的步骤,完成整个文库制备工作。mRNA测序(mRNA-Seq)是针对分析疾病状况、生物过程及广泛研究设计中的转录组的首选方法。mRNA-Seq不仅可提供极为准确且高灵敏度的量化基因表达,还可识别已知的和新的转录异构体、基因融合和其他特征及等位基因特异性表达。mRNA-Seq可提供编码转录组的完整视图,而并不受限于先验知识。
单细胞mRNA测序:即测定单个细胞mRNA信息的测序方法。单细胞mRNA文库的难点在于:PCR偏差和rRNA去除。目前市场主要有2种建库方法,分别是Clontech公司推出的SMART法,和EpiCentre公司推出的TargetAmp方法。
小RNA测序(Small RNA-seq):Small RNA(miRNAs、siRNAs和 pi RNAs)是生命活动重要的调控因子,在基因表达调控、生物个体发育、代谢及疾病的发生等生理过程中起着重要的作用。Illumina能够对细胞或者组织中的全部Small RNA进行深度测序及定量分析等研究。实验时首先将18-30 nt范围的Small RNA从总RNA中分离出来,两端分别加上特定接头后体外反转录做成cDNA再做进一步处理,利用测序仪对DNA片段进行单向末端直接测序。
微小RNA测序(microRNA-seq,miRNA-seq):成熟的miRNA是由18-25个核苷酸组成的单链非编码RNA,主要通过与靶miRNA结合使其降解或抑制其翻译,从而达到调控基因表达、细胞生长、发育等生物学过程的目的。基于第二代测序技术的miRNA测序,可以一次性获得数百万条miRNA序列,能够快速鉴定出不同组织、不同发育阶段、不同疾病状态下已知和未知的miRNA及其表达差异,为研究miRNA对细胞进程的作用及其生物学影响提供了有力工具。
RIP测序(RNA Immunoprecipitation-sequence,RIP-seq):RIP是研究细胞内RNA与蛋白结合情况的技术,是了解转录后调控网络动态过程的有力工具,能帮助我们发现miRNA的调节靶点。这种技术运用针对目标蛋白的抗体把相应的RNA-蛋白复合物沉淀下来,然后经过分离纯化就可以对结合在复合物上的RNA进行测序分析,此测序分析过程则称为RIP-seq。
RIP可以看成是普遍使用的染色质免疫沉淀ChIP技术的类似应用,但由于研究对象是RNA-蛋白复合物而不是DNA-蛋白复合物,RIP实验的优化条件与ChIP实验不太相同(如复合物不需要固定,RIP反应体系中的试剂和抗体绝对不能含有RNA酶,抗体需经RIP实验验证等等)。RIP技术下游结合microarray技术被称为RIP-Chip,帮助我们更高通量地了解癌症以及其它疾病整体水平的RNA变化。
紫外交联免疫沉淀结合高通量测序(crosslinking-immunprecipitation and high-throughput sequencing,HITS-seq):HITS- seq又称为CLIP-seq,是一项在全基因组水平揭示RNA分子与RNA结合蛋白相互作用的革命性技术。其主要原理是基于RNA分子与RNA结合蛋白在紫外照射下发生耦联,以RNA结合蛋白的特异性抗体将RNA-蛋白质复合体沉淀之后,回收其中的RNA片段经添加接头、RT-PCR等步骤,对这些分子进行高通量测序,再经生物信息学的分析和处理、总结,挖掘出其特定规律,从而深入揭示RNA结合蛋白与RNA分子的调控作用及其对生命的意义。
测序文库相关概念
DNA文库制备:文库制备(Library Preparation)的原理就是在不同来源的DNA片段两端连上特定序列的接头,以符合高通量平台的读取要求。一般步骤包括:DNA片段化—末端修复—A尾添加—接头连接—分选纯化等步骤。
RNA文库制备:RNA文库制备一般步骤包括:RNA逆转录为双链cDNA—DNA片段化—末端修复—A尾添加—接头连接—分选纯化等步骤。即将RNA逆转录为DNA后,进行建库测序。
Tn5转座子的建库方法:执行转座功能的酶,通常由转座子编码,识别转座子两端的特异序列,能把转座子从相邻序列中脱离出来,再插入到新的DNA靶位点,无同源性要求。采用转座子随机插入并将基因组DNA打断成长度大小为300 bp左右的片段,同时将测序所需的Adaptor直接在插入打断的同时构建到片段的两端,所得产物即可经PCR扩增(可选)完成文库构建。
Mate-Pair文库:制备一些短的DNA片段,这些片段包含基因组中较大跨度(2-10 kb)片段两端的序列,更具体地说:首先将基因组DNA随机打断到特定大小(2-10 kb范围可选);然后经末端修复,生物素标记和环化等实验步骤后,再把环化后的DNA分子打断成400-600 bp的片段并通过带有链亲和霉素的磁珠把那些带有生物素标记的片段捕获。这些捕获的片段再经末端修饰和加上特定接头后建成mate-pair文库,然后上机测序。
甲基化测序文库:常用重亚硫酸盐方法。原理是:在DNA按照常规建库步骤,加完接头以后,用重亚硫酸处理,将基因组中未发生甲基化的C碱基转化成U,进行PCR扩增后变成T,这样得到的文库与原本具有甲基化修饰的C碱基区分开来。
方向性RNA文库(链特异性):指在构建测序文库时,将mRNA链的方向信息保存到测序文库中。测序后的数据分析可确定转录本是来自正义还是反义DNA链。与普通转录组测序相比,它更能准确地统计转录本的数量和确定基因的结构,同时可以发现更多的反义转录本,目前被广泛地应用于研究基因结构和基因表达调控等领域范围。其中用的普遍的是掺U法(dUTP)。
生信分析相关概念
PE reads:即paired-end reads。reads(读长)是高通量测序中一个反应获得的测序序列。
在测序过程中,一条DNA分子的两端都可以测序.先测其中的一端,获得一个reads,然后再转到另一端测序,获得另外一个reads,得到的这两个reads就是PE reads。
测序中的Q20,Q30:基因高通量测序中,每测一个碱基会给出一个相应的质量值,这个质量值是衡量测序准确度的。20的错误率为1%,30的错误率为0.1%。行业中Q20与Q30则表示质量值≧20或30的碱基所占百分比。例如一共测了1G的数据量,其中有0.9G的碱基质量值大于或等于20,那么Q20则为90%。
Q20值是指的测序过程碱基识别(Base Calling)过程中,对所识别的碱基给出的错误概率。
质量值是Q20,则错误识别的概率是1%,即错误率1%,或者正确率是99%;
质量值是Q30,则错误识别的概率是0.1%,即错误率0.1%,或者正确率是99.9%;
质量值是Q40,则错误识别的概率是0.01%,即错误率0.01%,或者正确率是99.99%。
测序深度:指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2 M,测序深度为10X,那么获得的总数据量为20 M。(测序深度=总数据量20 M/基因组大小2 M=10×)。
测序覆盖度:指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。
Contig:拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。(由reads通过对overlap区域拼接组装成的没有gap的序列段。)
Contig N50:Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig 3,,,,,,Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。举例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度×1/2时,Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。
Scaffold:基因组de novo测序(没有参考基因组的测序,需要研究人员从头拼接得到的序列),通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3 kb、6 kb、10 kb、20 kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。
Scaffold N50:Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3,,,,,,Scaffold 25。将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50。举例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时,Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。
Reads:高通量测序平台产生的序列就称为reads。
Raw Reads:原始下机数据称为Raw Reads。
Clean Reads:通过生物信息的方法,去除一些质量差的reads,得到Clean Reads,常包括去除由于测序仪器硬件原因产生的信号强度极端的reads;去除总体质量偏低的reads,即Q=20碱基比例小于50%的reads,其中,Q=-10logerror_ratio;去除3’端质量Q低于10的碱基,即碱基错误率为0.1;去除reads中含有的模糊的N碱基,可能是由于测序荧光强度不够造成;去除reads中含有的接头序列;去除长度小于20的reads等。
Mapped Reads:比对到参考基因组上的Reads称为Mapped Reads。Mapped Reads占Clean Reads的百分比,可以评估所选参考基因组组装是否能满足信息分析的需求。
RPKM:在衡量基因表现量时,若是单纯以map到的read数来计算基因的表现量,在统计上是一件相当不合理事,因为在随机抽样的情况下,序列较长的基因被抽到的机率本来就会比序列短的基因较高,如此一来,序列长的基因永远会被认为表现量较高,而错估基因真正的表现量,所以Ali Mortazavi等人在2008年提出以RPKM在估计基因的表现量。
RPKM是Reads Per Kilobase per Million mapped reads的缩写,代表每百万reads中来自于某基因每千碱基长度的reads数。
假设一基因体只有两个基因,一个9 kb,一个1 kb,如今有一sample,其map 到9 kb 的read 有18 million个,map 到1 kb 的有2 million个:
对于9 kb 的基因而言,Total exon reads=18 million,Mapped reads=18+2=20 million,Exon length=9 kb,RPKM=18million/(20×9)=0.1×106=105;
对于1 kb 的基因而言,Total exon reads=2 million,Mapped reads=18+2=20 million,Exon length=1 kb
RPKM =2million/(20×1)=0.1×106=105;
由此我们可以知道这两个基因表现量没有差别。
FPKM:Fragments Per Kilobase Million是将Map到基因的Fragments数除以Map到Genome的所有Read数(以Million为单位)与RNA的长度(以kb为单位),也是衡量基因表现量的参数。FPKM计算的是片段(Fragments),而RPKM计算的是数据(Reads)。Fragment比Read的含义更广,因此FPKM包含的意义也更广,可以是Pair-end的一个Fragment,也可以是一个Read。RPKM的诞生是针对SE测序,FPKM则是在PE测序上对RPKM的校正。
转录本重构:用测序的数据组装成转录本。有两种组装方式:1. de-novo构建;2. 有参考基因组重构。其中de-novo组装是指在不依赖参考基因组的情况下,将有overlap的reads连接成一个更长的序列,经过不断的延伸,拼成一个个的contig及scaffold。常用工具包括velvet,trans-ABYSS,Trinity等。有参考基因组重构,是指先将read贴回到基因组上,然后在基因组通过reads覆盖度,junction位点的信息等得到转录本,常用工具包括scripture、cufflinks。