测序常用名词解释整理.pdf
《测序常用名词解释整理.pdf》由会员分享,可在线阅读,更多相关《测序常用名词解释整理.pdf(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、高通量测序领域常用名词解释大全高通量测序领域常用名词解释大全什么是高通量测序?什么是高通量测序?高通量测序技术 (High-throughput sequencing, HTS) 是对传统 Sanger 测序 (称为一代测序技术) 革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。什么是什么是 SangerSanger 法测序(一代
2、测序)法测序(一代测序)Sanger 法测序利用一种 DNA 聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP), 并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。 由于 ddNTP 缺乏延伸所需要的 3-OH 基团, 使延长的寡聚核苷酸选择性地在 G、A、T 或 C 处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs 和 ddNTPs 的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分
3、离大小不同的片段,凝胶处理后可用 X-光胶片放射自显影或非同位素标记进行检测。什么是基因组重测序(什么是基因组重测序(Genome Re-sequencingGenome Re-sequencing)全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。水平上进行差异性分析的方法。随着基因组测序成本的不断降低, 人类疾病的致病突变研究由外显子区域扩大到全基因组范围。 通过构建不同长度的插入片段文库和短序列、 双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、
4、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。什么是什么是 de novode novo 测序测序dede novonovo 测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展, 基因组测序所需的成本和时间较传统技术都大大降低, 大规模基因组测序渐入佳境
5、,基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。测序名词关系图测序名词关系图什么是什么是 fragmentsfragmentsfragments 就是打成的片段,而测序测的就是这些fragments,测出来的结果就是 reads,又可以分为单端侧和双端侧,单端测序的话,只是从fragments 的一端测序,测多长 read 就多长,双端测序就是从一个 fragments 的两端测,就会得出两个 reads什么是什么是 ReadsReads高通量测序平台产生的序列就称为 reads。(测序
6、读到的碱基序列片段,测序的最小单位;)什么是什么是 ContigContig拼接软件基于 reads 之间的 overlap 区, 拼接获得的序列称为 Contig (重叠群重叠群) 。(由 reads 通过对 overlap 区域拼接组装成的没有没有 gapgap 的序列段;)什么是什么是 Contig N50Contig N50Reads 拼接后会获得一些不同长度的 Contigs。将所有的 Contig 长度相加, 能获得一个 Contig 总长度。然后将所有的 Contigs 按照从长到短进行排序,如获得Contig 1,Contig 2,Contig 3.Contig 25。将 Co
7、ntig 按照这个顺序依次相加,当相加的长度达到Contig 总长度的一半时,最后一个加上的Contig长度即为 Contig N50。举例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度*1/2 时,Contig 4 的长度即为 Contig N50。Contig N50 可以作为基因组拼接的结果好坏的一个判断标准。什么是什么是 ScaffoldScaffold基因组 de novo 测序(没有参考基因组的测序,需要研究人员从头拼接得到的序列),通过 reads 拼接获得 Contigs 后,往往还需要构建 454 Paired-end 库或I
8、llumina Mate-pair 库,以获得一定大小片段(如 3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些 Contig 之间的顺序关系,这些先后顺序已知的 Contigs 组成 Scaffold。(通过 pair ends 信息确定出的 contigcontig 排列,中间有排列,中间有 gapgap)什么是什么是 Scaffold N50Scaffold N50Scaffold N50 与 Contig N50 的定义类似。Contigs 拼接组装获得一些不同长度的 Scaffolds。将所有的 Scaffold 长度相加,能获得一个 Scaffold 总长
9、度。然后将所有的 Scaffolds 按照从长到短进行排序, 如获得 Scaffold 1, Scaffold 2,Scaffold 3.Scaffold 25。将 Scaffold 按照这个顺序依次相加,当相加的长度达到 Scaffold 总长度的一半时,最后一个加上的 Scaffold 长度即为Scaffold N50。 举例: Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold5=Scaffold 总长度*1/2 时, Scaffold 5 的长度即为 Scaffold N50。 Scaffold N50可以作为基因组拼接的结果
10、好坏的一个判断标准。什么是测序深度和覆盖度什么是测序深度和覆盖度测序深度测序深度: 是指测序得到的总碱基数与待测基因组大小的比值。 假设一个基因大小为 2M,测序深度为 10X,那么获得的总数据量为 20M。覆盖度覆盖度:是指测序获得的序列占整个基因组的比例。GapGap:由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为。例如一个细菌基因组测序,覆盖度是 98%,那么还有 2%的序列区域是没有通过测序获得的。什么是什么是 RPKMRPKM、FPKMFPKMRPKM,Reads Per Kilobase of exon
11、model per Million mapped reads, is definedin thisway Mortazavi etal., 2008:每每 1 1 百万个百万个 mapmap 上的上的 readsreads 中中 mapmap 到外显子的每到外显子的每 1K1K 个碱基上的个碱基上的 readsreads 个数。个数。假如有 1 百万个 reads 映射到了人的基因组上,那么具体到每个外显子呢,有多少映射上了呢,而外显子的长度不一,那么每 1K 个碱基上又有多少 reads 映射上了呢,这大概就是这个 RPKM 的直观解释。如果对应特定基因的话,那么就是每如果对应特定基因的话,
12、那么就是每 1000000 mapped1000000 mapped 到该基因上的到该基因上的 readsreads 中每中每kbkb 有多少是有多少是 mappedmapped 到该基因上的到该基因上的 exonexon 的的 readreadTotal exon reads:This is the number in the column with header Totalexonreads in the row for the gene. This is the number of reads that havebeenmapped to a region in which an exo
13、n is annotated for the gene or acrosstheboundaries of two exons or an intron and an exon for an annotatedtranscript ofthe gene. For eukaryotes, exons and their internalrelationships are defined byannotations of type mRNA.映射到外显子上总的 reads 个数。 这个是映射到某个区域上的 reads 个数, 这个区域或者是已知注释的基因或者跨两个外显子的边界或者是某个基因已经注释
14、的转录本的内含子、外显子。对于真核生物来说,外显子和它们自己内部的关系由某类型的 mRNA 来注释。Exonlength: This is thenumber in thecolumn with theheader Exon lengthinthe row for the gene, divided by 1000. This is calculated as the sumof thelengths of all exonsannotated for the gene. Each exonis includedonly once inthis sum, even if it is prese
15、nt in more annotated transcriptsfor the overlapping exons will count with their full length, even thoughtheyshare the same region.外显子的长度。计算时,计算所有某个基因已注释的所有外显子长度的总和。即使某个基因以多种注释的转录本呈现,这个外显子在求和时只被包含一次。即使部分重叠的外显子共享相同的区域,重叠的外显子以其总长来计算。Mapped reads: The sum of all the numbers in the column with headerTota
16、lgene reads. The Total gene reads for a gene is the total numberofreads that after mapping have been mapped to the region of the gene.Thus thisincludes all the reads uniquely mapped to the region of the geneas well asthose of the reads which match in more places (below the limitset in thedialog in f
17、igure that have been allocated tothis genes region.A genes region is that comprised of the flanking regions(if it wasspecified in figure , the exons, the introns andacross exon-exonboundaries of all transcripts annotated for the gene. Thus,the sum of thetotal gene reads numbers is the number of mapp
18、ed reads for thesample (youcan find the number in the RNA-Seq report).map 的 reads 总和。映射到某个基因上的所有reads 总数。 因此这包含所有的唯一映射到这个区域上的 reads。举例:比如对应到该基因的 read 有 1000 个,总 reads 个数有 100 万,而该基因的外显子总长为 5kb, 那么它的 RPKM 为: 109*1000(reads 个数)/106(总 reads个数)*5000(外显子长度)=200 或者:1000(reads 个数)/1(百万)*5(K)=200 这个这个值反映基因的
19、表达水平。值反映基因的表达水平。FPKM(fragments per kilobase of exon per million fragments mapped). FPKM与 RPKM 计算方法基本一致。不同点就是 FPKMFPKM 计算的是计算的是 fragmentsfragments,而,而 RPKMRPKM 计计算的是算的是 readsreads。FragmentFragment 比比 readread 的含义更广,因此的含义更广,因此 FPKMFPKM 包含的意义也更广,包含的意义也更广,可以是可以是 pair-endpair-end 的一个的一个 fragmentfragment,
20、也可以是一个,也可以是一个 readread。什么是什么是 soft-clipped readssoft-clipped reads当基因组发生某一段的缺失,或转录组的剪接,在测序过程中,横跨缺失位点当基因组发生某一段的缺失,或转录组的剪接,在测序过程中,横跨缺失位点及剪接位点的及剪接位点的 readsreads 回帖到基因组时,一条回帖到基因组时,一条 readsreads 被切成两段,匹配到不同的被切成两段,匹配到不同的区域,这样的区域,这样的 readsreads 叫做叫做 soft-clipped readssoft-clipped reads,这些,这些 readsreads 对于鉴
21、定染色体结对于鉴定染色体结构变异及外源序列整合具有重要作用。构变异及外源序列整合具有重要作用。什么是什么是 multi-hits readsmulti-hits reads由于大部分测序得到的由于大部分测序得到的 readsreads 较短,一个较短,一个 readsreads 能够匹配到基因组多个位置,能够匹配到基因组多个位置,无法区分其真实来源的位置。一些工具根据统计模型,如将这类无法区分其真实来源的位置。一些工具根据统计模型,如将这类 readsreads 分配给分配给readsreads 较多的区域。较多的区域。什么是外显子测序(什么是外显子测序(whole exon sequenci
22、ngwhole exon sequencing)外显子组测序是指利用序列捕获技术将全基因组外显子区域外显子组测序是指利用序列捕获技术将全基因组外显子区域 DNADNA 捕捉并富集后捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的对研究已知基因的 SNPSNP、IndelIndel 等具有较大的优势,但无法研究基因组结构变异等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。如染色体断裂重组等。什么是什么是 mRNAmRNA 测序测序 (RNA-seqRNA-seq)
23、转录组学(转录组学(transcriptomicstranscriptomics)是在基因组学后新兴的一门学科,即研究特定细研究特定细胞在某一功能状态下所能转录出来的所有胞在某一功能状态下所能转录出来的所有 RNARNA(包括(包括 mRNAmRNA 和非编码和非编码 RNARNA)的类)的类型与拷贝数。型与拷贝数。Illumina 提供的 mRNA 测序技术可在整个 mRNA 领域进行各种相关研究和新的发现。mRNA 测序不对引物或探针进行设计,可自由提供关于转录的客观和权威信息。 研究人员仅需要一次试验即可快速生成完整的 poly-A 尾的 RNA完整序列信息,并分析基因表达、分析基因表达
24、、cSNPcSNP、全新的转录、全新异构体、剪接位点、全新的转录、全新异构体、剪接位点、等位基因特异性表达和罕见转录等最全面的转录组信息。等位基因特异性表达和罕见转录等最全面的转录组信息。 简单的样品制备和数据分析软件支持在所有物种中的 mRNA 测序研究。什么是什么是 small RNAsmall RNA 测序测序Small RNA(micro RNAs、siRNAs 和 pi RNAs)是生命活动重要的调控因子,在基因表达调控、 生物个体发育、 代谢及疾病的发生等生理过程中起着重要的作用。Illumina 能够对细胞或者组织中的全部 Small RNA 进行深度测序及定量分析等研究。实验时
25、首先将首先将 18-30 nt18-30 nt 范围的范围的 Small RNASmall RNA 从总从总 RNARNA 中分离出来,两端分中分离出来,两端分别加上特定接头后体外反转录做成别加上特定接头后体外反转录做成 cDNAcDNA 再做进一步处理后,利用测序仪对再做进一步处理后,利用测序仪对 DNADNA片段进行单向末端直接测序。片段进行单向末端直接测序。通过 Illumina 对 Small RNA 大规模测序分析,可以从中获得物种全基因组水平的 miRNA 图谱, 实现包括新新 miRNAmiRNA 分子的挖掘,分子的挖掘, 其其作用靶基因的预测和鉴定、样品间差异表达分析、作用靶基
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 常用 名词解释 整理
限制150内