《高通量测序相关名词.pptx》由会员分享,可在线阅读,更多相关《高通量测序相关名词.pptx(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、高通量相关名词 Lane 也叫channel,单泳道,每条泳道包含2 列(column),每列分布有多个小区(tile)。不同的测序平台FlowCell 中所含的Lane 不一样,如HiSeq2000 是2 个flowcell,每个flowcell 中含有8 个lane;HiSeq2500 是包含2 个miniflowcell(快速运行模式)和2 个highoutputflowcell,两个模式不能同时运行,其中每个miniflowcell 包含2 个lane,每个highoutputflowcell 中包含8 个lane;Miseq 系统的flowcell 仅含有1 个lane。Cluste
2、r 簇,在Illumina 测序平台中会采用桥式PCR 方式生产DNA 簇,每个DNA 簇才能产生亮度达到CCD 可以分辨的荧光点。LaneCluster 标签,在Illumina 平台的多重测序(MultiplexedSequencing)过程中会使用Index 来区分样品,并在常规测序完成后,针对Index 部分额外进行7 个循环的测序,通过Index的识别,可以在1 条Lane 中区分12 种不同的样品。Barcode 与Index 同义,多指在RocheGSFLX454 测序平台的16SPCR 产物的测序过程中接头序列所包含的的用来区分不同样本的序列。PF%是指符合测序质量标准的簇的百
3、分比,与测序的通量相关联。IndexBarcodePF%一种序列存储格式。一个序列文件若以F AST A 格式存储,则每一条序列的第一行以“”开头,而跟随“”的是序列的ID号(即唯一的标识符)及对该序列的描述信息;第二行开始是序列内容,序列短于61nt 的,则一行排列完;序列长于61nt 的,则每行存储61nt,最后剩下小于61nt 的,在最后一行排列完;第二条序列另起一行,仍然由“”和序列的ID号开始,以此类推。Fastq 是Solexa 测序技术中一种反映测序序列的碱基质量的文件格式。第一行以“”符号开头,后面紧跟一个序列的描述信息;第二行是该序列的内容;第三行以“+”符号开头,后面可以是
4、该序列的描述信息,也可省略;而第四行是第二行中的序列内容每个碱基所对应的测序质量值。高通量测序平台产生的序列标签就称为reads。FastaFastqRead KEGG 是有关Pathway 的主要公共数据库(参考文献4,Kanehisa,2008),通过Pathway 分析能确定蛋白质参与的最主要生化代谢途径和信号转导途径。KEGG 中的pathway 是根据相关知识手绘的,这里的手绘的意思可能是指人工以特定的语言格式来确定通路各组件的联系;基因组信息主要是从NCBI 等数据库中得到的,除了有完整的基因序列外,还有没完成的草图;另外KEGG 中有一个“专有名词”KO(KEGGOrtholog
5、y),它是蛋白质(酶)的一个分类体系,序列高度相似,并且在同一条通路上有相似功能的蛋白质被归为一组,然后打上KO(或K)标签。K-mer 是指将1 条read 连续切割,挨个碱基划动得到的一系列序列长度为K 的核苷酸序列。通俗的说,就是把每条reads 连续切割变成一段段长度为K 的序列。我们给出的分析是K25,即把read 连续切割为25bp 大小的序列片段。Kmer 统计一定程度上反映了测序样本的复杂度,即测序样本中的物种丰度。物种越复杂,相同的kmer 被测到的次数就越小。KEGG(pathway)K-mer 测序得到的总碱基数与待测基因组大小的比值。如测一个物种的全基因组的重测序,基因
6、组大小约为5G,测序获得100G 的数据量,则测序深度为20。指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖率是98%,那么还有2%的序列区域是没有通过测序获得的。在de novo 测序中拼接软件基于reads 之间的overlap 区,拼接获得的中间没有gap 的序列称为Contig(重叠群)。基因组测序深度基因组覆盖率Contig 基因组denovo 测序,通过reads 拼接获得Contigs 后,往往还需要构建454Paired-end
7、库或IlluminaMate-pair 库,以获得一定大小片段(如3Kb、8Kb、10Kb、20Kb)两端的序 列。基于这些序列,可以确定一些Contig 之间的顺序关系,这些先后顺序已知的Contigs 组成Scaffold。Reads 拼接后会获得一些不同长度的Contigs。将所有的Contig 长度相加,能获得一个Contig 总长度。然后将所有的Contigs 按照从长到短进行排序,如获得Contig1,Contig2,Contig3Contig25。将Contig 按照这个顺序依次相加,当相加的长度达到Contig 总长度的一半时,最后一个加上的Contig 长度即为ContigN
8、50。举例:Contig1+Contig2+Contig3+Contig4=Contig 总长度*1/2 时,Contig4 的长度即为ContigN50。ContigN50 可以作为基因组拼接的结果好坏的一个判断标准。ScaffoldContigN50 ScaffoldN50 与ContigN50 的定义类似。Contigs 拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold 长度相加,能获得一个Scaffold 总长度。然后将所有的Scaffolds 按照从长到短进行排序,如获得Scaffold1,Scaffold2,Scaffold3Scaffold25。将Scaff
9、old 按照这个顺序依次相加,当相加的长度达到Scaffold 总长度的一半时,最后一个加上的Scaffold 长度即为ScaffoldN50。举例:Scaffold1+Scaffold2+Scaffold3+Scaffold4+Scaffold5=Scaffold 总长度*1/2 时,Scaffold5 的长度即为ScaffoldN50。ScaffoldN50 可以作为基因组拼接的结果好坏的一个判断标准。指在转录组de novo 测序时,用454 平台测序完成后组装出的结果,一个isotig 可视为一个转录本。ScaffoldN50Isotig 指转录组de novo 测序中,用454 平台
10、测序完成后组装出的结果获得的可聚类到同一个基因的转录本群。GC 含量,全基因组范围内或在特定基因组序列内的4 种碱基中,鸟嘌呤和胞嘧啶所占的比率。Insertion/Deletion,插入/缺失,在基因组重测序进行mapping 时,进行容Gap 的比对并检测可信的ShortInDel,如基因组上小片段50bp 的插入或缺失。在检测过程中,Gap 的长度为15 个碱基。IsogroupGC%InDel copynumbervariation,基因组拷贝数变异,是基因组变异的一种形式,通常使基因组中大片段的DNA 形成非正常的拷贝数量。如人类正常染色体拷贝数是2,有些染色体区域拷贝数变成1 或3
11、,这样,该区域发生拷贝数缺失或增加,位于该区域内的基因表达量也会受到影响。如果把一条染色体分成A-B-C-D 四个区域,则A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D 分别发生了C 区域的扩增及缺失,扩增的位置可以是连续扩增如A-B-C-C-D 也可以是在其他位置的扩增,如A-C-B-C-D。structurevariation,基因组结构变异,染色体结构变异是指在染色体上发生了大片段的变异。主要包括染色体大片段的插入和缺失(引起CNV 的变化),染色体内部的某块区域发生重复复制、翻转颠换、易位、两条染色体之间发生重组(inter-chromosometrans-
12、location)等。CNVSV 是指某一物种或特定细胞在特定时期/功能状态下,多样本间不同基因在mRNA 水平上表达量的差异,可通过RPKM/FPKM 值来体现。ReadsPerKilobaseperMillionmappedreadsMortazavietal.,2008,是指每1 百万个map 上 的reads 中map 到外显子的每1K 个碱基上的reads 个数。计算公式四RPKM=106C/NL/103,其中C 为唯一比对到目的基因的reads 数;N 为唯一比对到参考基因的总reads 数,L 是目的基因编码区的碱基数。RPKM 法可以消除基因长度、数据量之间的差异进行计算基因表
13、达量。alternativesplicing 大多数真核基因转录产生的mRNA 前体是按一种方式剪接产生出一种mRNA,因而只产生一种蛋白质。但有些基因产生的mRNA 前体可按不同的方式剪接,产生出两种或更多种mRNA,即可变剪接。基因表达差异RPKM可变剪切 Genefusion,将基因组位置不同的两个或多个基因中的一部分或全部整合到一起,形成新的基因,称作融合基因或嵌合体基因,该基因有可能翻译出融合或嵌合体蛋白。通过进行BLASTN/HMM 比对等查找基因归属的基因家族并添加相关功能注释。基因融合基因家族分析 Genomeannotation 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。常见的基因组注释有GO 注释、pathway 分析。CpGisland 是指DNA 上一个区域,此区域含有大量相联的胞嘧啶(C)、鸟嘌呤(G),以及使两者相连的磷酸酯键(p)。基因组中长度为300 3000bp 的富含CpG 二核苷酸的一些区域,主要存在于基因的5 区域。启动子区中CpG 岛的未甲基化状态是基因转录所必需的,而CpG 序列中的C 的甲基化可导致基因转录被抑制。基因组注释CpG 岛
限制150内