《基因组学和蛋白质组学工具.ppt》由会员分享,可在线阅读,更多相关《基因组学和蛋白质组学工具.ppt(19页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基因组学和蛋白质组学工具,本科08级通信工程1班 况玲,主要内容,一、序列组装 二、功能基因组学 三、蛋白质组学,一、序列组装,研究内容:,1、怎样将散的序列拼接起来 2、如何去掉序列中重复的部分,1、怎样将散的序列拼接起来,我们知道,使用鸟枪法的DNA测序提供了成千上百万个小序列,每一个片段长度有400500个碱基对。 当基因组被提取成限制性片段时,它只是被部分提取。用于DNA样品的限制性酶数量只能够切开50%的酶切位点。这就意味着有些片段会跨过某个特殊的限制性位点,而另一些片段会在那个特定位点切开,而跨过其他的限制性位点。因此,这些限制性片段组成的克隆库会包含重叠片段。这些重叠片段正是序列
2、拼接的基础。,1、怎样将散的序列拼接起来,在得到了每个片段的序列后,序列拼接(sequence assembly)的任务就利用这些片段间的重叠,将它们拼接成原来的序列。拼接的关键问题是得到每个片段在一个长序列中的位置信息,这种组合的集合称为contig(contiguous segment)。 序列拼接问题可以抽象为最短超序列问题(Shortest Superstring Problem,SSP)。假设一个序列片段集合A=a1,a2,an,我们希望发现一个最短的序列S,A中所有的片段都是S的子序列。例如有序列集合:000,001,010,011,100,101,110,101,111,包括集合
3、中所有序列的最短超序列是:0001110100。,1、怎样将散的序列拼接起来,直接鸟枪法序列拼接: 从已测序的小片段中寻找彼此重叠的测序克隆,依次向两侧邻接的序列延伸,组装成一个完整的基因组。不需预先了解任何基因组的情况,即使缺少遗传图或物理图也可完成整个基因组顺序组装。 优点:最大优点是经济、快速、高效。 缺点:“鸟枪法”对高性能计算的方法和设备要求非常高,且无法测到人类基因组中重复出现的DNA片段,这些片段占到基因组的3%至5%,对于理解遗传性疾病具有重要意义。,1、怎样将散的序列拼接起来,Phrap算法序列拼接: 1、找出序列片段间的重叠信息。 2、将存在有重叠的片段组合起来,形成一个c
4、ontig结构。 3、形成Consensus序列(Consensus)。 优点:精确度较高。 缺点:运算时间较长且对存储空间的需求较大。,2、如何去掉序列中重复的部分,重复片段是指在目标片段中多次出现的片段。对于小规模的拼接工作例如细菌的基因组(重复序列约占全序列的15)和果蝇基因组(约占全序列的3)等,问题不明显,然而,人类基因组中含有50以上的重复序列,这就对基因组测序产生了很大的困难。 目前已经出现的很多用于shotgun片段拼接的工具,在处理重复片段时,都是采用对大量的片段数据进行反复迭代的方法,此间还需要加入很多人工的经验分析和干预。一定程度上增加了拼接所花费的时间,降低了机器的使用
5、效率。 所以,在使用过程中,我们应该选择可以屏蔽重复片段的拼接算法。,2、如何去掉序列中重复的部分,基于特征子串的重复片段屏蔽方法: DNA 序列和每一个片段序列都可以看做是字符集A,C,T,G上的字符串,每个长为k的字符串称为k-串;若它是某个片段(或序列)的一部分,则称它为此片段(或序列)的k-子串. 特征子串:当一个k-子串为某个片段的标识性信息时,称该k-子串为该片段的特征子串。 PL条件:两片段含有至少一个公共的特征子串,称之满足可能相邻(PL)条件。 经计算,k需满足条件: 其中n为要拼接片段的总数。,2、如何去掉序列中重复的部分,算法原理: 即使两个本不相邻的片段因为重复片段的原
6、因存在很长的重叠,但只要它们的特征子串均不相同,处理时就不会对它们进行比对,也就不会认为它们是相邻的。这样就达到了“屏蔽”重复片段干扰的目的,也为后续的拼接产生了有用的依据。,二、功能基因组学(functional genomics),功能基因组学的概念: 功能基因组学(Functuional genomics)又往往被称为后基因组学(Postgenomics),它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质得研究转向多个基因或蛋白质同时进行系统的研究。 功能基因组在评估和检测新药时十分有用。,二、功能
7、基因组学(functional genomics),DNA微阵列功能基因组中的新兴技术 DNA微阵列(DNA microarray)又称DNA阵列或DNA芯片,比较通俗的名字是基因芯片(gene chip)。是一块带有DNA微阵列(micorarray)涂层的特殊玻璃片,在数平方厘米之面积上安装数千或数万个核酸探针,经由一次测验,即可提供大量基因序列相关资讯。它是基因组学和遗传学研究的工具。研究人员应用基因芯片就可以在同一时间定量的分析大量(成千上万个)的基因达 的水平,具有快速、精确、低成本之生物分析检验能力 。 其中可以用来检测基因表现程度之 cDNA 微阵列(cDNA-microarra
8、y),已开始商业化,市场主要以研发实验室为主。,二、功能基因组学(functional genomics),DNA 微阵列技术的基本原理是序列特异性核酸杂交,其核心技术是逆Southern blot印迹法,即:将基因特异的探针固定在膜上,再与荧光标记的诱变物的基因组或cDNAs靶杂交。不过,点印迹通常制备在膜上,很少能超过700个基因,DNA 微阵列可以制备在玻片或硅片等片基上,点的数量和密度也高得多。 现在常用的DNA芯片有两种:cDNA阵列和原位合成的寡核苷酸阵列。 cDNA阵列是通过机械手将DNA 点样到涂层的玻片表面,点样直径为5O150um,中等尺寸的DNA芯片在3.6平方厘米上有1
9、0000个点。,二、功能基因组学(functional genomics),原位合成的寡核苷酸阵列,是将寡核苷酸合成和照相平版印刷术结合起来,紫外光通过掩罩(mask)的孔照射到玻片上控制合成,产生的DNA芯片在1.6cm 玻片表面可容纳65000400000个DNA寡核苷酸。 寡核苷酸阵列用来监控基因表达时更优越,因为可以避免与未知基因重复或同源的序列。,二、功能基因组学(functional genomics),DNA微阵列在实际中的应用: 应用微阵列技术,比较细胞间基因表达谱差异,可发现未知疾病相关基因,获得病变DNA的信息:DNA突变部位及突变类,进一步针对靶序列设计基因药物。 微阵列
10、技术也可以用于监测肿瘤相关基因的表达,能快速识别并进一步评价基因在肿瘤生物学中的作用。 许多遗传病基因为隐性基因,多数人只是携带者而不发病。利用微阵列技术,可以很方便地找出隐性致病基因携带者。,三、蛋白质组学(proteomics),蛋白质组学的概念: 蛋白质组学(Proteomics)一词,源于蛋白质(protein)与 基因组学(genomics)两个词的组合,意指“一种基因组所表达的全套蛋白质”,即包括一种细胞乃至一种生物所表达的全部蛋白质。 蛋白质组的研究不仅能为生命活动规律提供物质基础,也能为众多种疾病机理的阐明蛋白质组学及攻克提供理论根据和解决途径。,三、蛋白质组学(proteom
11、ics),蛋白质组学技术: 蛋白质组学技术的发展已经成为现代生物技术快速发展的重要支撑,并将引领生物技术取得关键性的突破。本技术平台将为客户提供蛋白组学技术服务,主要介绍双向凝胶电泳技术和等电聚焦技术。 双向凝胶电泳:双向凝胶电泳的原理是基于蛋白质的等电点不同用等电聚焦分离,按分子量的不同用SDS-PAGE分离,把复杂蛋白混合物中的蛋白质在二维平面上分开。由于双向电泳技术在蛋白质组与医学研究中所处的重要位置,它可用于致病机制及耐药机制的研究,疗效监测,新药开发,蛋白纯度检查等许多方面。近年来经过多方面改进已成为研究蛋白质组的最有使用价值的核心方法。,三、蛋白质组学(proteomics),我国在蛋白质组研究方面的成就: 虽然我国蛋白质组学研究启动不久,我国科学家已经在重大疾病(如肝癌)比较蛋白质组研究以及一些重要生理和病理体系的蛋白质组成分研究方面获得了重要成就。 在胚胎干细胞诱导向神经干细胞方向分化前后分离出了19个与定向诱导神经分化相关的蛋白; 已进行了肝癌细胞系及正常肝细胞蛋白质组的比较分析研究,发现了两者间不同的蛋白表达群。 通过蛋白质芯片技术对肺癌病人和正常人血清中的蛋白质谱的对比分析,找到了15个差异蛋白,这15个分子标志可能成为临床诊断肺癌的新指标,有重要应用价值。,Thank you!,
限制150内