第6讲基因组测序技术和基因识别精选文档.ppt
《第6讲基因组测序技术和基因识别精选文档.ppt》由会员分享,可在线阅读,更多相关《第6讲基因组测序技术和基因识别精选文档.ppt(54页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第6讲基因组测序技术和基因识别本讲稿第一页,共五十四页主要内容一、基因组测序技术二、基因识别本讲稿第二页,共五十四页一、基因组测序技术大规模DNA测序技术使全基因组的测序成为可能。现有测序仪所能测得的序列长度有限,一般500-1000bp。而基因组序列长度远大于此,必须经过下列过程才能测得:打碎测序拼接鸟枪法杂交测序法本讲稿第三页,共五十四页1、鸟枪法鸟枪法(shotgun method),也称霰弹法。将DNA分子打碎,得到长度在500-1000bp之间的小片段,对这些片段测序,然后根据他们之间的关系进行拼接,得到最终目标序列。本讲稿第四页,共五十四页序列片段覆盖待测序列序列片段覆盖待测序列序
2、列片段之间也存在着相互覆盖或者重叠。序列片段之间也存在着相互覆盖或者重叠。目标序列目标序列序列碎片序列碎片本讲稿第五页,共五十四页拼接过程以每个片段为顶点,在每个顶点之间画有向边,有向边的权值代表交叠的字符个数,方向由交叠序列前片段指向后片段。AGGTCCTAAAAGGTCCTAAAAGGTCCTAAAAGGTCCTAAA1341113本讲稿第六页,共五十四页拼接过程查找能顺箭头方向依次经过各顶点的所有通路中权值之和最大的,即为拼接后的序列。1 adbc,权值82 bcad,权值73 badc,权值54 cadb,权值105 dbca,权值8拼接结果:AGGTCCTAAA最大权的哈密顿路径问题
3、(Hamilton tour problem)AGGTCCTAAAAGGTCCTAAA1341113abcd本讲稿第七页,共五十四页2、杂交测序法杂交测序法(sequencing by hybridization,SBH)基本原理是:构建基因微阵列(microarray,也称基因芯片,gene chip),让待测序列与其反应,然后由反应获得的信息确定待测序列的局部序列,最后根据这些局部序列重构目标序列。基因微阵列(microarray,也称基因芯片,gene chip),将高密度DNA片段阵列以一定的排列方式使其附着在基片上而形成。本讲稿第八页,共五十四页AA AT AG AC TA TT T
4、G TC GA GT GG GC CA CT CG CCAAATAGACTATTTGTCGAGTGGGCCACTCGCCGCACCTGAACTGCACT目标序列:CGTGACT 互补序列:GCACTGA本讲稿第九页,共五十四页由测出的局部序列:GCAC、ACTG、CTGA、CACT,可以重构目标序列的互补序列GCACTGA,从而得到目标序列 CGTGACT。可用求最大权值的哈密顿路径的方法求解。也可用欧拉路径的方法求解,该算法较省时。本讲稿第十页,共五十四页3、拼接软件Phred、Phrap、Consed http:/www.phrap.orgSequencherContigExpress本讲
5、稿第十一页,共五十四页本讲稿第十二页,共五十四页1aggtcc2taaa3agg4tcctaaa本讲稿第十三页,共五十四页本讲稿第十四页,共五十四页本讲稿第十五页,共五十四页本讲稿第十六页,共五十四页本讲稿第十七页,共五十四页本讲稿第十八页,共五十四页本讲稿第十九页,共五十四页本讲稿第二十页,共五十四页二、基因识别二、基因识别基因基因组(genome)是指一个生物体、)是指一个生物体、细胞或病毒的整胞或病毒的整套基因。套基因。基因基因组学(学(genomics)以基因)以基因组分析分析为手段,研究基手段,研究基因因组的构成、的构成、时序表达模式和功能,并提供有关生物物序表达模式和功能,并提供有
6、关生物物种及其种及其细胞功能的胞功能的进化信息。化信息。功能基因功能基因组学研究基因和非学研究基因和非编码序列生物学功能。序列生物学功能。比比较基因基因组学通学通过生物物种基因生物物种基因组之之间的比的比较,研究基因的功,研究基因的功能。能。本讲稿第二十一页,共五十四页基因基因识别是是识别DNA序列上的具有生物学特征的序列上的具有生物学特征的片段,是基因片段,是基因组研究的基研究的基础。基因基因识别是生物信息学是生物信息学领域里的一个重要研究域里的一个重要研究内容内容 基因基因识别问题,在近几年受到广泛的重,在近几年受到广泛的重视 当人当人类基因基因组研究研究进入一个系入一个系统测序序阶段段时
7、,急需可,急需可靠自靠自动的基因的基因组序列翻序列翻译解解释技技术,以,以处理大量已理大量已测定的但未知功能或未定的但未知功能或未经注注释的的DNA序列序列 本讲稿第二十二页,共五十四页1、原核基因、原核基因识别 原核基因特点:基因密度高、原核基因特点:基因密度高、简单(绝大多数不含内含子)。其重大多数不含内含子)。其重点在于点在于识别编码区域区域 本讲稿第二十三页,共五十四页非翻非翻译区域(区域(untranslated regions,UTR)编码区域两端的区域两端的DNA,有一部分被,有一部分被转录,但是不被翻,但是不被翻译,这一一部分称部分称为非翻非翻译区域区域 5UTR-基因上游区域
8、的非翻基因上游区域的非翻译区域区域 3UTR-基因下游区域的非翻基因下游区域的非翻译区域区域本讲稿第二十四页,共五十四页对于任何给定的核酸序列(单链DNA或mRNA),根据密码子的起始位置,可以按照三种方式进行解释。例如,序列ATTCGATCGCAA这三种阅读顺序称为阅读框(reading frames)CAA A ATTCGATCGATTCGATCGCAAATTCGATCGCA(1)(3)(2)本讲稿第二十五页,共五十四页一个开放一个开放阅读框(框(ORF,open reading frame)是一个没有)是一个没有终止止编码的密的密码子序列。子序列。原核基因原核基因识别任任务的重点是的重点
9、是识别开放开放阅读框,或者框,或者说识别长的的编码区区域。域。本讲稿第二十六页,共五十四页基于基因密基于基因密码子特性的子特性的识别方法方法辨辨别编码区域与非区域与非编码区域的一种方法区域的一种方法是是检查终止密止密码子的出子的出现频率率 终止密止密码子出子出现的期望次数的期望次数为:每每21个(个(64/3)密)密码子出子出现一次一次终止密止密码子子 本讲稿第二十七页,共五十四页基本思想:基本思想:如果能如果能够找到一个比找到一个比较长的序列,其相的序列,其相应的密的密码子序列不含子序列不含终止密止密码子,子,则这段序列可能就是段序列可能就是编码区域。区域。基本算法:基本算法:扫描描给定的定
10、的DNA序列,在三个不同的序列,在三个不同的阅读框中框中寻找找较长的的ORF。遇到。遇到终止密止密码子以后,回子以后,回头寻找起始密找起始密码子。子。这种算法种算法过于于简单,不适合于,不适合于处理短的理短的ORF或者交叠的或者交叠的ORF。本讲稿第二十八页,共五十四页识别编码区域的另一种方法是分析各种密区域的另一种方法是分析各种密码子出子出现的的频率率 将一个随机均匀分布的将一个随机均匀分布的DNA序列翻译成氨基酸序列翻译成氨基酸序列,则在氨基酸序列中上述序列,则在氨基酸序列中上述3种氨基酸出现的种氨基酸出现的比例应该为比例应该为6:4:1例如,亮氨酸、丙氨酸、色氨酸分别有例如,亮氨酸、丙氨
11、酸、色氨酸分别有6个、个、4个和个和1个密码子个密码子但是在真实的氨基酸序列中,上述比例并不正确但是在真实的氨基酸序列中,上述比例并不正确这说明这说明DNA的编码区域并非随机的编码区域并非随机本讲稿第二十九页,共五十四页假假设在一条在一条DNA序列中已序列中已经找到所有的找到所有的ORF,那么,那么可以利用密可以利用密码子子频率率进一步区分一步区分编码ORF和非和非编码ORF利用利用这种方法,可以种方法,可以计算一个算一个ORF成成为编码区域的可区域的可能性。能性。本讲稿第三十页,共五十四页基于基于编码区域碱基区域碱基组成特征的成特征的识别方法方法编码序列与非序列与非编码序列在碱基序列在碱基组
12、成上有区成上有区别单个碱基的个碱基的组成比例成比例多个碱基的多个碱基的组成成通通过统计分析分析识别编码序列序列本讲稿第三十一页,共五十四页2 2、真核基因识别问题、真核基因识别问题 真核基因真核基因远比原核基因复比原核基因复杂:一方面,真核基因的一方面,真核基因的编码区域是非区域是非连续的,的,编码区域被分割区域被分割为若干个小片段。若干个小片段。另一方面,真核基因具有更加丰富的基因另一方面,真核基因具有更加丰富的基因调控信息,控信息,这些信些信息主要分布在基因上游区域。息主要分布在基因上游区域。本讲稿第三十二页,共五十四页本讲稿第三十三页,共五十四页本讲稿第三十四页,共五十四页基因识别基本思
13、路基因识别基本思路 找出基因两端的功能区域找出基因两端的功能区域:转录启动区转录启动区 终止区终止区 在启动区下游位置寻找翻译起始密码子在启动区下游位置寻找翻译起始密码子 识别转录剪切位点识别转录剪切位点剪切给体位点剪切给体位点剪切接受体位点剪切接受体位点本讲稿第三十五页,共五十四页各种不同的方法有不同的适各种不同的方法有不同的适应面,而不同的方法有面,而不同的方法有时可可以以结合起来以提高基因合起来以提高基因识别的准确率。的准确率。关关键问题是如何提高一个是如何提高一个识别算法的敏感性算法的敏感性(sensitivity,Sn)和特异性()和特异性(specificity,Sp)。)。本讲稿
14、第三十六页,共五十四页3 3、基因识别的主要方法、基因识别的主要方法两大两大类识别方法:方法:从从头算方法(或基于算方法(或基于统计的方法)的方法)根据蛋白根据蛋白质编码基因的一般性基因的一般性质和特征和特征进行行识别,通,通过统计值区分外区分外显子、子、内含子及基因内含子及基因间区域区域 基于同源序列比基于同源序列比较的方法的方法利用数据利用数据库中中现有与基因有关的信息(如有与基因有关的信息(如EST序列、蛋白序列、蛋白质序列),通序列),通过同源同源比比较,帮助,帮助发现新基因。新基因。最理想的方法是最理想的方法是综合两大合两大类方法的方法的优点,开点,开发混合算法。混合算法。本讲稿第三
15、十七页,共五十四页基因基因识别方法有方法有:(1)基于)基于规则的系的系统(2)语义学方法学方法(3)线性辨性辨别分析(分析(LDA)(4)决策决策树 (5)动态规划划 (6)隐马尔柯夫模型柯夫模型 (7)剪切剪切对比排列比排列 (spliced alignment)本讲稿第三十八页,共五十四页4、基因识别程序介绍表表5.7 基因识别程序及访问地址基因识别程序及访问地址(HP主页;主页;ESE-mail服务器;服务器;WSweb服务器;服务器;CL客户客户/服务器协议;服务器协议;EX有可执行代码;有可执行代码;SC有源代码)有源代码)本讲稿第三十九页,共五十四页表表5.8 各程序的性能比较(
16、敏感性各程序的性能比较(敏感性(1)被预测出的真实编码核酸的被预测出的真实编码核酸的%;敏感性敏感性(2)被正确识别出的编码外显子的被正确识别出的编码外显子的%;特异性特异性(1)预测出的编码核酸为真实编码核酸的预测出的编码核酸为真实编码核酸的%;特异性特异性(2)预测出外显子为真实外显子的预测出外显子为真实外显子的%)本讲稿第四十页,共五十四页Genscan访问:http:/genes.mit.edu/GENSCAN.html以核酸序列SEQ5作综合分析为例本讲稿第四十一页,共五十四页SEQ5SEQ5seq51 gaattccagg ttggaggggc ggcaacctcc tgccagc
17、ctt caggccactc tcctgtgcct 61 gccagaagag acagagcttg aggagagctt gaggagagca ggaaaggtgg aacattgctg 121 ctgctgctca ctcagttcca caggtgggag gaacagcagg gcttagagtg ggggtcattg 181 tgcagatggg aaaacaaagg cccagagagg ggaagaaatg cctaggagct accgagggca 241 ggcgacctca accacagccc agtgctggag ctgtgagtgg atgtagagca gcggaa
18、tatc 301 cattcagcca gctcagggga aggacagggg ccctgaagcc aggggatgga gctgcaggga 361 agggagctca gagagaaggg gaggggagtc tgagctcagt ttcccgctgc ctgaaaggag 421 ggtggtacct actcccttca cagggtaact gaatgagaga ctgcctggag gaaagctctt 481 caagtgtggc ccaccccacc ccagtgacac cagcccctga cacgggggag ggagggcagc 541 atcaggaggg
19、gctttctggg cacacccagt acccgtctct gagctttcct tgaactgttg 601 cattttaatc ctcacagcag ctcaacaagg tacataccgt caccatcccc attttacaga 661 tagggaaatt gaggctcgga gcggttaaac aactcacctg aggcctcaca gccagtaagt 721 gggttccctg gtctgaatgt gtgtgctgga ggatcctgtg ggtcactcgc ctggtagagc 781 cccaaggtgg aggcataaat gggactggt
20、g aatgacagaa ggggcaaaaa tgcactcatc 841 cattcactct gcaagtatct acggcacgta cgccagctcc caagcaggtt tgcgggttgc 901 acagcggagc gatgcaatct gatttaggct tttaaaggat tgcaatcaag tgggacccac 961 tagcctcaac cctgtacctc ccctcccctc cacccccagc agtctccaaa ggcctccaac 1021 aaccccagag tgggggccat gtatccaaag aaactccaag ctgtat
21、acgg atcacactgg 1081 ttttccagga gcaaaaacag aaacagcctg aggctggtca aaattgaacc tcctcctgct 1141 ctgagcagcc tagggggcag actaagcaga gggctgtgca gacccacata aagagcctac 1201 tgtgtgccag gcacttcacc cgaggcactt cacaagcatg cttgggaatg aaacttccaa 1261 ctctttggga tgcaggtgaa acagttcctg gttcagagag gtgaagcggc ctgcctgagg
22、1321 cagcacagct cttctttaca gatgtgcttc cccacctcta ccctgtctca cggcccccca 1381 tgccagcctg acggttgtgt ctgcctcagt catgctccat ttttccatcg ggaccatcaa 1441 gagggtgttt gtgtctaagg ctgactgggt aactttggat gagcggtctc tccgctccga 1501 gcctgtttcc tcatctgtca aacgggctct aacccactct gatctcccag ggcggcagta 1561 agtcttcagc
23、atcaggcatt ttggggtgac tcagtaaatg gtagatcttg ctaccagtgg 1621 aacagccact aaggattctg cagtgagagc agagggccag ctaagtggta ctctcccaga 1681 gactgtctga ctcacgccac cccctccacc ttggacacag gacgctgtgg tttctgagcc 1741 aggtacaatg actcctttcg gtaagtgcag tggaagctgt acactgccca ggcaaagcgt 1801 ccgggcagcg taggcgggcg actca
24、gatcc cagccagtgg acttagcccc tgtttgctcc 1861 tccgataact ggggtgacct tggttaatat tcaccagcag cctcccccgt tgcccctctg 1921 gatccactgc ttaaatacgg acgaggacag ggccctgtct cctcagcttc aggcaccacc 1981 actgacctgg gacagtgaat cgtaagtatg cctttcactg cgaggggttc tggagaggct 2041 tccgagctcc ccatggccca ggcaggcagc aggtctgggg
25、 caggaggggg gttgtggagt 2101 gggtatccgc ctgctgaggt gcagggcaga tggagaggct gcagctgagc tcctattttc 2161 ataataacag cagccatgag ggttgtgtcc tgtttcccag tcctgcccgg tcccccctcg 2221 gtacctcctg gtggatacac tggttcctgt aagcagaagt ggatgagggt gtctaggtct 2281 gcagtcctgg caccccagga tgggggacac cagccaagat acagcaacag caac
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基因组 技术 基因 识别 精选 文档
限制150内