计算机的计算能力.ppt
《计算机的计算能力.ppt》由会员分享,可在线阅读,更多相关《计算机的计算能力.ppt(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 计算机的计算能力-以生物信息学为例 李绍华 信息学院计算机科学与技术系信息学院计算机科学与技术系 20世纪三个重大的科技工程:世纪三个重大的科技工程:1.曼哈顿计划(原子弹研制)2.阿波罗登月计划3.人类基因组计划(HGP):美英法德日中六国Human Gene Program的目的:完成人基因组24条染色体上5万左右基因的作图和30亿碱基的DNA全序列的测定。得到以下数据:遗传图、物理图、全序列图。可定位与疾病有关的基因新药设计和疫苗制备。基因中包含了人类的遗传密码;基因测序的完成,基因中包含了人类的遗传密码;基因测序的完成,意味着密码已意味着密码已“偷到偷到”,可这个密码里写的是什么,可
2、这个密码里写的是什么呢?呢?l 生物信息学l 研究热点l 计算问题l 研究思路ccgtacgtacgtagagtgctagtctagtcgtagcgccgtagtcgatcgtgtgggtagtagctgatatgatgcgaggtaggggataggatagcaacagatgagcggatgctgagtgcagtggcatgcgatgtcgatgatagcggtaggtagacttcgcgcataaagctgcgcgagatgattgcaaagragttagatgagctgatgctagaggtcagtgactgatgatcgatgcatgcatggatgatgcagctgatcgatgta
3、gatgcaataagtcgatgatcgatgatgatgctagatgatagctagatgtgatcgatggtaggtaggatggtaggtaaattgatagatgctagatcgtaggtagtagctagatgcagggataaacacacggaggcgagtgatcggtaccgggctgaggtgttagctaatgatgagtacgtatgaggcaggatgagtgacccgatgaggctagatgcgatggatggatcgatgatcgatgcatggtgatgcgatgctagatgatgtgtgtcagtaagtaagcgatgcggctgctgagagcgt
4、aggcccgagaggagagatgtaggaggaaggtttgatggtagttgtagatgattgtgtagttgtagctgatagtgatgatcgtag基因序列中包含着有机体的大量信息gcgtacgtacgtagagtgctagtctagtcgtagcgccgtagtcgatcgtgtgggtagtagctgatatgatgcgaggtaggggataggatagcaacagatgagcggatgctgagtgcagtggcatgcgatgtcgatgatagcggtaggtagacttcgcgcataaagctgcgcgagatgattgcaaagragttagatgagct
5、gatgctagaggtcagtgactgatgatcgatgcatgcatggatgatgcagctgatcgatgtagatgcaataagtcgatgatcgatgatgatgctagatgatagctagatgtgatcgatggtaggtaggatggtaggtaaattgatagatgctagatcgtaggtagtagctagatgcagggataaacacacggaggcgagtgatcggtaccgggctgaggtgttagctaatgatgagtacgtatgaggcaggatgagtgacccgatgaggctagatgcgatggatggatcgatgatcgatgc
6、atggtgatgcgatgctagatgatgtgtgtcagtaagtaagcgatgcggctgctgagagcgtaggcccgagaggagagatgtaggaggaaggtttgatggtagttgtagatgattgtgtagttgtagctgatagtgatgatcgtag.通过对生物数据的分析可以获得基因序列中所包含的有机体的大量重要信息分子生物学是一门信息科学分子生物学是一门信息科学分子生物学是一门信息科学分子生物学是一门信息科学 。-Leroy Hood,ISBLeroy Hood,ISB生物信息的海量性近20 年来,分子生物学发展的一个显著特点是生物信息的剧烈膨胀,且迅
7、速形成了巨量的生物信息库。v近年来GenBank中的DNA碱基数目呈指数增加,大约每14个月增加一倍。到1999年12月其数目已达30亿,它们来自47000种生物。2000年4月DNA碱基数目是60亿。2001年初这一数目已达110亿。预计2005年达到300亿。v各种生物的EST序列已达600多万条,其中人类的EST序列已超过300 万条,估计覆盖人类基因90以上;vUniGene的数目约达7万个;自1999年初单核苷酸多态性(SNPsSNPs,Single Nucleotide Polymorphisms)数据库出现以来,到2000年3月20日SNP的总数是26569,现在已超过350万计
8、算机运算速度计算机运算速度计算机运算速度计算机运算速度:18:18个月增长一倍个月增长一倍个月增长一倍个月增长一倍;DNADNA序列数据序列数据序列数据序列数据:14:14个月增长一倍个月增长一倍个月增长一倍个月增长一倍;生物数据库的增长l遍布世界各地研究实验室的高通量大型测序仪在日夜不停地运转,每天都有成千上万的数据被源源不断地输入相应的生物信息库中。同时,由这些原始数据分析加工而来的蛋白质结构等数据信息也被世界各地的分子生物学、生物信息学等学科领域专家输入二级数据库中。3*10910,000books1book100pages1page3,000charactersCCGGTCTCCCCG
9、CCCGCGCGCGAAGTAAAGGCCCAGCGCAGCCCGCGCTCCTGCCCTGGGGCCTCGTCTTTCTCCAGGAAAACGTGGACCGCTCTCCGCCGACAGTCTCTTCCACAGACCCCTGTCGCCTTCGCCCCCCGGTCTCTTCCGGTTCTGTCTTTTCGCTGGCTCGATACGAACAAGGAAGTCGCCCCCAGCGAGCCCCGGCTCCCCCAGGCAGAGGCGGCCCCGGGGGCGGAGTCAACGGCGGAGGCACGCCCTCTGTGAAAGGGCGGGGCATGCAAATTCGAAATGAAAGCCCGGGAACGCCGA
10、AGAAGCACGGGTGTAAGATTTCCCTTTTCAAAGGCGGGAGAATAAGAAATCAGCCCGAGAGTGTAAGGGCGTCAATAGCGCTGTGGACGAGACAGAGGGAATGGGGCAAGGAGCGAGGCTGGGGCTCTCACCGCGACTTGAATGTGGATGAGAGTGGGACGGTGACGGCGGGCGCGAAGGCGAGCGCATCGCTTCTCGGCCTTTTGGCTAAGATCAAGTGTAGTATCTGTTCTTATCAGTTTAATATCTGATACGTCCTCTATCCGAGGACAATATATTAAATGGATTGATCAATCCGCT
11、TCAGCCTCCCGAGTAGCTGGGACTACAGACGGTGCCATCACGCCCAGCTCATTGTTGATTCCCGCCCCCTTGGTAGAGACGGGATTCCGCTATATTGCCTGGGCTGGTGTCGAACTCATAGAACAAAGGATCCTCCCTCCTGGGCCTGGGCGTGGGCTCGCAAAACGCTGGGATTCCCGGATTACAGGCGGGCGCACCACACCAGGAGCAAACACTTCCGGTTTTAAAAATTCAGTTTGTGATTGGCTGTCATTCAGTATTATGCTAATTAAGCATGCCCGGTTTTAAACCTCTTAAAAC
12、AACTTTTAAAATTACCTTTCCACCTAAAACGTTAAAATTTGTCAAGTGATAATATTCGACAAGCTGTTATTGCCAAACTATTTTCCTATTTGTTTCCTAATGGCATCGGAACTAGCGAAAGTTTCTCGCCATCAGTTAAAAGTTTGCGGCAGATGTAGACCTAGCAGAGGTGTGCGAGGAGGCCGTTAAGACTATACTTTCAGGGATCATTTCTATAGTGTGTTACTAGAGAAGTTTCTCTGAACGTGTAGAGCACCGAAAACCACGAGGAAGAGAGGTAGCGTTTTCATCGGGTTACCT
13、AAGTGCAGTGTCCCCCCTGGCGCGCAATTGGGAACCCCACACGCGGTGTAGAAATATATTTTAAGGGCGCG(1250characters)关键是先要从一个个序列片段中得到这本天书破译人类遗传密码就要读懂由30亿符号组成的100万页的“天书”怎么怎么办办My god!好好多数据啊!多数据啊!CCGGTCTCCCCGCCCGCGCGCGAAGTAAAGGCCCAGCGCAGCCCGCGCTCCTGCCCTGGGGCCTCGTCTTTCTCCAGGAAAACGTGGACCGCTCTCCGCCGACAGTCTCTTCCACAGACCCCTGTCGCCTTCGCCCC
14、CCGGTCTCTTCCGGTTCTGTCTTTTCGCTGGCTCGATACGAACAAGGAAGTCGCCCCCAGCGAGCCCCGGCTCCCCCAGGCAGAGGCGGCCCCGGGGGCGGAGTCAACGGCGGAGGCACGCCCTCTGTGAAAGGGCGGGGCATGCAAATTCGAAATGAAAGCCCGGGAACGCCGAAGAAGCACGGGTGTAAGATTTCCCTTTTCAAAGGCGGGAGAATAAGAAATCAGCCCGAGAGTGTAAGGGCGTCAATAGCGCTGTGGACGAGACAGAGGGAATGGGGCAAGGAGCGAGGCTGGGGC
15、TCTCACCGCGACTTGAATGTGGATGAGAGTGGGACGGTGACGGCGGGCGCGAAGGCGAGCGCATCGCTTCTCGGCCTTTTGGCTAAGATCAAGTGTAGTATCTGTTCTTATCAGTTTAATATCTGATACGTCCTCTATCCGAGGACAATATATTAAATGGATTGATCAATCCGCTTCAGCCTCCCGAGTAGCTGGGACTACAGACGGTGCCATCACGCCCAGCTCATTGTTGATTCCCGCCCCCTTGGTAGAGACGGGATTCCGCTATATTGCCTGGGCTGGTGTCGAACTCATAGAACA
16、AAGGATCCTCCCTCCTGGGCCTGGGCGTGGGCTCGCAAAACGCTGGGATTCCCGGATTACAGGCGGGCGCACCACACCAGGAGCAAACACTTCCGGTTTTAAAAATTCAGTTTGTGATTGGCTGTCATTCAGTATTATGCTAATTAAGCATGCCCGGTTTTAAACCTCTTAAAACAACTTTTAAAATTACCTTTCCACCTAAAACGTTAAAATTTGTCAAGTGATAATATTCGACAAGCTGTTATTGCCAAACTATTTTCCTATTTGTTTCCTAATGGCATCGGAACTAGCGAAAGTTTC
17、TCGCCATCAGTTAAAAGTTTGCGGCAGATGTAGACCTAGCAGAGGTGTGCGAGGAGGCCGTTAAGACTATACTTTCAGGGATCATTTCTATAGTGTGTTACTAGAGAAGTTTCTCTGAACGTGTAGAGCACCGAAAACCACGAGGAAGAGAGGTAGCGTTTTCATCGGGTTACCTAAGTGCAGTGTCCCCCCTGGCGCGCAATTGGGAACCCCACACGCGGTGTAGAAATATATTTTAAGGGCGCG生物信息学生物信息学在生物信息的急剧膨胀的压力下诞生。一般意义上,生物信息学是研究生物信息的采集、处理、存储
18、、传播、分析和解释等各方面的一门学科,它通过综合利用生物学、计算机科学和信息技术揭示大量而复杂的生物数据所赋有的生物学奥秘。生物信息学的定义生物信息学的研究l以核酸蛋白质等生物大分子为主要研究对象l以信息、数理、计算机科学为主要研究手段l以计算机网络为主要研究环境l以计算机软件为主要研究工具l对序列数据进行存储、管理、注释、加工l对各种数据库进行查询、搜索、比较、分析l构建各种类型的专用数据库信息系统l研究开发面向生物学家的新一代计算机软件生物信息学研究方向l基因组序列装配l基因识别l基因功能预报l基因多态性分析l基因进化lmRNA结构预测l基因芯片设计l基因芯片数据分析l疾病相关基因分析l蛋
19、白质序列分析l蛋白质家族分类l蛋白质结构预测l蛋白质折叠研究l代谢途径分析l转录调控机制l蛋白质芯片设计l蛋白质芯片数据分析l药物设计生物信息学研究方法l利用数理统计、模式识别、动态规划、密码解读、语意解析、信令传递、神经网络、遗传算法以及隐马氏模型等各种方法l对序列、结构数据进行定性和定量分析,从中获取基因编码、基因调控、序列-结构-功能关系等理性知识l阐明细胞、器官和个体的发生、发育、病变、衰亡的基本规律和时空联系l探索生命起源、生物进化、生命本质等重大理论问题,最终建立“生物学周期表”生物信息学热点问题(1)l基因组时期:序列结构功能DNA测序和拼接分子生物数据库序列比对分子进化蛋白质质
20、谱鉴定序列注释:基因预测、细胞定位结构预测:RNA结构预测、蛋白质折叠。生物信息学热点问题(2)l后基因组时期:相互作用网络功能生物芯片(DNA芯片、蛋白质芯片)相互作用网络调控网络药物设计。热点:DNA测序和拼接l鸟枪法(Shotgun)测序:得到DNA片断随机地切很多次基因组forward-reverse linked reads plasmids(2 10 Kbp)cosmid(40 Kbp)known dist500 bp500 bp序列拼接:将片断拼接为完整基因组DNA片断(Reads)基因组全基因组Shotgun拼接1.找重叠找重叠 reads4.最后推导出一致的序列最后推导出一致
21、的序列.ACGATTACAATAGGTT.2.把重叠把重叠reads合并成合并成 contigs3.把把contigs 连接起来形成连接起来形成 supercontigsl比较片段集合比较片段集合中所有的片段中所有的片段对对,获得可能存获得可能存在的重叠部分在的重叠部分(Overlap)(Overlap)l建立所有片段建立所有片段的相互组合关的相互组合关系系(Layout),(Layout),以以片段为顶点片段为顶点,重重叠的片段相互叠的片段相互连接,构成图连接,构成图Phrap算法Phrap 算法最后一步是定义有向代权图,并在图中找出一条最佳路径,使得这条路径经过每个顶点恰好一次Hamilt
22、onian 路径问题Euler 算法算法l建立所有片段的相互关系,即构造deBrujin 图.以每个片段为图中的线,重复片段则相当于用胶水胶在一块,用统一的一条线来表示 叠放重复片断 将重复片断看作一个拼接成长序列,即找出一条欧拉路线,使得此路径经过每一条线恰好一次Eulerian路径问题l序列拼接问题可以转换为Hamiltonian 路径问题Eulerian 路径问题转换为计算问题热点:生物信息数据库lDNA序列:A、C、G、T组成的字符串atggcaattaaaattggtatcaatggttttggtcgtatcggccgtatcgtattccgtgcagcacaacaccgtgatga
23、cattgaagttgtaggtattaacgacttaatcgacgttgaatacatggcttatatgttgaaatatgattcaactcacggtcgtttcgacggcactgttgaagtgaaagatggtaacttagtggttaatggtaaaactatccgtgtaactgcagaacgtgatccagcaaacttaaactggggtgcaatcggtgttgatatcgctgttgaagcgactggtttattcttaactgatgaaactgctcgtaaacatatcactgcaggcgcaaaaaaagttgtattaactggcccatctaaagatgc
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机 计算 能力
限制150内