生物信息学的应用.ppt
《生物信息学的应用.ppt》由会员分享,可在线阅读,更多相关《生物信息学的应用.ppt(140页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、生物信息学的应用生物信息学的应用生物信息学生物信息学(Bioinformatics)生物分子生物分子数数 据据 计算机计算机计计 算算+概念(广义)概念(广义)生物体系和过程中信息生物体系和过程中信息的存贮、传递和表达的存贮、传递和表达细胞、组织、器官的生理、病理细胞、组织、器官的生理、病理药理过程的中各种生物信息药理过程的中各种生物信息信息科学信息科学生生命命科科学学中中的的信信息息科科学学概念(狭义)概念(狭义)生物生物分子数据分子数据深层次深层次生物学知识生物学知识分子生物信息学分子生物信息学MolecularBioinformatics挖掘挖掘获取获取生物分子信息的获取、存贮、分析和利
2、用生物分子信息的获取、存贮、分析和利用生物信息学主要研究两种信息载体生物信息学主要研究两种信息载体n nDNA分子分子n n蛋白质分子蛋白质分子生物分子至少携带着三种信息生物分子至少携带着三种信息n n遗传信息遗传信息遗传信息遗传信息n n与功能相关的结构信息与功能相关的结构信息与功能相关的结构信息与功能相关的结构信息n n进化信息进化信息进化信息进化信息第一节第一节生物信息学与基因组学生物信息学与基因组学一、生物信息学概述一、生物信息学概述一、生物信息学概述一、生物信息学概述(一)生物信息学发展简史一)生物信息学发展简史一)生物信息学发展简史一)生物信息学发展简史uu生物信息学发展的生物信息
3、学发展的生物信息学发展的生物信息学发展的3 3个阶段:个阶段:个阶段:个阶段:前基因组时代前基因组时代前基因组时代前基因组时代基因组时代基因组时代基因组时代基因组时代后基因组时代后基因组时代后基因组时代后基因组时代 uu生物信息学的发展脉络:生物信息学的发展脉络:生物信息学的发展脉络:生物信息学的发展脉络:19561956年,年,年,年,在美国田纳西州盖特林堡在美国田纳西州盖特林堡在美国田纳西州盖特林堡在美国田纳西州盖特林堡(GatlinburgGatlinburg)召开的首次)召开的首次)召开的首次)召开的首次“生物学中的信息理生物学中的信息理生物学中的信息理生物学中的信息理论研讨会论研讨会
4、论研讨会论研讨会”上,孕育了生物信息学的概念上,孕育了生物信息学的概念上,孕育了生物信息学的概念上,孕育了生物信息学的概念.19871987年,年,年,年,佛罗里达州立大学佛罗里达州立大学佛罗里达州立大学佛罗里达州立大学3232岁的林华安岁的林华安岁的林华安岁的林华安(Wa.A.LimWa.A.Lim)博士首创)博士首创)博士首创)博士首创“Bioinformatics”“Bioinformatics”一词,一词,一词,一词,被誉为被誉为被誉为被誉为“世界生物信息之父世界生物信息之父世界生物信息之父世界生物信息之父”。19901990年,林华安博士发起第一届国际年,林华安博士发起第一届国际年,
5、林华安博士发起第一届国际年,林华安博士发起第一届国际 BioinformaticsBioinformatics学术会议。学术会议。学术会议。学术会议。19901990年年年年1010月,被誉为生命科学月,被誉为生命科学月,被誉为生命科学月,被誉为生命科学“阿波罗登月计划阿波罗登月计划阿波罗登月计划阿波罗登月计划”的国际人类基因组计划(的国际人类基因组计划(的国际人类基因组计划(的国际人类基因组计划(HGPHGP)启动。)启动。)启动。)启动。19951995年,美国人类基因组计划第一个五年总结报年,美国人类基因组计划第一个五年总结报年,美国人类基因组计划第一个五年总结报年,美国人类基因组计划第
6、一个五年总结报告中给出生物信息学一个较为完整的定义。告中给出生物信息学一个较为完整的定义。告中给出生物信息学一个较为完整的定义。告中给出生物信息学一个较为完整的定义。20002000年年年年6 6月月月月2626日,美、英、日、德、法、中等六国日,美、英、日、德、法、中等六国日,美、英、日、德、法、中等六国日,美、英、日、德、法、中等六国科学家共同努力,完成人类基因组工作草图,这是人科学家共同努力,完成人类基因组工作草图,这是人科学家共同努力,完成人类基因组工作草图,这是人科学家共同努力,完成人类基因组工作草图,这是人类科学史上又一个里程碑式的事件。类科学史上又一个里程碑式的事件。类科学史上又
7、一个里程碑式的事件。类科学史上又一个里程碑式的事件。20032003年年年年4 4月月月月1414日,国际人类基因组测序组隆重宣布:日,国际人类基因组测序组隆重宣布:日,国际人类基因组测序组隆重宣布:日,国际人类基因组测序组隆重宣布:美、英、日、德、法和中国科学家历经美、英、日、德、法和中国科学家历经美、英、日、德、法和中国科学家历经美、英、日、德、法和中国科学家历经1313年共同努力,年共同努力,年共同努力,年共同努力,人类基因组序列图(人类基因组序列图(人类基因组序列图(人类基因组序列图(“完成图完成图完成图完成图”)提前绘制成功。人类)提前绘制成功。人类)提前绘制成功。人类)提前绘制成功
8、。人类迈入迈入迈入迈入“后基因组时代后基因组时代后基因组时代后基因组时代”(Post-genomicEra)(Post-genomicEra)。(二)生物信息学的主要研究内容(二)生物信息学的主要研究内容1 1生物信息的收集、存储、管理与提供生物信息的收集、存储、管理与提供生物信息的收集、存储、管理与提供生物信息的收集、存储、管理与提供2 2基因组序列信息的提取和分析基因组序列信息的提取和分析基因组序列信息的提取和分析基因组序列信息的提取和分析3 3功能基因组相关信息分析功能基因组相关信息分析功能基因组相关信息分析功能基因组相关信息分析4 4基因表达数据的分析与处理基因表达数据的分析与处理基因
9、表达数据的分析与处理基因表达数据的分析与处理5 5 蛋白质结构预测蛋白质结构预测蛋白质结构预测蛋白质结构预测 基因组基因组数据库数据库蛋白质蛋白质序列序列数据库数据库蛋白质蛋白质结构结构数据库数据库DDBJEMBLGenBankSWISS-PROTPDBPIR1、生物分子数据的收集与管理生物分子数据的收集与管理2、数据库搜索及序列比较数据库搜索及序列比较n n搜索同源序列在一定程度上就是通过序列比较寻找搜索同源序列在一定程度上就是通过序列比较寻找搜索同源序列在一定程度上就是通过序列比较寻找搜索同源序列在一定程度上就是通过序列比较寻找相似序列相似序列相似序列相似序列 n n序列比较的一个基本操作
10、就是序列比较的一个基本操作就是序列比较的一个基本操作就是序列比较的一个基本操作就是比对比对比对比对(AlignmentAlignment),),),),即将两个序列的各个字符(代表核苷酸或者氨基酸即将两个序列的各个字符(代表核苷酸或者氨基酸即将两个序列的各个字符(代表核苷酸或者氨基酸即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,残基)按照对应等同或者置换关系进行对比排列,残基)按照对应等同或者置换关系进行对比排列,残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似其结果是两个序列共有的排列顺序,这是序列相似其结果是
11、两个序列共有的排列顺序,这是序列相似其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述程度的一种定性描述程度的一种定性描述程度的一种定性描述n n多重序列比对多重序列比对多重序列比对多重序列比对研究的是多个序列的共性。序列的多研究的是多个序列的共性。序列的多研究的是多个序列的共性。序列的多研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用重比对可用来搜索基因组序列的功能区域,也可用重比对可用来搜索基因组序列的功能区域,也可用重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。于研究一组蛋白质之间的进化关系。于研究一组蛋白质之间的进化
12、关系。于研究一组蛋白质之间的进化关系。发现同源分子发现同源分子3、基因组序列分析基因组序列分析n n遗传语言分析遗传语言分析天书天书n n基因组结构分析基因组结构分析n n基因识别基因识别n n基因功能注释基因功能注释n n基因调控信息分析基因调控信息分析n n基因组比较基因组比较4、基因表达数据的分析与处理、基因表达数据的分析与处理n n基因表达数据分析是目前生物信息学研究的基因表达数据分析是目前生物信息学研究的热点和重点热点和重点n n目前对基因表达数据的处理主要是进行聚类目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在分析,将表达模式相似的基因聚为一类,在此基
13、础上寻找相关基因,分析基因的功能此基础上寻找相关基因,分析基因的功能 基因芯片基因芯片二二维维电电泳泳图图5、蛋白质结构预测、蛋白质结构预测n n蛋白质的生物功能由蛋白质的结构所决蛋白质的生物功能由蛋白质的结构所决定定,蛋白质结构预测成为了解蛋白质功,蛋白质结构预测成为了解蛋白质功能的重要途径能的重要途径n n蛋白质结构预测分为蛋白质结构预测分为:n n二级结构预测二级结构预测二级结构预测二级结构预测n n空间结构预测空间结构预测空间结构预测空间结构预测 蛋白质折叠蛋白质折叠二级结构预测二级结构预测n n在一定程度上二级结构的预测可以归结为模式识别问题在一定程度上二级结构的预测可以归结为模式识
14、别问题在一定程度上二级结构的预测可以归结为模式识别问题在一定程度上二级结构的预测可以归结为模式识别问题 n n在二级结构预测方面主要方法有:在二级结构预测方面主要方法有:在二级结构预测方面主要方法有:在二级结构预测方面主要方法有:n n立体化学方法立体化学方法立体化学方法立体化学方法n n图论方法图论方法图论方法图论方法n n统计方法统计方法统计方法统计方法n n最邻近决策方法最邻近决策方法最邻近决策方法最邻近决策方法n n基于规则的专家系统方法基于规则的专家系统方法基于规则的专家系统方法基于规则的专家系统方法n n分子动力学方法分子动力学方法分子动力学方法分子动力学方法n n人工神经网络方法
15、人工神经网络方法人工神经网络方法人工神经网络方法 n n预测准确率超过预测准确率超过预测准确率超过预测准确率超过70%70%的第一个软件是基于神经网络的的第一个软件是基于神经网络的的第一个软件是基于神经网络的的第一个软件是基于神经网络的PHDPHD系统系统系统系统空间结构预测空间结构预测n n在空间结构预测方面,比较成功的理论在空间结构预测方面,比较成功的理论方法是方法是同源模型法同源模型法n n该方法的依据是:相似序列的蛋白质倾该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构向于折叠成相似的三维空间结构n n运用同源模型方法可以完成所有蛋白质运用同源模型方法可以完成所有蛋白质1
16、0-30%的空间结构预测工作的空间结构预测工作(三)生物信息学研究现状与展望(三)生物信息学研究现状与展望1国外生物信息学研究现状国外生物信息学研究现状2我国生物信息学研究现状我国生物信息学研究现状3我国生物信息学研究目标我国生物信息学研究目标 实实实实现现现现基基基基因因因因组组组组数数数数据据据据、蛋蛋蛋蛋白白白白质质质质组组组组和和和和结结结结构构构构基基基基因因因因组组组组数数数数据据据据、天天天天然然然然及及及及合合合合成成成成化化化化合合合合物物物物数数数数据据据据的的的的计计计计算算算算机机机机处处处处理理理理、分分分分析析析析和和和和可可可可视视视视化化化化,以以以以及及及及生
17、生生生物物物物实实实实验验验验和和和和生生生生物物物物分分分分子子子子的的的的模模模模拟拟拟拟设设设设计计计计,解解解解析蛋白质三维结构和蛋白质组的时空表达关系等析蛋白质三维结构和蛋白质组的时空表达关系等析蛋白质三维结构和蛋白质组的时空表达关系等析蛋白质三维结构和蛋白质组的时空表达关系等n n蛋白质研究为生物信息学提供了极为蛋白质研究为生物信息学提供了极为丰富的研究数据,极大地推动了生物丰富的研究数据,极大地推动了生物信息学的发展。生物信息学在蛋白质信息学的发展。生物信息学在蛋白质的序列分析、结构预测、功能预测、的序列分析、结构预测、功能预测、分子设计等方面具有重要应用。分子设计等方面具有重要
18、应用。二、生物信息学与蛋白质二、生物信息学与蛋白质n n序列比对是生物信息学的基础,通过序列比对是生物信息学的基础,通过序列比对是生物信息学的基础,通过序列比对是生物信息学的基础,通过比较比较比较比较两个或两个或两个或两个或多个蛋白质序列的多个蛋白质序列的多个蛋白质序列的多个蛋白质序列的相似区域和保守性位点相似区域和保守性位点相似区域和保守性位点相似区域和保守性位点,确定,确定,确定,确定相互间具有共同功能的序列模式和分子进化关系,相互间具有共同功能的序列模式和分子进化关系,相互间具有共同功能的序列模式和分子进化关系,相互间具有共同功能的序列模式和分子进化关系,进一步分析其结构和功能。进一步分
19、析其结构和功能。进一步分析其结构和功能。进一步分析其结构和功能。n n把把把把未知结构未知结构未知结构未知结构的蛋白质序列与的蛋白质序列与的蛋白质序列与的蛋白质序列与已知具有三维结构已知具有三维结构已知具有三维结构已知具有三维结构的的的的蛋白质序列进行蛋白质序列进行蛋白质序列进行蛋白质序列进行序列比对序列比对序列比对序列比对,有助于进一步了解该,有助于进一步了解该,有助于进一步了解该,有助于进一步了解该未知结构蛋白质的空间折叠信息未知结构蛋白质的空间折叠信息未知结构蛋白质的空间折叠信息未知结构蛋白质的空间折叠信息(一)蛋白质序列分析(一)蛋白质序列分析(二)蛋白质结构预测(二)蛋白质结构预测n
20、 n蛋白质结构预测内容蛋白质结构预测内容蛋白质结构预测内容蛋白质结构预测内容二级结构预测二级结构预测二级结构预测二级结构预测三维结构预测三维结构预测三维结构预测三维结构预测n n蛋白质结构预测方法蛋白质结构预测方法蛋白质结构预测方法蛋白质结构预测方法理论分析方法:理论分析方法:理论分析方法:理论分析方法:是在理论计算的基础上进行结构预测。是在理论计算的基础上进行结构预测。是在理论计算的基础上进行结构预测。是在理论计算的基础上进行结构预测。统计分析方法:统计分析方法:统计分析方法:统计分析方法:是在对已知结构的蛋白质进行统计分析是在对已知结构的蛋白质进行统计分析是在对已知结构的蛋白质进行统计分析
21、是在对已知结构的蛋白质进行统计分析的基础上,建立由序列到结构的映射模型,对未知结构的的基础上,建立由序列到结构的映射模型,对未知结构的的基础上,建立由序列到结构的映射模型,对未知结构的的基础上,建立由序列到结构的映射模型,对未知结构的蛋白质直接从氨基酸序列预测其结构。蛋白质直接从氨基酸序列预测其结构。蛋白质直接从氨基酸序列预测其结构。蛋白质直接从氨基酸序列预测其结构。是否未知蛋白序列与已知功能的蛋白质相似是否未知蛋白序列与已知功能的蛋白质相似确定跨膜螺旋、卷曲螺旋和前导序列确定跨膜螺旋、卷曲螺旋和前导序列未知序列是否包含保守序列模体未知序列是否包含保守序列模体查对查对PROSITE数据库库数据
22、库库查对查对BLOCKS和和PRINTS数据库数据库整理所有肯定的结果并核对一致性整理所有肯定的结果并核对一致性预测蛋白质功能预测蛋白质功能蛋白质功能预测流程图蛋白质功能预测流程图(三)蛋白质功能预测(三)蛋白质功能预测(引自引自HPDB蛋白质数据库()蛋白质数据库()(四)蛋白质分子设计(四)蛋白质分子设计n n蛋白质分子设计类型:按照被改造部位的蛋白质分子设计类型:按照被改造部位的多少可以分为多少可以分为“小改小改”、“中改中改”和和“大改大改”三三种。种。“小改小改小改小改”:即通过对目标蛋白质进行即通过对目标蛋白质进行即通过对目标蛋白质进行即通过对目标蛋白质进行定位突变或化定位突变或化
23、定位突变或化定位突变或化学修饰学修饰学修饰学修饰改变其结构和功能。改变其结构和功能。改变其结构和功能。改变其结构和功能。“中改中改中改中改”:即通过对即通过对即通过对即通过对来源于不同来源于不同来源于不同来源于不同蛋白质的蛋白质的蛋白质的蛋白质的结构域进结构域进结构域进结构域进行拼接和组装行拼接和组装行拼接和组装行拼接和组装,从而较大程度的改变其结构和功,从而较大程度的改变其结构和功,从而较大程度的改变其结构和功,从而较大程度的改变其结构和功能。能。能。能。“大改大改大改大改”:即即即即完全从头设计完全从头设计完全从头设计完全从头设计出一种具有特异结构与出一种具有特异结构与出一种具有特异结构与
24、出一种具有特异结构与功能的全新蛋白质。功能的全新蛋白质。功能的全新蛋白质。功能的全新蛋白质。n常用的数据库有常用的数据库有常用的数据库有常用的数据库有:核酸序列数据库(核酸序列数据库(核酸序列数据库(核酸序列数据库(NucleotideSequenceDatabasesNucleotideSequenceDatabases)RNARNA序列数据库(序列数据库(序列数据库(序列数据库(RNAsequencedatabasesRNAsequencedatabases)蛋白质序列数据库(蛋白质序列数据库(蛋白质序列数据库(蛋白质序列数据库(ProteinsequencedatabasesProtei
25、nsequencedatabases)结构数据库(结构数据库(结构数据库(结构数据库(StructureDatabasesStructureDatabases)基因组数据库(基因组数据库(基因组数据库(基因组数据库(GenomicsDatabases(non-vertebrateGenomicsDatabases(non-vertebrate))代谢酶相关产物(代谢酶相关产物(代谢酶相关产物(代谢酶相关产物(MetabolicandSignalingPathwaysMetabolicandSignalingPathways)人类和其他脊椎动物基因组(人类和其他脊椎动物基因组(人类和其他脊椎动物
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 应用
限制150内