《生物信息学技术精选课件.ppt》由会员分享,可在线阅读,更多相关《生物信息学技术精选课件.ppt(77页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于生物信息学技术第一页,本课件共有77页第一节生物信息学的概述第二页,本课件共有77页一、生物信息学(一、生物信息学(BioinformaticsBioinformatics)这一名词的来由这一名词的来由 八十年代末期,林华安博士认识到将计算机科学与生物学结合起来的重要意义,开始留意要为这一领域构思一个合适的名称。起初,考虑到与将要支持他主办一系列生物信息学会议的佛罗里达州立大学超型计算机计算研究所的关系,他使用的是“CompBio”;之后,又将其更改为兼具法国风情的“bioinformatique”,看起来似乎有些古怪。因此不久,他便进一步把它更改为“bio-informatics(或bi
2、o/informatics)”。但由于当时的电子邮件系统与今日不同,该名称中的-或/符号经常会引起许多系统问题,于是林博士将其去除,今天我们所看到的“bioinformatics”就正式诞生了,林博士也因此赢得了“生物信息学之父”的美誉。第三页,本课件共有77页生物信息学的发展历史生物信息学的发展历史生物信息学生物信息学基本思想的产生基本思想的产生 生物信息学生物信息学 的迅速发展的迅速发展二十世纪二十世纪50年代年代二十世纪二十世纪80-90年代年代生物科学和生物科学和技术的技术的发展发展人类基因组人类基因组计划的计划的推动推动 第四页,本课件共有77页二、生物信息学的概念二、生物信息学的概
3、念HGP生物数据的激增生物数据的激增(每(每15个月翻一番个月翻一番)生物学家生物学家数学家数学家计算机计算机科学家科学家生物信息学生物信息学(bioinfomatics)的诞生的诞生第五页,本课件共有77页三种科学文化的融合三种科学文化的融合生物学家生物学家生物学家生物学家(生物学问题生物学问题生物学问题生物学问题)数学物理学家数学物理学家数学物理学家数学物理学家计算机科学家计算机科学家计算机科学家计算机科学家(基础理论问题基础理论问题基础理论问题基础理论问题)工程师工程师工程师工程师(技术应用)(技术应用)(技术应用)(技术应用)第六页,本课件共有77页生物信息学(bioinformati
4、cs)是80年代未随着人类基因组计划(Humangenomeproject)的启动而兴起的一门新的交叉学科。它涉及生物学、数学、计算机科学和工程学,依赖于计算机科学、工程学和应用数学的基础,依赖于生物实验和衍生数据的大量储存。第七页,本课件共有77页概念(广义)概念(广义)生物体系和过程中信息生物体系和过程中信息的存贮、传递和表达的存贮、传递和表达细胞、组织、器官的生理、病理细胞、组织、器官的生理、病理、药理过程的中各种生物信息、药理过程的中各种生物信息信息科学信息科学生生命命科科学学中中的的信信息息科科 学学n基因组信息,如基因的DNA序列、染色体定位;基因组信息的获取、处理、贮存、传递、分
5、析和解释;n基因产(蛋白质或RNA)的结构和功能及各生物种间的进化关系等其他信息资源;蛋白质组信息学,如蛋白质的序列、结构、功能及定位分类、蛋白质连锁图、蛋白质数据库的建立、相关分析软件的开发和应用等;n基因与蛋白质的关系,如蛋白质编码基因的识别及算法研究、蛋白质结构、功能预测等;n新药研制、生物进化也是生物信息学研究的热点。第八页,本课件共有77页概念(狭义概念(狭义)分子生物信息学分子生物信息学Molecular Bioinformatics挖掘获取生物分子信息的获取、存贮、分析和利用生物分子信息的获取、存贮、分析和利用生物生物分子数据分子数据深层次生物学知识将计算机科学和数学应用于生物大
6、分子信息的获取、加工、存储、分类、将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。第九页,本课件共有77页n三、生物分子信息三、生物分子信息主要研究两种信息载体主要研究两种信息载体nDNA分子分子n蛋
7、白质分子蛋白质分子第十页,本课件共有77页生物分子至少携带着三种信息生物分子至少携带着三种信息n遗传信息遗传信息n与功能相关的结构信息与功能相关的结构信息n进化信息进化信息第十一页,本课件共有77页(1)遗传信息的载体遗传信息的载体DNA遗传信息的载体主要是DNA控制生物体性状的基因是一系列DNA片段生物体生长发育的本质就是遗传信息的传递和表达第十二页,本课件共有77页DNA通过自我复制,在生物体的繁衍过通过自我复制,在生物体的繁衍过程中传递遗传信息程中传递遗传信息 基因通过转录和翻译,使遗传信息在生物基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代个体中得以表达,并使
8、后代表现出与亲代相似的生物性状。相似的生物性状。基因控制着蛋白质的合成基因控制着蛋白质的合成 DNARNA蛋白蛋白质质转录转录翻译翻译第十三页,本课件共有77页基因的DNADNA序列序列DNA前体RNAmRNA多肽链多肽链蛋白质序列对对应应关关系系遗遗传传密密码码第十四页,本课件共有77页(2)蛋白质的结构决定其功能蛋白质的结构决定其功能n蛋白质蛋白质功能功能取决于蛋白质的空间取决于蛋白质的空间结构结构n蛋白质结构决定于蛋白质的蛋白质结构决定于蛋白质的序列序列(这是目(这是目前基本共认的假设),蛋白质结构的信前基本共认的假设),蛋白质结构的信息隐含在蛋白质序列之中。息隐含在蛋白质序列之中。第十
9、五页,本课件共有77页(3)DNA分子和蛋白质分子分子和蛋白质分子都含有进化信息都含有进化信息n 通过比较通过比较相似的蛋白质序列相似的蛋白质序列,如肌红,如肌红蛋白和血红蛋白,可以发现由于基因复蛋白和血红蛋白,可以发现由于基因复制而产生的分子进化证据。制而产生的分子进化证据。n通过比较来自于不同种属的同源蛋白质,通过比较来自于不同种属的同源蛋白质,即即直系同源蛋白质直系同源蛋白质,可以分析蛋白质甚,可以分析蛋白质甚至种属之间的系统发生关系,推测它们至种属之间的系统发生关系,推测它们共同的祖先蛋白质。共同的祖先蛋白质。第十六页,本课件共有77页生生物物分分子子信信息息DNA序列数据序列数据 蛋
10、白质序列数据蛋白质序列数据 生物分子结构数据生物分子结构数据 生物分子功能数据生物分子功能数据 最基本最基本直观直观复杂复杂生物分子数据类型生物分子数据类型第十七页,本课件共有77页 DNA核酸序列核酸序列蛋白质蛋白质氨基酸序列氨基酸序列蛋白质蛋白质结构结构蛋白质蛋白质功能功能最基本的最基本的生物信息生物信息维持生命活维持生命活动的机器动的机器第一部第一部遗传密码遗传密码第二部第二部遗传密码?遗传密码?生命体系千姿生命体系千姿百态的变化百态的变化生物分子数据及其关系生物分子数据及其关系第十八页,本课件共有77页n第一部遗传密码已被破译,但对密码的转录过程还不清第一部遗传密码已被破译,但对密码的
11、转录过程还不清楚,对大多数楚,对大多数DNA非编码区域的功能还知之甚少非编码区域的功能还知之甚少n 对于第二部密码,目前则只能用统计学的方法进行分对于第二部密码,目前则只能用统计学的方法进行分析析n无论是第一部遗传密码,还是第二部遗传密码,都隐藏无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。在大量的生物分子数据之中。生物分子数据是宝藏,生物分子数据是宝藏,生物信息数据库是金矿,等生物信息数据库是金矿,等待我们去挖掘和利用。待我们去挖掘和利用。第十九页,本课件共有77页生物分子信息的特征生物分子信息的特征n生物分子信息数据量大生物分子信息数据量大 n生物分子信息复杂生
12、物分子信息复杂 n生物分子信息之间存在着密切的联系生物分子信息之间存在着密切的联系第二十页,本课件共有77页第二节第二节第二节第二节 生物信息学主要研究内容生物信息学主要研究内容生物信息学主要研究内容生物信息学主要研究内容第二十一页,本课件共有77页生物信息学主要研究内容生物信息学主要研究内容1、生物分子数据的收集与管理生物分子数据的收集与管理2、数据库搜索及序列比较数据库搜索及序列比较 3、基因组序列分析基因组序列分析 4、基因表达数据的分析与处理、基因表达数据的分析与处理 5、蛋白质结构预测、蛋白质结构预测 第二十二页,本课件共有77页基因组基因组数据库数据库 蛋白质蛋白质序列序列数据库数
13、据库 蛋白质蛋白质结构结构数据库数据库 DDBJEMBLGenBankSWISS-PROTPDBPIR1、生物分子数据的收集与管理第二十三页,本课件共有77页2、数据库搜索及序列比较数据库搜索及序列比较 n搜索同源序列在一定程度上就是通过序列比较寻搜索同源序列在一定程度上就是通过序列比较寻找相似序列找相似序列 n序列比较的一个基本操作就是序列比较的一个基本操作就是比对比对(Alignment),即将两个序列的各个字符(代),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的换关系进行对比排列,
14、其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述排列顺序,这是序列相似程度的一种定性描述n多重序列比对多重序列比对研究的是多个序列的共性。序列的研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。可用于研究一组蛋白质之间的进化关系。第二十四页,本课件共有77页发现同源分子第二十五页,本课件共有77页3、基因组序列分析基因组序列分析n遗传语言分析遗传语言分析天书天书 n基因组结构分析基因组结构分析n基因识别基因识别n基因功能注释基因功能注释n基因调控信息分析基因调控信息分析n基因组比较
15、基因组比较第二十六页,本课件共有77页4、基因表达数据的分析与处理、基因表达数据的分析与处理n基因表达数据分析是目前生物信息学研究的热基因表达数据分析是目前生物信息学研究的热 点和重点点和重点 n目前对基因表达数据的处理主要是进行聚类分目前对基因表达数据的处理主要是进行聚类分 析,将表达模式相似的基因聚为一类,在此基析,将表达模式相似的基因聚为一类,在此基 础上寻找相关基因,分析基因的功能础上寻找相关基因,分析基因的功能 n所用方法主要有:所用方法主要有:n相关分析方法相关分析方法n模式识别技术中的层次式聚类方法模式识别技术中的层次式聚类方法n人工智能中的自组织映射神经网络人工智能中的自组织映
16、射神经网络n主元分析方法主元分析方法 第二十七页,本课件共有77页基因芯片基因芯片第二十八页,本课件共有77页第二十九页,本课件共有77页第三十页,本课件共有77页层次式聚类层次式聚类第三十一页,本课件共有77页二二维维电电泳泳图图第三十二页,本课件共有77页5、蛋白质结构预测、蛋白质结构预测n蛋白质的生物功能由蛋白质的结构所决定蛋白质的生物功能由蛋白质的结构所决定,蛋,蛋白质结构预测成为了解蛋白质功能的重要途径白质结构预测成为了解蛋白质功能的重要途径n蛋白质结构预测分为蛋白质结构预测分为:n二级结构预测二级结构预测n空间结构预测空间结构预测 蛋白质折叠蛋白质折叠第三十三页,本课件共有77页二
17、级结构预测二级结构预测n在一定程度上二级结构的预测可以归结为模式识别问题在一定程度上二级结构的预测可以归结为模式识别问题 n在二级结构预测方面主要方法有:在二级结构预测方面主要方法有:n立体化学方法立体化学方法n图论方法图论方法n统计方法统计方法n最邻近决策方法最邻近决策方法n基于规则的专家系统方法基于规则的专家系统方法n分子动力学方法分子动力学方法n人工神经网络方法人工神经网络方法 n预测准确率超过预测准确率超过70%的第一个软件是基于神经网络的的第一个软件是基于神经网络的PHD系统系统第三十四页,本课件共有77页空间结构预测空间结构预测n在空间结构预测方面,比较成功的理论在空间结构预测方面
18、,比较成功的理论方法是方法是同源模型法同源模型法 n该方法的依据是:相似序列的蛋白质倾该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构向于折叠成相似的三维空间结构 n运用同源模型方法可以完成所有蛋白质运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作的空间结构预测工作 第三十五页,本课件共有77页 第三节第三节 生物信息学当前的主要任务生物信息学当前的主要任务第三十六页,本课件共有77页 纵观当今生物信息学界的现纵观当今生物信息学界的现状,可以发现,大部分人都把状,可以发现,大部分人都把注意力集中在基因组、蛋白质注意力集中在基因组、蛋白质组、蛋白质结构以及与之相结组
19、、蛋白质结构以及与之相结合的药物设计上合的药物设计上 第三十七页,本课件共有77页1.基因组基因组1.1 新基因的发现新基因的发现通过计算分析从EST(ExpressedSequenceTags)序列库中拼接出完整的新基因编码区,也就是通俗所说的“电子克隆电子克隆”;通过计算分析从基因组DNA序列中确定新基因编码区,经过多年的积累,已经形成许多分析方法,如根据编码区具有的独特序列特征、根据编码区与非编码区在碱基组成上的差异、根据高维分布的统计方法、根据神经网络方法、根据分形方法和根据密码学方法等。第三十八页,本课件共有77页1.2 非蛋白编码区生物学意义的分析非蛋白编码区生物学意义的分析第三十
20、九页,本课件共有77页非蛋白编码区约占人类基因组的95%,其生物学意义目前尚不是很清楚,但从演化观点来看,其中必然蕴含着重要的生物学功能,由于它们并不编码蛋白,一般认为,它们的生物学功能可能体现在对基因表达的时空调控上。对非蛋白编码区进行生物学意义分析的策略有两种,一种一种是基于已有的已经为实验证实的所有功能已知的DNA元件的序列特征,预测非蛋白编码区中可能含有的功能已知的DNA元件,从而预测其可能的生物学功能,并通过实验进行验证;另一种另一种则是通过数理理论直接探索非蛋白编码区的新的未知的序列特征,并从理论上预测其可能的信息含义,最后同样通过实验验证。第四十页,本课件共有77页1.3 基因组
21、整体功能及其调节网络的系统把握基因组整体功能及其调节网络的系统把握把握生命的本质,仅仅掌握基因组中部分基因的表达调控是远远不够的,因为生命现象是基因组中所有功能单元相互作用共同制造出来的。基因芯片基因芯片技术由于可以监测基因组在各种时间断面上的整体转录表达状况,因此成为该领域中一项非常重要和关键的实验技术,对该技术所产生的大量实验数据进行高效分析,从中获得基因组运转以及调控的整体系统的机制或者是网络机制,便成了生物信息学在该领域中首先要解决的问题。第四十一页,本课件共有77页1.4 基因组演化与物种演化基因组演化与物种演化第四十二页,本课件共有77页尽管已经在分子演化方面取得了许多重要的成就,
22、但仅仅依靠某些基因或者分子的演化现象,就想阐明物种整体的演化历史似乎不太可靠。例如,智人与黑猩猩之间有98%-99%的结构基因和蛋白质是相同的,然而表型上却具有如此巨大的差异,这就不能不使我们联想到形形色色千差万别的建筑楼群,它们的外观如此不同,但基础的部件组成却是几乎一样的,差别就在于这些基础部件的组织方式不同,这就提示我们基因组整体组织方式而不仅仅是个别基因在研究物种演化历史中的重要作用。由于基因组是物种所有遗传信息的储藏库,从根本上决定着物种个体的发育和生理,因此,从基因组整体结构组织和整体功能调节网络从基因组整体结构组织和整体功能调节网络方面,结合相应的生理表征现象,进行基因组整体的演
23、方面,结合相应的生理表征现象,进行基因组整体的演化研究,将是揭示物种真实演化历史的最佳途径。化研究,将是揭示物种真实演化历史的最佳途径。第四十三页,本课件共有77页2、蛋白质组、蛋白质组第四十四页,本课件共有77页基因组对生命体的整体控制必须通过它所表达的全部蛋白质来执行,由于基因芯片技术只能反映从基因组到RNA的转录水平上的表达情况,由于从RNA到蛋白质还有许多中间环节的影响,因此仅凭基因芯片技术我们还不能最终掌握生物功能具体执行者蛋白质的整体表达状况;因此,近几年在发展基因芯片的同时,人们也发展了一套研究基因组所有蛋白质产物表达情况蛋白质组研究技术,从技术上来讲包括二维凝胶电泳技术二维凝胶
24、电泳技术和质谱质谱测序技术。通过二维凝胶电泳技术可以获得某一时间截面上蛋白质组的表达情况,通过质谱测序技术就可以得到所有这些蛋白质的序列组成。这些都是技术实现问题,最重要的就是如何运用生物信息学理论方法去分析所得到的巨量数据,从中还原出生命运转和调控的整体系统的分子机制。第四十五页,本课件共有77页基因组和蛋白质组研究的迅猛发展,使许多新蛋白序列涌现出来,然而要想了解它们的功能,只有氨基酸序列是远远不够的,因为蛋白质的功能是通过其三维高级结构来执行的,而且蛋白质三维结构也不一定是蛋白质三维结构也不一定是静态的,在行使功能的过程中其结构也静态的,在行使功能的过程中其结构也会相应的有所改变会相应的
25、有所改变。因此,得到这些新蛋白的完整、精确和动态的三维结构就成为摆在我们面前的紧迫任务。目前除了通过诸如X射线晶体结构分析、多维核磁共振(NMR)波谱分析和电子显微镜二维晶体三维重构(电子晶体学,EC)等物理方法得到蛋白质三维结构之外3、蛋白质结构、蛋白质结构第四十六页,本课件共有77页另外一种广泛使用的方法就是通过计算机辅助预测的方法,目前,一般认为蛋白质的折叠类型只有数百到数千种,远远小于蛋白质所具有的自由度数目,而且蛋白质的折叠类型与其氨基酸序列具有相关性,这样就有可能直接从蛋白质的氨基酸序列通过计算机辅助方法预测出蛋白质的三维结构第四十七页,本课件共有77页4、新药设计、新药设计第四十
26、八页,本课件共有77页近年来随着结构生物学的发展,相当数量的蛋白质以及一些核酸、多糖的三维结构获得精确测定,基于生物大分子结构知识的药物设计成为当前的热点。生物信息学的研究不仅可提供生物大分子空间结构的信息,还能提供电子结构的信息,如能级、表面电荷分布、分子轨道相互作用等以及动力学行为的信息,如生物化学反应中的能量变化、电荷转移、构象变化等。理论模拟还可研究包括生物分子及其周围环境的复杂体系和生物分子的量子效应。第四十九页,本课件共有77页但生物信息学的任务远不止于此。在以上工作的基础上,最重要的是如何运用数理理论成果对生物体进行完整系统的数理模型描述,使得人类能够从一个更加明确的角度和一个更
27、加易于操作的途径来认识和控制自身以及所有其他的生命体第五十页,本课件共有77页生物信息学不仅仅是一门科学学科,生物信息学不仅仅是一门科学学科,它更是一种重要的研究开发工具。它更是一种重要的研究开发工具。从科学的角度来讲,它是一门研究生物和生物相关系统中信息内容物和信息流向的综合系统科学,只有通过生物信息学的计算处理,我们才能从众多分散的生物学观测数据中获得对生命运行机制的详细和系统的理解。从工具的角度来讲,它是今后几乎进行所有生物(医药)研究开发所必需的舵手和动力机,只有基于生物信息学通过对大量已有数据资料的分析处理所提供的理论指导和分析,我们才能选择正确的研发方向,同样,只有选择正确的生物信
28、息学分析方法和手段,我们才能正确处理和评价新的观测数据并得到准确的结论。第五十一页,本课件共有77页生物信息学研究意义生物信息学研究意义生物信息学将是生物信息学将是21世纪生物学的核心世纪生物学的核心n认识生物本质认识生物本质n了解生物分子信息的组织和结构,破译基因组信了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系息,阐明生物信息之间的关系n改变生物学的研究方式改变生物学的研究方式 n改变传统研究方式,引进现代信息学方法改变传统研究方式,引进现代信息学方法n在医学上的重要意义在医学上的重要意义n为疾病的诊断和治疗提供依据为疾病的诊断和治疗提供依据n为设计新药提供依据为设计
29、新药提供依据第五十二页,本课件共有77页第三节第三节 生物信息学所用的方法和技术生物信息学所用的方法和技术1、数学统计方法数学统计方法 2、动态规划方法、动态规划方法 3、机器学习与模式识别技术、机器学习与模式识别技术 4、数据库技术及数据挖掘、数据库技术及数据挖掘 5、人工神经网络技术、人工神经网络技术6、专家系统、专家系统 7、分子模型化技术、分子模型化技术8、量子力学和分子力学计算、量子力学和分子力学计算 9、生物分子的计算机模拟、生物分子的计算机模拟10、因特网(、因特网(Internet)技术)技术 第五十三页,本课件共有77页1、数学统计方法n生物活动常常以大量、重复的形式出现,既
30、受生物活动常常以大量、重复的形式出现,既受到内在因素的制约,又受到外界环境的随机干到内在因素的制约,又受到外界环境的随机干扰。因此概率论和数学统计是现代生物学研究扰。因此概率论和数学统计是现代生物学研究中一种常用的分析方法中一种常用的分析方法 n数据统计、因素分析、多元回归分析是生物学研数据统计、因素分析、多元回归分析是生物学研究必备的工具究必备的工具n隐马尔科夫模型(隐马尔科夫模型(Hidden Markov Models)在序列分析方面有着重要的应用。与隐马尔科夫模在序列分析方面有着重要的应用。与隐马尔科夫模型相关的技术是马尔科夫链(型相关的技术是马尔科夫链(Markov Chain)第五
31、十四页,本课件共有77页2、动态规划方法n动态规划(动态规划(Dynamic Programming)是)是一种解决多阶段决策过程的最优化方法或一种解决多阶段决策过程的最优化方法或复杂空间的优化搜索方法复杂空间的优化搜索方法 n动态规划解决问题的基本过程是:将一个动态规划解决问题的基本过程是:将一个问题的全局解分解为局部解,逆序递推求问题的全局解分解为局部解,逆序递推求出局部最优解,随着执行过程的推进,出局部最优解,随着执行过程的推进,“局部局部”逐渐接近逐渐接近“全局全局”,最终获得全局,最终获得全局最优解最优解 第五十五页,本课件共有77页3、机器学习与模式识别技术n机器学习机器学习n机器
32、学习是模拟人类的学习过程,以计算机为工具获机器学习是模拟人类的学习过程,以计算机为工具获取知识、积累经验取知识、积累经验 n1 1、遗传算法遗传算法采用随机搜索方法,具有自适应能力和便于并行采用随机搜索方法,具有自适应能力和便于并行计算计算 n2 2、神经网络神经网络的理论是基于人脑的结构,其目的是揭示一个系统是如的理论是基于人脑的结构,其目的是揭示一个系统是如何向环境学习的,这一种方法被称为联接主义何向环境学习的,这一种方法被称为联接主义。n模式识别模式识别n模式识别是机器学习的一个主要任务。模式是对感兴趣模式识别是机器学习的一个主要任务。模式是对感兴趣客体定量的或者结构的描述,而模式识别就
33、是利用计算客体定量的或者结构的描述,而模式识别就是利用计算机对客体进行鉴别,将相同或者相似的客体归入同种类机对客体进行鉴别,将相同或者相似的客体归入同种类别中别中n模式识别主要有两种方法模式识别主要有两种方法:n根据对象的统计特征进行识别,根据对象的统计特征进行识别,n根据对象的结构特征进行识别根据对象的结构特征进行识别 第五十六页,本课件共有77页环境学习知识库执行机器学习系统的基本结构机器学习系统的基本结构反反 馈馈第五十七页,本课件共有77页4、数据库技术及数据、数据库技术及数据挖掘挖掘n数据库技术数据库技术 n数据仓库数据仓库 n虚拟数据库技术(虚拟数据库技术(Virtual Data
34、baseVirtual Database,简称,简称 VDBVDB)n数据挖掘(数据挖掘(data miningdata mining)n又称作数据库中的知识发现又称作数据库中的知识发现 (Knowledge Discovery in(Knowledge Discovery in Database)Database),它是从数据库或数据仓库中发现并提取隐藏在,它是从数据库或数据仓库中发现并提取隐藏在其中的信息的一种新技术,它能自动分析数据,对它们进其中的信息的一种新技术,它能自动分析数据,对它们进行归纳性推理和联想,寻找数据间内在的某些关联,从中行归纳性推理和联想,寻找数据间内在的某些关联,从
35、中发掘出潜在的、对信息预测和决策行为起着十分重要作用发掘出潜在的、对信息预测和决策行为起着十分重要作用的模式的模式 n数据挖掘过程一般分为数据挖掘过程一般分为4 4个基本步骤:数据选择、数据转个基本步骤:数据选择、数据转换、数据挖掘和结果分析换、数据挖掘和结果分析 第五十八页,本课件共有77页5、人工神经网络技术、人工神经网络技术n人工神经网络(人工神经网络(Artificial Neural Network,简简称称ANN)是通过模拟神经元的特性以及脑的大规)是通过模拟神经元的特性以及脑的大规模并行结构、信息的分布式和并行处理等机制建模并行结构、信息的分布式和并行处理等机制建立的一种数学模型
36、立的一种数学模型 n在生物信息学中,使用得最多的是在生物信息学中,使用得最多的是反向传播神经网反向传播神经网络络(Back Propagation Neural Network,简,简称称BP网网)。)。BP网被认为是稳定性和鲁棒性较强的网被认为是稳定性和鲁棒性较强的人工神经网络之一,而且属于有监督学习的网络人工神经网络之一,而且属于有监督学习的网络模型。标准的模型。标准的BP网由三层神经元组成:输入层、网由三层神经元组成:输入层、隐藏层和输出层隐藏层和输出层 第五十九页,本课件共有77页输入层隐藏层输出层反向传播神经网络结构示意第六十页,本课件共有77页使用界面解释机构推理机知识获取知识库数
37、据库第六十一页,本课件共有77页7、分子模型化技术、分子模型化技术n分子模型化(分子模型化(Molecular modeling)是利用计)是利用计算机模拟分子结构、研究分子之间相互作用的一算机模拟分子结构、研究分子之间相互作用的一种技术种技术n分子模型化是进行分子设计的基础。分子图形学分子模型化是进行分子设计的基础。分子图形学(Molecular Graphics)是进行分子模型化的)是进行分子模型化的一项重要技术,正是由于分子图形学和其它计算一项重要技术,正是由于分子图形学和其它计算化学方法(如分子力学、分子动力学)的相互结化学方法(如分子力学、分子动力学)的相互结合,才使得分子模型化方法
38、取得成功合,才使得分子模型化方法取得成功第六十二页,本课件共有77页第六十三页,本课件共有77页8、量子力学和分子力学计算、量子力学和分子力学计算n量子力学主要研究原子、分子、凝聚态物质、以量子力学主要研究原子、分子、凝聚态物质、以及原子核和基本粒子的结构、性质的基础理论,及原子核和基本粒子的结构、性质的基础理论,在化学等有关学科中得到了广泛的应用在化学等有关学科中得到了广泛的应用 n分子力学(分子力学(Molecular Mechanics)方法是一)方法是一种非量子力学的计算分子结构、能量与性质的方种非量子力学的计算分子结构、能量与性质的方法,该方法应用经验势能函数,即经验力场方法法,该方
39、法应用经验势能函数,即经验力场方法模拟分子的结构,计算分子的性质模拟分子的结构,计算分子的性质 n在进行分子结构分析、构象优化、分子间相互作在进行分子结构分析、构象优化、分子间相互作用研究及分子模拟时需要应用量子力学或分子力用研究及分子模拟时需要应用量子力学或分子力学学 第六十四页,本课件共有77页9、生物分子的计算机模拟、生物分子的计算机模拟n所谓生物分子的计算机模拟就是从分子或者所谓生物分子的计算机模拟就是从分子或者原子水平上的相互作用出发,建立分子体系原子水平上的相互作用出发,建立分子体系的数学模型,利用计算机进行模拟实验,预的数学模型,利用计算机进行模拟实验,预测生物分子的结构和功能,
40、预测动力学及热测生物分子的结构和功能,预测动力学及热力学等方面的性质力学等方面的性质n分子动力学和蒙特卡罗方法(分子动力学和蒙特卡罗方法(Monte Carlo method)是两种最常用的技术,另一种模)是两种最常用的技术,另一种模拟方法是模拟退火方法拟方法是模拟退火方法 第六十五页,本课件共有77页 反馈,改进模型 实验实验现象数学模型计算机模拟模拟结果分析新的设想第六十六页,本课件共有77页10、因特网(、因特网(Internet)技术)技术nInternet已经成为生物学研究的平台,同已经成为生物学研究的平台,同时也成为分子生物学研究人员进行信息交时也成为分子生物学研究人员进行信息交流
41、特别是生物分子数据的交流的场所流特别是生物分子数据的交流的场所n通过网络查询或搜索所需要的生物信息,使用分析通过网络查询或搜索所需要的生物信息,使用分析工具工具 n将所要处理的数据直接送到相应的网络服务器上,将所要处理的数据直接送到相应的网络服务器上,服务器接受你的处理请求,并将处理结果返回服务器接受你的处理请求,并将处理结果返回 第六十七页,本课件共有77页第四节生物信息学常用数据库n1.核酸序列数据库核酸序列数据库n 2.RNA 序列数据库序列数据库n 3.蛋白质序列数据库蛋白质序列数据库n 4.结构数据库结构数据库n 5.基因组数据库基因组数据库n 6.代谢酶相关产物代谢酶相关产物n 7
42、.人类和其他脊椎动物基因组人类和其他脊椎动物基因组n 8.人类基因和疾病人类基因和疾病n 9.其他数据和其他基因表达数据库其他数据和其他基因表达数据库n 10.蛋白组资源蛋白组资源n 11.其他分子生物学数据库其他分子生物学数据库n 12.细胞器官数据库细胞器官数据库n 13.植物数据库植物数据库n14.免疫学数据库免疫学数据库第六十八页,本课件共有77页nNucleicAcidsResearch杂志每年的第一期中详细介绍最新版本的各种数据库。n在2000年1月1日出版的28卷第一期115种通用和专用数据库。n至2008年,生物信息学数据库总数已达1078个。比2007年增加110个。第六十九
43、页,本课件共有77页核酸序列数据库核酸序列数据库n内容包括世界上所有已公布的核酸序列及其翻译产物序列报告和相关注释国际核酸序列委员会协作组:nGenBank美国基因数据银行 http:/www.ncbi.nlm.nih.gov/nEmbl 欧洲分子生物实验室 http:/www.ebi.ac.uk/embl.html nDDBJ日本核酸数据库 http:/www.ddbj.nig.ac.jp 整合平台:Entrez 综合数据库 http:/www.ncbi.nlm.nih.gov 序列通过正式递交进入数据库 未正式发表文献以前,数据库予以保密第七十页,本课件共有77页蛋白质序列数据库蛋白质序列
44、数据库nSWISS-PROT SWISS-PROT(瑞士日内瓦大学)蛋白质序列数(瑞士日内瓦大学)蛋白质序列数据库据库 http:/www.Expasy.chhttp:/www.Expasy.ch 内容包括序列及功能信息、蛋白识别、蛋白质结构内容包括序列及功能信息、蛋白识别、蛋白质结构预测及其他功能预测及其他功能nNCBI NCBI 蛋白质数据库蛋白质数据库 包括所有蛋白质序列,包括所有蛋白质序列,及其翻译产物序列及其翻译产物序列 http:/www.ncbi.nlm.nih.gov/entrezhttp:/www.ncbi.nlm.nih.gov/entreznPIR PIR 蛋白质序列信息
45、资源库(美、德)蛋白质序列信息资源库(美、德)nhttp:/pir.georgetown.edu http:/pir.georgetown.edu 第七十一页,本课件共有77页蛋白质结构数据库蛋白质结构数据库nPDBProteinDataBank,美国Brookhaven国家实验室管理生物大分子三维空间结构原子坐标数据库http:/www.rcsb.org/pdb/nNCBISTRUCTUREMMDB(MolecularModellingDataBase),包含了从PDB获取的实验确定的生物高聚物结构分子模型数据库nSCOP(Structuralclassificationofproteins
46、)英国医学研究会(MRC)剑桥分子生物学实验室开发的蛋白质结构分类数据库。包含描述蛋白质域的家族、超家族、折叠、等级等信息。http:/scop.mrc-lmb.cam.ac.uk/scop第七十二页,本课件共有77页基因组数据库图谱和显示器基因组数据库图谱和显示器n主要内容:有基因组结构、基因单位、基因组图谱等(遗传图、叠连群图、放射杂交图等)n分布:由各国基因组研究中心组建,分布在世界各地的信息中心、研究机构。代表性的有:n美国人类基因组数据库GDB http:/www.gdb.orgn美国NCBI基因组数据库Genome http:/www.ncbi.nlm.nih.gov n英国人类基
47、因图谱数据库 HGMPGenomeWeb http:/www.hgmp.mrc.ac.uk/genomeWeb/n美国人类基因组资源整合体系http:/www.ncbi.nlm.nih.gov/genome/guide/human/第七十三页,本课件共有77页人类疾病与基因数据库人类疾病与基因数据库nOMIM孟德尔遗传信息数据库http:/www.ncbi.nlm.nih.govnCGAPTheCancerGenomeAnatomyProject肿瘤基因组图谱知识库http:/www.ncbi.nlm.nih.gov/ncicgap美国国立癌症研究所为解剖肿瘤细胞分子而建立。第七十四页,本课件共有77页生物信息分析工具生物信息分析工具nBLAST序列相似性对比nPRIMER引物设计n蛋白质结构预测数据库(EMBL)根据已知蛋白质序列,预测同族二级、三维等结构n蛋白质功能预测数据库(EMBL)根据已知蛋白质序列,预测蛋白质功能第七十五页,本课件共有77页我国生物信息相关网站我国生物信息相关网站n中国生物信息网http:/www.biosino.orgn北京大学生物信息中心http:/中国生物技术信息网http:/
限制150内