—生物信息学绪论课件.pptx
第一章第一章 生物生物信息信息学学绪论绪论内内 容容一、生物信息学定义一、生物信息学定义一、生物信息学定义一、生物信息学定义二、生物信息学的发展历史二、生物信息学的发展历史二、生物信息学的发展历史二、生物信息学的发展历史三、生物信息学的主要研究内容三、生物信息学的主要研究内容三、生物信息学的主要研究内容三、生物信息学的主要研究内容四、生物信息学的研究意义四、生物信息学的研究意义四、生物信息学的研究意义四、生物信息学的研究意义五、生物信息学所用的方法和技术五、生物信息学所用的方法和技术五、生物信息学所用的方法和技术五、生物信息学所用的方法和技术六、生物信息学学习方法六、生物信息学学习方法六、生物信息学学习方法六、生物信息学学习方法七、研究生物信息学的一般步骤七、研究生物信息学的一般步骤七、研究生物信息学的一般步骤七、研究生物信息学的一般步骤八、生物信息学的展望八、生物信息学的展望八、生物信息学的展望八、生物信息学的展望3一、生物信息学定义一、生物信息学定义4生物信息学(生物信息学(Bioinformatics)名词的由来)名词的由来八十年代末期,八十年代末期,林华安林华安博士认识到博士认识到将计算机科学与生物学将计算机科学与生物学结合起来的重要意义结合起来的重要意义,开始留意要为这一领域构思一个合适的,开始留意要为这一领域构思一个合适的名称。起初,考虑到与将要支持他主办一系列生物信息学会议名称。起初,考虑到与将要支持他主办一系列生物信息学会议的佛罗里达州立大学超型计算机计算研究所的关系,他使用的的佛罗里达州立大学超型计算机计算研究所的关系,他使用的是是“CompBio”;之后,又将其更改为兼具法国风情的;之后,又将其更改为兼具法国风情的“bioinformatique”,看起来似乎有些古怪。因此不久,他,看起来似乎有些古怪。因此不久,他便便进一步把它更改为进一步把它更改为“bio-informatics(bio/informatics)”。但由于当时的电子邮件系统与今日不同,该名称中的但由于当时的电子邮件系统与今日不同,该名称中的-或或/符号符号经常会引起许多系统问题,于是林博士将其去除,今天我们所经常会引起许多系统问题,于是林博士将其去除,今天我们所看到的看到的“bioinformatics”就正式诞生了,林博士也因此赢得就正式诞生了,林博士也因此赢得了了“生物信息学之父生物信息学之父”的美誉。的美誉。5生物信息学之父生物信息学之父林华安林华安Dr.HwaA.Lim(林华安)(林华安)1987年提出年提出“Bio-informatique”“Bioinformatics”1955年出生于马来西亚。联合国年出生于马来西亚。联合国Bioinformatics专家,专家,UniversityofTexasatDallas分子与细胞生物学分子与细胞生物学AdjunctProfessor、中国科学院基因遗传研究所客座教授。中国科学院基因遗传研究所客座教授。1981年英国伦敦大学帝国学院年英国伦敦大学帝国学院(ImperialCollege,LondonUniversity)毕业,毕业,1986年获得美国年获得美国RochesterUniversity生化物理学博士学位,生化物理学博士学位,30岁取得佛罗里达州立大学终生教授。岁取得佛罗里达州立大学终生教授。1992年受聘担任美国国家癌症中心及美国国家科年受聘担任美国国家癌症中心及美国国家科学基金会审核委员。学基金会审核委员。1995年后,历任多家生年后,历任多家生物科技公司生化信息执行长、副总裁等高层物科技公司生化信息执行长、副总裁等高层管理职位。管理职位。1997年,创立结合软件与数据分年,创立结合软件与数据分析的专业顾问公司析的专业顾问公司DTrends,服务生物技术、,服务生物技术、制药及卫生保健等机构。制药及卫生保健等机构。什什么么是是生生物物信信息息学学?7背景背景人类基因组计划人类基因组计划(HumanGenomeProject,HGP):1990年正式启动,旨在完成人类基因组约年正式启动,旨在完成人类基因组约30亿个碱亿个碱基的全序列测定。基的全序列测定。海量生物数据的迅速膨胀:海量生物数据的迅速膨胀:DNA、RNA和蛋白质和蛋白质序列,蛋白质二级结构和三维结构数据,蛋白质相序列,蛋白质二级结构和三维结构数据,蛋白质相互作用数据等。互作用数据等。对大量生物数据的管理、分析和信息化需求促进对大量生物数据的管理、分析和信息化需求促进了生物信息学的迅速发展。了生物信息学的迅速发展。8生命信息的组织、生命信息的组织、传递、表达传递、表达物理物理化学化学分子分子生物学生物学遗传学遗传学信息技术信息技术各学科参与、协作:生命科学、数学、物理学、化学、计算机各学科参与、协作:生命科学、数学、物理学、化学、计算机科学、材料科学以及伦理、法律等社会科学科学、材料科学以及伦理、法律等社会科学生物信息学生物信息学诞生诞生9生物信息学定义的历史演变生物信息学定义的历史演变定义一:生物信息学是一门收集、分析遗传数据以及分发给定义一:生物信息学是一门收集、分析遗传数据以及分发给研究机构的新学科研究机构的新学科(Bioinformaticsisanewsubjectofgeneticdatacollection,analysisanddisseminationtotheresearchcommunity)。)。(Dr.HwaA.Lim,1987)定义二:生物信息学特指数据库类的工作,包括持久稳固的定义二:生物信息学特指数据库类的工作,包括持久稳固的在一个稳定的地方提供对数据的支持在一个稳定的地方提供对数据的支持(Bioinformaticsreferstodatabase-likeactivities,involvingpersistentsetsofdatathataremaintainedinaconsistentstateoveressentiallyindefiniteperiodsoftime)。)。(Dr.HwaA.Lim,1994)定义三:生物信息学是在大分子方面的概念型的生物学,并定义三:生物信息学是在大分子方面的概念型的生物学,并且使用了信息学的技术,这包括了从应用数学、计算机科学且使用了信息学的技术,这包括了从应用数学、计算机科学以及统计学等学科衍生而来各种方法,并以此在大尺度上来以及统计学等学科衍生而来各种方法,并以此在大尺度上来理解和组织与生物大分子相关的信息。理解和组织与生物大分子相关的信息。(Luscombe,2001)生物生物信息信息学学说文解字:说文解字:生物生物+信息信息+学学(bioinformatics)biology+information+theory广义:广义:应用信息科学的方法和技术,研究生物体应用信息科学的方法和技术,研究生物体系和生物过程中信息的存贮、信息的内涵和信息系和生物过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者生理、病理、药理过程中的各种生物信息,或者也可以说成是也可以说成是生命科学生命科学中的中的信息科学信息科学。狭义:狭义:应用应用信息科学信息科学的理论、方法和技术,管理、的理论、方法和技术,管理、分析和利用分析和利用生物分子生物分子数据。数据。11“生物信息学和计算生物学生物信息学和计算生物学”计划计划 NIH于于2003年形成了一个通向生命科学未来的年形成了一个通向生命科学未来的“中中长期发展规划长期发展规划”-国立卫生研究院路线图国立卫生研究院路线图(NIHRoadmap)。)。NIH路线图中启动了一个路线图中启动了一个“生物生物信息学和计算生物学信息学和计算生物学”计划,希望通过这个项目的计划,希望通过这个项目的实施而铺设一条通向生命科学未来的实施而铺设一条通向生命科学未来的“信息高速公信息高速公路路”。该项目计划从该项目计划从2004年开始,建立数个年开始,建立数个“国立国立生物医学计算中心生物医学计算中心”,以便开发相关软件和数据管,以便开发相关软件和数据管理工具。理工具。12计算生物学计算生物学计算生物学(计算生物学(ComputationalBiology)是生物学的)是生物学的一个分支。根据一个分支。根据美国美国国家卫生研究所国家卫生研究所(NIH)的定)的定义,它是指开发和应用数据分析及理论的方法、义,它是指开发和应用数据分析及理论的方法、数学建模数学建模、计算机仿真计算机仿真技术等,用于生物学、行技术等,用于生物学、行为学和社会群体系统的研究的一门学科为学和社会群体系统的研究的一门学科。13生物信息学与计算生物学生物信息学与计算生物学区别与联系区别与联系 有些人将计算生物学作为生物信息学的有些人将计算生物学作为生物信息学的同义同义词词处理;但是另外一些人认为计算生物学和生物处理;但是另外一些人认为计算生物学和生物信息学应当被作为不同的信息学应当被作为不同的条目条目处理。处理。生物信息学主要侧重于对生物信息学主要侧重于对生物学生物学中所得信息中所得信息的采集、存贮、分析处理与可视化方面,而计算的采集、存贮、分析处理与可视化方面,而计算生物学主要侧重于使用生物学主要侧重于使用计算技术计算技术对生物学问题进对生物学问题进行研究方面。行研究方面。14生物信息学生物信息学基本思想的产生基本思想的产生生物信息学生物信息学的迅速发展的迅速发展二十世纪二十世纪50年代年代二十世纪二十世纪80-90年代年代生物科学和生物科学和技术的技术的发展发展人类基因组人类基因组计划的计划的推动推动二、生物信息学的发展历史二、生物信息学的发展历史15(一)前基因组时代的生物信息学(一)前基因组时代的生物信息学u属于生物物理学范畴的传统生物信息学可以追溯到很久以前,属于生物物理学范畴的传统生物信息学可以追溯到很久以前,如研究生物发光、生物电、生物磁和激素等信息物质的传递如研究生物发光、生物电、生物磁和激素等信息物质的传递现象及其相应测定技术。以研究序列比对为标志的现代生物现象及其相应测定技术。以研究序列比对为标志的现代生物信息学则起源于信息学则起源于20世纪世纪7080年代。年代。u这一阶段的主要成就包括核酸和蛋白质序列的初步分析、生这一阶段的主要成就包括核酸和蛋白质序列的初步分析、生物学数据库的建立以及检索工具的开发。例如物学数据库的建立以及检索工具的开发。例如Dayhoff的替的替换矩阵、换矩阵、Neelleman和和Wunsch的序列比对(的序列比对(sequencealignment)及)及GenBank(由美国国立生物技术信息中心建(由美国国立生物技术信息中心建立和维护的核酸与蛋白质序列数据库)等大型数据库的建立,立和维护的核酸与蛋白质序列数据库)等大型数据库的建立,形成了生物信息学的雏形。形成了生物信息学的雏形。1620世纪世纪50年代,生物信息学开始孕育年代,生物信息学开始孕育20世纪世纪60年代,生物分子信息在概念上将计算年代,生物分子信息在概念上将计算生物学和计算机科学联系起来生物学和计算机科学联系起来20世纪世纪70年代,生物信息学的真正开端年代,生物信息学的真正开端(序列比对算法序列比对算法)20世纪世纪80年代初期,生物信息分析方法的发展年代初期,生物信息分析方法的发展20世纪世纪80年代以后,生物信息服务机构和数据库年代以后,生物信息服务机构和数据库20世纪世纪90年代后年代后,HGP促进生物信息学的迅速发展促进生物信息学的迅速发展生物信息学的孕育和初步形成生物信息学的孕育和初步形成171956:美国田纳西州首次召开了美国田纳西州首次召开了“生物学中的理论研讨会生物学中的理论研讨会”;1962:Zucherkandl和和Pauling研究了序列变化与进化的关研究了序列变化与进化的关系,开创了一个新的领域系,开创了一个新的领域分子进化;分子进化;1967:Dayhoff研制出蛋白质序列图集,即后来著名的蛋白研制出蛋白质序列图集,即后来著名的蛋白质信息源质信息源PIR;1970:Needleman和和Wunsch提出了著名的序列比对算法,提出了著名的序列比对算法,是生物信息学发展中最重要的贡献;是生物信息学发展中最重要的贡献;1970:Gibbs和和McIntyre发表著名的矩阵打点做图法;发表著名的矩阵打点做图法;1978:Gingeras等人研制了核酸序列中酶切位点识别程序;等人研制了核酸序列中酶切位点识别程序;1981:Smith和和Waterman提出了著名的公共子序列识别算提出了著名的公共子序列识别算法,同年法,同年Doolittle提出了关于序列模式的概念;提出了关于序列模式的概念;181982:GenBank第第3版本正式发行;版本正式发行;1983:Wilbur和和Lipman发表了数据库相似序列搜索算法;发表了数据库相似序列搜索算法;1986:日本核酸序列数据库日本核酸序列数据库DDBJ诞生;诞生;1986:蛋白质数据库蛋白质数据库SWISS-PROT诞生;诞生;1988:美国国家生物技术信息中心美国国家生物技术信息中心NCBI诞生;诞生;1988:成立欧洲分子生物学网络成立欧洲分子生物学网络(EMBNet),EMBL数据库数据库诞生;诞生;1988:Person和和Lipman发表了著名的序列比较算法发表了著名的序列比较算法FASTA;1990:快速相似性序列搜索算法快速相似性序列搜索算法BLAST问世,问世,1987年年BLAST的改进版本的改进版本PSI-BLAST投入使用投入使用19(二)基因组时代的生物信息学(二)基因组时代的生物信息学u以基因组计划的实施为标志的基因组时代(以基因组计划的实施为标志的基因组时代(1990年至年至2001年)是生物信息学成为一个较完整的新兴学科并得到高速年)是生物信息学成为一个较完整的新兴学科并得到高速发展的时期。发展的时期。这一时期生物信息学确立了自身的研究领域这一时期生物信息学确立了自身的研究领域和学科特征,成为生命科学的热点学科和重要前沿领域之和学科特征,成为生命科学的热点学科和重要前沿领域之一。一。u这一阶段的主要成就包括大分子序列以及表达序列标签这一阶段的主要成就包括大分子序列以及表达序列标签(expressedsequencetag,EST)数据库的高速发展、)数据库的高速发展、BLAST(basiclocalalignmentsearchtool)和)和FASTA(fastalignment)等工具软件的研制和相应新算)等工具软件的研制和相应新算法的提出、基因的寻找与识别、电子克隆(法的提出、基因的寻找与识别、电子克隆(insilicocloning)技术等,大大提高了管理和利用海量数据的能)技术等,大大提高了管理和利用海量数据的能力。力。人类基因组计划人类基因组计划(HGP,HumanGenomeProject)目标:整体上破解人类遗传信息的奥秘目标:整体上破解人类遗传信息的奥秘由美国由美国NIH和能源部提出和带头,美、英、德、法、和能源部提出和带头,美、英、德、法、日、中共同参与的国际合作项目。日、中共同参与的国际合作项目。重大国际研究项目:测定人类基因组全部重大国际研究项目:测定人类基因组全部DNA序列,序列,构建人类基因组遗传图谱和物理图谱。构建人类基因组遗传图谱和物理图谱。1990年:年:正式启动,正式启动,30亿美元。亿美元。2001年:人类基因组草图公开发表。年:人类基因组草图公开发表。2003年:美国宣布该项目完成。年:美国宣布该项目完成。HGP的历史回顾的历史回顾1984.12犹他州阿尔塔组织会议,初步研讨测定人类整个基犹他州阿尔塔组织会议,初步研讨测定人类整个基因组因组DNA序列的意义序列的意义1985Dulbecco在在Science撰文撰文“肿瘤研究的转折点肿瘤研究的转折点:人人类基因组的测序类基因组的测序”美国能源部美国能源部(DOE)提出提出“人类基因组计划人类基因组计划”草案草案1987美国能源部和国家卫生研究院(美国能源部和国家卫生研究院(NIH)联合为)联合为“人类人类基因组计划基因组计划”下拨启动经费约下拨启动经费约550万美元万美元1989美国成立美国成立“国家人类基因组研究中心国家人类基因组研究中心”,Watson担担任任第一任主任第一任主任1990.10经美国国会批准,人类基因组计划正式启动经美国国会批准,人类基因组计划正式启动1995第一个自由生物体流感嗜血菌第一个自由生物体流感嗜血菌(H.inf)的全基因组测序完成的全基因组测序完成1996完成人类基因组计划的遗传作图完成人类基因组计划的遗传作图启动模式生物基因组计划启动模式生物基因组计划H.inf全基因组全基因组Saccharomyces cerevisiae酿酒酵母酿酒酵母Caenorhabditis elegans秀丽线虫秀丽线虫1997大肠杆菌大肠杆菌(E.coli)全基因组测序完成全基因组测序完成1998完成人类基因组计划的物理作图完成人类基因组计划的物理作图开始人类基因组的大规模测序开始人类基因组的大规模测序Celera公司加入,与公共领域竞争公司加入,与公共领域竞争启动水稻基因组计划启动水稻基因组计划1999.7第第5届国际公共领域人类基因组测序会议,加快测序速度届国际公共领域人类基因组测序会议,加快测序速度大肠杆菌及其全基因组大肠杆菌及其全基因组水稻基因组计划水稻基因组计划1999.7第第5届国际公共领域人类基因组测序会议,加快测序速度届国际公共领域人类基因组测序会议,加快测序速度2000Celera公司宣布完成果蝇基因组测序公司宣布完成果蝇基因组测序国际公共领域宣布完成第一个植物基因组国际公共领域宣布完成第一个植物基因组拟南芥全基拟南芥全基因组的测序工作因组的测序工作Drosophila melanogaster果蝇果蝇Arabidopsis thaliana拟南芥拟南芥2001年年2月月15日日Nature封面封面2001年年2月月16日日Science封面封面2000.6.26公共领域和公共领域和Celera公司同时宣布完成人类基因组工作草图公司同时宣布完成人类基因组工作草图2001.2.15Nature刊文发表国际公共领域结果刊文发表国际公共领域结果2001.2.16Science刊文发表刊文发表Celera公司及其合作者结果公司及其合作者结果26我国对人类基因组计划的贡献我国对人类基因组计划的贡献28 人类基因组计划准备用人类基因组计划准备用15年时年时间投入间投入30亿美元亿美元,完成人全部,完成人全部24(22+X+Y)条染色体中条染色体中3.2109个个碱基对的序列测定碱基对的序列测定,主要任务包,主要任务包括做图(遗传图谱物理图谱以括做图(遗传图谱物理图谱以及转录图谱的绘制)、测序和基及转录图谱的绘制)、测序和基因识别,因识别,其根本任务是解读和破其根本任务是解读和破译生物体的生老病死以及与疾病译生物体的生老病死以及与疾病相关的遗传信息。相关的遗传信息。29人类基因组人类基因组人类基因组的组成人类基因组的组成线粒体基因组线粒体基因组(16.6kb)细胞核基因组细胞核基因组(3200Mb)基因外序列基因外序列基因和基因有关序列基因和基因有关序列约约10%约约90%专一或中等重复序列专一或中等重复序列Non-codingDNA假基因假基因内含子内含子基因片段基因片段90%专一的或低专一的或低拷贝数序列拷贝数序列中度至高度重复序列中度至高度重复序列2030%7080%分散重复序列分散重复序列串联重复序列串联重复序列/成簇重复序列成簇重复序列约约60%约约40%蛋白编码蛋白编码基因基因rRNA基因基因tRNA基因基因CodingDNA估计估计10万万最初公布最初公布3.5万万目前研究确定目前研究确定2.45万万30笼统的说,笼统的说,人类基因组计划为我们研究生物信息的组织、人类基因组计划为我们研究生物信息的组织、结构、遗传、表达带来了极大的方便,使人类结构、遗传、表达带来了极大的方便,使人类对自身有一个根本的了解。对自身有一个根本的了解。人类是最高级、最复杂、最重要的生物,如果人类是最高级、最复杂、最重要的生物,如果搞清楚人类基因组,那么再研究其它的生物就搞清楚人类基因组,那么再研究其它的生物就容易得多。容易得多。研究多种模式生物基因组将有助于研究地球生研究多种模式生物基因组将有助于研究地球生物的进化史。物的进化史。人类基因组计划的实施意义人类基因组计划的实施意义 引言HGP带来的科学挑战带来的科学挑战随着实验数据和可利用信息急剧增加,信息的管理和随着实验数据和可利用信息急剧增加,信息的管理和分析成为分析成为HGP的一项重要的工作的一项重要的工作发现生物学发现生物学规律规律解读生物解读生物遗传密码遗传密码认识生命的本质认识生命的本质研究基因组数据研究基因组数据之间的关系之间的关系分析现有的分析现有的基因组数据基因组数据利用数学模型利用数学模型和计算技术和计算技术32基因组计划带来的科学挑战基因组计划带来的科学挑战基因组计划带来的科学挑战基因组计划带来的科学挑战随着实验数据和可利用信息急剧增加,信息的管理和随着实验数据和可利用信息急剧增加,信息的管理和分析成为基因组计划的一项重要的工作分析成为基因组计划的一项重要的工作。1、信息的整合、信息的整合2、信息的储存、信息的储存3、信息的比较、信息的比较4、信息的分析、信息的分析5、信息的分解、信息的分解基因组学基因组学功能基因组学功能基因组学3334生物信息学的研究生物信息学的研究结构基因组学时期结构基因组学时期35基因组基因组数据库数据库蛋白质蛋白质序列序列数据库数据库蛋白质蛋白质结构结构数据库数据库DDBJEMBLGenBankSWISS-PROT PDBPIR1生物分子数据的收集与管理生物分子数据的收集与管理362数据库搜索及序列比较数据库搜索及序列比较搜索同源序列在一定程度上就是通过序列比较寻找相搜索同源序列在一定程度上就是通过序列比较寻找相似序列似序列序列比较的一个基本操作就是比对(序列比较的一个基本操作就是比对(Alignment),即将),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种两个序列共有的排列顺序,这是序列相似程度的一种定性描述定性描述多重序列比对研究的是多个序列的共性。序列的多重多重序列比对研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。究一组蛋白质之间的进化关系。373运用计算机软件进行序列拼接运用计算机软件进行序列拼接384 4 基因识别与定位基因识别与定位 395基因相关的基因相关的SNP研究研究Single Nucleotide Polymorphisms(SNP),是指在基因组上单个核苷酸的变异,一般而言,SNP 是指变异频率大于1%的单核苷酸变异4040基因变异与疾病基因变异与疾病41与以前的该与以前的该RILs的重组图谱比较分析,在的重组图谱比较分析,在150个个RILs中中鉴定出鉴定出2334个重组框,平均每个框的大小约个重组框,平均每个框的大小约164kb利用利用slidingwindow方法分析方法分析SNP位点与表型间的关系与位点与表型间的关系与重组位点重组位点利用全基因组重测序分析表型差异利用全基因组重测序分析表型差异Slidingwindow方法方法426非编码区信息结构分析非编码区信息结构分析在微生物中,非编码区非编码区只占整个基因组序列的10%20;但在高等生物和人类基因组中,非编码序列则占了基因组序列的绝大部分。在人的基因组中,非编码序列超过95%43 非蛋白编码区约占人类基因组的非蛋白编码区约占人类基因组的95%95%,其生物学意义目前,其生物学意义目前尚不是很清楚,但从尚不是很清楚,但从演化观点来看,其中必然蕴含着重要的演化观点来看,其中必然蕴含着重要的生物学功能,由于它们并不编码蛋白,一般认为,它们的生生物学功能,由于它们并不编码蛋白,一般认为,它们的生物学功能可能体现在对基因表达的时空调控上物学功能可能体现在对基因表达的时空调控上。对非蛋白编码区进行生物学意义分析的策略有两种,对非蛋白编码区进行生物学意义分析的策略有两种,一种一种是基于已有的已经为实验证实的所有功能已知的是基于已有的已经为实验证实的所有功能已知的DNADNA元件的序元件的序列特征,预测非蛋白编码区中可能含有的功能已知的列特征,预测非蛋白编码区中可能含有的功能已知的DNADNA元件,元件,从而预测其可能的生物学功能,并通过实验进行验证;从而预测其可能的生物学功能,并通过实验进行验证;另一另一种则是通过数理理论直接探索非蛋白编码区的新的未知的序种则是通过数理理论直接探索非蛋白编码区的新的未知的序列特征,并从理论上预测其可能的信息含义,最后同样通过列特征,并从理论上预测其可能的信息含义,最后同样通过实验验证。实验验证。446比较基因组学比较基因组学比较基因组学比较基因组学(Comparative Genomics)是基于基因组图谱和测序是基于基因组图谱和测序基础上,对已知的基因和基础上,对已知的基因和基因组结构进行比较,来基因组结构进行比较,来了解基因的功能、表达机了解基因的功能、表达机理和物种进化的学科。理和物种进化的学科。45比较基因组分析比较基因组分析各类功能基因中氨基酸在物种间差异比例各类功能基因中氨基酸在物种间差异比例差异同源蛋白差异同源蛋白GO分类分类进化关系分析进化关系分析467基因组演化与物种演化基因组演化与物种演化(生命之树)47生物进化谱系树生物进化谱系树大鼠、小鼠大鼠、小鼠、狗、大熊猫、牛、狗、大熊猫、牛家鸡、火鸡家鸡、火鸡斑马鱼斑马鱼拟南芥、水稻、杨树、拟南芥、水稻、杨树、酿酒葡萄、短柄草、酿酒葡萄、短柄草、黄瓜、高粱、玉米黄瓜、高粱、玉米1535个细菌基因组、个细菌基因组、49个真菌基因组和个真菌基因组和78个古个古细菌细菌利什曼原虫、椎体虫利什曼原虫、椎体虫四类蓝藻四类蓝藻隐藻隐藻蜜蜂蜜蜂48尽管已经在分子演化方面取得了许多重要的成就,但尽管已经在分子演化方面取得了许多重要的成就,但仅仅依靠某些基因或者分子的演化现象,就想阐明物种整仅仅依靠某些基因或者分子的演化现象,就想阐明物种整体的演化历史似乎不太可靠。体的演化历史似乎不太可靠。例如,智人与黑猩猩之间有例如,智人与黑猩猩之间有98%-99%的结构基因和蛋白质是相同的,然而表型上却具的结构基因和蛋白质是相同的,然而表型上却具有如此巨大的差异,这就不能不使我们联想到形形色色千有如此巨大的差异,这就不能不使我们联想到形形色色千差万别的建筑楼群,它们的外观如此不同,但基础的部件差万别的建筑楼群,它们的外观如此不同,但基础的部件组成却是几乎一样的,差别就在于这些基础部件的组织方组成却是几乎一样的,差别就在于这些基础部件的组织方式不同,这就提示我们基因组整体组织方式而不仅仅是个式不同,这就提示我们基因组整体组织方式而不仅仅是个别基因在研究物种演化历史中的重要作用。别基因在研究物种演化历史中的重要作用。由于基因组是由于基因组是物种所有遗传信息的储藏库,从根本上决定着物种个体的物种所有遗传信息的储藏库,从根本上决定着物种个体的发育和生理,发育和生理,因此,因此,从基因组整体结构组织和整体功能调从基因组整体结构组织和整体功能调节网络方面,结合相应的生理表征现象,进行基因组整体节网络方面,结合相应的生理表征现象,进行基因组整体的演化研究,将是揭示物种真实演化历史的最佳途径。的演化研究,将是揭示物种真实演化历史的最佳途径。498基因表达数据的分析与处理基因表达数据的分析与处理基因表达数据分析基因表达数据分析是目前生物信息学研究的热是目前生物信息学研究的热点和重点点和重点目前对基因表达数据的处理主要是进行目前对基因表达数据的处理主要是进行聚类分聚类分析析,将表达模式相似的基因聚为一类,在此基,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能础上寻找相关基因,分析基因的功能所用方法所用方法主要有:相关分析方法、模式识别技主要有:相关分析方法、模式识别技术中的层次式聚类方法、人工智能中的自组织术中的层次式聚类方法、人工智能中的自组织映射神经网络、主元分析方法映射神经网络、主元分析方法等等表达数据表达数据缺点缺点:仅反映:仅反映mRNA丰度,噪声,丰度,噪声,50蛋白质蛋白质三维结构三维结构测定主要方法:测定主要方法:X射线晶体结构分析、多射线晶体结构分析、多维核磁共振(维核磁共振(NMR)波谱分析和电子显微镜二维晶体三维)波谱分析和电子显微镜二维晶体三维重构(电子晶体学,重构(电子晶体学,EC)等物理方法)等物理方法9蛋白质结构及功能预测蛋白质结构及功能预测51 基因组和蛋白质组研究的迅猛发展,使许多新蛋白序列涌现出来,然而要想了解它们的功能,只有氨基酸序列是远远不够的,因为蛋白质的功能是通过其三维高级结构来执行的,而且蛋白质三维结构也不一定是静态蛋白质三维结构也不一定是静态的,在行使功能的过程中其结构也会的,在行使功能的过程中其结构也会相应的有所改变相应的有所改变。因此,得到这些新蛋白的完整、精确和动态的三维结构就成为摆在我们面前的紧迫任务。目前除了通过诸如X射线晶体结构分析、多维核磁共振(NMR)波谱分析和电子显微镜二维晶体三维重构(电子晶体学,EC)等物理方法得到蛋白质三维结构蛋白质结构蛋白质结构52 另外一种广泛使用的方法就是通过计算机辅助预测计算机辅助预测的方法,目前,一般认为蛋白质的折叠类型只有数百到数千种,远远小于蛋白质所具有的自由度数目,而且蛋白质的折叠类型与其氨基酸序列具有相关性,这样就有可能直接从蛋白质的氨基酸序列通过计算机辅助方法预测出蛋白质的三维结构 53 基因组对生命体的整体控制必须通过它所表达的全部蛋白质来执行,由于基因芯片技术只能反映从基因组到RNA的转录水平上的表达情况,由于从RNA到蛋白质还有许多中间环节的影响,因此仅凭基因芯片技术我们还不能最终掌握生物功能具体执行者蛋白质的整体表达状况;近几年在发展基因芯片的同时,人们也发展了一套研究基因组所有蛋白质产物表达情况蛋白质组研究技术,从技术上来讲包括二维凝胶电泳技术二维凝胶电泳技术和质谱质谱测序技术。通过二维凝胶电泳技术可以获得某一时间截面上蛋白质组的表达情况,通过质谱测序技术就可以得到所有这些蛋白质的序列组成。这些都是技术实现问题,最重要的就是如何运用生物信息学理论方法去分析所得到的巨量数据,从中还原出生命运转和调控的整体系统的分子机制。10蛋白质组研究蛋白质组研究 54蛋白质组研究蛋白质组研究551)、诊断类药物:生物芯片设计)、诊断类药物:生物芯片设计遗传病:基因诊断遗传病:基因诊断感染性疾病:抗体、基因芯片、感染性疾病:抗体、基因芯片、PCR技术技术11药物设计:药物设计:56病人病人健康人健康人基因芯片诊断基因芯片诊断及早治疗,对症及早治疗,对症下药下药572)、预防类药物:)、预防类药物:计算机辅助疫苗设计计算机辅助疫苗设计计算机预测抗原表位计算机预测抗原表位58所谓基因组药物所谓基因组药物(Genomicdrug)是指利用基因序是指利用基因序列数据,经生物信息学分析、高通量基因表达、列数据,经生物信息学分析、高通量基因表达、高通量功能筛选和体内外药效研究开发得到的新高通量功能筛选和体内外药效研究开发得到的新药候选物药候选物实际上利用了反向生物学的原理沿着从基因序实际上利用了反向生物学的原理沿着从基因序列一蛋白质一功能一药物的途径研制新药,其优列一蛋白质一功能一药物的途径研制新药,其优势是取自庞大的人类基因资源及其编码蛋白质做势是取自庞大的人类基因资源及其编码蛋白质做为原材料,具有巨大的开发潜力。为原材料,具有巨大的开发潜力。3)、开发基因组药物)、开发基因组药物59美国的人类基因组科学公司美国的人类基因组科学公司(HGS公司公司)。根据其根据其1999年年2月公布的消息,在功能基月公布的消息,在功能基因组研究领域,因组研究领域,HGS公司己发现公司己发现95的的人类人类cDNA;克隆了;克隆了9000个人类分泌蛋白个人类分泌蛋白质的全长质的全长cDNA;发现了;发现了3000个基因的可个基因的可能医学应用;发现了能医学应用;发现了35个新的白细胞介个新的白细胞介素类分子和素类分子和40个新的生长因子类分子;个新的生长因子类分子;已有已有3个基因组药物进入临床。个基因组药物进入临床。604)、寻找药物作用新靶点)、寻找药物作用新靶点基因组比较:抗微生物基因组比较:抗微生物同源性搜索同源性搜索表达差异分析表达差异分析61理想的抗生素靶标理想的抗生素靶标应应为微生物细胞存活所为微生物细胞存活所必须,在病原体中高必须,在病原体中高度保守,且在人体中度保守,且在人体中不存在或与人类基因不存在或与人类基因有根本差异。有根本差异。基因组研究促进了新靶标的发现:基因组研究促进了新靶标的发现:62生物信息学和人类基因组计划为药物靶标的生物信息学和人类基因组计划为药物靶标的发现和新药的研制开创了新天地,未来的药物设发现和新药的研制开创了新天地,未来的药物设计将是基于生物信息学的知识挖掘的过程计将是基于生物信息学的知识挖掘的过程通过数据分析通过数据分析首先确立靶标首先确立靶标分子分子预测蛋白质分预测蛋白质分子结构子结构设计药物分子设计药物分子与靶标分子相与靶标分子相互作用互作用63计算机辅助分子建模,分子三维结构可视化。计算机辅助分子建模,分子三维结构可视化。1982年,年,Dock程序程序已成功的有已成功的有HIV蛋白酶抑制剂、二氢叶酸还原酶抑蛋白酶抑制剂、二氢叶酸还原酶抑制剂等制剂等5)、计算机辅助药物设计)、计算机辅助药物设计64开发阶段:药物基因组学开发阶段:药物基因组学减少药物副作用减少药物副作用避免开发风险避免开发风险656667(三)后基因组时代的生物信息学(三)后基因组时代的生物信息学随着人类基因组计划的顺利进行,人类全基因组测序工作已经随着人类基因组计划的顺利进行,人类全基因组测序工作已经完成。测序工作的完成并不代表基因组计划的结束,完成。测序工作的完成并不代表基因组计划的结束,相反标相反标志着志着“后基因组信息学后基因组信息学”的开始的开始。基因组学研究也由结构基。基因组学研究也由结构基因组转向了功能基因组的研究,因组转向了功能基因组的研究,通过对基因组的分析来了解通过对基因组的分析来了解生物体的功能成为后基因组时代的主要目标生物体的功能成为后基因组时代的主要目标。后基因组时代,后基因组时代,生物综合论生物综合论将成为生物学的主流研究方法。人将成为生物学的主流研究方法。人们在网络观点下、在分子相互作用网络水平理解生物学的基们在网络观点下、在分子相互作用网络水平理解生物学的基本原理。本原理。后基因组生物信息学有时也称为后基因组生物信息学有时也称为功能基因组系统学功能基因组系统学。功能基因。功能基因组系统学的出现,是生物信息学领域的一个重大变化,组系统学的出现,是生物信息学领域的一个重大变化,它由它由主要以整理、储存、分析生物学数据或知识转变为综合多种主要以整理、储存、分析生物学数据或知识转变为综合多种生物分子及其相互作用的知识来了解生物系统的功能。生物分子及其相互作用的知识来了解生物系统的功能。68后基因组研究对象的多层次性后基因组研究对象的多层次性后基因组研究对象是多层次的,人们从包括基基因因组组(Genome)、转转录录组组(Transcriptome)、蛋蛋白白质质组组(Proteome)、相相互互作作用用组组(Interactome)、定定位位组组(Localizome)、折折叠叠子子组组(foldome)、代代谢谢组组(Metabolome)、表表型型组组(Phenome)等方面,从组的