生物信息学的应用PPT课件.pptx
2022-4-2012022-4-202Bioinformatics第一章:生物信息学引论第一章:生物信息学引论第二章:分子生物学基础第二章:分子生物学基础第三章:序列比较第三章:序列比较第四章:生物分子数据库第四章:生物分子数据库第五章:第五章:DNA序列分析序列分析第六章:系统发生分析第六章:系统发生分析第七章:转录调控的信息学分析第七章:转录调控的信息学分析第八章:蛋白质结构预测第八章:蛋白质结构预测第九章:生物信息学在基因芯片中的应用第九章:生物信息学在基因芯片中的应用第十章:数据挖掘与基因表达调控信息分析第十章:数据挖掘与基因表达调控信息分析第十一章:计算表观遗传学第十一章:计算表观遗传学第十二章:生物信息学发展现状及趋势第十二章:生物信息学发展现状及趋势2022-4-203Bioinformatics 生物信息学与功能基因组学,生物信息学与功能基因组学,美美 Jonathan Pevsner 著,孙之荣主译,化学工业出版社著,孙之荣主译,化学工业出版社生物信息学(生物信息学(863高科技丛书),赵国平(中科高科技丛书),赵国平(中科院上海生命科学院),院上海生命科学院), 科学出版社科学出版社生物信息学生物信息学基因和蛋白质分析的使用指南,基因和蛋白质分析的使用指南, 李衍达李衍达 (清华大学),清华大学出版社(清华大学),清华大学出版社生物信息学手册,郝柏林(中科院物理所),生物信息学手册,郝柏林(中科院物理所),上海科学技术出版社上海科学技术出版社简明生物信息学,钟扬简明生物信息学,钟扬 (复旦大学),高等教(复旦大学),高等教育出版社育出版社表观遗传学,系统生物学表观遗传学,系统生物学2022-4-2042022-4-205 生物学背景生物学背景 基因组、蛋白质组、转录组、表观修饰信号等基因组、蛋白质组、转录组、表观修饰信号等数据数据 统计分析算法统计分析算法 相关性分析、距离参数、主成分分析、假设检相关性分析、距离参数、主成分分析、假设检验、贝叶斯判别分析等等验、贝叶斯判别分析等等 计算机语言计算机语言 C语言、语言、perl语言、语言、R语言、语言、Matlab等等等等生物信息学基础生物信息学基础2022-4-206本章内容本章内容第一节第一节 引言引言 第二节第二节 生物信息学的发展历史生物信息学的发展历史 第三节第三节 人类基因组计划和基因组信息学人类基因组计划和基因组信息学 第四节第四节 蛋白质结构与功能关系的研究蛋白质结构与功能关系的研究第五节第五节 目前生物信息学主要研究内容目前生物信息学主要研究内容 第六节第六节 生物信息学所用的方法和技术生物信息学所用的方法和技术2022-4-207第一节第一节 引言引言生命信息的组织、传递、表达物理化学分子生物学遗传学计算机科学数学2022-4-2081、 生物信息学概念生物信息学概念 HGP生物数据的激增每15个月翻一番生物学家数学家 物理学家计算机科学家生物信息学(Bioinformatics)诞生2022-4-209什么是生物信息学?什么是生物信息学?u收集、维护、传播、分析和可视化在分子生物学研究中获得的大量数据。收集、维护、传播、分析和可视化在分子生物学研究中获得的大量数据。 生物信息学(生物信息学(bioinformatics)是生物学与计算机科学以及应用数学)是生物学与计算机科学以及应用数学等学科相互等学科相互交叉交叉而形成的一门新兴学科。它通过对生物学而形成的一门新兴学科。它通过对生物学实验数据的获实验数据的获取、加工、存储、检索与分析取、加工、存储、检索与分析,进而达到揭示数据所蕴含的生物学意义,进而达到揭示数据所蕴含的生物学意义的目的。的目的。u当前,生物信息学发展的主要推动力来自当前,生物信息学发展的主要推动力来自分子生物学分子生物学,生物信息学的研,生物信息学的研究主要集中于究主要集中于核苷酸和氨基酸序列核苷酸和氨基酸序列的存储、分类、检索和分析等方面,的存储、分类、检索和分析等方面,所以目前生物信息学可以所以目前生物信息学可以狭义地定义狭义地定义为:为: 将计算机科学和数学应用于生物大分子信息的获取、加工、存储、将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。叉学科。u现代分子生物学的发展,特别是人基因组计划的实施,使生物学家所面现代分子生物学的发展,特别是人基因组计划的实施,使生物学家所面对的数据不再是实验记录本上或文献上的几行简单数字,而是公共数据对的数据不再是实验记录本上或文献上的几行简单数字,而是公共数据库中数以库中数以千兆计千兆计的记录。(的记录。( M(106) G(109)T(1012)2022-4-2010什么是生物信息学?什么是生物信息学? 基因组信息基因组信息是生物信息中最基本的表达形式,并是生物信息中最基本的表达形式,并且基因组信息量在生物信息量中占有极大的比重,但且基因组信息量在生物信息量中占有极大的比重,但是,生物信息并不仅限于基因组信息,生物信息学也是,生物信息并不仅限于基因组信息,生物信息学也不等于是基因组信息学。广义的说,生物信息不仅包不等于是基因组信息学。广义的说,生物信息不仅包括基因组信息,如基因的括基因组信息,如基因的DNA序列、染色体定位,序列、染色体定位,也包括也包括基因产物(蛋白质或基因产物(蛋白质或RNA)的结构和功能)的结构和功能及及各生物种间的各生物种间的进化关系进化关系等其他信息资源。等其他信息资源。2022-4-2011概念(概念(广义广义)生物体系和过程中信息的存贮、传递和表达细胞、组织、器官的生理、病理、药理过程的中各种生物信息信息科学生生命命科科学学中中的的信信息息科科 学学 2022-4-2012概念(狭义)概念(狭义)生物分子数据深层次生物学知识分子生物信息学Molecular Bioinformatics挖掘生物分子信息的获取、存贮、分析和利用生物分子信息的获取、存贮、分析和利用2022-4-2013生物分子数 据 计算机计 算 + 2022-4-2014细胞细胞分子分子存贮、复制、传递和表达存贮、复制、传递和表达遗传信息的系统遗传信息的系统生物信息的载体生物信息的载体2022-4-2015生物信息学主要研究两种信息载体生物信息学主要研究两种信息载体DNA分子分子蛋白质分子蛋白质分子2022-4-2016万亿2022-4-2017Protein Machines 2022-4-2018From the Cell to Protein Machines 2022-4-2019生物分子至少携带着三种信息生物分子至少携带着三种信息遗传信息遗传信息与功能相关的结构信息与功能相关的结构信息进化信息进化信息2022-4-2020(1)(1)遗传信息的载体遗传信息的载体DNADNA 遗传信息的载体主要是遗传信息的载体主要是DNA 控制生物体性状的基因是一系列控制生物体性状的基因是一系列DNA片片段段 生物体生长发育的本质就是遗传信息生物体生长发育的本质就是遗传信息的传递和表达的传递和表达 2022-4-2021DNA通过自我复制,在生物体的繁衍过通过自我复制,在生物体的繁衍过程中传递遗传信息程中传递遗传信息 基因通过转录和翻译,使遗传信息在生物基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代个体中得以表达,并使后代表现出与亲代相似的生物性状。相似的生物性状。 基因控制着蛋白质的合成基因控制着蛋白质的合成 DNARNA蛋白质蛋白质转录翻译2022-4-2022基因的DNADNA序列序列DNA前体RNAmRNA多肽链多肽链蛋白质序列对对应应关关系系遗遗传传密密码码2022-4-2023(2)(2)蛋白质的结构决定其功能蛋白质的结构决定其功能蛋白质蛋白质功能功能取决于蛋白质的空间取决于蛋白质的空间结构结构 蛋白质结构取决于蛋白质的蛋白质结构取决于蛋白质的序列序列(这是(这是目前基本共认的假设),蛋白质结构的目前基本共认的假设),蛋白质结构的信息隐含在蛋白质序列之中。信息隐含在蛋白质序列之中。2022-4-2024(3) DNA(3) DNA分子和蛋白质分子分子和蛋白质分子都含有进化信息都含有进化信息通过比较通过比较相似的蛋白质序列相似的蛋白质序列,如肌红蛋,如肌红蛋白和血红蛋白,可以发现由于基因复制白和血红蛋白,可以发现由于基因复制而产生的分子进化证据。而产生的分子进化证据。通过比较来自于不同种属的同源蛋白质,通过比较来自于不同种属的同源蛋白质,即即直系同源蛋白质直系同源蛋白质,可以分析蛋白质甚,可以分析蛋白质甚至种属之间的系统发生关系,推测它们至种属之间的系统发生关系,推测它们共同的祖先蛋白质。共同的祖先蛋白质。2022-4-2025生物分子数据类型生物分子数据类型生生物物分分子子信信息息DNA序列数据序列数据 蛋白质序列数据蛋白质序列数据 生物分子结构数据生物分子结构数据 生物分子功能数据生物分子功能数据 最基本最基本直观直观复杂复杂表观遗传修饰数据表观遗传修饰数据复杂复杂2022-4-2026 DNA核酸序列核酸序列蛋白质蛋白质氨基酸序列氨基酸序列蛋白质结构蛋白质结构蛋白质功能蛋白质功能最基本的生最基本的生物信息物信息维持生命活维持生命活动的机器动的机器第一部第一部遗传密码遗传密码第二部第二部遗传密码?遗传密码?生命体系千姿生命体系千姿百态的变化百态的变化 DNA核酸序列核酸序列蛋白质蛋白质氨基酸序列氨基酸序列蛋白质结构蛋白质结构蛋白质功能蛋白质功能最基本的生最基本的生物信息物信息维持生命活维持生命活动的机器动的机器第一部第一部遗传密码遗传密码第二部第二部遗传密码?遗传密码?生命体系千姿生命体系千姿百态的变化百态的变化?组蛋白修饰密码?组蛋白修饰密码?DNA甲基化密码甲基化密码2022-4-2027第一部遗传密码已被破译,但对密码的转录第一部遗传密码已被破译,但对密码的转录过程还不清楚,对大多数过程还不清楚,对大多数DNA非编码区域的非编码区域的功能还知之甚少功能还知之甚少对于第二部密码,目前则只能用统计学的方对于第二部密码,目前则只能用统计学的方法进行分析法进行分析无论是第一部遗传密码,还是第二部遗传密无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。码,都隐藏在大量的生物分子数据之中。生物分子数据是宝藏,生物信息数据库生物分子数据是宝藏,生物信息数据库是金矿,等待我们去挖掘和利用。是金矿,等待我们去挖掘和利用。2022-4-2028生物分子信息的特征生物分子信息的特征生物分子信息数据量大生物分子信息数据量大 生物分子信息复杂生物分子信息复杂 生物分子信息之间存在着密切的生物分子信息之间存在着密切的联系联系2022-4-20293、生物信息学的目标和任务、生物信息学的目标和任务 收集和管理生物分子数据收集和管理生物分子数据数据分析和挖掘数据分析和挖掘开发分析工具和实用软件开发分析工具和实用软件 生物分子序列比较工具生物分子序列比较工具 基因识别工具基因识别工具 生物分子结构预测工具生物分子结构预测工具 基因表达数据分析工具基因表达数据分析工具 2022-4-2030 实验实验 数据数据 信息信息 知识知识 收集收集 表示表示 分析分析 建模建模 刻画特征刻画特征 比较比较 推理推理 应应 用用基因工程基因工程蛋白质设计蛋白质设计疾病诊断疾病诊断疾病治疗疾病治疗开发新药开发新药2022-4-2031分子生物学的核心数据库分子生物学的核心数据库 GenBank核酸序列数据库核酸序列数据库 SWISS-PROT蛋白质序列数据库蛋白质序列数据库 PDB生物大分子结构数据生物大分子结构数据ENCODE组蛋白修饰、组蛋白修饰、DNA甲基化甲基化数据库数据库2022-4-2032表表1.1 至至2001年初已经得到的各类数据及基本数据处理任务年初已经得到的各类数据及基本数据处理任务数据源数据源数据量数据量生物信息学任务生物信息学任务DNA序列序列11.5百万条序列百万条序列125.0 亿个碱基亿个碱基 分离编码与非编码区域分离编码与非编码区域识别内含子与外显子识别内含子与外显子基因产物预测基因产物预测基因功能注释基因功能注释基因调控信息分析基因调控信息分析 蛋白质序列蛋白质序列40.0万条序列万条序列(每条序列平均有(每条序列平均有300氨基酸氨基酸 )序列比较序列比较多重序列比对多重序列比对识别保守的序列模式识别保守的序列模式进化分析进化分析 大分子结构大分子结构1.5 万个结构万个结构(每个结构平均(每个结构平均1000个原子坐标)个原子坐标) 二级结构、空间结构预测二级结构、空间结构预测三维结构比对三维结构比对蛋白质几何学度量蛋白质几何学度量表面和形态计算表面和形态计算分子间相互作用分析分子间相互作用分析分子模拟分子模拟 基因组基因组300个基因组个基因组 标注重复序列标注重复序列基因结构分析基因结构分析系统发生分析系统发生分析基因与疾病的连锁分析基因与疾病的连锁分析基因组比较基因组比较遗传语言分析遗传语言分析 基因表达基因表达酵母酵母6000个基因个基因在约在约20时间点表达值时间点表达值 基因表达模式相关分析基因表达模式相关分析基因调控网络分析基因调控网络分析表达调控信息分析表达调控信息分析 2022-4-2033生物信息学研究意义生物信息学研究意义认识生物本质认识生物本质了解生物分子信息的组织和结构,破译了解生物分子信息的组织和结构,破译 基因组信息,阐明生物信息之间的关系。基因组信息,阐明生物信息之间的关系。改变生物学的研究方式改变生物学的研究方式 改变传统研究方式,引进现代信息学方法改变传统研究方式,引进现代信息学方法在医学上的重要意义在医学上的重要意义为疾病的诊断和治疗提供依据为疾病的诊断和治疗提供依据为设计新药提供依据为设计新药提供依据生物信息学将是生物信息学将是21世纪生物学的核心世纪生物学的核心 2022-4-2034主要研究内容主要研究内容 破译遗传语言、识别基因破译遗传语言、识别基因 预测蛋白质结构和功能预测蛋白质结构和功能 破译表观遗传修饰调控网络破译表观遗传修饰调控网络 认识生物界信息存贮和传递的本质认识生物界信息存贮和传递的本质 研究药物作用机制和开发新药研究药物作用机制和开发新药2022-4-2035第二节第二节 生物信息学的发展历史生物信息学的发展历史生物信息学生物信息学基本思想的产生基本思想的产生 生物信息学生物信息学 的迅速发展的迅速发展二十世纪二十世纪50年代年代二十世纪二十世纪80-90年代年代生物科学和生物科学和技术的技术的发展发展人类基因组人类基因组计划的计划的推动推动 2022-4-2036生物信息学的产生生物信息学的产生生物信息学(生物信息学(bioinformatics)是是80年代未年代未随着随着人类基因组计人类基因组计划(划(Human genome project)的启动而兴起的一门新的的启动而兴起的一门新的交叉交叉学科学科。它涉及生物学、数学、计算机科学和工程学,依赖于。它涉及生物学、数学、计算机科学和工程学,依赖于计算机科学、工程学和应用数学的基础,依赖于生物实验和计算机科学、工程学和应用数学的基础,依赖于生物实验和衍生数据的大量储存。生物信息学不只是一门为了建立、更衍生数据的大量储存。生物信息学不只是一门为了建立、更新生物数据库及获取生物数据而联合使用多项计算机科学技新生物数据库及获取生物数据而联合使用多项计算机科学技术的应用性学科,也不仅仅是只限于生物信息学这一概念的术的应用性学科,也不仅仅是只限于生物信息学这一概念的理论性学科。事实上,它是一门理论性学科。事实上,它是一门理论概念理论概念与与实践应用实践应用并重的并重的学科。学科。生物信息学的生物信息学的产生发展仅有产生发展仅有30年左右年左右的时间的时间-bioinformatics这一名词在这一名词在1991年左右才在文献中出现,还只是出现在电子年左右才在文献中出现,还只是出现在电子出版物的文本中。事实上,生物信息学的出版物的文本中。事实上,生物信息学的存在已有存在已有50多年多年,只不过最初常被称为基因组信息学。只不过最初常被称为基因组信息学。2022-4-203720世纪世纪50年代,生物信息学开始孕育年代,生物信息学开始孕育20世纪世纪60年代,生物分子信息在概念上将计算生物学年代,生物分子信息在概念上将计算生物学和计算机科学联系起来和计算机科学联系起来20世纪世纪70年代,生物信息学的真正开端年代,生物信息学的真正开端20世纪世纪70年代到年代到80年代初期年代初期 ,出现了一系列著名的序,出现了一系列著名的序列比较方法和生物信息分析方法列比较方法和生物信息分析方法 20世纪世纪80年代以后,出现一批生物信息服务机和生物年代以后,出现一批生物信息服务机和生物信息数据库信息数据库20世纪世纪90年代后年代后 ,HGP促进生物信息学的迅速发展促进生物信息学的迅速发展2022-4-2038生物信息学发展过程生物信息学发展过程u20世纪世纪50年代末年代末 数学模型、统计学方法和计算机处理宏观数学模型、统计学方法和计算机处理宏观生物学数据。生物学数据。u应用于应用于分子生物学分子生物学:分子生物学数据库、蛋白质结构分析与:分子生物学数据库、蛋白质结构分析与预测。预测。u人类基因组计划(人类基因组计划(human genome project, HGP):):1990年年启动,启动,10年时间完成草图(年时间完成草图(3109个碱基对,并对个碱基对,并对30,000多多个基因进行了注释)。个基因进行了注释)。u越来越多的越来越多的微生物和其他模式生物也完成了全基因组测序微生物和其他模式生物也完成了全基因组测序工工作。作。2022-4-2039生物信息学的发展过程生物信息学的发展过程大致经历了大致经历了三个阶段三个阶段:前基因组前基因组时代时代-生物数据库的建立、检索工具的开生物数据库的建立、检索工具的开发、发、DNA和蛋白质序列分析、全局和局部的序列和蛋白质序列分析、全局和局部的序列对位排列;对位排列;基因组基因组时代时代-基因寻找和识别、网络数据库系统的基因寻找和识别、网络数据库系统的建立、交互界面的开发;建立、交互界面的开发;后基因组后基因组时代时代-大规模基因组分析、蛋白质组、转大规模基因组分析、蛋白质组、转录组分析。录组分析。2022-4-2040生物信息学的发展生物信息学的发展过程过程 20世纪后期世纪后期,生物科学技术迅猛发展,无论从,生物科学技术迅猛发展,无论从数量数量上还是上还是从从质量质量上都极大地丰富了生物科学的数据资源。上都极大地丰富了生物科学的数据资源。数据资源的急数据资源的急剧膨胀剧膨胀迫使人们寻求一种强有力的工具去迫使人们寻求一种强有力的工具去组织这些数据组织这些数据,以利,以利于储存、加工和进一步利用。而于储存、加工和进一步利用。而海量的生物学数据海量的生物学数据中必然蕴含中必然蕴含着重要的生物学规律,这些规律将是解释生命之谜的关键,人着重要的生物学规律,这些规律将是解释生命之谜的关键,人们同样需要一种强有力的工具来协助人脑完成对这些数据的分们同样需要一种强有力的工具来协助人脑完成对这些数据的分析工作。另一方面,以数据分析、处理为本质的析工作。另一方面,以数据分析、处理为本质的计算机科学技计算机科学技术术和和网络技术网络技术迅猛发展,并日益渗透到迅猛发展,并日益渗透到生物科学生物科学的各个领域。的各个领域。于是,一门崭新的、拥有巨大发展潜力的新学科于是,一门崭新的、拥有巨大发展潜力的新学科生物信息生物信息学学悄然兴起悄然兴起。2022-4-2041生物信息学的诞生及其重要性:生物信息学的诞生及其重要性:u早在早在1956年年,在美国田纳西州盖特林堡召开的首次,在美国田纳西州盖特林堡召开的首次“生物学中的信息理论研讨生物学中的信息理论研讨会会”上,便产生了上,便产生了生物信息学的概念生物信息学的概念。但是,就生物信息学的发展而言,它还。但是,就生物信息学的发展而言,它还是一门相当年轻的学科。直到是一门相当年轻的学科。直到20世纪世纪8090年代年代,伴随着计算机科学技术的进,伴随着计算机科学技术的进步,生物信息学才获得突破性进展。步,生物信息学才获得突破性进展。u1987年,林华安博士正式把这一学科命名为年,林华安博士正式把这一学科命名为“生物信息学生物信息学”(Bioinformatics)。)。此后,其内涵随着研究的深入和现实需要的变化而几经更迭。此后,其内涵随着研究的深入和现实需要的变化而几经更迭。1995年,在美国年,在美国人类基因组计划第一个五年总结报告中,给出了一个人类基因组计划第一个五年总结报告中,给出了一个较为完整的生物信息学定较为完整的生物信息学定义义:生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。各种工具,来阐明和理解大量数据所包含的生物学意义。u生物信息学不仅是一门新学科,更是一种重要的生物信息学不仅是一门新学科,更是一种重要的研究开发工具研究开发工具。从。从科学的角度科学的角度来讲,生物信息学是一门研究生物和生物相关系统中信息内容与信息流向的综来讲,生物信息学是一门研究生物和生物相关系统中信息内容与信息流向的综合系统科学。只有通过生物信息学的计算处理,人们才能从众多分散的生物学合系统科学。只有通过生物信息学的计算处理,人们才能从众多分散的生物学观测数据中获得对生命运行机制的系统理解。从观测数据中获得对生命运行机制的系统理解。从工具的角度工具的角度来讲,生物信息学来讲,生物信息学几乎是今后所有生物(医药)研究开发所必需的工具。只有根据生物信息学对几乎是今后所有生物(医药)研究开发所必需的工具。只有根据生物信息学对大量数据资料进行分析后,人们才能选择该领域正确的研发方向。大量数据资料进行分析后,人们才能选择该领域正确的研发方向。u生物信息学不仅具有重大的生物信息学不仅具有重大的科学意义科学意义,而且具有巨大的,而且具有巨大的经济效益经济效益。它的许多研。它的许多研究成果可以较快地产业化,成为价值很高的产品。究成果可以较快地产业化,成为价值很高的产品。2022-4-2042生物信息学的基本方法:生物信息学的基本方法:建立建立生物数据库生物数据库:核苷酸序列数据库:核苷酸序列数据库(GENBANK)、Protein Data Bank(PDB)、氨基酸序列数据库、氨基酸序列数据库(SWISS-PRO)、酵母基因组数据库、酵母基因组数据库(YEASTS)、美国种质保藏中心、美国种质保藏中心(ATCC)、美国专利局数据库、美国专利局数据库(USPO)。数据库数据库检索检索:Blast序列分析序列分析:序列对位排列、同源比较、进化分析。:序列对位排列、同源比较、进化分析。统计模型统计模型:如:如隐马尔可夫模型隐马尔可夫模型(hidden Markov model, HMM)-基因识别、基因识别、药物设计。药物设计。最大似然模型最大似然模型(maximun likelihood model, ML)、 最大简约法最大简约法(Maximun Parsimony, MP)-分子进化分析。分子进化分析。算法算法:如自动:如自动序列拼接、外显子预测序列拼接、外显子预测和和同源比较、遗传算法同源比较、遗传算法、人工神经人工神经网络网络(artificial neural network)。2022-4-2043第三节第三节 人类基因组计划和基因组信息学人类基因组计划和基因组信息学 1、人类基因组计划简介、人类基因组计划简介 人类基因组计划准备用人类基因组计划准备用15年时间,年时间,投入投入30亿美元,完成人类全部亿美元,完成人类全部24条染条染色体的色体的3109脱氧核苷酸对脱氧核苷酸对(bp)的序列的序列测定,主要任务包括作图测定,主要任务包括作图(遗传图谱、遗传图谱、物理图谱的建立及转录图谱的绘制物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生测序和基因识别。其中还包括模式生物物(如大肠杆菌、酵母、线虫、小鼠等如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统基因组的作图和测序,以及信息系统的建立。的建立。作图作图和和测序测序是基本的任务,是基本的任务,在此基础上解读和破译生物体生老病在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。死以及和疾病相关的遗传信息。2022-4-2044基因组基因组 一个物种中所有基因的整体组成一个物种中所有基因的整体组成2022-4-2045人类基因组构成人类基因组构成24条染色体和线粒体条染色体和线粒体2022-4-2046人类基因组计划的具体任务可以人类基因组计划的具体任务可以概括为建立四张图谱概括为建立四张图谱 n遗遗 传传 图图 谱谱n物物 理理 图图 谱谱 n序序 列列 图图 谱谱n转转 录录 图图 谱谱2022-4-2047 遗传图谱(遗传图谱(genetic map)又称连锁图谱又称连锁图谱(linkage map),它是以具有遗传多态性(在一个,它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于的出现频率皆高于1%)的遗传标记为)的遗传标记为“路标路标”,以遗传学距离(在减数分裂事件中两个位点之间以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,进行交换、重组的百分率,1%的重组率称为的重组率称为1cM)为图距的基因组图。遗传图谱的建立为基)为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。因识别和完成基因定位创造了条件。遗传图谱遗传图谱 2022-4-2048间期间期前期前期 I同源染色体同源染色体形成配对形成配对中期中期 I晚期晚期 I发生交换发生交换前期前期 II中期中期 II晚期晚期 II末期末期 II配子配子遗传连锁图:遗传连锁图:通过计算连锁通过计算连锁的遗传标志之的遗传标志之间的重组频率,间的重组频率,确定它们的相确定它们的相对距离,一般对距离,一般用厘摩(用厘摩(cM,即每次减数分即每次减数分裂的重组频率裂的重组频率为为1%)表示。)表示。2022-4-2049物理图谱物理图谱 物理图谱(物理图谱(physical map)是指有关是指有关构成基因组的全部基因的排列和间距的信构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的息,它是通过对构成基因组的DNA分子进分子进行测定而绘制的。绘制物理图谱的目的是行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。上的相对位置线性而系统地排列出来。2022-4-20501998 年完成了具有年完成了具有52,000个序列标签位点个序列标签位点(STS),并并覆盖覆盖人类基因组大部分区域的连续克隆系的物理图谱。人类基因组大部分区域的连续克隆系的物理图谱。敲碎基因组,分析研究内容所处的染色体位置敲碎基因组,分析研究内容所处的染色体位置细菌人工染色体细菌人工染色体(80300 kb)酵母人工染色体酵母人工染色体(数百(数百 2000 kb)中心粒中心粒一对紧密一对紧密相邻的标志相邻的标志一对相邻一对相邻较远的标志较远的标志染色体图染色体图2022-4-2051序列图谱序列图谱 随着遗传图谱和物理图谱的完成,测随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。序就成为重中之重的工作。DNA序列分析序列分析技术是一个包括制备技术是一个包括制备DNA片段化及碱基分片段化及碱基分析、析、DNA信息翻译的多阶段的过程。通过信息翻译的多阶段的过程。通过测序得到基因组的测序得到基因组的序列图谱序列图谱。2022-4-2052大规模基因组测序大规模基因组测序 Megabace 测序仪测序仪3700 测序仪测序仪2022-4-2053大规模测序基本策略大规模测序基本策略u逐个克隆法:对连续克逐个克隆法:对连续克隆系中排定的隆系中排定的BAC克隆克隆逐个进行亚克隆测序并逐个进行亚克隆测序并进行组装(公共领域测进行组装(公共领域测序计划)序计划)u全基因组鸟枪法:在一全基因组鸟枪法:在一定作图信息基础上,绕定作图信息基础上,绕过大片段连续克隆系的过大片段连续克隆系的构建而直接将基因组分构建而直接将基因组分解成小片段随机测序,解成小片段随机测序,利用超级计算机进行组利用超级计算机进行组装(美国装(美国Celera公司)公司)2022-4-2054运用计算机软件进行序列拼接运用计算机软件进行序列拼接2022-4-2055 转录图谱转录图谱是在识别基因组所包含的蛋是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。因序列、位置及表达模式等信息的图谱。 2022-4-2056通过定位克隆技术寻找疾病基因的过程通过定位克隆技术寻找疾病基因的过程 2022-4-2057基因识别(基因识别(gene identification)是)是HGP的重要的重要内容之一,其目的是识别全部人类的基因。内容之一,其目的是识别全部人类的基因。基因识别包括:基因识别包括:识别基因组编码区识别基因组编码区识别基因结构识别基因结构基因识别目前常采用的有二种方法:基因识别目前常采用的有二种方法:从基因组序列中识别那些转录表达的从基因组序列中识别那些转录表达的DNA片段片段从从cDNA文库中挑取并克隆。文库中挑取并克隆。 2022-4-2058酵母大肠杆菌果蝇线虫老鼠2022-4-2059对致病基因的克隆也是人类基因组计划的对致病基因的克隆也是人类基因组计划的内容。内容。疾病与基因直接或间接相关,通过生物学、疾病与基因直接或间接相关,通过生物学、医学等技术对相关基因进行抑制或调控,医学等技术对相关基因进行抑制或调控,即可达到治疗某一疾病的效果。即可达到治疗某一疾病的效果。如果掌握了与某种疾病相关的基因及突变,如果掌握了与某种疾病相关的基因及突变,则可以对该疾病进行预测、诊断,甚至治则可以对该疾病进行预测、诊断,甚至治疗。疗。 2022-4-2060基因变异与疾病基因变异与疾病2022-4-2061基因组多态性基因组多态性2022-4-2062 2022-4-2063人类基因组计划为我们研究生物信息的组织、结人类基因组计划为我们研究生物信息的组织、结构、遗传、表达带来了极大的方便,使人类对自构、遗传、表达带来了极大的方便,使人类对自身有一个根本的了解。身有一个根本的了解。人类是最高级、最复杂、最重要的生物,如果搞人类是最高级、最复杂、最重要的生物,如果搞清楚人类基因组,那么再研究其它的生物就容易清楚人类基因组,那么再研究其它的生物就容易得多。得多。研究多种模式生物基因组将有助于研究地球生物研究多种模式生物基因组将有助于研究地球生物的进化史。的进化史。2022-4-20646/1-8/31/99NoCenterRegionSize(Mb)Actual KGenbank KrProjected Kr4/1-11/30/99Proj Accum.Mr. 4/99-3/001Sanger Centre1,6,9,10,13,20,22,X85013009414200122WIBR(Clones from Wash U)837296290083Wash U2,3,4,7,11,15,18,Y90086555923007.94JGI5,16,1925068746121006.45Baylor1,2,3,X2304622616603.16Riken21,18,11q1601361955202.17IMB8,21,X50180321801.58GenoscopeMost of 14851001183001.49U. Wash (Olson)10 Beijing3p3012.512.51000.511 GTC (Smith)105051500.4512 MPIMG17,21,X6.94012400.313 GBF21, reg of 96500.314 Stanford (Davis)8231370.2915 Keio2,6,8,22,213011751100.2316 U. Wash (Hood LAB) 14,15267127400.17Total2671Mb4663Kr2950Kr13687Kr32.64Mr2022-4-2065又一次成功!又一次成功! 水稻基因研究水稻基因研究袁隆平袁隆平 .2022-4-2066 随着实验数据和可利用信息急剧增加,随着实验数据和可利用信息急剧增加,信息的管理信息的管理和分析和分析成为成为HGP的一项重要的工作的一项重要的工作 发现生物学发现生物学规律规律解读生物解读生物遗传密码遗传密码认识生命的本质认识生命的本质研究基因组数据研究基因组数据之间的关系之间的关系分析现有的分析现有的基因组数据基因组数据利用数学模型利用数学模型和人工智能技术和人工智能技术2022-4-20672022-4-2068uHGP完成后,研究进入完成后,研究进入“后基因组学后基因组学”(post-genomics)时代时代u基因组学研究重心已开始从揭示生命的所有遗基因组学研究重心已开始从揭示生命的所有遗传信息转移到在传信息转移到在分子整体水平对功能的研究分子整体水平对功能的研究上上,即功能基因组学(即功能基因组学(functional genomics)u功能基因组的任务是功能基因组的任务是进行基因组功能注释(进行基因组功能注释(Genome annotation)认识基因与疾病的关系认识基因与疾病的关系掌握基因的产物及其在生命活动中的作用掌握基因的产物及其在生命活动中的作用2022-4-2069u进一步识别基因,识别基因转录调控信息,分进一步识别基因,识别基因转录调控信息,分析遗传语言。析遗传语言。u注释所有基因产物的功能,这是目前基因组功注释所有基因产物的功能,这是目前基因组功能注释的主要层次。能注释的主要层次。u研究基因的表达调控机制,研究基因在生物体研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间代谢途径中的地位,分析基因、基因产物之间的相互作用关系,绘制基因调控网络图。的相互作用关系,绘制基因调控网络图。u比较基因组学研究,在基因组水平对各个生物比较基因组学研究,在基因组水平对各个生物进行对照比较,可以揭示生命的起源和进化、进行对照比较,可以揭示生命的起源和进化、发现蛋白质功能。发现蛋白质功能。2022-4-2070人类基因组与其它生物基因组比较人类基因组与其它生物基因组比较结核菌2022-4-20712022-4-2072Structure & FunctionPathways & PhysiologyPopulations& EvolutionEcosystemsGenomesGene Products对靶目标进行合理的药物设计2022-4-2073未来的药物研究过程将是基于生物信息知识挖掘的过程未来的药物研究过程将是基于生物信息知识挖掘的过程数据处理和关联分析发现药物作用对象确定靶目标分子2022-4-2074u基因组计划产生的基因及基因多态性数据基因组计划产生的基因及基因多态性数据与临床医学检验结果之间的关系需要利用与临床医学检验结果之间的关系需要利用生物信息学的方法去分析、去揭示。生物信息学的方法去分析、去揭示。u根据这样的分析结果,科学家能够更准确根据这样的分析结果,科学家能够更准确地了解疾病产生的根本原因,更精确地预地了解疾病产生的根本原因,更精确地预测某个