《生物信息学引论.ppt》由会员分享,可在线阅读,更多相关《生物信息学引论.ppt(67页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、生物信息学概论生物信息学概论l第一节第一节 概念概念l第二节第二节 生物信息学的发展历史生物信息学的发展历史l第三节第三节 生物信息学主要研究内容生物信息学主要研究内容l第四节第四节 生物信息学的研究意义生物信息学的研究意义 第一节第一节 概念概念生命信息的组织、生命信息的组织、传递、表达传递、表达天文技术天文技术空间技术空间技术物理物理化学化学分子分子生物学生物学遗传学遗传学信息技术信息技术l生物不是物质的简单堆积,生物体的生长发育是生命信息控制之下的复杂而有序的过程。信信息息科科学学?1、生物信息学概念HGP生物数据的激增生物数据的激增(每(每12个月翻一番个月翻一番)生物学家生物学家数学
2、家数学家计算机计算机科学家科学家生物信息学生物信息学(bioinfomatics)的诞生的诞生概念(广义)生物体系和生物过程中信息的存贮、传递和表达细胞、组织、器官的生理、病理和药理过程的中各种生物信息信息科学生命科学中的信息科学概念(狭义)生物分子数据深层次生物学知识分子生物信息学MolecularBioinformatics挖掘获取管理、分析和利用生物分子数据管理、分析和利用生物分子数据提高研究的科学性及效率l生物体是一个复杂的系统物理、化学和生物学方法物理、化学和生物学方法l生物体也是一个信息系统信息科学方法信息科学方法2、生物分子信息 细胞存贮、复制、传递和表达存贮、复制、传递和表达遗
3、传信息的系统遗传信息的系统分子生物信息的载体生物信息的载体l生物信息学主要研究两种信息载体生物信息学主要研究两种信息载体DNA分子分子蛋白质分子蛋白质分子From the Cell to Protein Machines 生物分子至少携带着三种信息生物分子至少携带着三种信息遗传信息遗传信息与功能相关的结构信息与功能相关的结构信息进化信息进化信息(1)遗传信息的载体遗传信息的载体DNA遗传信息的载体主要是DNA 存储氨基酸序列编码信息、基因表达调控信息及存储氨基酸序列编码信息、基因表达调控信息及 遗传信息遗传信息生物体生长发育的本质就是遗传信息的传递和表达DNA通过自我复制,在生物体的繁衍过程中
4、传递遗传信息基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似的生物性状。基因控制着蛋白质的合成DNARNA蛋白质转录翻译基因的基因的DNADNA序列序列DNA前体RNAmRNA多多肽链蛋白质序列蛋白质序列对对应应关关系系遗遗传传密密码码(2)蛋白质的结构决定其功能蛋白质的结构决定其功能l蛋白质蛋白质功能功能取决于蛋白质的空间取决于蛋白质的空间结构结构l蛋白质结构决定于蛋白质的蛋白质结构决定于蛋白质的序列序列(这是(这是目前基本共认的假设),蛋白质结构的目前基本共认的假设),蛋白质结构的信息隐含在蛋白质序列中。信息隐含在蛋白质序列中。(3)DNA和蛋白质都含有进化信息
5、和蛋白质都含有进化信息l通过比较通过比较相似的蛋白质序列相似的蛋白质序列,如肌红蛋白和,如肌红蛋白和血红蛋白,可以发现由于基因复制而产生的血红蛋白,可以发现由于基因复制而产生的分子进化证据。分子进化证据。l通过比较来自于不同种属的同源蛋白质,即通过比较来自于不同种属的同源蛋白质,即直系同源蛋白质直系同源蛋白质,可以分析蛋白质甚至种属,可以分析蛋白质甚至种属之间的系统发生关系,推测它们共同的祖先之间的系统发生关系,推测它们共同的祖先蛋白质蛋白质。(或基因组)或基因组)生物分子信息DNA序列数据蛋白质序列数据生物分子结构数据生物分子功能数据最基本直观复杂生物分子数据类型生物分子数据类型 DNA核酸
6、序列蛋白质氨基酸序列蛋白质结构蛋白质功能最基本的生物信息维持生命活动的机器第一部遗传密码第二部遗传密码?生命体系千姿百态的变化生物分子数据及其关系生物分子数据及其关系l第一部遗传密码已被破译,但对密码的转录过第一部遗传密码已被破译,但对密码的转录过程还不清楚,对大多数程还不清楚,对大多数DNA非编码区域的功能非编码区域的功能还知之甚少还知之甚少l 对于第二部密码,目前则只能用统计学的方法对于第二部密码,目前则只能用统计学的方法进行分析进行分析l无论是第一部遗传密码,还是第二部遗传密码,无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。都隐藏在大量的生物分子数据之中。生物
7、分子数据是宝藏,生物信息数据库是金矿,等待我们去挖掘和利用。生物分子数据是宝藏,生物信息数据库是金矿,等待我们去挖掘和利用。生物分子信息的特征生物分子信息的特征l生物分子信息数据量大生物分子信息数据量大 l生物分子信息复杂生物分子信息复杂 l生物分子信息之间存在密切联系生物分子信息之间存在密切联系l研究目标研究目标:揭示生物分子数据的内涵 生物分子数据具有深刻的内涵,数据之间存在着复杂的联系,丰富的生物学知识和规律。3、生物信息学的目标和任务、生物信息学的目标和任务 研究任务研究任务 l收集和管理生物分子数据收集和管理生物分子数据,使研究人员能方便,使研究人员能方便地使用这些数据,并为信息分析
8、和数据挖掘打地使用这些数据,并为信息分析和数据挖掘打下基础。下基础。数据来自于生物学实验,应用信息学技术收集数据来自于生物学实验,应用信息学技术收集和管理数据,建立数据库,并提供数据查询、和管理数据,建立数据库,并提供数据查询、搜索等工具。搜索等工具。l数据分析和挖掘数据分析和挖掘 发现数据间的关系,认识数据的本质,上升为发现数据间的关系,认识数据的本质,上升为生物学知识生物学知识 解释与生物分子信息复制、传递和表达有关的解释与生物分子信息复制、传递和表达有关的生物过程生物过程解释生物过程中出现的信息变化与疾病的关系,解释生物过程中出现的信息变化与疾病的关系,帮助设计新的药物分子帮助设计新的药
9、物分子 实验数据信息知识收集表示分析建模刻画特征比较推理应用基因工程蛋白质设计疾病诊断疾病治疗开发新药生物分子信息处理流程l目前生物信息学主要研究对象是目前生物信息学主要研究对象是DNA和蛋白质和蛋白质。l DNA分析方面分析方面:分析:分析DNA序列中的基因信息及基序列中的基因信息及基因表达调控信息、基因表达数据、基因间的相互作因表达调控信息、基因表达数据、基因间的相互作用关系用关系l蛋白质分析方面蛋白质分析方面:分析蛋白质序列与蛋白质结构、:分析蛋白质序列与蛋白质结构、功能间的关系,预测蛋白质的结构和功能,研究蛋功能间的关系,预测蛋白质的结构和功能,研究蛋白质的进化关系白质的进化关系l开发
10、分析工具和实用软件开发分析工具和实用软件生物分子序列比较工具生物分子序列比较工具基因识别工具基因识别工具生物分子结构预测工具生物分子结构预测工具基因表达数据分析工具基因表达数据分析工具 数据源数据源数据量数据量生物信息学任务生物信息学任务DNA序列序列11.5百万条序列百万条序列125.0 亿个碱基亿个碱基 分离编码与非编码区域分离编码与非编码区域识别内含子与外显子识别内含子与外显子基因产物预测基因产物预测基因功能注释基因功能注释基因调控信息分析基因调控信息分析 蛋白质序列蛋白质序列100万条序列(每条序列万条序列(每条序列平均有平均有300氨基酸氨基酸)序列比较序列比较多重序列比对多重序列比
11、对识别保守的序列模式识别保守的序列模式进化分析进化分析 大分子结构大分子结构2 万个结构万个结构(每个结构平均(每个结构平均1000个原子坐标)个原子坐标)二级结构、空间结构预测二级结构、空间结构预测三维结构比对三维结构比对蛋白质几何学度量蛋白质几何学度量表面和形态计算表面和形态计算分子间相互作用分析分子间相互作用分析分子模拟分子模拟 基因组基因组300个基因组个基因组 标注重复序列标注重复序列基因结构分析基因结构分析系统发生分析系统发生分析基因与疾病的连锁分析基因与疾病的连锁分析基因组比较基因组比较遗传语言分析遗传语言分析 基因表达基因表达酵母酵母6000个基因个基因在约在约20时间点表达值
12、时间点表达值 基因表达模式相关分析基因表达模式相关分析表达调控信息分析表达调控信息分析 分子生物学的三大核心数据库分子生物学的三大核心数据库 lGenBank核酸序列数据库核酸序列数据库 lSWISS-PROT蛋白质序列数据库蛋白质序列数据库 lPDB生物大分子结构数据库生物大分子结构数据库 第二节第二节 生物信息学的发展历史生物信息学的发展历史n20世纪世纪50年代,生物信息学开始孕育年代,生物信息学开始孕育 1956年年 在美国首次召开了在美国首次召开了“生物学中的信息理生物学中的信息理论研讨会论研讨会”n20世纪世纪60年代,生物信息学形成雏形年代,生物信息学形成雏形 一一些计算生物学家
13、开始进行相关研究,些计算生物学家开始进行相关研究,生物分子信息生物分子信息在在概念上将计算生物学和计算机科学联系起来。概念上将计算生物学和计算机科学联系起来。1962年,年,Zucherkandl和和Pauling研究了序列变化与进化间研究了序列变化与进化间的关系的关系分子进化分子进化 1967年,年,Dayhoff研制出蛋白质序列图集(氨基酸序列的研制出蛋白质序列图集(氨基酸序列的收集)收集)n20世纪世纪7080年代初期年代初期,许多生物分子序列数据产生,许多生物分子序列数据产生,一部分计算机科学家应用计算机技术解决生物学问题,尤其一部分计算机科学家应用计算机技术解决生物学问题,尤其与生物
14、分子序列相关的问题。与生物分子序列相关的问题。n序列比较方法序列比较方法 1970年,年,Needleman和和Wunsch提出序列比对算法提出序列比对算法 Gibbs和和McIntyre发表矩阵打点作图法发表矩阵打点作图法 Dayhoff提出提出PAM矩阵矩阵 1981年,年,Smith和和Waterman提出公共子序列识别法提出公共子序列识别法 1983年,年,Wilbur和和Lipman发表了数据库相似序列搜索法发表了数据库相似序列搜索法 1985年,蛋白质序列搜索法年,蛋白质序列搜索法FASTP/FASTN出现出现 1988年,年,Pearson和和Lipman发表著名的序列比较法发表
15、著名的序列比较法FASTA 1990年,快速相似序列搜索法年,快速相似序列搜索法BLAST问世问世n生物信息分析方法生物信息分析方法 1972年,年,Gatlin证实自然的生物分子序列是高度非随机证实自然的生物分子序列是高度非随机 1975年,年,Pipas和和McMahon提出计算机预测提出计算机预测RNA二级结构二级结构 1977年,年,DNA序列翻译成蛋白质序列法出现序列翻译成蛋白质序列法出现 1978年,年,Gingeras研制出核酸序列中限制性酶切位点的识研制出核酸序列中限制性酶切位点的识 别软件别软件n20世纪世纪80年代后年代后 1982年,核酸序列数据库年,核酸序列数据库Gen
16、Bank公开发行公开发行 1986年,日本核酸序列数据库年,日本核酸序列数据库DDBJ诞生诞生 蛋白质序列数据库蛋白质序列数据库SWISS-PROT出现出现 1988年,年,NCBI生物信息中心成立生物信息中心成立 欧洲分子生物学网络(欧洲分子生物学网络(EMBnet)成立)成立n20世纪世纪90年代后年代后 1990年,年,HGP计划启动计划启动 1995年,第一个细菌基因组被完全测序年,第一个细菌基因组被完全测序 1996年,酿酒酵母基因组被完全测序年,酿酒酵母基因组被完全测序 Affymetrix生产出第一块芯片生产出第一块芯片 1998年,线虫的基因组被完全测序年,线虫的基因组被完全测
17、序 1999年,果蝇的基因组被完全测序年,果蝇的基因组被完全测序 获得人类第获得人类第22对染色体的遗传序列对染色体的遗传序列 2000年年6月月24日,完成人类基因组的工作框架图日,完成人类基因组的工作框架图关于生物信息学发展历程中的重要大事,关于生物信息学发展历程中的重要大事,请参见下面两个网站的介绍:请参见下面两个网站的介绍:http:/bioinformatics/PubMed中与生物信息学相关论文统计中与生物信息学相关论文统计 生物信息学国内发展概况生物信息学国内发展概况n20世纪世纪80年代初,个别单位开展计算分子生物学的工作年代初,个别单位开展计算分子生物学的工作n1993年,年
18、,参与参与HGP,列入生物信息学的相关研究内容,列入生物信息学的相关研究内容n19951996 年年 开始发展开始发展 n1997年,年,香山会议召开,专题讨论生物信息学的发展香山会议召开,专题讨论生物信息学的发展n 1999年,年,北京召开生命科学中的信息科学问题北京召开生命科学中的信息科学问题 近几年,成立了一些生物信息学服务机构,如北京大学、近几年,成立了一些生物信息学服务机构,如北京大学、中科院上海生命科学研究院分别成立了生物信息中心。中科院上海生命科学研究院分别成立了生物信息中心。第三节第三节 生物信息学主要研究内容生物信息学主要研究内容1、生物分子数据的收集与管理生物分子数据的收集
19、与管理2、数据库搜索及序列比较数据库搜索及序列比较 3、基因组序列分析基因组序列分析 4、蛋白质结构预测蛋白质结构预测 100万多个蛋白质序列万多个蛋白质序列2万多个蛋白质空间结构万多个蛋白质空间结构核酸序列呈指数级增长核酸序列呈指数级增长1、生物分子数据的收集与管理收集和管理数据的具体工作收集和管理数据的具体工作l构建数据库系统构建数据库系统l建立网络服务器建立网络服务器l开发数据查询和搜索工具开发数据查询和搜索工具l设计数据分析软件和数据可视化软件设计数据分析软件和数据可视化软件交叉索引:数据库中的每一条数据应交叉索引:数据库中的每一条数据应尽可能地与其它数据库中的相关数据尽可能地与其它数
20、据库中的相关数据链接起来。链接起来。DAN序列序列 蛋白质序列蛋白质序列 蛋白质结构蛋白质结构核酸序列数据库蛋白质序列数据库蛋白质结构数据库DDBJEMBLGenBankSWISS-PROTPDBPIR2、数据库搜索及序列比较 l搜索同源序列在一定程度上就是通过序列比较寻搜索同源序列在一定程度上就是通过序列比较寻找相似序列找相似序列 l 一个普遍规律:序列决定结构,结构决定功能一个普遍规律:序列决定结构,结构决定功能新序列新序列已知序列已知序列功能预测功能预测l对于对于DNA序列,同源搜索有助于确定功能、编序列,同源搜索有助于确定功能、编码区及基因码区及基因l 对于蛋白质序列,有助于预测蛋白质
21、的结构、对于蛋白质序列,有助于预测蛋白质的结构、功能及进化信息功能及进化信息 序列的比较可以同类,也可以不同类,但比较序列的比较可以同类,也可以不同类,但比较前需转换成相同类型的序列。前需转换成相同类型的序列。l两序列比较两序列比较l数据库中某个序列或每个序列数据库中某个序列或每个序列BLAST和FASTA 数据库搜索的数据库搜索的 序列比较法序列比较法 多重序列比对多重序列比对研究的是多个序列的共性。序列的研究的是多个序列的共性。序列的多重比对可用来搜索多重比对可用来搜索基因组基因组序列的功能区域,也序列的功能区域,也可用于研究可用于研究一组蛋白质一组蛋白质之间的进化关系。之间的进化关系。发
22、现同源分子 在蛋白质研究方面,通过在蛋白质研究方面,通过结构数据库结构数据库的搜的搜索,能发现蛋白质间更深层的关系。索,能发现蛋白质间更深层的关系。3、基因组序列分析基因组序列分析 在在DNA序列分析方面,序列分析方面,识别蛋白质编码区或识识别蛋白质编码区或识别基因别基因是最关键的。是最关键的。l如发现一个新基因,通过如发现一个新基因,通过实验实验了解与其相关的生理了解与其相关的生理功能或疾病的本质功能或疾病的本质l实验测定的编码区域不一定完整,需结合实验测定的编码区域不一定完整,需结合计算计算找到找到并证实所有的外显子并证实所有的外显子l大量大量DNA序列数据的存在促使发展序列数据的存在促使
23、发展识别编码区和基识别编码区和基因算法因算法l 蛋白质序列蛋白质序列测定测定麻烦麻烦l 蛋白质序列蛋白质序列预测预测并非容易:并非容易:非编码区域存在非编码区域存在 编码区编码区基因结构和蛋白质序列基因结构和蛋白质序列蛋白质编码区的统计特征、基因结构中一些特蛋白质编码区的统计特征、基因结构中一些特殊信号位点、基因转录调控区的蛋白质结合位殊信号位点、基因转录调控区的蛋白质结合位点等都有助于识别基因。点等都有助于识别基因。l预测蛋白质的编码区预测蛋白质的编码区 l利用相关的数据以提高基因识别的准确性利用相关的数据以提高基因识别的准确性 l 理论识别与分子生物学实验结合理论识别与分子生物学实验结合基
24、基 因因 识识 别别 分析与基因表达调控相关的信息、各种功能位分析与基因表达调控相关的信息、各种功能位点及基因转录调控元件。点及基因转录调控元件。lDNA序列上特殊的片段,是蛋白质因子作用的序列上特殊的片段,是蛋白质因子作用的位点,是与基因转录、翻译有关的信号序列位点,是与基因转录、翻译有关的信号序列l 通过模式识别及生物信息软件分析通过模式识别及生物信息软件分析 非编码区的分析非编码区的分析l分析基因组的结构和信息,发现与功能密切相关分析基因组的结构和信息,发现与功能密切相关的保守序列的保守序列l研究物种间的进化关系研究物种间的进化关系基因组比较基因组比较4、蛋白质结构预测、蛋白质结构预测
25、l蛋白质是生物体的基本物质,一切生命活动都蛋白质是生物体的基本物质,一切生命活动都与蛋白质有关。与蛋白质有关。l蛋白质的结构由蛋白质的序列决定?蛋白质的结构由蛋白质的序列决定?l蛋白质的生物功能由蛋白质的结构所决定蛋白质的生物功能由蛋白质的结构所决定,蛋,蛋白质结构预测成为了解蛋白质功能的重要途径。白质结构预测成为了解蛋白质功能的重要途径。l蛋白质结构预测的基础:蛋白质的变性及重折蛋白质结构预测的基础:蛋白质的变性及重折叠实验叠实验l蛋白质结构预测分为蛋白质结构预测分为:二级结构预测二级结构预测空间结构预测空间结构预测 蛋白质折叠蛋白质折叠二级结构预测l不同的氨基酸残基在不同的局域环境下具有形
26、成特定二级结构的倾向性不同的氨基酸残基在不同的局域环境下具有形成特定二级结构的倾向性l预测某一个片段中心的残基是处于预测某一个片段中心的残基是处于a-螺旋,还是螺旋,还是B-折叠折叠,或其它结构。,或其它结构。l在二级结构预测方面主要方法有:在二级结构预测方面主要方法有:立体化学方法立体化学方法图论方法图论方法统计方法统计方法最邻近决策方法最邻近决策方法基于规则的专家系统方法基于规则的专家系统方法分子动力学方法分子动力学方法人工神经网络方法人工神经网络方法 l预测准确率不超过预测准确率不超过65%空间结构预测空间结构预测l同源模型法:相似序列的蛋白质倾向折叠成相似的空间结构l运用同源模型方法可
27、以完成所有蛋白质10-30%的空间结构预测工作第四节第四节 生物信息学的研究意义生物信息学的研究意义l认识生物本质认识生物本质了解生物分子信息的组织和结构,破译基因了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系。组信息,阐明生物信息之间的关系。基因调控序列与基因表达间的关系、蛋白质基因调控序列与基因表达间的关系、蛋白质序列与蛋白质结构间的关系是未知的,也是序列与蛋白质结构间的关系是未知的,也是非常复杂的。非常复杂的。l改变生物学的研究方式改变生物学的研究方式 高通量实验的出现高通量实验的出现 分子数据间存在着密切的关系分子数据间存在着密切的关系 大量的核酸序列和蛋白质序列大量的核酸序列和蛋白质序列l在医学上的重要意义在医学上的重要意义为疾病的诊断和治疗提供依据为疾病的诊断和治疗提供依据为设计新药提供依据为设计新药提供依据 揭示人类及重要动植物种类的基因信息,不揭示人类及重要动植物种类的基因信息,不仅对认识生物起源,对认识生物遗传、发育进化仅对认识生物起源,对认识生物遗传、发育进化的本质有重要意义,而且为人类疾病的科学诊断的本质有重要意义,而且为人类疾病的科学诊断和合理治疗开辟全新的途径,还为动植物的物种和合理治疗开辟全新的途径,还为动植物的物种改良提供理论基础。改良提供理论基础。生物信息学是生物信息学是21世纪生物学的核心世纪生物学的核心!
限制150内