《基因芯片技术》第9章-基因芯片与系统生物学.ppt
《《基因芯片技术》第9章-基因芯片与系统生物学.ppt》由会员分享,可在线阅读,更多相关《《基因芯片技术》第9章-基因芯片与系统生物学.ppt(102页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基因芯片技术基因芯片技术Gene chip technology第第9章章 基因芯片与系统生物学基因芯片与系统生物学内容提要:内容提要:第一节第一节 系统生物学与基因芯片系统生物学与基因芯片 第二节第二节 基因芯片数据的基因芯片数据的MIAME规则规则 第三节第三节 芯片实验设计原则和方法芯片实验设计原则和方法第一节第一节 系统生物学与基因芯片系统生物学与基因芯片系统生物学四个方面系统生物学四个方面l一是系统结构:包括基因,蛋白间关系;由此得到的基因蛋一是系统结构:包括基因,蛋白间关系;由此得到的基因蛋白网络和生物通路(白网络和生物通路(pathwaypathway),以及这些相互之间关系所牵
2、),以及这些相互之间关系所牵涉到的细胞内、外结构的物理特性和机制。涉到的细胞内、外结构的物理特性和机制。l二是系统动力学:在不同时间点不同条件下系统的行为。通二是系统动力学:在不同时间点不同条件下系统的行为。通过代谢分析,敏感性分析,动力学分析工具、识别不同行为过代谢分析,敏感性分析,动力学分析工具、识别不同行为内在机制分析方法等来研究。内在机制分析方法等来研究。l三是系统的控制方法。搞清楚控制细胞处于各种状态的机制,三是系统的控制方法。搞清楚控制细胞处于各种状态的机制,然后模拟系统,能得到治疗疾病的药靶。然后模拟系统,能得到治疗疾病的药靶。l四是设计的方法。基于某些设计的原则和模拟方法,可以
3、修四是设计的方法。基于某些设计的原则和模拟方法,可以修正和构造具有所需特性的系统,而不必盲目地反复实验。正和构造具有所需特性的系统,而不必盲目地反复实验。系统生物学系统生物学两个关键技术基础两个关键技术基础1.“1.“组学组学”数据基础:数据基础:从从基基因因组组学学到到功功能能基基因因组组学学从从大大量量的的测测序序数数据据到到大大量量生生命命过过程程中中结结构构与与功功能能的的数数据据:基基因因组组、转转录录组组、蛋蛋白白组组、结结构构基基因因组组、代谢组、生理组、表型组、化学(药物)基因组代谢组、生理组、表型组、化学(药物)基因组2.2.检测和实验技术基础:检测和实验技术基础:v 功能基
4、因组检测技术平台:单分子测序、生物芯片等功能基因组检测技术平台:单分子测序、生物芯片等v 系系统统生生物物学学研研究究技技术术和和体体系系:细细胞胞和和动动物物模模型型(人人类类样样品品库库)、药物材料库、生物信息和生物计算技术药物材料库、生物信息和生物计算技术图:有丝分裂图:有丝分裂细胞周期图细胞周期图心脏病细胞的钙调途径心脏病细胞的钙调途径Genmapp对数据整理的形象描述对数据整理的形象描述转录调控网络转录调控网络通过通过表达谱表达谱将基因将基因聚类聚类,识别每类基,识别每类基因可能存在的共有因可能存在的共有转录调控因子的结转录调控因子的结合区域,综合相应合区域,综合相应的转录调控因子和
5、的转录调控因子和各类基因,构成基各类基因,构成基因调控网络。因调控网络。调控元件分析调控元件分析 共表达在一定程度上意味共调控,从共调控序列的上共表达在一定程度上意味共调控,从共调控序列的上游序列能得到共有调控元件。同一个类别中的基因在转录游序列能得到共有调控元件。同一个类别中的基因在转录中可能受共同调控,而中可能受共同调控,而表达谱聚类分析表达谱聚类分析是高通量识别共调是高通量识别共调控基因群的最有效和最方便的手段。通过分析同处在一个控基因群的最有效和最方便的手段。通过分析同处在一个类中的基因共有保守序列就能发现调控区域和调控元件。类中的基因共有保守序列就能发现调控区域和调控元件。基因芯片技
6、术预测调控元件常用的策略基因芯片技术预测调控元件常用的策略 工具工具l聚类工具:聚类工具:KmeansKmeans,SOMSOMl多序列比对工具:保守性、特异性多序列比对工具:保守性、特异性lLOGOLOGO的显示:的显示:WeblogoWeblogoGene OntologyGene Ontology数据库中基因功能分类的分析数据库中基因功能分类的分析 GO研究目的:研究目的:1)提供和维护基因本体论的类别;)提供和维护基因本体论的类别;2)把基因与本体论联系起来,从而进行更有效的基因)把基因与本体论联系起来,从而进行更有效的基因功能注释和信息提取;功能注释和信息提取;3)提供工具来便于对基
7、因信息的利用。)提供工具来便于对基因信息的利用。Gene OntologyGene Ontology数据库中基因功能分类的分析数据库中基因功能分类的分析 GO提供三种本体论分类:提供三种本体论分类:1)分子功能)分子功能(molecular function)、2)生物学过程)生物学过程(biological process)3)细胞组分)细胞组分(cellular component)。在每一个分类中,都提供一个描述相关信息的分级结构在每一个分类中,都提供一个描述相关信息的分级结构。http:/使用使用AmiGOAmiGO浏览浏览GOGO的例子的例子 PathwayPathway分析分析 K
8、EGGKEGG数据库数据库http:/KEGGKEGG结果结果TCA cycle(三羧酸循环(三羧酸循环)的)的KEGG生物学通路生物学通路BioCartahttp:/BioCartaBioCarta结果结果BioCarta数据库中的数据库中的AKT信号转导通路信号转导通路 基因芯片实验与功能分析基因芯片实验与功能分析(GO pathway analysis)(GO pathway analysis)l第一种方法是把发生差异表达的基因和第一种方法是把发生差异表达的基因和GO pathwayGO pathway联系起来,并且使用不同的颜色来表示其中的差异联系起来,并且使用不同的颜色来表示其中的差
9、异表达基因,使其能够很容易地被检测到。这是一种表达基因,使其能够很容易地被检测到。这是一种比较直观的方法。比较直观的方法。l例如:根据在某一例如:根据在某一GOGO分类中发生差异表达的基因的分类中发生差异表达的基因的数量,来推理与此数量,来推理与此GOGO分类相关的生物学功能是否发分类相关的生物学功能是否发生了改变。生了改变。基因芯片实验与功能分析基因芯片实验与功能分析(GO pathway analysis)(GO pathway analysis)基因芯片实验与功能分析基因芯片实验与功能分析(GO pathway analysis)l第二种方法是对基因芯片检测的结果进行统计第二种方法是对基
10、因芯片检测的结果进行统计学分析,从而确定一系列发生差异表达的基因学分析,从而确定一系列发生差异表达的基因是否多到可以代表某些生物学通路。通常用富是否多到可以代表某些生物学通路。通常用富集度分析。集度分析。http:/GeneMAPPlGenMAPP(Gene MicroArray Pathway Profiler)GenMAPP(Gene MicroArray Pathway Profiler)是一是一个可以免费使用的计算机程序,用来显现和分析基因个可以免费使用的计算机程序,用来显现和分析基因芯片的表达谱实验结果,并且将分析结果与生物学通芯片的表达谱实验结果,并且将分析结果与生物学通路和其它基
11、因群联系起来路和其它基因群联系起来。GeneMAPP顺向技术和反向技术顺向技术和反向技术l勾勒网络有顺向技术和反向技术勾勒网络有顺向技术和反向技术(reverse-(reverse-engineering)engineering)。l顺向技术:顺向技术:是指先根据生物化学知识,推导出是指先根据生物化学知识,推导出一些关系,设计出简单网络,并通过实验来证一些关系,设计出简单网络,并通过实验来证实。实。l反向技术:反向技术:是指从已有的表达数据中,去推断是指从已有的表达数据中,去推断其中蕴含的网络。其中蕴含的网络。l海量堆积的芯片数据,正需要反向技术来挖掘海量堆积的芯片数据,正需要反向技术来挖掘其
12、中的生物意义。其中的生物意义。基因网络研究的源起和发展基因网络研究的源起和发展基因调控网络:基因调控网络:运用生物信息学的方法和技术,通过数据采集、运用生物信息学的方法和技术,通过数据采集、分析、建模、模拟和推断等手段研究复杂的网络关系,在基因分析、建模、模拟和推断等手段研究复杂的网络关系,在基因组层次上揭示有关的作用机理。组层次上揭示有关的作用机理。基因网络的研究始于基因网络的研究始于20世纪世纪60年代,年代,Rater描述了控制原核生描述了控制原核生物的分子基因系统组织的特点。另一项研究是物的分子基因系统组织的特点。另一项研究是Kaufman通过简通过简单的逻辑规则研究基因网络动力学。单
13、的逻辑规则研究基因网络动力学。20世纪世纪90年代实验数据的增加加速了基因网络理论的研究,到年代实验数据的增加加速了基因网络理论的研究,到目前为止已发展了很多目前为止已发展了很多研究基因网络的方法研究基因网络的方法:如结构方程模型、:如结构方程模型、随机模型、布尔网络、逻辑方法、门限模型以及基于微分方程随机模型、布尔网络、逻辑方法、门限模型以及基于微分方程的方法等。的方法等。基因调控网络研究的目的和内容基因调控网络研究的目的和内容 l识别和推断基因网络的结构、特性和调控关系识别和推断基因网络的结构、特性和调控关系l认识复杂的分子调控过程认识复杂的分子调控过程l理解支配基因表达和功能的基本规则理
14、解支配基因表达和功能的基本规则l揭示基因表达过程中的信息传输规律揭示基因表达过程中的信息传输规律l整体的框架下研究基因的功能整体的框架下研究基因的功能芯片数据识别和推断网络芯片数据识别和推断网络目前研究最多的是从基因表达谱推断和识别基因网络。目前研究最多的是从基因表达谱推断和识别基因网络。l从表达数据识别基因调控网络结构;从表达数据识别基因调控网络结构;l通过随机扰动,分析个体基因对全局动态网络性能的影响,通过随机扰动,分析个体基因对全局动态网络性能的影响,得出网络特性;得出网络特性;l根据大规模的数据进行基因网络分析,识别基因网络中的调根据大规模的数据进行基因网络分析,识别基因网络中的调控关
15、系,获得网络参数,推断网络特征;控关系,获得网络参数,推断网络特征;l通过建立静态网络,推断网络中基因之间在稳态下的相互作通过建立静态网络,推断网络中基因之间在稳态下的相互作用机制;用机制;l在表达谱的基础上推断基因功能和生物网络的线路逻辑;在表达谱的基础上推断基因功能和生物网络的线路逻辑;l识别基因网络的因果结构等等。识别基因网络的因果结构等等。芯片数据识别和推断网络芯片数据识别和推断网络l 生物信息学通过对基因网络的关系进行适当简生物信息学通过对基因网络的关系进行适当简化和定量化处理,根据实验获得的数据和已知的经化和定量化处理,根据实验获得的数据和已知的经验知识发掘关系信息,建立网络模型,
16、通过模拟分验知识发掘关系信息,建立网络模型,通过模拟分析和实验测试挖掘各种关系研究网络特性,认识调析和实验测试挖掘各种关系研究网络特性,认识调控关系和相关机制。控关系和相关机制。权重矩阵网络权重矩阵网络l权重矩阵网络:假如基因的表达与时间无关,某个权重矩阵网络:假如基因的表达与时间无关,某个时刻的基因的表达只是受到这个时刻其它基因表达时刻的基因的表达只是受到这个时刻其它基因表达量的影响。量的影响。线性结构方程组线性结构方程组Y:endogenous variablesX:exogenous variables布尔网络布尔网络l基因的表达是一个连续的过程,若将其基因的表达是一个连续的过程,若将其
17、离散化离散化处理,处理,那么就得到那么就得到布尔网络布尔网络。l一个布尔网络含有一个布尔网络含有N N个节点(每个节点就是基因),个节点(每个节点就是基因),当这些基因被抑制或者表达,节点分别表现出的状当这些基因被抑制或者表达,节点分别表现出的状态是态是0 0和和1 1。l布尔网络从初始状态开始,经过一系列的状态转换,布尔网络从初始状态开始,经过一系列的状态转换,最终到达最终的稳定状态。从不同的初始状态出发,最终到达最终的稳定状态。从不同的初始状态出发,布尔网络会达到不同的中止状态,而这些不同的中布尔网络会达到不同的中止状态,而这些不同的中止状态对应于细胞相对稳定的生化状态。止状态对应于细胞相
18、对稳定的生化状态。布尔网络布尔网络l它有一些和真正的生物基因网络可比的特征,例如,它有一些和真正的生物基因网络可比的特征,例如,全局性,自组织性,冗余性等等。全局性,自组织性,冗余性等等。l布尔网络在应用于调控网络学习时仍然存在很多缺布尔网络在应用于调控网络学习时仍然存在很多缺点:基因只有开和关两种状态;不能量化调控关系;点:基因只有开和关两种状态;不能量化调控关系;要求所有基因的状态必须同步变化。要求所有基因的状态必须同步变化。常微分方程常微分方程l在常微分方程模型中在常微分方程模型中,方程的变量包括方程的变量包括RNAsRNAs、蛋白、蛋白质及其他生物小分子,基因调控关系可以用分子质及其他
19、生物小分子,基因调控关系可以用分子表达水平的变化率函数来表示表达水平的变化率函数来表示 常微分方程常微分方程l常微分方程族方法在建模时存在不少的问题:常微分方程族方法在建模时存在不少的问题:l适用于在大多数基因和它们的调控关系相对比较适用于在大多数基因和它们的调控关系相对比较清楚的情况;清楚的情况;l要求基因状态同步发生变化;要求基因状态同步发生变化;l在模型中对变量之间的关系过多的简化,比如表在模型中对变量之间的关系过多的简化,比如表达量函数通常是简单的线性关系。达量函数通常是简单的线性关系。偏微分方程偏微分方程l生物调控网络不仅是单个细胞内部不同分子之间相生物调控网络不仅是单个细胞内部不同
20、分子之间相互作用的结果,不同细胞内部基因产物的相互作用互作用的结果,不同细胞内部基因产物的相互作用也会对分子的表达量产生影响。也会对分子的表达量产生影响。l在偏微分模型中变量不仅是时间的函数,还可以是在偏微分模型中变量不仅是时间的函数,还可以是细胞序列号等变量的函数。细胞序列号等变量的函数。偏微分方程偏微分方程l该模型的最大优点是:比较符合生物网络的特点。该模型的最大优点是:比较符合生物网络的特点。l但是该模型要求非常精确的分子绝对表达量,这但是该模型要求非常精确的分子绝对表达量,这一点是目前的基因芯片实验所达不到的。一点是目前的基因芯片实验所达不到的。l其次,对于比较大的复杂网络,寻找参数和
21、数据其次,对于比较大的复杂网络,寻找参数和数据之间最优匹配的之间最优匹配的计算代价非常高,难以用于实际计算代价非常高,难以用于实际数据分析数据分析。l最后,由于在应用中通常需要对不同细胞之间分最后,由于在应用中通常需要对不同细胞之间分子的关系作较多的简化,因此对于复杂的生物网子的关系作较多的简化,因此对于复杂的生物网络并不能得到比较满意的效果。络并不能得到比较满意的效果。贝叶斯网络贝叶斯网络l对于对于贝叶斯网络贝叶斯网络,调控网络学习问题就是在给定打分函,调控网络学习问题就是在给定打分函数和搜索策略的情况下,寻找和基因芯片数据拟合得最数和搜索策略的情况下,寻找和基因芯片数据拟合得最好的简单网络
22、。好的简单网络。l贝叶斯网络的统计特性使得能够处理基因表达数据存在贝叶斯网络的统计特性使得能够处理基因表达数据存在的噪音和随机问题。同时它还能用于处理信息不完备的的噪音和随机问题。同时它还能用于处理信息不完备的系统。正是由于这些优点,贝叶斯网络方法在生物网络系统。正是由于这些优点,贝叶斯网络方法在生物网络学习方面得到了广泛的应用。学习方面得到了广泛的应用。l动态贝叶斯网络和卡尔曼滤波、隐马尔科夫模型、概率动态贝叶斯网络和卡尔曼滤波、隐马尔科夫模型、概率布尔网络等随机模型有关系,并且动态贝叶斯网络证明布尔网络等随机模型有关系,并且动态贝叶斯网络证明了在利用基因表达数据学习调控网络方面的优越性。了
23、在利用基因表达数据学习调控网络方面的优越性。贝叶斯网络模型贝叶斯网络模型 (一一)数据预处理。基因表达数据首先被离散成三种类型:数据预处理。基因表达数据首先被离散成三种类型:-1-1,0 0,1 1。这一简化是基于一个基因的表达水平是否显著地低于,。这一简化是基于一个基因的表达水平是否显著地低于,或者是近似,或者是显著地高于某个参照水平。或者是近似,或者是显著地高于某个参照水平。(二二)学习贝叶斯网络的算法。主要思想是首先利用一些简单的学习贝叶斯网络的算法。主要思想是首先利用一些简单的统计量统计量(如相关系数如相关系数)对每个基因推导出少数几个可能的父母集对每个基因推导出少数几个可能的父母集合
24、。合。在随后的寻找过程中,这个算法只是从这些可能的父母集合中在随后的寻找过程中,这个算法只是从这些可能的父母集合中寻找每个基因可能的调控基因,因此,这个算法可以从很小的寻找每个基因可能的调控基因,因此,这个算法可以从很小的网络空间中寻找到局部的网络空间中寻找到局部的(local)(local)最佳结构。最佳结构。贝叶斯网络模型贝叶斯网络模型 l(三三)对网络统计显著性的评估。对网络统计显著性的评估一对网络统计显著性的评估。对网络统计显著性的评估一般可以用我们上面定义的得分函数般可以用我们上面定义的得分函数(BIC(BIC或或AIC)AIC)来进行。来进行。l(四四)对于推导的网络的稳健性评估。
25、这一步骤对学习贝叶斯对于推导的网络的稳健性评估。这一步骤对学习贝叶斯网络是必不可少的。网络是必不可少的。构造大规模的网络构造大规模的网络酵母转录网络酵母转录网络 构造大规模的网络困难和不足构造大规模的网络困难和不足l数据量不足数据量不足l相关数据库的建设和高质量软件的开发是一项紧相关数据库的建设和高质量软件的开发是一项紧迫而艰巨的任务迫而艰巨的任务 l数据噪声和系统鲁棒问题以及数据采集和分析的数据噪声和系统鲁棒问题以及数据采集和分析的可靠性和数据集的可容性问题可靠性和数据集的可容性问题 构造大规模的网络困难和不足构造大规模的网络困难和不足l建模时遇到的两难问题:建模时遇到的两难问题:l求大导致
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基因芯片技术 基因芯片 技术 系统 生物学
限制150内