针对不同数据构建基因调控网络.pdf
《针对不同数据构建基因调控网络.pdf》由会员分享,可在线阅读,更多相关《针对不同数据构建基因调控网络.pdf(55页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 谨以此论文献给我的家人和我的导师 刘树霞 针对不同数据构建基因调控网络 摘要 近几年构建并分析基因调控网络是生物数学领域重要的研究方向之一, 这是因为基因调控网络可以直观地呈现出细胞内部基因间的调控关系以及因果关系,人们利用不同的方法分析基因表达数据构建基因调控网络以获得基因之间的相互关系。本文针对两种数据用两种不同的方法构建基因调控网络,并通过对所构建的网络的分析得出新的结论。 本文的主要内容: 第一部分,基于互信息理论构建基因的无向调控网。首先,对正常肾组织和患癌肾组织的基因表达数据采用 Wilcoxon 秩和检验的方法得到候选基因,然后建立这些基因的互信息网络,再根据两个网络的七个统计
2、量的关系筛选出 22 个结构关键基因,这些基因被预测为与肾癌有关的致病敏感基因,而且这 22 个基因中有 10 个已被证实与肾癌的发生和发展有关。同时,根据 GO(Gene Ontology)数据库中的基因注释预测了在肾癌的发展中起到重要作用的五条路径, 其中三条已被证实。 第二部分,提出一种基于逻辑分析理论构建基因调控网络的新方法,并将这种方法应用到酵母的敲除 263 个基因的基因敲除数据中构建基因调控网, 通过将所构建的网络和文献中已经得到的网络进行对比来说明方法的有效性, 进而通过对推测出的网络的注释预测出 10 个转录因子的 105 个靶基因和调控器。 关键词:互信息;基因调控网;逻辑
3、关系 Construct gene networks from different data Abstract Recently, construction and analysis of gene regulatory networks, which canintuitively represent the causality or regulatory relationships between genes, is very important field in Bio-mathematics. Diverse methods have been offered to set up gen
4、e regulatory networks from different data to mine the interactions between genes. In this paper, two methods are used to construct gene networks from two different data, and new conclusions are obtained through analysis of these networks. The main contents of this paper are as follows. Section one.
5、Construct undirected gene regulatory networks based on mutual information theory. The Wilcoxon rank-sum test method is used on gene expression profiles in kidney tissues with and without cancer to obtain candidate genes. Thereby, mutual information networks of these genes are constructed. Twenty two
6、 structural key genes are selected based on the seven statistics of the two networks, and these genes are predicted as potential pathogenic key genes of kidney cancer. Empirical studies on cancer show that ten of these genes are closely related to the formation and development of kidney cancer. Furt
7、hermore, five pathways are predicted that they may play an important role of development of kidney cancer based on GO annotation, and three of them have been confirmed. Section two. A new method which is based on logic analysis is presented to construct gene regulatory network. The method is validat
8、ed on the gene expression profiles of 263 Saccharomyces cerevisiae deletion mutants. The power of this method is demonstrated by comparing the deduced logic network with gene network reported in the previous studies. Furthermore, interpretation of the deduced logic network leads to the prediction of
9、 105 targets and regulators of 10 transcription factors. Key words: mutual information; gene regulatory network; logic relationship 目录 1 引言 . 1 1.1 研究现状 . 1 1.2 本文的主要研究工作 . 3 2 基于网络结构分析挖掘疾病敏感基因 . 4 2.1 基本概念 . 4 2.1.1 互信息基础 . 4 2.1.2 秩和检验 . 5 2.1.3 复杂网络七个统计量 . 6 2.2 网络的构建以及结构关键基因的筛选 . 7 2.2.1 数据来源 .
10、7 2.2.2 数据处理 . 7 2.2.3 构建基因网络 . 8 2.2.4 选取结构关键基因 . 12 2.3 有关注释 . 13 3 对于敲除单个基因的数据建立基因调控网络 . 16 3.1 方法 . 16 3.1.1 基本概念 . 16 3.1.2 构建网络模型 . 18 3.2 数据实验 . 21 3.2.1 应用于酵母的大规模的基因表达数据 . 21 3.2.2 验证方法的有效性 . 22 3.2.3 阈值的选取 . 30 3.3 结论 . 32 参考文献 . 34 致谢 . 45 个人简历、攻硕期间发表的学术论文与研究成果 . 46 11 引言 1.1 研究现状 “系统生物学 (
11、systems biology)”一词最早出现在 Zieglgansberger W1于 1993年发表的一篇关于神经疾病的研究论文的摘要中。 早在此之前, 贝塔朗菲在 1952年发表的抗体系统论中将系统生物学称为 “机体生物学 ”,将 “机体生物学 ”中的“机体 ”描述为 “整体 ”或 “系统 ”,并阐述了用数学模型、系统论来研究生物学2。尽管系统生物学的概念由来已久,但是直至人类基因组计划开启之后,产生了大量的数据,才使得对整个生物系统的研究成为可能。为了研究这些数据,科学家将数学、物理、计算机科学理论大量引入生物学研究中,从此使生物学从分子生物学时代正式的进入了系统生物学的时代3。 近年
12、来,基于基因微阵列技术、蛋白质芯片技术、基因测序技术等高通量技术的不断发展,涌现了大量的生物数据,如何从这些数据中获得有价值的信息是当前生物学研究面临的一个重要的问题, 对于这个问题的不断探索使得系统生物学得到迅速发展。 最先把 DNA 测序自动化的 Leroy Hood 博士对系统生物学曾有以下的描述:系统生物学是将生物系统中 DNA、 RNA、蛋白质以及三者彼此之间的交互作用等资料加以整合,并运用这些资料去建立出数学计量模型,以期能掌握所有生物基因与组织间的关系及运作4。 Klipp5认为系统生物学是研究宏观水平上生物表型和微观水平上的分子之间相互作用的逻辑关系的科学。 通过数学模型分析数
13、据构建生物网络(如基因调控网络、代谢网络、蛋白质相互作用网络等) ,从而获得基因之间的调控关系或者蛋白质之间的交互作用,是近年系统生物学的研究方式之一。 遵循这一研究方式,产生了众多构建基因调控网络(以下简称基因网络)的数学模型,其中对于基因表达数据构建基因网络的方法有布尔网络方法、贝叶斯网络方法、微分方程模型方法、线性回归法等6-9。信息论中的互信息也同样被用作构建基因调控网10,其基本思想是利用互信息理论分析基因表达数据,构建基因的互信息网络,并且通过设定阈值的方式来构建基因网络。 Bowers 等11提出了基于系统发生谱的逻辑分析( LAPP)方法,文中首先分析了三个蛋白质之间所有可能的
14、逻辑关系,并用实例说明这些逻辑关系的存在性。然后,提出了2用不确定性系数分析蛋白质系统发生谱数据获得蛋白质之间的逻辑关系构建蛋白质逻辑网络。 Ruan12将 LAPP 的方法应用到了结肠癌的基因表达数据中获得了致癌基因间的逻辑关系,并且获得了揭示结肠癌致病机理的代谢路径。 对于敲除单个基因的基因表达数据, 科学家们也设计出了很多方法构建基因网络13-23,例如, Peer 等13把每个基因的表达水平看成是随机变量,用节点表示变量,节点间的有向边代表依赖关系,用贝叶斯方法处理数据构建贝叶斯网络来模拟基因网络,并用 d-分离法来判断变量间是否是条件独立。 Wangner 等14用有向无环图来模拟基
15、因网络,基因即为图的节点,根据敲除一个基因对另外的基因是否有影响来说明两个基因(节点)之间是否是可达的,进而获得这些基因的可达矩阵,根据可达矩阵反推出有向无环图(即基因网络) ,文章还证明了有相同的可达矩阵的图中有唯一一个图是最精简的(边数最少) 。 Kyoda 等15提出了基于差异的调控识别( DBRF)的方法,用有向标记图来表示基因网络,使得基因间的激励抑制关系在图中直观地展现。 Dojer,N 等16用动态贝叶斯网来模拟基因网络。以上这些构建网络的方法均是研究了两个基因之间的相互作用,而Carter 等23使用了矩阵分解的方法来研究三个基因之间的关系,其具体是将敲除两个基因的表达数据和敲
16、除一个基 因的表达数据组成的矩阵分解成 “影响矩阵 ”和 “基因型矩阵 ”, 通过对这两个矩阵的分析得到基因间的调控作用从而预测出与酵母的细丝状生长表现型有关的基因。 但是如何对于敲除单个基因的基因表达数据(以下称为敲除数据)研究三个基因之间的逻辑关系?本文就这一问题基于逻辑分析提出新的数学模型,构建了基因网络。 Barabasi24和 Albert 在 1999 年发表的文章中研究了现实中的网络(万维网、社交网络等)的度分布情况,提出了构造无标度网络的模型,并且说明许多现实中的网络都是无标度网络,这一研究成果揭开了复杂网络研究的序幕。 Albert25将复杂网络理论应用到生物网络中,将复杂网
17、络中的概念平移到了生物网络中;Barabasi26于 2004 年验证了生物网络的无标度性。无标度网络的度分布为幂律分布,网络中的大部分点的度都很小,只有一部分节点的连接度很大,这些节点一般被称为中心, 在基因网络中这些中心节点所对应的基因已被验证是生物体生存的必需基因,这些必需基因的变异或者缺失会导致疾病的产生27-29。同时在生物网络中也发现了模块,这与复杂网络中模块的概念相吻合,同种生物的基因网3络模块不因实验条件的改变而改变,并且不同生物的网络有不同的模块,所以这些模块不仅可以用来理解生物、发现生物过程,还可以用来进行分类30,31。这些说明了复杂网络的方法已成为系统生物学研究的重要的
18、工具之一, 通过对生物网络的拓扑结构和动力学属性进行分析以提取具有普适性的生物规律也成为近年来又一种研究方式。 构建基因调控网络的目的是从基因表达数据中获得基因与基因之间相互作用网络32,从而从整体上揭示与生命过程相关的全局或局部网络特征,对基因调控网络的研究有利于了解生命活动在分子水平上的机制, 有利于研究细胞功能和生命过程,并为探索人类疾病的根源提供方向。 在众多的疾病当中,癌症是死亡率最高的疾病,根据癌症的发病特点,普遍认为癌症的产生是基因突变的结果, 但是在人体众多的基因中哪些基因的突变会导致疾病是困扰人们的一大难题。为了攻克这一难题,近年来科学家提出众多的方法来挖掘与癌症的发生发展相
19、关的基因33-38,其中包括层次聚类法33,34、递归决策树法35、逻辑分析法12等。本文采用统计方法筛选出表达差异基因,用互信息理论构建这些基因的基因网络, 并将复杂网络结构参数理论应用于基因网络分析来探寻癌症的致病基因。 1.2 本文的主要研究工作 本文主要分为三个部分: 第一部分为引言部分,介绍了近年来系统生物学的发展状况、构建基因网络的研究现状和本文的主要研究工作。 第二部分, 基于互信息构建基因网络的方法对患癌肾组织和正常肾组织的基因表达数据进行分析,构建了患癌肾组织的基因网络和正常肾组织的基因网络,进而根据复杂网络的统计参数的计算来获得两个基因网络的结构参数值, 通过对比参数值的差
20、异挖掘出致病的敏感基因。 第三部分,基于逻辑分析的方法,对敲除数据构建基因网络,并对得出的网络与实际生物实验所得出的基因调控网络进行比较, 通过比较得出的规律预测出10 个转录因子的靶基因和调控器。 42 基于网络结构分析挖掘疾病敏感基因 2.1 基本概念 2.1.1 互信息基础 互信息 (;)I XY是两个随机变量 X 和 Y 之间依赖关系的度量39,可被用来构建基因网络10。 对于离散型随机变量 X 来说, 自熵 ()HX是对随机变量 X 的平均不确定性的度量,定义如下: () ()log()xXHX px px, (2-1) 其中, ()p x 表示随机变量 X 的概率密度函数。 考虑两
21、个离散型随机变量 X 和 Y ,它们的联合概率密度函数为 (, )p xy,其边际概率密度函数分别为 ()p x 和 ()p y ,那么它们的联合熵 (,)HXY定义为39: ,( ,) (,)log(,)xXyYHXY pxy pxy, (2-2) 互信息 (;)I XY的定义为: ,(, )(;) (,)log() ()xXyYp xyIXY pxyp xpy, (2-3) 由式 (2-1)-(2-3)可得: (;) () () (,)I XY HX HY HXY , (2-4) 互信息值的高低表示变量之间的依赖程度的大小, 互信息值越高表示变量之间的依赖性越强。当 X 和 Y 相互独立时
22、, (;) 0IXY 。在实际应用时,当互信息值小于一定的阈值时就认为两个变量是相互独立的。 如果变量的分布符合正态分布,那么熵的计算可以用高斯核密度来计算40,其定义公式如下: 122111 1() exp()()2(2 )NTijijinnjp xxxCxNC, (2-5) 5其中, C 表示的是随机变量 X 的协方差矩阵, C 表示的是协方差矩阵的行列式。N 表示的是样本量, n表示的是变量的数量。 从而可以得到信息熵的简易算法 1221()log(2) log(2)2nnH XeC eC, (2-6) 那么,由 (2-4)和 (2-6)得互信息可以按照以下的方式计算 () ()1(;)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 针对 不同 数据 构建 基因 调控 网络
限制150内