基于pdb的转录因子结合位点的预测毕业设计.doc
《基于pdb的转录因子结合位点的预测毕业设计.doc》由会员分享,可在线阅读,更多相关《基于pdb的转录因子结合位点的预测毕业设计.doc(57页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、南京邮电大学毕 业 设 计(论 文)题 目基于PDB的转录因子结合位点的预测专 业生物医学工程毕业设计(论文)原创性声明本人郑重声明:所提交的毕业设计(论文),是本人在导师指导下,独立进行研究工作所取得的成果。除文中已注明引用的内容外,本毕业设计(论文)不包含任何其他个人或集体已经发表或撰写过的作品成果。对本研究做出过重要贡献的个人和集体,均已在文中以明确方式标明并表示了谢意。 论文作者签名: 日期: 年 月 日摘 要mRNA转录起始调控是调控的基本控制点,其实质是转录因子结合相应的调控元件,影响了RNA聚合酶的活性,从而影响了基因的转录水平。本文从蛋白-核酸复合物的结构数据出发,利用复合物作
2、用力计算软件得出复合物中可能存在的氨基酸侧链同核酸之间的作用对。统计复合物集合中氨基酸侧链-碱基作用对的使用情况,计算出使用频率。把频率差异转化成数量参数生成打分矩阵,再结合转录因子同DNA的结合模式,用于结合位点的预测。通过序列比对可以得出同家族中核酸序列部分也具有一定的相似性,初步得出结合模式,通过验证该结合模式下的打分值排名均非常靠前,但用于结合位点的预测具有相当大的局限性。最后在上述研究的基础上,构建了转录因子结合位点预测平台。关键词:基因调控;蛋白-核酸复合物;转录因子;结合位点AbstractmRNA transcription regulation is the basic st
3、ep in gene regulation. Its essential is that transcription factors(TF) bind to elements to affect the RNA polymerases activeness. From the 3-D structural data of protein-DNA complexes, NUCPLOT software computes all the interaction between amino-acids side trains and DNA. This paper makes the present
4、 frequency of 20*4 kinds of amino acid-base interactions in each set. The difference of each sets present frequency is observed. So the quantity parameter is used to represent the preference of amino acid-base pairs in a protein-DNA complex data set. The parameter forms the scoring matrix, with the
5、binding mode of TF to DNA, the potential binding sits of TF are predicted.Through the alignment approach we can learn that the nucleic acid sequences also have a certain similarity in the same family. So we can get the preliminary binding mode.By verifying we can find that the value of the binding m
6、ode is in very front rank.But we still cant use this binding mode to predict the binding sites.Based on this papers research results, a platform is created to predict the potential DNA binding site of TF.Key words: gene regulation;protein-DNA complex;transcription factor ;binding site目 录第一章 绪论 .11.1
7、 基因研究 11.2 基因表达调控原理 11.2.1 基因表达 .11.2.2 基因调控 .21.3 生物信息学及其在调控元件预测中的运用 21.3.1 生物信息学 .21.3.2 调控元件预测 .31.4 课题研究内容 5第二章 氨基酸-碱基相互作用的研究 .62.1 蛋白-核酸的空间结构 .62.1.1 脱氧核糖核酸(DNA)的空间结构 .62.1.2 蛋白质的空间结构 .72.1.3 蛋白与核酸结合 .82.2 蛋白-核酸复合物中作用力计算 102.2.1 蛋白-核酸复合物数据来源 102.2.2 NUCPLOT简介 122.2.3 NUCPLOT的安装 132.2.4 蛋白-核酸复合物
8、数据分类 .142.3 氨基酸-碱基作用对使用分析 16第三章 利用结构数据进行结合位点预测 .223.1 打分矩阵 .223.1.1 打分矩阵的生成 223.1.2 检验打分矩阵 253.2 预测转录因子的结合位点 273.2.1 预测zif268类蛋白因子的结合位点 283.2.2 Clustalx简介 .303.2.3 预测CAP转录因子的结合位点 32第四章 结合模式和蛋白结合序列分析 .364.1 蛋白结合序列分析 364.2 结合模式 38第五章 基于结构数据的转录因子结合位点预测软件的实现 405.1 基本任务 405.2 软件设计说明 .415.3 数据安排 415.4 软件各
9、部分功能详解 .42结束语 47工作总结 .47毕设收获 .47致 谢 48参考文献 49附录 50南京邮电大学2013届本科生毕业设计(论文)第一章 绪论1.1 基因研究对基因的深入研究是自上世纪以来生物科学最重要的研究成果,它奠定了分子生物学快速发展的基础。基因是遗传信息的物理和功能单位,因此基因研究对揭示生命的奥秘具有重大意义。自2003年4月14日国际人类基因组测序组宣布提前2年成功绘制人类基因组序列图起,人类进入后基因组时代,开始了“后基因组计划”的研究。所谓“后基因组计划”就是对基因功能的研究,即所谓的“功能基因组学”。基因功能的体现取决于其结构和表达调控状况。基因表达的调控就是把
10、这些基因结构变换成多种多样基因功能的操作者。毋庸置疑,基因表达调控的研究对重要生命现象的阐明、解释细胞行为和疾病的发病机理等研究都具有重要意义。生物体内存在着一整套复杂而有序的基因表达调控体系。基因表达的调控可在多级水平上进行,但mRNA转录起始调控是调控的基本控制点,也是最重要的一环。本课题就属于基因转录起始调控的研究范畴。1.2 基因表达调控原理1.2.1 基因表达基因表达(gene expression)是指储存遗传信息的基因经过一系列步骤表现出其生物功能的整个过程。典型的基因表达是基因经过转录、翻译,产生有生物活性的蛋白质的过程。以最简单的形式,基因表达可以总结为分子生物学的中心法则(
11、Central dogma),如图1-1。基因表达存在多种阶段,包括基因的准备、转录、RNA加工、RNA转运、RNA去处、蛋白合成、蛋白修饰、蛋白定位等。图1-1 中心法则基因组(genome)是指含有一个生物体生存、发育、活动和繁殖所需要的全部遗传信息的整套核酸。但生物基因组的遗传信息并不是同时全部都表达出来的。生物个体的各种组织细胞一般都有相同的染色体数目,每个细胞含的DNA量基本相近。生殖细胞和体细胞都含有个体发育、生存和繁殖的全部遗传信息。但这些遗传信息的表达是受到严格调控的,通常各组织细胞只合成其自身结构和功能所需要的蛋白质。不同组织细胞中不仅表达的基因数量不相同,而且基因表达的强度
12、和种类也各不相同。从上所述,不难看出:生物的基因表达不是杂乱无章的,而是受着严密、精确调控的,我们已经可以认识到,不仅生命的遗传信息是生物生存所必需的,而且遗传信息的表达调控也是生命本质所在。1.2.2 基因调控基因调控(gene regulation)是指细胞用来控制各基因产物产出量的机制。基因调控可以在复制、扩增、基因激活、转录、转录后、翻译和翻译后等多级水平上行,但实际上,mRNA转录起始是基因表达调控的基本控制点,也是最主要的控制点。因为这是表达的最初阶段,可以避免那些不需要的转录所造成的资源浪费。转录起始调控的实质是DNA蛋白质/蛋白质蛋白质间的相互作用对RNA聚合酶活性的影响。核酸
13、链上的顺式作用元件与反式作用蛋白因子相互作用而调控基因表达。因而,对于一个特定的转录因子而言,找到其结合位点,也就是受其调控的调控元件具有重要的意义。同时,对于一个基因来说,能找到相关的调控元件,对于研究该基因的功能也具有重要的意义。1.3 生物信息学及其在调控元件预测中的运用1.3.1 生物信息学1995年,在美国人类基因组计划第一个五年总结报告中,给出了一个较为完整的生物信息学(Bioinformatics)定义:生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意
14、义。生物信息学主要包括以下几个主要研究领域1:l 序列比对(Alignment)。l 结构比对。l 蛋白质结构预测,包括2级和3级结构预测。l 计算机辅助基因识别(仅指蛋白质编码基因)。l 非编码区分析和DNA语言研究,是最重要的课题之一。l 分子进化和比较基因组学,是最重要的课题之一。l 序列重叠群(Contigs)装配。l 遗传密码的起源。l 基于结构的药物设计。1.3.2 调控元件预测在基因表达调控研究中,识别调控元件是关键的一步。随着人类基因组计划的进行,大量的各种数据被存储在各种生物数据库中。系统分析非编码序列所需要的实验工作量已超过了研究者的能力,因而迫切地需要借助生物信息学这个强
15、有力的信息处理工具,研究识别调控元件的方法,再用预测得到的可能调控元件来指导实验研究2。下面,我们从算法和研究数据两个方面出发做个介绍。目前,预测调控元件的方法有很多。从算法上看,有模式驱动算法(pattern-driven algorithms)、序列驱动算法(sequence-driven algorithms)等。l 模式驱动算法: 由于蛋白因子结合DNA开启了转录,因而最初的识别方法采用了这种简单的模式驱动算法。算法的具体步骤是:先用一批真实的结合位点来构造一个特征定义(characteristic definition)、模式(representation)或轮廓(profile),
16、然后用得到的特征来识别结合位点,找到的结合位点可能不止一个,最后按照某些原则把这些识别的结合位点组装起来。l 序列驱动算法(Sequence-driven algorithms)这个方法要处理的是一批包含结合位点的序列,但结合位点的位置和序列信息都不知道。功能相似的调控区域中,功能结合位点在相对顺序上经常是保守的;相反非功能结合位点是随机出现的。这种算法是基于这个事实来构建的。如果这些序列共享某些功能特性,那通过序列比较分析能提取出他们的共同特征。包含结合位点的序列可以来自试验方法,例如通过DNA阵列(DNA-arrays)技术得到的一组共表达基因;还可以来自比较基因组,因为不同物种之间的基因
17、调控模式经常是保守的,因而通过各物种之间的序列比对可以识别调控序列。l 统计分析中,判别分析是一种标准的统计模式识别技术,它根据已知类别(两类以上)的事物的性质(表明观察量特征的变量值),建立函数式,利用已建立的函数式对未知类别的新事物进行判断并将之归入已知的类别的分析方法。Michael Q Zhang19曾利用这种方法来预测核心启动子。l 人工神经网络(Artificial Neural Network,简称ANN)是一个用大量的简单处理单元经广泛并行互连所构成的人工网络,用于模拟人脑神经系统的结构和功能,它具有自学习、自组织、自适应、联想、模糊推理等方面的能力。S. Knudsen20利
18、用神经网络来分类一个序列是否属于调控序列集合。因为ANN适合于非线性识别过程,所以可以用来处理大量的退化结合位点。利用遗传算法对ANN权重进行优化,可以得到最好的识别效果。这种方法只能判断一条序列是否是推定的调控元件,但无法判断调控元件所在的具体位置。l 聚类分析就是根据事物彼此不同的属性进行辨认,将具有相似属性的事物聚为一类,使得同一类的事物具有高度的相似性。在生物体中,一个明显正确的信号如果放到前后关系错误的基因组序列中,就不具有任何生物意义上的重要性。相反,如果把一个高度异常的调控元件放到同其他调控元件关联很强的位置上,那或许它就具有了生物功能。功能结合位点通常都是以类的方式出现的,例如
19、启动子和增强子。因而可以利用这个方法搜索聚类的潜在结合位点。L.Pickert21等人用二维模糊聚类分析方法来分析结合位点聚类。如果从研究的生物数据角度出发,又可分为基于基因组序列、基于结构数据和基于基因表达数据的研究3。随着基因表达调控研究的进行,产生越来越多的结合位点序列、包含结合位点的调控区域序列和共调控表达序列等各种序列信息,利用一些算法可以从中寻找调控元件的预测方法。上面介绍的各种算法都可以应用在这种基因序列信息分析中。这些方法比较直接,但也有相当的局限性,其准确性依赖于所给序列信息的质量。而且由于转录因子经常结合多个目标位点、并以协作的方式调控多条基因,因而结合位点预测是一个相当复
20、杂的问题。X射线结晶学等研究物质微观结构技术的发展促使大量蛋白-核酸复合物的三维结构数据的产生。转录因子结合调控元件的过程中形成了蛋白-核酸复合物,通过对这些复合物的三维结构数据进行分析,就可以更好地理解蛋白同核酸结合的立体化学规则、理解因子如何识别特异目标序列。这些研究结果可以用来预测因子的结合位点研究中。Harrison4等人最先对DNA结合蛋白进行结构分类,分成不同家族,类似的分类也可在SCOP5和CATH6数据库中得到。这种分类简化了不同结合方法间的比较,也强调了蛋白-核酸复合物几何学图形上的差异,还发现螺旋同DNA主沟间的作用占了半数以上蛋白家族的主要结合模式。研究发现沿螺旋的每个氨
21、基酸位置同DNA碱基间的作用随家族的不同而不同7,8。另外,有些研究者在分子水平上研究了单个氨基酸-碱基间的作用,看是否存在对某些氨基酸-碱基作用对的使用偏好9。建立在类似这些对结构研究的基础上,可以进行转录因子结合位点预测。但这种方法也存在着局限性,因为存在着很多其他的必需考虑的因素。1.4 课题研究内容上个小节中介绍了基因表达调控的生物信息学研究方法,本课题从蛋白核酸复合物结构数据角度出发,通过分析氨基酸-碱基作用对,探索转录因子结合位点的预测方法。 本文选取PDB数据库中的所有蛋白-核酸复合物,通过作用力计算软件求出每个复合物中可能存在的氢键。对有计算结果的复合物进行分类,然后统计氨基酸
22、-碱基作用对的使用情况。再计算出反映每种氨基酸-碱基对使用偏向性的打分矩阵,并对打分矩阵的有效性进行验证。转录因子通过一定的结合模式同DNA发生作用,最后尝试利用结合模式和打分矩阵来预测某种转录因子在基因上游调控区域内的可能结合位点的,以zif268类锌指蛋白和CAP蛋白为例。结果可以证明这种方法在一定程度上可以用来进行转录因子结合位点预测。第二章 氨基酸-碱基相互作用的研究2.1 蛋白-核酸的空间结构2.1.1 脱氧核糖核酸(DNA)的空间结构脱氧核糖核酸 Deoxyribonucleic Acid(DNA)是一种分子量很大、能自行复制的双链分子,存在于一切活細胞内,是携带遗传信息的重要物质
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 pdb 转录 因子 结合 预测 毕业设计
限制150内