基于多序列特征提取的蛋白质相互作用预测-杜明宇.pdf
《基于多序列特征提取的蛋白质相互作用预测-杜明宇.pdf》由会员分享,可在线阅读,更多相关《基于多序列特征提取的蛋白质相互作用预测-杜明宇.pdf(56页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、分类号学校代码!Q烈易莓弄冲被学号2Q!Z业Q3密级夫晕硕士学位论文基于多序列特征提取的蛋白质相互作用预测学位申请人:学科专业:指导教师:答辩日期:杜明宇软件工程张晓龙教授2017年5月14日万方数据A Dissertation Submitted in Partial Fulfillment of the Requirementsfor the Degree of Master in EngineeringPredicting Protein-protein Interactions fromProtein Sequence Based on Multiple FeatureExtracti
2、onsMaster Candidate:Major:Supervisor:Mingyu DuSoftware EngineeringProfXiaolong ZhangWuhan University of Science and TechnologyWuhan,Hubei 430081,PRChinaMay,2017万方数据武汉科技大学研究生学位论文刨新性声明本人郑重声明:所呈交的学位论文是本人在导师指导下,独立进行研究所取得的成果口除了文中已经注明引用的内容或属合作研究共同完成的工作外,本论文不包含任何其他个人或集体己经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文
3、中以明确方式标明。申请学位论文与资料若有不实之处,本人承担一切相关责任。论文作者签名:趣塑叠 日期: 趁l 2:包圣研究生学位论文版权使用授权声明本论文的研究成果归武汉科技大学所有,其研究内容不得以其它单位的名义发表。本人完全了解武汉科技大学有关保留、使用学位论文的规定,同意学校保留并向有关部门(按照武汉科技大学关于研究生学位论文收录工作的规定执行)送交论文的复印件和电子版本,允许论文被查阅和借阅,同意学校将本论文的全部或部分内容编入学校认可的国家相关数据库进行检索和对外服务。论文作者签名:趋鲺叠指导教师签名:蚴 1 1日 期: 勉l L垒:1万方数据摘要蛋白质在生命活动过程中扮演着重要的角色
4、,其功能的执行是通过蛋白质蛋白质之间的相互作用表现出来的,蛋白质蛋白质相互作用(PPIs)的研究一直是蛋白质组学的研究重点。传统的生物实验方法,由于一次只能对少量的蛋白质对进行验证,已经不能满足日益增长的实验需求。计算方法是用于预测PPIs的有效方法,已经成为研究人员的首选。本文基于蛋白质的序列,构建有效的预测蛋白质相互作用的方法。首先,准确地提取序列中蕴含的特征,区别存在相互作用的蛋白质对和不存在相互作用的蛋白质对。本文选取了氨基酸组成、氨基酸理化性质组成和自协方差3种蛋白质序列特征提取方法,并对其进行了实验对比研究,仅仅使用单一的特征提取方法,对蛋白质对的识别具有一定的特异性,预测精度也有
5、待提高。然后基于支持向量机分别构建3个互相独立且与序列编码方法一一对应的基分类器,最后使用了集成学习理论中的Stacking方法融合3个基分类器从而间接的融合多种蛋白质序列特征提取方法。在9952对酿酒酵母蛋白质数据集上进行实验,本文提出的方法取得了8674的预测精度,优于现有方法的平均水平,同时有效地降低了单一特征提取方法的特异性;在独立测试集上,该方法同样具有优秀的表现。实验结果表明,本文提出的方法有效地提高了蛋白质相互作用预测的准确率。关罐词:蛋白质蛋白质相互作用;蛋白质序列;特征提取;支持向量机;分类器融合万方数据AbstractProtein plays an important r
6、ole in almost all life activities and its function ismanifested by protein-protein interactions(PPIs),SO the study of PPIs has always beena key part of proteomicsThe traditional experimental method Can no longer meet thegrowing demand of the related research because only a small amount of protein pa
7、irsCan be verified at one experimentComputational methods have become the firstchoice for PPIs predictionIn this thesis,we constructed a more effective method to predict proteinproteininteractions based on the sequence information of proteinsFirst of all,we accuratelyextracted the information contai
8、ned in protein sequences,SO that the interacting proteinpairs and the non-interacting protein pairs Can be effectively distinguishedAmong avariety of protein sequence feature extraction methods,we selected threerepresentative methods and ran the experimental comparison on themThe resuItsshow that us
9、ing single feature extraction have certain limitations and the accuracv canbe improvedThen,based on the support vector machines,three independent classifierswere constructed which are corresponding to each sequence coding methodAt lasttheStacking method in integrated learning theory Was used as the
10、classifier fusion strategyto indirectly fuse these protein sequence feature extraction methodsTest九mon thedata set of 9952 Saccharomyces cerevisiae protein pairs suggests that thepredictionaccuracy托ached 8674and it effectively reduced the phenomenon ofhigh specificityOn the independent test set,this
11、 method is also superior to theexisting methods,suggesting that OUr method significantly improved the accuracy of prediction of PPIsKeywords:protein。protein interacti。ns;protein sequence;feature extracti。n;supp。rtvector machine;classifier fusion万方数据目 录摘 要IAbstractII第1章绪论111研究背景及意义112蛋白质相关概念2121蛋白质21
12、22蛋白质蛋白质相互作用613国内外研究现状及相关方法7131酵母双杂交筛选法7132亲和纯化、质谱联合法7133基于文本挖掘9134基于机器学习914本文结构9第2章蛋白质相互作用预测的分类算法1121常用机器学习算法1 1211决策树11212朴素贝叶斯11213支持向量机1222集成学习12221学习器生成13222结合策略1423模型评估与选择16231评估方法17232性能度量1 824本章小结20第3章基于多序列特征提取预测蛋白质相互作用2l31蛋白质相互作用预测过程2132数据集构建21321数据库简介2l322正集选取22万方数据323负集构造2333蛋白质序列特征提取2533
13、1氨基酸组成25332氨基酸理化性质组成25333自协方差2634特征融合29341特征融合方法29342集成模型2935本章小结3 1第4章实验结果与分析一3241实验数据集3242评价标准3243实验结果分析一33431不同负集构造方法的比较33432不同算法的比较34433不同核函数的比较34434不同参数的比较3544整体实验结果分析36441预测结果36442与其他方法的对比37443独立测试集表现3845本章小结39第5章总结与展望40致谢42参考文献43附录1攻读硕士学位期间发表的论文48附录2攻读硕士学位期间参加的科研项目49IV万方数据武汉科技大学硕士学位论文第1章绪论11研
14、究背景及意义20世纪90年代,一项横跨多个国家、多个学科及多个领域的国际科学研究项目在美国犹他州被首次提出【l】,旨在完整地测定构成人类DNA的核苷酸碱基对序列,进而绘制出人类基因组的图谱,破解人类遗传信息的奥秘,该项目被称为人类基因组计划(Human Genome Project,HGP)【21。人类基因组计划的初步粗略草案于2000年6月对外公开,随后于2003年4月14日人类基因组的最终测序图谱正式被发表。人类基因组计划的完成被认为是人类探索自身生命奥秘之路上的又一个里程碑。人类基因组中蕴含的信息对许多领域有着非同寻常的意义,鉴于DNA在分子生物学中的己确立的重要性及其在细胞生命活动过程
15、中的扮演的核心角色,人类基因组数据中蕴含的更深层次的信息可以帮助人类从根源上了解疾病的产生及其作用机理,并对药物的开发研制和新的治疗方式的的研究探索起到一定的指导作用,从而推动医学及其相关应用科学的进步与发展【31。直到目前为止,基因组数据的解释和分析工作仍处于初始阶段。但是人类基因组计划的完成已经在各领域取得了很具体的实际成果,例如:许多公司,开始提供可以显示多种疾病倾向的便捷基因测试;同样被认为从基因组信息中受益的还有对癌症、阿尔茨海默病的病因的研究;此外,还包括对特定病毒做基因敲除后定点治疗的新型疗法、不同种类的癌症的突变种的识别以及药物的设计等等【4-5】。随着人类基因组计划的完成和后
16、续工作的稳步推进,生命科学的研究进入后基因组时代。在后基因组时代,基因组学(Genomics)的研究重点从以全基因组测序为目标的结构基因组学转向以基因功能鉴定为目标的功能基因组学。功能基因组学是分子生物学的一个子领域,试图利用基因组项目(如基因组测序项目)产生的大量数据来描述基因或是蛋白质的功能和相互作用【6】,但是从基因到蛋白质,中途涉及到DNA到mRNA的转录、mRNA到蛋白质翻译和蛋白质的翻译后修饰等复杂且不确定的过程(遵循生物学的中心法则,见图11),可能出现同一个基因转录出的mRNA通过选择性剪接或可选的翻译后修饰产生多种蛋白质的情况。由于基因表达方式的错综复杂,直接从基因或是mRN
17、A的水平来解决有关蛋白质的一些问题,是几乎无法实现的。同时,相关实验表明人类的大部分疾病】万方数据武汉科技大学硕士学位论文并不涉及到基因层面,并不是因为基因的改变而引起的。蛋白质作为基因信息的表达者和生理功能的直接执行者,继续开展对蛋白质的研究仍具有很重要的意义。oA丢图11中心法则“:嚣豫舟e锥峨一蛋白质于是,上世纪90年代末期,诞生了对蛋白质的结构和功能进行大规模研究的一门新兴学科一蛋白质组学(Proteomics)【71。不同于传统蛋白质研究针对的是单个蛋白质,蛋白质组学研究的是由生物体或系统产生或修饰的整个蛋白质组,其最早概念由Marc Wilkins博士在1994年在校期间提出【8】
18、8。不同于有机体的或多或少是恒定的基因组,蛋白质组会随着时间、细胞或生物体经历的不同需求或是压力而变化,因此相对于基因组学来说,蛋白质组是一个动态的概念,主要是在细胞的整体蛋白质水平上运用质谱法(Mass Spectrometry)、蛋白质芯片(Proteinchips)和反相蛋白质微阵列(Reversephased protein microarrays)等蛋白功能分析技术对蛋白质进行高通量的平行分离和分析,在宏观水平上探索蛋白质组内部的相互关系,研究其功能机理和作用模式,从而得到对疾病过程、细胞生理病理过程的更加全面而深入的认识,进而揭示生命活动的基本规律,为临床诊断、药物筛选、新药开发和
19、个性医疗等诸多应用领域提供理论依据。可以认为,蛋白质组学研究的是后基因时代中生命科学研究的核心内容之一【91。12蛋白质相关概念121蛋白质1)基本含义蛋白质是生物体内的一种有机大分子,由一个或者多个氨基酸残基的长链组成,是生命体的必要组成成分。蛋白质扮演着生物体内功能的执行者的角色,参与了生物体内绝大多数的生命活动,包括催化代谢反应、DNA复制、刺激响应、分子运输等【10】。2)基本组成氨基酸是蛋白质大分子的基本组成单位,是生物学上非常重要的有机化合物,万方数据武汉科技大学硕士学位论文之一,包含一个碳(C)原子、一个氢(H)原子、一个氨基(Amino,化学式-NH:)、一个羧基(Carbox
20、ylic acid,化学式:COOH)和每种氨基酸特有的R基团侧链【111。具体结构如图12所示。HHH图12非电离状:态的q专基藏的结构在生物化学中,氨基和羧基直接连接到第一碳原子(也被称为0【碳原子)的氨基酸具有特别的重要性,被称为a氨基酸,通常我们说的氨基酸指的就是仅氨基酸【12】。按照R基团的不同,氨基酸被分为22种。其中20种氨基酸由遗传密码中的三联密码子直接编码,被称为“标准”氨基酸(见表11)。另外两种氨基酸是硒代半胱氨酸(Selenocysteine)(存在于许多非真核生物以及大多数真核生物,但不直接由DNA编码)和吡咯赖氨酸(Pyrrolysine)(仅在一些古细菌和一种细菌
21、中发现)131,在本文中不做其相关研究。表11=十种标准氨基酸英文名称 三字母缩写 单字母缩写 中文译名Alanine Ala A 丙氨酸Cysteine Cys C 半胱氨酸Aspartic acid Asp D 天冬氨酸Gl-atamic acid Glu E 谷氨酸Phenylalanine Phe F 苯丙氨酸Glycine Gly G 甘氨酸Histidine His H 组氨酸Isoleucine Ile I 异亮氨酸Lysine Lys K 赖氨酸Leucine Leu L 亮氨酸万方数据武汉科技大学硕士学位论文Methionine Met M 甲硫氨酸Asparagine As
22、n N 天冬酰胺Proline Pro P 脯氨酸Glutamine Gln Q 谷氨酰胺Arginine A玛 R 精氨酸Serine Ser S 丝氨酸1f1_1reonine nlr T 苏氨酸V-aline V址 V 缬氨酸Tryptophan Trp W 色氨酸Tyrosine Tyr Y 酪氨酸蛋白质由若干个氨基酸经历“脱水缩合”反应(如图13)形成,其中每两个相邻氨基酸发生一次反应失去一个水分子,形成一个肽键,使得余下的氨基酸残基彼此连接,被称为多肽链【14】。Amino acid1 Amino acid2)为了执行它们的生物学功能,此时的蛋白质会进一步通过氢键(Hydrogen
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 序列 特征 提取 蛋白质 相互作用 预测 杜明宇
限制150内