2022年遗传神经网络及其在蛋白质二级结构预测中的应用 .pdf
《2022年遗传神经网络及其在蛋白质二级结构预测中的应用 .pdf》由会员分享,可在线阅读,更多相关《2022年遗传神经网络及其在蛋白质二级结构预测中的应用 .pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Vol. 22(2002)No. 2数 学 杂 志J. of Math. ( PRC )遗传神经网络及其在蛋白质二级结构预测中的应用王龙会 石 峰(武汉大学数学与统计学院,武汉 430072)摘要:本文从两个方面对传统的神经网络预测蛋白质二级结构的模型进行改进:一是从算法入手,结合遗传算法,形成遗传神经网络,努力使迭代朝全局最优的方向进行;二是从神经网络的输入层着手,添加反映残基和预测中心位置距离的单元.结果表明,改进的模型对螺旋预测正确率有很大的提高,从L1Howard Holley等人的59120 %到68167 %.关键词:蛋白质二级结构预测;神经网络;遗传算法MR (2000)主题分类
2、号: 92B20中图法分类号: O242128;Q71文献标识码:A文章编号:025527797(2002)02201792061 前言通过对已知空间结构的蛋白质分子的研究和分析,人们发现尽管一条多肽链可能采取的构象数目是相当大的,但是在蛋白质分子中,由二级结构组装而形成一定的空间结构的方式却是有限的.因此,蛋白质的二级结构预测就成为解决由蛋白质的一级序列预测其空间结构这一问题的最关键的步骤.科学家们已经用很多方法探索过这个问题,有的利用氨其酸的物理化学性质,有的利用序列同源和模式匹配,还有的对已知的蛋白质结构进行统计分析等等.L. Howard Holley 和 Martin Karplus
3、在 1988年提出用神经网络预测蛋白质二级结构,他们的方法对蛋白质二级结构的三种状态:螺旋 、 折叠和卷曲预测总的正确率为63 %.与之前的其他各种方法比较,他们的正确率是比较高的( 4 ) . 现在一般认为,如果二级结构的预测的预测成功率可以达到80 %的话,我们就可以基本准确地预测一个蛋白质分子的三维空间结构 (2 ).本文将从两个方面改进原有的利用神经网络模型预测蛋白质二级结构的方法:11 从算法方面改进,采用遗传算法和神经网络相结合的优化算法,提高计算效率,努力使迭代过程朝着全局最优的方向前进.21 对神经网络的输入层稍加改变,考虑距离对结构的影响.收稿日期: 20012012101基
4、金项目:武汉大学自强创新科研基金资助项目1名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 6 页 - - - - - - - - - 2 遗传神经网络的基本思想遗传算法 遗传算法主要借用生物进化中“适者生存”的规律.“适者生存” 揭示了大自然生物进化过程中的一个规律:最适合自然环境的群体往往产生更大的后代群体.遗传算法包含以下主要处理步骤:第一,对优化问题的解进行编码.我们称一个解的编码为一个染色体,组成编码的元素称为基因.编码的目的主要是用于优化问题解的表现形式和利于之
5、后遗传算法中的计算.第二,是适应函数f的构造.适应函数基本上依据优化问题的目标函数而定.当适应函数确定以后,自然选择规律是以适应函数值的大小决定的概率分布来确定哪些染色体适应生存,哪些被淘汰.生存下来的染色体组成种群,形成可以繁衍下一代的群体.第三,适应函数值的计算.第四,染色体的结合,产生新个体,使解具有更大的遍历性.根据遗传概率,利用下述操作产生新群体:1)选择 将已有的优良个体复制后添入新群体中,淘汰劣质个体;选择的标准体现在适应值f较大的个体被选中的概率较大.也就是说,适合于生存环境的优良个体有更多的繁殖后代的机会,从而使优良个性得以遗传.一般按下式得出的概率值随机选择复制对象:Pi=
6、 fiNi =1fi其中, N为群体的大小. Pi越大,所对应的个体被选中的可能性越大.2)交叉 两个互相配对的染色体按某种方式互相交换其部分基因,形成两个新个体.3)变异 将个体染色体编码中的某些基因用其他等位基因来替换,形成一个新个体.第五,反复执行第三、 第四步,一旦达到终止条件,选择最佳个体作为遗传算法的结果.遗传算法在求带有多参数、 多变量 、 多目标和在多区域但连通性较差的N P-hard优化问题比较有效.而且在求解这些问题的时候,还需要有很强的技巧和对问题有非常深入的了解.不足之处在于单一的遗传算法编码不能全面地将优化问题的约束表示出来,不能保证迭代过程收敛到最优解.人工神经网络
7、神经网络模型是一种由多个神经元单以某种规则连接而成的层次网络结构,其基本原理是这些神经元之间“相互牵制”和 “相互协作”.它有许多好的性质:对不完全信息和带有噪音的信息具有良好的适应性;对非线性输入输出关系的学习更具有优越性;它的学习能力很强.已经证明,其隐节点可以根据需要自由设置,则用一个三层前馈网络就可以以任意精度逼近任意复杂的连续函数.BP 网络是目前应用最广泛的一种学习算法.网络分为输入层、 隐含层和输出层.隐含层可以有一层或多层,节点的传递函数选S型函数: f ( x)= 1/ (1 +e-x) .假设 BP 网络三层节点表示为:输入节点xj,隐节点yi,输出节点: Ol.输入节点与
8、隐节点间的网络权值为:ij,隐节点与输出节点间的网络权值为: Tli,输出节点的期望输出为: tl. BP网络训练步骤如下:用小的随机数对每一层的权值ij和阈值 初始化,还要进行以下参数的设定:设定期望误差最小值:err -goal;设定最大循环次数:max-epoch;设定修正权值的学习速率:一般选取 = 0.010.7;开始进行循环训练:fork= 1:max-epoch.(1)计算网络各层的输出和网络误差:081数 学 杂 志 Vol. 22名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - -
9、- - 第 2 页,共 6 页 - - - - - - - - - 隐节点的输出: yi= f (jijxj2 i) ;输出节点输出: Ol=f (jTijyj2 l) ;所有样本误差: E =pk =1ek,其中ek=nl =1|tl(k)-Ol(k)|, P为样本数, n为输出节点数.(2)计算反向传播的误差变化,以及各层权值的修正值以及新的权值:输出层(隐节点到输出节点间)的修正公式:误差公司:l=( tl-Ol)?Ol?(1 -Ol) ;权值修正: Tli( k+ 1)=Tli( k)+ lyi;阈值修正:l( k+ 1)=l( k)+ l;隐节点(输入层到隐节点数)的修正公式:误差公
10、式:i=yi(1-yi)liTli;权值修正:ij( k+ 1)=ij( k)+ ixj;阈值修正:i( k+ 1)=i( k)+ i.(3)再次计算权值修正后的样本误差E.检查E是否小于err -goal ,若是,训练结束.否则k=k+ 1,程序继续.遗传神经网络模型多层前馈型神经网络BP 是用途最广泛的网络之一,虽然如此,神经网络理论还存在许多缺陷,如训练速度慢,易陷入局部极小和全局搜索能力弱等等.将遗传算法和神经网络相结合,各自发挥特长,用遗传算法来优化连接权值,可望解决这个问题.遗传神经网络的基本思想是首先给出t组初始网络权值,利用 BP算法训练网络得出t组权值,由这t组权值所对应的上
11、下限确定每个权值的取值区间,之后采用浮点数编码(即是真值编码方法,使用的是权值的真实值) ,生成基因群体,用遗传算法寻优.GA 的染色体就是 ANN 的权重 ,GA 的评价函数是: f= 1/ (1+E)其中, E =12Nk=1( tk-Ok)2;这里, ( xk,tk) ( k= 1,2, P)为学习样本, Ok为网络实际输出,其具体过程为:第一步:随机产生t组在不同实数区间内取值的初始网络权值;第二步:用 BP 算法对这t组初始权值分别进行预训练,若经过若干次训练后,这t组权值中有一组满足精度要求,则算法结束;否则转入第三步.第三步:分别依据经过预训练的上述t组权值所对应的上下限确定取值
12、区间 Umin,Umax ,然后采用浮点数编码,构成完整的基因群体;第四步:对这组权值进行选择、 交叉 、 变异等遗传操作,产生新一代群体;第五步:计算染色体的适应值f ;第六步:如果经过第五步已得到符合精度要求的权值或达到最大迭代次数,则算法结束;否则,转到第三步.3 学习和检验模型所用的数据我们基于Kbasch和 Sander的工作对蛋白质的二级结构进行分类. 对 BrookhavenProteinDataBank 已知结构分为:helices( H) 和 sheets ( E) ;既非 H 又非 E的残基都归为coil 类 .我们所用的蛋白质都来源于BrookhavenProteinDa
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年遗传神经网络及其在蛋白质二级结构预测中的应用 2022 遗传 神经网络 及其 蛋白质 二级 结构 预测 中的 应用
限制150内