书签分享收藏举报版权申诉 / 6

当前位置：首页 > 研究报告 > 论证报告 > 基于神经网络和粒子群算法的遗传位点与患病信息的关联性分析-李杰.pdf

基于神经网络和粒子群算法的遗传位点与患病信息的关联性分析-李杰.pdf

上传人：1890****070

文档编号：123411

上传时间：2018-05-14

格式：PDF

页数：6

大小：2.92MB

( 4.5 )

《基于神经网络和粒子群算法的遗传位点与患病信息的关联性分析-李杰.pdf》由会员分享，可在线阅读，更多相关《基于神经网络和粒子群算法的遗传位点与患病信息的关联性分析-李杰.pdf（6页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、第45卷第1期2018正北京化工大学学报(自然科学版)Journal of Beijing University of Chemical Technology(Natural Science)V0145，No12018基于神经网络和粒子群算法的遗传位点与患病信息的关联性分析李杰1 李志强2+ 刘晓1 闫白鹭2(北京化工大学1经济管理学院；2理学院，北京100029)摘要：基于遗传疾病与某些遗传基因位点存在的较强关联性，并考虑到位点间存在交互作用的情形，提出了关联性最强的位点组合的筛选方法。将每个候选位点组合对应的基于神经网络的预报准确率作为评价标准，用粒子群算法(PSO)通过迭代逼近找出最

2、优的位点组合，并与神经网络权重分析法进行比较。结果表明，由本文方法得到的位点组合预报精度更高，对患病情况有着较好的识别效果，可为遗传疾病诊断等提供参考方法。关键词：遗传位点；交互作用；粒子群算法(PSO)；神经网络中图分类号：F0641 DOI：1013543ibhxbzr201801016引言大量研究表明，人体的许多表型性状差异以及对药物和疾病的易感性都可能与某些基因位点相关联，故选取恰当的方法来找寻出相关致病位点，对于疾病的治疗和预防具有重要意义。目前关于遗传位点与患病信息关联性的研究成果较多，其中全基因组关联分析是研究患病信息和患病位点之间关联性的重要方法，这种方法通过对试验个体的健康

3、状况和位点编码的统计关联分析来确定致病位点，从而发现遗传病或性状的遗传机理1。皮尔逊卡方检验1和Logistic回归模型。4也是致病位点关联性分析中常用的方法，目的是剔除与患病信息无关或影响作用非常小的基因位点。为了避免模型设定的错误，部分学者提出利用神经网络模型等非参数的方法拟合数据并进行位点筛查b“1，但神经网络筛选方法是根据对每个位点在神经网络中的权重贡献率大小来挑选的，并没有考虑到位点之间是否存在交互作用，因此有时不能准确反映位点与遗传疾病的关联强度。实际上，如癌症、糖尿病等复杂疾病并不是由单个位点独立引起的，而是与多个遗传位点的联合作收稿日期：20161212基金项目：北京化工大学研

4、究生教改项目(11 120024018)第一作者：男，1993年生，硕士生+通讯联系人Email：lizhiqian92000163com用有关，即位点之间存在交互作用。交互作用在疾病的认识和发展中扮演着极其重要的角色，如果没有考虑位点间的交互作用，就无法真实准确地描述位点与患病的效应。7“1。探讨位点间交互作用对于提高复杂疾病的遗传解释度、构建复杂疾病的遗传风险评估模型、开发疾病诊疗个性化药物靶点并最终降低复杂疾病负担等方面均具有重要的理论和现实意义一一0。文献1112通过Logistic回归模型研究了位点及位点交互作用对遗传疾病的影响，得到对遗传疾病影响较大的位点组合。但是Logistic

5、回归模型对位点及位点交互作用作了较强的参数形式的假定，这在处理实际问题时可能会产生模型设定误差，从而导致错误的推断结果。因此，针对位点之间可能存在交互作用的情形，本文提出新的方法筛选与遗传疾病关联性最强的位点组合。针对每个可能的候选位点组合，利用神经网络方法训练数据，并以预报准确率作为评价标准，利用粒子群算法(PSO)通过迭代计算逐步逼近与遗传疾病相关性最强的位点组合，该方法缩短了计算时间，避免了Logistic回归模型等方法对位点作用较强的参数形式的假定。1 基于粒子群算法的位点组合选取11 基于粒子群算法的迭代计算本文将预报准确率作为评价标准，将全部给定的候选位点集合看作样本空间，把样本空

6、间的所有非空子集作为候选的位点组合，根据给定的评价标万方数据北京化工大学学报(自然科学版)准找出关联性最强的位点组合。其中预报准确率根据以下方法得到：首先将所有样本数据分为训练样本和预测样本，然后以相应位点的取值为输入、遗传疾病信息为输出，分别对某个指定的候选位点组合利用神经网络方法训练数据，最后基于预测样本进行预报并计算出相应的预测精度。但实际应用中由于候选的全部基因位点数目巨大，导致寻找最优位点组合的计算强度大时间过长，因此本文利用粒子群算法，通过迭代逼近最终筛查出关联性最强的位点组合。粒子群中的每一个粒子均对应一个候选的位点组合，其包含的位点在全部候选位点中的位置与粒子中分量为1的位置相

7、对应。以每个粒子对应的预测精度为适应度函数值，根据粒子群算法对粒子进行更新迭代直至收敛，从而得到给定评价标准下的最优粒子，即最优位点组合。粒子群算法的原理为：在迭代搜寻的过程中，粒子通过向个体最优位置和群体最优位置学习的经验来搜索最优解，在搜寻过程中通过不断修正粒子的适应度、速度和位置来学习。正是由于每个粒子都在不断调整和其他较好位置粒子的差异，不断向前期找到的较好位置靠拢，才使得它们的收敛速度很快1”“。吕思晨、1 5。提出了将粒子群算法和遗传算法结合起来研究位点与疾病关联分析的算法，并用来寻找与疾病关联性较强的单个位点。假定粒子群中有凡个粒子，每个粒子均是分量为0或1的D维向量(D为可选的

8、位点个数)，即S=(S，Js：，S。)为粒子种群，其中s。为第i个粒子。为了计算每个粒子的适应度，分别以粒子中所有取值为1的分量所对应的位点取值作为BP神经网络的输入值，则对预测样本的预报正确率可作为对应粒子的适应度函数值。在下一次迭代时，基于每个粒子的适应度值以及种群中最大的适应度值来调整其分量的飞行速度，然后基于速度修正粒子的选取概率，并重新生成一个新的具有凡个粒子的种群。重复以上迭代步骤进行计算，直至收敛。具体来说，粒子的速度决定粒子移动的方向和距离，在每次迭代过程中，第i个粒子的第J个分量根据个体适应度极值和群体适应度极值更新自身的速度，即：口=呓+cl rl(P；一s：)+C2r2(

9、P酊k一5：) (1)其中，为惯性权重；k为当前迭代次数；C。和c：是非负常数，称为加速度因子；r。和r：是0，1上的随机数；P。=(Pn，P，P珊)1为第i个个体适应度最优时对应的取值，表示迭代到第k次时第i个粒子的适应度最大取值(比较的是同一个粒子在整个迭代中的适应度值)；P。=(PP彬，P和)1为全局适应度最大取值，表示迭代到第k次时所有粒子的适应度最大值(比较的是所有粒子在整个迭代中的适应度值)。根据第i个粒子中第，个分量的速度”ii更新对应位置的选取概率f(”i)，基于选取概率来判定第i个粒子对应的第J个分量的取值Js。-s。= (2)其中R是服从0，1上均匀分布的随机数，函数f(v

10、；j)=罱,Vq不同，粒子的更新位置也不同，秽。i越大，粒子在该位置取1的概率越大。为了能够迭代计算，在初次迭代时，每个粒子的每个分量的取值可利用等概率来选择。模拟结果显示，算法的结果不受初值的影响。12基于神经网络的适应度计算假定输入某f个位点构成的位点组合为X。=(菇：，并：，戈；)1其中P=1，2，形(形为训练样本总数)。神经网络第P个样本隐层第J个结点的输出值为，f、h，P=f(o蛳+i算?)，J=1，2，式中“)为激活函数，其形式同式(2)中f(”。i)，；，为输入层和隐层之间的连接权值，口。，为常数项，j为隐层结点数。BP神经网络第P个样本输出层第k个结点值为虻=叫批h；，k=1，

11、2， (3)其中，。为隐层到输出层的权值，h?为第J个隐层结点的输出值，为输出层结点数。得到训练的网络结构后，输人预测样本并比较预测结果和真实结果，以位点组合对预测样本的预测准确率作为对应的粒子在粒子群算法中的适应度函数值。13算法构建位点组合选取迭代计算步骤如下。(1)利用两点分布B(1，05)生成n个粒子的每个分量，建立BP神经网络；对每个粒子，以粒子万方数据第1期李杰等：基于神经网络和粒子群算法的遗传位点与患病信息的关联性分析 99中所有位置为1的位点作为输入值，以预测样本的正确率作为适应度函数评估各粒子，记录第i个粒子的个体最优值并作为当前粒子适应度，全局最优值为适应度值最大的粒子

12、。(2)根据PSO算法的公式(1)和(2)更新n个粒子的速度和位置，产生新的一组粒子，建立BP神经网络；将每个粒子以粒子中所有位置为1的位点作为输入值，以预测样本的正确率为适应度函数来评估各粒子。比较当前第i个粒子和个体最优的适应度函数值，将其中具有较大适应度函数值的粒子作为第i个粒子的个体最优；比较所有粒子和全局最优的适应度函数值，将具有最大适应度函数值的粒子作为全局最优。(3)判断是否满足停止准则，若满足，则将全局最优输出，结束；若不满足，则返回步骤(2)。(4)重复步骤(1)(3)，可以得到多个位点组合。将出现在位点组合中次数最多的部分位点作为具有较好预测效果的位点组合。2 实验及结果分

13、析21数据来源选取2016年研究生数学建模竞赛B题数据(http：gmcmSelleducn011dc12a285pagehtm)，样本由1000位试验者的患病信息和9445个位点信息遗传信息构成。样本分为患病者和健康者，两者各占50，用1表示患病者、0表示健康者。每位试验者对应9445个位点，位点信息由碱基A，T，C，G的不同组合来表示，用两个碱基的组合表示一个位点的信息，一个位点有3种不同编码。因为样本所给的位点有9445个，直接实施本文算法会导致计算量非常大，计算时间过长，所以需要首先对与患病信息无关的基因位点初步筛除。本文选择皮尔逊卡方检验的P值和Logistic回归中单变量的t检验的

14、P值作为统计相关性度量指标。筛选掉与遗传疾病信息完全独立的基因位点和本身作用很小的基因位点，然后从剩余的相关性较强的位点集合中分别利用本文方法和神经网络权重分析法筛查关联性最强的部分位点，并根据预报准确率对两种方法进行对比。22初步筛选步骤221皮尔逊卡方检验皮尔逊卡方统计量。21是用于检验实际分布与理论分布拟合优度指标，可以用于两个指标的独立性检验。以位点rs2273298位置为例，该位点取值为AA、AG和GG，并分别赋值为1，2，3；疾病信息取值为0、1。令i为位点取值歹而疾病取值为i的个体的数量，则位点rs2273298与疾病信息的独立性检验的卡方值为疋2=；坠，型qlO型00 (4)

15、寺、其中，=tq,i=o，1；劬=tq,，=1，2，3。当位点与疾病独立时，式(4)中统计量服从自由度为2的卡方分布，因此可计算出样本卡方值对应的P值。若P值很小，说明位点与疾病之间存在相关性；若P值大于给定的临界值，说明两者之间相互独立。利用MATLAB计算9445个位点与疾病之间的卡方统计量值和相应的P值，以卡方检验的P值小于001为标准，从中筛选出与疾病存在相关性的73个位点，结果如表1所示。表1 卡方检验的73个筛选结果Table 1 73 screening results of the Hisquare test222 Logistic回归本文中位点的取值为碱基对，每一个位点编码

16、方式均为3种。考虑到每个位点有3个取值，将位点拆分为两个01型变量。以第i个位点rs2273298为例，样本中位点rs2273298有AA、AG和GG 3种不同编码方式，将此位点拆分为两个示性变量1 AAX2i-12 10 other万方数据北京化工大学学报(自然科学版)r1 GGt 20other根据此方法将通过卡方检验得到的73个位点拆分成146个示性变量。观测指标变量为(X，Y)，其中x=(茗，z：，x：。)是m个(m=73)位点的信息，Y0，1是一个二分类的属性变量(Y=1表示第i个样本是患病者，Y=0表示第i个样本是健康者)。用Logistic回归。3。建立患病识别准则模型：exp(

17、卢o+届l戈l+芦222+届2mx2m) ，f、， 1+exp(flo+JBl戈l+p2戈2+p2m戈2m) 、一7其中，卢。(i=1，2，2m)为变量系数，Logistic回归值P为个体样本是否患病的概率。根据回归系数的t检验来判断位点与疾病之间的相关性是否显著。由于样本量较大，t检验统计量近似服从标准正态分布r：坠堡N(0，1)盯i。(6)由式(6)结合标准正态分布表可计算出t检验统计量的P值P=P|TIt以146个示性变量为自变量进行Logistic回归，以t检验的P值来衡量位点是否对患病概率存在影响。以P值小于005作为筛选标准进一步筛选出变量所对应的位点，得到显著相关水平较高的55个

18、位点如表2所示。表2 Logistic回归的55个筛选结果Table 2 55 screening results of Logistic regression位置位点位置位点2938 rs2273298 962 rs33926292 rs2250358 3588 rs573605 18380 rs7533305 l 593 rs7522337737 rs93272 3753 rs299987880 rsl263 353 rs36360928589 rs933306 757 rs880801932 rsl225350 5937 rs2835671531 rs736825223最优位点组合

19、求解根据初步筛选得到55个与某遗传疾病存在关联性的位点及位点组合的预报准确率，可以找出对遗传疾病发生可能性影响最大的位点组合。但是可能的位点组合数目有2 55一1个，要逐一计算对比寻找最优位点组合将产生非常大的计算量。为此本文利用粒子群算法通过迭代逼近来求出最优位点组合，在采用神经网络方法针对候选位点训练拟合数据时将样本分为训练样本和预测样本，其中训练样本900个，预测样本100个。将BP神经网络对预测样本的预测正确率作为粒子群算法中的适应度函数值，然后进行迭代求解。24结果对比及分析根据在多个最优解中出现的次数选出重要程度最高，即与疾病关联性最强的11个位点如表3所示。表3与疾病关联性最强的

20、11个位点Table 3 The strongest ll genetic loci associated with disease位置位点位置位点92 rs28337 3307 rs273530292 rs2250358 3927 rs28095392 rs382033 6077 rsl573253962 rs33926 7737 rs932721531 rs7368252 8589 rs9333062938 rs2273298将上述1 1个位点作为输入序列，患病信息为输出量，从真实数据和预测数据的比较(图1)可以看出模型具有较好的预测效果。201510饕n5翻 0一O5一1O【J 2

21、t) 4【J 州J M 儿儿J详4x1、数图1 预测样本中真实值与预测值对比图Fig1 A comparison of the true and predicted values forthe predictiv sample为了比较本文所提出的基于神经网络和粒子群算法的位点组合的筛选方法(方法1)与单一神经网络权重分析法(方法2)的准确度差异，以55个初选得到的位点取值为输入值直接训练数据，以每个位点在神经网络中的权重贡献率大小排序，再从中选取权重贡献率最大的11个位点作为与疾病关联性最强的位点。万方数据第1期李杰等：基于神经网络和粒子群算法的遗传位点与患病信息的关联性分析 10l利用混

22、淆矩阵和受试者工作特征曲线ROC下方面积(AUC)检验这两个方法预测效果，具体结果如表4所示。表4两种方法的预测效果比较Table 4 Comparison of the predictive effects ofthe two methodsMolecular Pathology，2015，99(1)：1451504 杨亮，李涌涛，齐新，等CYPlBl基因rsl056836位5由表4结果可知，基于粒子群算法所筛选的位点组合预测效果比单一神经网络权重法更好，尤其是针对患病者的预测精度高达86，说明本文方法 6分类正确率更高。3 结束语针对寻找与疾病存在关联性的位点问题，本文提出以神经网络的预报

23、准确率为评价标准，基于粒子群算法筛选与某遗传疾病相关的重要位点组合。建立的位点筛选方法具有较强的适应性，包含了位点之间存在交互作用的情形，与只考虑选取单个重要位点的单一神经网络权重法相比，由本文方法得到的位点组合的预测效果更好，适用范围也更广泛，为疾病诊断和遗传疾病分析提供了一种新方法。参考文献：1Taylor K C，Evans D S，Edwards D R V，et a1A genomewide association study metaanalysis of clinical frac一23ture in 10，012 African American womenJBone Repo

24、ns，2016，5：233242赵冀，周超，邓小凡，等microRNA一137基因与原发性肝细胞癌患病风险和手术治疗预后分析J中国临床研究，2016，29(7)：880883Zhao J，Zhou C，Deng X F，et a1Association of the micro RNA1 37 gene with morbid risk and surgical treatmentprognosis for primary hepatocellular carcinomaJChinese Journal of Clinical Research，2016，29(7)：880883(in Chi

25、nese)Nikolic Z，Savic P D，Vucic N，et a1Assessment of association between genetic variants in microRNA geneshsamiR-499hsamiR一1 96a2 and hsamiR27a and prostate cancer risk in Serbian populationJExperimental7891012点多态性与新疆维吾尔族乳腺癌易感性的研究J临床肿瘤学杂志，2014(8)：728733Yang L，Li Y T，Qi X，et a1The relationship betwee

26、nthe polymorphism in CYPl B1 gene rsl056836 and thesusceptibility to breast cancer in Xinjiang Uygur womenJChinese Clinical Oncology，2014，19(8)：728733(in Chinese)Falk C T，Gilchrist J M，PericakVance M A，et a1Using neural networks as an aid in the determination of disease status：comparison of clinical

27、 diagnosis to neuralnetwork predictions in a pedigree with autosomal dominantlimbgirdle muscular dystrophyJAmerican Journal ofHuman Genetics，1998，62(4)：941949杜文聪，陆莹，叶新华，等应用BP人工神经网络探讨脂联素基因多态性位点间交互作用与汉族人群2型糖尿病遗传易感性的关系J中国糖尿病杂志，2012，20(1)：20一23Du W C，Lu Y，Ye X H，et a1Association between adiponectin(APN)

28、gene polymorphism locus interacts andtype 2 diabetes risk in a Chinese Han population studiedby BPANNJChinese Journal of Diabetes，2012，20(1)：20-23(in Chinese)Wu X S，Jin L，Xiong M MComposite measure of linkage disequilibrium for testing interaction between unlinkedlociJEur J Hum Genet，2008，16(5)：6446

29、51徐静基于得分检验的整体基因间共关联作用统计方法研究D济南：山东大学，2016Xu JStatistical method study for detecting COassociationof whole genes based on score testDJinan：ShandongUniversity，2016(in Chinese)Eichler E E，Flint J，Gibson G，et a1Missing heritability and strategies for finding the underlying causes of conplex diseaseJNatur

30、e Reviews Genetics，2010，11(6)：446450李芳玉多数量性状的整体基因间交互作用统计推断方法研究D济南：山东大学，2014Li F YStatistical methods for detecting genebased genegene interaction on multiple quantitative traitsDJinan：Shandong University，20 1 4(in Chinese)彭倩倩群体病例对照研究设计的整体基因关联分析统计推断方法研究D济南：山东大学，2009Peng Q QWholegenestatisticalmethod

31、research forpopulationbased casecontrol studyDJinan：Shandong University，2009(in Chinese)Schaid D J，McDonnell S K，Hebbfing S J，et a1Nonpara万方数据metric tests of association of multiple genes with human diseaseJAm J Hum Genet，2005，76(5)：78079313Xu S H，Mu X D，Chai D，et a1Multiobjectiveuantumbehaved parti

32、cle swarln optimization algorithm witb 15doublepotential well and share1earningJ0ptikInternational Journal for Light and Electron Optics，20 1 6，1 27(12)：49214927Karami A，GuerreroZapata MA hybrid multiobjectiveRBFPSO method for mitigating DoS attacks in nareed data networkingJNeurocomputing，2015，151：

33、12621282吕思晨基于遗传和粒子群搜索的SNP关联分析算法D西安：西安电子科技大学，2014LV S CSNP association study by genetic particle swarmoptimizationDXian：Xidian University，2014(inChinese)Correlation analysis of genetic site and disease information based onneural networks and particle swarm optimizationLI Jiel LI ZhiQian92+(1School of

34、 Economics and Management；2Faculty of ScienceLIU Xia01 YAN BaiLu2Beijing University of Chemical Technology，Bering 100029，China)Abstract：The meth。d of SCreening the most powerful loci combinations has been studied under consideration of theInteractlons between loci when genetic diseases are associate

35、d with thesegenetic loci In this paper，the predictionaccuracY based on neural networks is taken as the evaluation criterion to find the optimal combination of loci bv thepartlcle swarm algorithm through iterative approximation Compared with the weight analysis method this methodhas hlgher accuracY，and has a good recognition effect fora disease， and can thus provide a reference for diseasediagnosisKey words：genetic locus；interaction；particle swaYnl optimization(PSO)；neural network(责任编辑：汪琴)万方数据

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

此文档不允许下载，请继续在线阅读

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于神经网络粒子算法遗传患病信息关联性分析李杰

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：基于神经网络和粒子群算法的遗传位点与患病信息的关联性分析-李杰.pdf
链接地址：https://www.taowenge.com/p-123411.html