DNA序列分类模型.doc
《DNA序列分类模型.doc》由会员分享,可在线阅读,更多相关《DNA序列分类模型.doc(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、DNA序列分类模型重庆市数学建模竞赛一等奖王 勇, 莫志锋, 秦力顼(1999级自动化学院)摘要 本文根据题中所给两个已知类别的DNA序列进行结构特征分析,从中提取信息和构造分类模型,对未知类别的DNA序列进行分类。我们构造了三个分类模型,它们分别是:特征密码子概率分布判别模型、图论最小支撑树模型和向量空间直观判别模型。后两种分类结果几乎一致,判别率在90%左右,误判率控制在(0.05-0.1)范围。问题一结果为:模型一的结果:A类有7个:22,23,27,29,34,35,37;B类有10个:21,24,26,28,30,31,32,33,38,40;不能判断的有3个:25,36,39;模型
2、三的结果:A类有10种:22,23,25,27,29,34,35,36,37,39;B类有10种:21,24,26,28,30,31,32,33,38,40;问题二结果为:模型二的结果:A类有108个,B类有74个。具体情况见文中答案。模型三的结果:A类有120个,B类有62个。具体情况见文中答案。 我们还对三种分类方法进行了类比,认为模型二、三方法新颖独特,结果稳定,它们是一种较好的分类方法。并且对各种计算结果进行误差分析和检验等工作。一、 问题的重述 本问题为一个DNA序列分类问题。假定已知两组人工已分类的DNA序列(20个已知类别的人工制造的序列),其中序列标号110 为A类,11-20
3、为B类。要求我们从已经分类了的DNA序列片段中提取共同特征构造分类方法,并评价所用分类方法的好坏,从而构造或选择一种较好的分类方法。测试对象是20个未标明类别的人工序列(标号2140)和182个自然DNA序列。二、模型的假设及符号说明1、名词解释:碱基: 在生物学中,用A,T,C,G四个字符代表组成DNA序列的四种碱基;密码子:在遗传学中每三个碱基的组合被称为一个密码子,可以编码一个氨基酸,共有64个,还可以由密码子组成20个氨基酸。特征密码子:若类中某个密码子出现的概率pA与类中同一个密码子出现的概率pB之差的绝对值大于0.05,并且,pA pB,定义该密码子为类特征密码子。同理,可定义B类
4、特征密码子。2、模型假设: 所给的DNA序列片段中没有断句和标点符号。对密码子的计数没有固定的起点 和终点。 假定各密码子近似呈现正态统计规律。 DNA序列的某些片段之间具有一定的相关性。 DNA序列不构成环状,划分密码子时,碱基剩余个数小于3时舍去不考虑。3、符号说明:- 表示第k种密码子在第i个序列片段中出现的频率;- 类特征密码子;- 类特征密码子;-最适A类密码子的概率;-最适B类密码子的概率;-误判率;-空间向量夹角余弦之差;三、模型的分析和建立1、A、B两类的DNA序列特征提取(1) 碱基含量分析对A,B两类中的碱基a,t,c,g出现的频率进行了统计,其分布状况如下: A类:t,c
5、 的总含量在25 41%左右,a,g 的总含量在59 75%左右;B类:t,c 的总含量在50 74%左右,a,g 的总含量在26 49%左右;以上的碱基含量分布作为已知DNA序列的第一特征。由此,我们可以根据碱基含量对未知类型的DNA序列片段进行粗略的分类:问题(1):A类:29, 34;B类:21, 24, 26, 28, 31, 32, 33, 36, 38, 39, 40;不能辨别类:22,23,25,27,30,35,37;在此基础上再对A、B两类进行第二、第三特征提取。针对不能判别类型利用其他特征和分类方法进行鉴别。(2)密码子的概率分布状况分析由遗传学中的知识可知,任何基因都是由
6、64种密码子构成,不同的DNA序列片段中各密码子出现的概率不同。以密码子出现的概率不同为出发点,我们分别对A、B两类中关于DNA序列中的64种密码子的平均频率进行了统计,并且分析了A、B两类的特征密码子。如下统计表1:表1:64种密码子的平均概率分布表序号密码子A(pA)B(pB)|pA-pB|序号密码子A(pA)B(pB)|pA-pB|1AAA0.0450.0450.000433CAA0.01380.00650.00732AAT0.01560.04260.027034CAT0.00830.00830.00013AAC0.01930.01020.009135CAC0.0101 0.0037 0
7、.00644AAG0.02570.00930.016436CAG0.00920.0037 0.00555ATA0.01560.01850.002937CTA0.0037 0.0111 0.00746ATT0.01650.07410.0576*38CTT0.0083 0.0241 0.01587ATC0.00730.01570.008439CTC0.0037 0.0083 0.00478ATG0.01560.01110.004540CTG0.0092 0.0046 0.00469ACA0.01470.00830.006441CCA0.0064 0.0019 0.004610ACT0.00640.
8、01390.007542CCT0.0009 0.0083 0.007411ACC0.00550.00560.000143CCC0.0009 0.0037 0.002812ACG0.02850.00740.021144CCG0.0092 0.0019 0.007313AGA0.00550.01300.007545CGA0.0046 0.0028 0.001814AGT0.00280.00830.005646CGT0.00460.0056 0.001015AGC0.00370.0000.003747CGC0.0092 0.0009 0.008316AGG0.05970.00930.0504*48C
9、GG0.07340.00560.0679*17TAA0.01010.04630.036249GAA0.03670.01200.024718TAT0.01280.05740.044650GAT0.01380.01300.000819TAC0.00830.01940.011251GAC0.01740.0019 0.015620TAG0.00730.01300.005652GAG0.0294 0.0046 0.024821TTA0.01380.09720.0835*53GTA0.0055 0.0102 0.004722TTT0.01560.17870.1631*54GTT0.0110 0.0241
10、0.013123TTC0.01290.01390.001055GTC0.0028 0.0056 0.002824TTG0.00920.00930.000156GTG0.0055 0.0009 0.004625TCA0.00180.00830.006557GCA0.0193 0.0037 0.015626TCT0.00370.02410.020458GCT0.0138 0.0019 0.011927TCC0.00460.00650.001959GCC0.0064 0.0009 0.005528TCG0.01650.00460.011960GCG0.0386 0.0009 0.037729TGA0
11、.00460.00740.002861GGA0.0854 0.0083 0.0770*30TGT0.00640.00930.002862GGT0.0110 0.0083 0.002731TGC0.00180.00280.000963GGC0.0634 0.0046 0.0587*32TGG0.02750.00650.021164GGG0.02020.0009 0.0193* 表示该行所在的密码子在两类序列中的概率之差的绝对值大于0.05。(2) 特征密码子分析由特征密码子的定义知,表1 中的 *所在行的密码子就是特征密码子。 A类序列的特征密码子:GGA,CGG,GGC,AGG,其对应密码子序
12、号为61,48,63,16。B类序列的特征密码子:TTA,TTT,ATT,TAT,其对应密码子序号为22,21,6,18。(二)模型的建立模型一:基于特征密码子分布概率构造分布辨析纸由特征密码子的分析可知,给定一个DNA序列,我们可以通过计算特征密码子出现概率的大小来进行判别分类。在A类中,提取八个密码子GGA,CGG,GGC,AGG,TTA,TTT,ATT,TAT,按A类中每一行DNA序列(1-10)T统计出它们的特征密码子频率,记为:()其中。计算: 定义为最适A类密码子的概率; 定义为最适B类密码子的概率;建立平面直角坐标系,以为横坐标,为纵坐标,以(),其中,描绘出A类的样本点(见图一
13、,用“*”表示);同理,描绘出B类的样本点坐标,用“”号表示。建立平面直角坐标系,以为横坐标,为纵坐标,以(),其中,描绘出A类的样本点(见图一,用“*”表示);同理,描绘出B类的样本点坐标,用“”号表示。再计算出未知DNA序列(21-40)的八个密码子(GGA,CGG,GGC,AGG,TTA,TTT,ATT,TAT)的统计概率,以平面坐标(),(如图一)。从图一中可清楚的看出,在由、构成的二维空间内,A类和B类呈现出非常好的聚类倾向。理想的情况是能够找到一条直线将A类和B类的点完全分开,那么自然的,与已知类同侧的点就属于该类。从图上可以看到这条直线位于过原点的角平分线附近,但是A类和B类都分
14、别有一个点位于这条直线附近。所以为了准确起见,我们分别过原点和这两个点做了两条直线作为分界线,将二维空间分成了三个域,待判点位于右下角则属A类;位于左上域则属于B类;如果待判点位于两条分界线之间,则进入了本方案的辨析盲区,方案失效。将待判点描到图上,无须计算就可以将它们归类: 人工基因序列的分类结果:A类:34 35 23 27 29 37 22 B类:31 21 32 40 33 24 26 28 38 30不能判别的点:39 25 36这个分类方案简单,计算量小。如果将坐标和界线固定的画成一张坐标纸,就可以象正态概率纸一样方便的对DNA序列进行分类了。但它最主要的缺点就是存在判断盲区,而且
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DNA 序列 分类 模型
限制150内