DNA序列分类的统计分析.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《DNA序列分类的统计分析.pdf》由会员分享,可在线阅读,更多相关《DNA序列分类的统计分析.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、文章编号:1004-0366(2003)02-0079-05收稿日期:2002-08-05DNA 序列分类的统计分析郭艾(华南理工大学应用数学系,广东 广州510640)摘要:采用系统聚类分析方法,对已知类别的 20 种叫 A 序列中 4 种碱基的含量及各碱基之间的相关性进行了统计分析,发现不同类别的叫 A 序列中碱基的排列兵有明显的规律性,由此建立了一种 DNA 序列分类的方法,井运用统计分析对这种分类方法的合理性给予了检验.关键词:碱基;DNA 序列;聚类分析;假设检验中图分类号:O212;C8文献标识码:ADNA 序列是由 4 个字符 a,c,g,t 按一定顺序排成的,这 4 个字符表示
2、 4 种碱基.当前生物信息学最重要的课题之一是研究由这 4 个字符排成的看似随机的序列中隐藏着什么规律.我们有 20 个巳知类别的人工制造的 DNA 序列,其中序列标号 110 为 A 类,1120 为B 类.我们的目的是从已知类别的序列中提取特征,构造分类方法,对其它未知类别的序列进行分类 1.1DNA 序列的聚类分析我们对 20 个已知类别的人工制造的 DNA 序列的 4 种碱基含量个数进行统计得到表 1,表 2.表 1DNA序列A类1.aggcacggmamacgmatmacgagagacttgcacgcattgcacggagacgagggtmgagcttgtctgccgatgtgcmg
3、gmgtgg.2.cggaggacgacgatggcggtgggagJggcggactgttcggggggcggcgcgacgccggtgccagcgga.3.gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacggacggaacggagggagggcggcaatcggtacgg.4.atggcgaacggagxgmccagncgcggtagmadtgcagggcttaggtgcgggtgggtf ggggggcgggggcg.5.atggcgaacggagxgmccagncgcggtagmadtgcagggcttag
4、gtgcgggtgggtf ggggggcgggggcg.6.gtgagtggggggcggcaggcaggcaggaggcgx mggcgggxmggg4gggacggcggggggmgtgggtattagcggmatggcgcggcacacacacacaca.7.atggattattgaatggcggaggaagtatccggaataaaatagggcggaaagaactgttttcggaaatggaaaaaggatggcggcaggaaggatatggaggcg.8.atggattattgaatggcggaggaagtatccggaataaaatagggcggaaagaactgttttc
5、ggaaatggaaaaaggatgcggcaggaaggatatggaggcg.9.atggattattgaatggcggaggaagtatccggaataaaatagggcggaaagaactgttttcggaaatggaaaaaggatgcggcaggaaggatatggaggcg.10.atggattattgaatggcggaggaagtatccggaataaaatagggcggaaagaactgttttcggaaatggaaaaaggatgcggcaggaaggatatggaggcg.第 15 卷第 2 期2003 年6 月 甘 肃科 学学 报Journal of Gansu Sci
6、ences Vol.15 No.2Jue.2003碱基序列号12345678910平均方差a3330304736393931232031.8059.36c1918241226141118233019.5034.85g4446502047444041484542.5064.45t151773212142121171517.1039.98表 2NAN 序列 B 类11.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatttatt.12.g
7、ttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatttattaaa.13.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatattgc.14.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagta
8、atccaacgtttttattactttttaaaaattaaatatttattaa.15.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatt.16.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatttattaa.17.gttagatttaacgttttttatggaa
9、tttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatttattccc.18.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatt.19.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaa
10、aattaaatataa.20.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatta.碱基序列号12345678910平均方差a3936283332403932242223.5035.65c53119092713161911.2057.76g1116141371015108711.109.69t5555575571512955626255.20104.90由此建立表示碱基 a,c,g,t 含量的向量集合,A 类表示为:a1=(33,
11、19,44,15)/L1,a2=(30,18,46,17)/L2,a3=(3,24,50,7)/L 3,a4=(47,12,20,32)/L4,a5=(26,26,47,12)/L5,a6=(39,14,44,14)/L6,a7=(39,11,40,21)/L7,a8=(31,18,41,21)/L8,a9=(23,23,48,17)/L9,a10=(20,30,45,15)/L10,其中 Li 表示序列 i 的碱基总数.由上容易得出表示 A 类碱基 a,c,g,t 平均含量的向量 a*=(0.287,0.176,0.0380,0.150).计算向量 ai-a*的范数ai-a*,令 Qa=ma
12、xiai-a*.相应B 类表示为:b1=(39,5,11,55)/L 11,b2=(36,3,16,55)/L22,b3=(28,11,14,57)/L13,b4=(33,9,13,55)/L14,b5=(32,0,7,71)/L15,b6=(40,9,10,51)/L16,b7=(39,27,15,29)/L17,b8=(32,13,10,55)/L18,b9=(24,16,8,62)/L19,b10=(22,19,7,62)/L20.由此算出B 类碱基a,c,g,t 平均含量向量 b*=(0.295,0.102,0.101,0.502).计算范数bi-b*,令 Qa=maxibi-b*.由
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DNA 序列 分类 统计分析
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内