DNA序列分类的统计分析.pdf
文章编号:1004-0366(2003)02-0079-05收稿日期:2002-08-05DNA 序列分类的统计分析郭艾(华南理工大学应用数学系,广东 广州510640)摘要:采用系统聚类分析方法,对已知类别的 20 种叫 A 序列中 4 种碱基的含量及各碱基之间的相关性进行了统计分析,发现不同类别的叫 A 序列中碱基的排列兵有明显的规律性,由此建立了一种 DNA 序列分类的方法,井运用统计分析对这种分类方法的合理性给予了检验.关键词:碱基;DNA 序列;聚类分析;假设检验中图分类号:O212;C8文献标识码:ADNA 序列是由 4 个字符 a,c,g,t 按一定顺序排成的,这 4 个字符表示 4 种碱基.当前生物信息学最重要的课题之一是研究由这 4 个字符排成的看似随机的序列中隐藏着什么规律.我们有 20 个巳知类别的人工制造的 DNA 序列,其中序列标号 110 为 A 类,1120 为B 类.我们的目的是从已知类别的序列中提取特征,构造分类方法,对其它未知类别的序列进行分类 1.1DNA 序列的聚类分析我们对 20 个已知类别的人工制造的 DNA 序列的 4 种碱基含量个数进行统计得到表 1,表 2.表 1DNA序列A类1.aggcacggmamacgmatmacgagagacttgcacgcattgcacggagacgagggtmgagcttgtctgccgatgtgcmggmgtgg.2.cggaggacgacgatggcggtgggagJggcggactgttcggggggcggcgcgacgccggtgccagcgga.3.gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacggacggaacggagggagggcggcaatcggtacgg.4.atggcgaacggagxgmccagncgcggtagmadtgcagggcttaggtgcgggtgggtf ggggggcgggggcg.5.atggcgaacggagxgmccagncgcggtagmadtgcagggcttaggtgcgggtgggtf ggggggcgggggcg.6.gtgagtggggggcggcaggcaggcaggaggcgx mggcgggxmggg4gggacggcggggggmgtgggtattagcggmatggcgcggcacacacacacaca.7.atggattattgaatggcggaggaagtatccggaataaaatagggcggaaagaactgttttcggaaatggaaaaaggatggcggcaggaaggatatggaggcg.8.atggattattgaatggcggaggaagtatccggaataaaatagggcggaaagaactgttttcggaaatggaaaaaggatgcggcaggaaggatatggaggcg.9.atggattattgaatggcggaggaagtatccggaataaaatagggcggaaagaactgttttcggaaatggaaaaaggatgcggcaggaaggatatggaggcg.10.atggattattgaatggcggaggaagtatccggaataaaatagggcggaaagaactgttttcggaaatggaaaaaggatgcggcaggaaggatatggaggcg.第 15 卷第 2 期2003 年6 月 甘 肃科 学学 报Journal of Gansu Sciences Vol.15 No.2Jue.2003碱基序列号12345678910平均方差a3330304736393931232031.8059.36c1918241226141118233019.5034.85g4446502047444041484542.5064.45t151773212142121171517.1039.98表 2NAN 序列 B 类11.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatttatt.12.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatttattaaa.13.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatattgc.14.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatttattaa.15.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatt.16.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatttattaa.17.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatttattccc.18.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatt.19.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatataa.20.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatta.碱基序列号12345678910平均方差a3936283332403932242223.5035.65c53119092713161911.2057.76g1116141371015108711.109.69t5555575571512955626255.20104.90由此建立表示碱基 a,c,g,t 含量的向量集合,A 类表示为:a1=(33,19,44,15)/L1,a2=(30,18,46,17)/L2,a3=(3,24,50,7)/L 3,a4=(47,12,20,32)/L4,a5=(26,26,47,12)/L5,a6=(39,14,44,14)/L6,a7=(39,11,40,21)/L7,a8=(31,18,41,21)/L8,a9=(23,23,48,17)/L9,a10=(20,30,45,15)/L10,其中 Li 表示序列 i 的碱基总数.由上容易得出表示 A 类碱基 a,c,g,t 平均含量的向量 a*=(0.287,0.176,0.0380,0.150).计算向量 ai-a*的范数ai-a*,令 Qa=maxiai-a*.相应B 类表示为:b1=(39,5,11,55)/L 11,b2=(36,3,16,55)/L22,b3=(28,11,14,57)/L13,b4=(33,9,13,55)/L14,b5=(32,0,7,71)/L15,b6=(40,9,10,51)/L16,b7=(39,27,15,29)/L17,b8=(32,13,10,55)/L18,b9=(24,16,8,62)/L19,b10=(22,19,7,62)/L20.由此算出B 类碱基a,c,g,t 平均含量向量 b*=(0.295,0.102,0.101,0.502).计算范数bi-b*,令 Qa=maxibi-b*.由于在 DNA 序列中,虽然各碱基的含量可以描述它的某些特征,但还不能全面反映它的结构,因此有必要分析各碱基间的相关性 2.首先给出相关矩阵的定义:agctac11c12c13c14gc21c22c23c24cc31c32c33c34tc41c42c43c4480甘 肃 科 学 学 报2003年第 2 期其中c11表示序列中大基 a 相邻于大基 a 的左边的次数,c23表示序列中碱基 g 相邻于碱基 c 的左边的次数,依次类推.由此建立 20 个已知类别序列的碱基相关性矩阵,A 类为:A1=10910412216349245514,A2=11684112465510123626,A3=66134152681616113121,A4=21661375356312126212,A5=78921124101612352334,A6=17113712229159004226,A7=17821215185117125736,A8=9114712188239246348,A9=10715820154413330845,A10=7742520154615542364,由于各序列的长短不同,我们令 A*=Ai/Li,通过计算得到 A 类的碱基平均相关矩阵A*=0.1040.0540.0710.0540.0410.0170.0930.0240.0980.0770.1790.0240.0380.0260.0390.050.B 类相关矩阵为:B11=17331633051211182133,B12=15711235051101172234,B13=7551143253223143218,B14=21661375356312126212,B15=78921124101612352334,B16=17113712229159004226,B17=17821215185117125736,B18=9114712188239246348,B19=10715820154413330845,81第15 卷郭艾:DNA 序列分类的统计分析B20=71772104301151041136,由于各序列的长短不同,我们令 B*=Bi/Li,通过计算得到 B 类的碱基平均相关矩阵B*=0.018 00.034 50.030 00.119 00.021 80.016 30.014 50.047 30.030 90.008 20.021 80.040 00.134 50.043 80.025 00.295 0.计算矩阵范数.A*i-A*,B*i-B*,令 RA=maxiA*i-A*,RB=maxiB*i-B*.我们的聚类方法是对某一 DNA 序列,构造出表示它的碱基 a,c,g,t 含量的向量 e 和表示它的碱基相关性的相关矩阵 E,计算范数 ra=e-a*,rb=e-b*,SA=E-A*,SB=E-B*,如果 ra Qa,SA RA就认为这个 DNA 序列属于 A 类;如果 rb Qb,SB RB就认为这个DNA 序列属于 B 类.2统计检验我们对 A,B 2 类 DNA 序列中各碱基的含量以及各碱基间的相关性是否服从正态分布进行 W 正态检验 3,4.表 3碱基含量的 W 正态检验类别碱基假设检验水平 An统计量 WZa结论AaN(31.8,59.36)0.05100.966 40.842接受假设AcN(19.5,34.85)0.05100.961 40.842接受假设AgN(45.5,60.45)0.0590.863 50.829接受假设AtN(17.1,39.89)0.05100.917 60.842接受假设AaN(32.5,35.65)0.05100.92410.842接受假设AcN(11.2,57.76)0.05100.971 20.842接受假设AgN(11.1,9.69)0.05100.929 30.842接受假设AtN(58.1,98.65)0.0590.899 50。829接受假设表 4碱基相关性的 W 正态检验类别相关碱基假设检验水平 An统计量 WZa结论AaaN(11.5,23.25)0.05100.877 80.842接受假设AatN(6,13.19)0.05100.859 80.842接受假设AggN(21.4,6.91)0.0590.843 50.829接受假设AgcN(8.5,14.25)0.05100.912 20.842接受假设AcgN(10.3,13.41)0.05100.961 80.842接受假设AttN(5.6,7.64)0.05100.910 90.842接受假设BaaN(11.9,27.69)0.05100.914 90.842接受假设BatN(13.8,3.51)0.0590.868 80.829接受假设BggN(2.4,1.84)0.05100.867 70.842接受假设BgcN(0.9,1.49)0.05100.744 30.842拒绝假设BcgN(1.7,l。.01)0.05100.873 60.842接受假设BttN(32.5,123.45)0.05100.899 50.829接受假设82甘 肃 科 学 学 报2003年第 2 期由表 3 和表 4 的结论知,A、B 召两类的 DNA 且序列中,各碱基的含量以及相关碱基 aa,at,gg,cg,tt 在序列中出现的频率服从正态分布,略去其它相关碱基是否服从正态分布的检验过程,可以近似的认为它们大部分服从正态分布。所以,我们可以对 A,B 两类的 DNA 序列之间,它们各碱基的平均含量以及相关碱基出现的频数是否存在显著性差异进行 t 检验 3,4(见表 5).由此可以衡量我们的关于 DNA 序列的聚类方法是否足够好.表 5B 类差异子 A 类的 t 检验类别碱基假设检验水平 An统计量 ttA2结论Bau=31.80.05101.050 02.26差异显著Bcu=19.50.05109.837 52.26 差异很显著Bgu=42.50.051090.750 02.26差异很显著Btu=17.10.051033.520 02.26差异很显著Batu=6.00.0510125.580 02.26差异极显著Bggu=21.40.051076.250 02.26差异很显著Bcgu=10.30.051021.870 02.26差异很显著Bttu=5.60.051021.870 02.26差异很显著由表 5看出,按照本文构造的聚类法将 DNA 序列分为 A,B 2 类,在这两类间存在着很显著的差异.由此说明这种分类方法是可行的.参考文献:1 姜启源.数学模型 M .北京:高等教育出版社,1993.2 任仁泉.非独立计数资料的内部相关性研究 J.数理统计与管理,2000,19(3):24-27.3 方开泰.实用多元统计分析正 M.上海:华东师范大学出版社,1989.4 中国科学院数学研究所.方差分析正M.北京:科学出版社,1984.STATISTICAL ANALYSIS ON THE CLASSIFICATION OF DAN SEQUENCEGUO Ai(Dep t of App lied Math.South China University of T echnology,Guangz hou 510640,China)Abstract:T he method of hierarchical cluster analysis is used to count up and analyzethecontents and correlation of four alkali bases in twenty DNA sequences whose category areknown.It indicates that the permutations of four alkali bases in DNA sequences whichbelong to different category have obvious law.From this,the method of classifying DNAsequence is developed.By means of examination we prove the method of classification isrational.Key words:alkali base;DNA sequence;cluster analysis;assumed examination作者简介:郭艾,(1964-)女,陕西省佳县人,1985 年毕业于兰州大学数学系,现任华南理工大学应用数学系副教授.83第15 卷郭艾:DNA 序列分类的统计分析