判别分析法数PPT讲稿.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《判别分析法数PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《判别分析法数PPT讲稿.ppt(42页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、判别分析法数第1页,共42页,编辑于2022年,星期五蠓虫的分类 MCM89问题 两种蠓Af和Apf已由生物学家W.L.Grogan等于1981年根据它们的触角长和翼长加以区分.9只Af蠓用“”表示和6只Apf蠓用“”表示.根据给出的触角长和翼长识别出一只标本是Af蠓还是Apf蠓是重要的.(1)给定一只Af蠓或Apf蠓,你如何正确地区分它属于哪一族?(2)将你的方法用于触角长和翼长分别为(1.24,1.80),(1.28,1.84),(1.40,2.04)的三个标本.(3)设Af为宝贵的益虫,Apf是某种疾病的载体,是否应该修改你的分类方法,若需修改,怎么改?第2页,共42页,编辑于2022年
2、,星期五简单分类思想引一条直线将点分成两类.如图所示.确定直线的方法1、回归线方法分别就Af和Apf数据引两条回归线Af y=0.85x+0.637Apf y=I.10 x+0.576平均 y=0.9625x+0.6065简单分类思想用它来判定发现不好2、心型平分线取Af和Apf的中心(1.41,1.80),(1.22,1.93),垂直平分线方程是y=1.52576x-0.1485第3页,共42页,编辑于2022年,星期五蠓虫的分类 MCM89问题.变量编号 ApfX1 X21234561.14 1.781.18 1.961.20 1.861.26 2.001.28 2.001.30 1.96
3、判别分析方法建模 1997(3)数理统计与管理 变量编号 AfX1 X21234567891.24 1.721.36 1.741.38 1.641.38 1.821.38 1.901.40 1.701.48 1.821.54 1.821.56 2.08 变量编号 AfX1 X21234567891.24 1.721.36 1.741.38 1.641.38 1.821.38 1.901.40 1.701.48 1.821.54 1.821.56 2.08均值向量均值矩阵第4页,共42页,编辑于2022年,星期五矩阵转置均值的无偏估计向量总体样本离差矩阵其中m是总体个数,将数据代入第5页,共42
4、页,编辑于2022年,星期五计算A的特征根及最大特征根对应的特征向量u=(a1,a2)T两个总体的均值向量,代入Y1=3.5717 Y2=-0.3511 其他样本点代入计算判别函数值并计算他们的绝对值d1和d2.样本点距离123456789Af d1Apf d21.72.20.173.751.085.000.643.281.402.510.804.730.844.761.725.800.473.45可见均是Af蠓第6页,共42页,编辑于2022年,星期五 样本点距离123456Af d1Apf d23.7980.1244.9321.0093.6790.7274.1350.2123.840.08
5、33.160.76可见均是Apf蠓 样本点距离123 d1 d22.511.412.311.622.451.47三个样品的判别函数值代入并求出距离可见均是Apf蠓判别分析是一种应用十分广泛的数学方法,2000年的DNA序列也可以运用此法第7页,共42页,编辑于2022年,星期五判别分析判别分析引言距离判别程序计算第8页,共42页,编辑于2022年,星期五引言 判别分析是用于判别个体所属群体的一种多元统计分析方法.产生于30年代,近年来在自然科学社会学及经济管理学科中都有广泛的 运用.例特点根据已掌握的历史信息,总结出客观事物分类的规律性,建立判别公式和判别准则,然后对新的样本点,只要根据准则就
6、可以判别它属于哪一类别.从概率统计的角度来看,判别分析问题可归结为:设有k个组,所有组的样品都测量了相同的p个指标指标可表示成p维向量这k个组的分布函数是F1(x),F2(x),Fk(x)对于给定的新样品对于给定的新样品 x,要求判别它属于哪一类要求判别它属于哪一类.第9页,共42页,编辑于2022年,星期五距离判别马氏距离马氏距离(马哈拉诺比斯Mahalanobis,印度)通常我们理解的距离指欧氏距离,即p维空间中的两个点x=(x1,x2,xp)和y=(y1,y2,yp)它们之间的距离是不合适!设有两个总体,XN(1,),Y N(2,4),第10页,共42页,编辑于2022年,星期五设x和y
7、是从均值为协方差为(0)的总体中抽取的两个样品(p维),则总体内两点两点x和和y之间之间的平方马氏距离定义为点点x和总体和总体之间之间的平方马氏距离定义为第11页,共42页,编辑于2022年,星期五二组距离判别设1,2组的均值分别为1,2.协方差矩阵分别为1,2.(i0,i=1,2)1、12,1=2=是新样品,如何判别它来自哪一组计算x到两个组1,2的距离可按如下规则判别第12页,共42页,编辑于2022年,星期五化简其中令错判概率第13页,共42页,编辑于2022年,星期五实际运用设来自1,设来自2,1,2的无偏估计是其中和协方差矩阵的联合无偏估计举例第14页,共42页,编辑于2022年,星
8、期五2、1 2,1 2判别函数判别准则第15页,共42页,编辑于2022年,星期五例题:对28名一级和25名健将级标枪运动员测试了6个影响标枪成绩的训练指标;30米跑(x1)、投小铅球(x2)、挺举重量(x3)、抛实心球(x4)、前抛铅球(x5)、五级跳(x6)。编号组别x1 x2 x3 x4 x5 x6 12:2829:5311:12:23.60 4.30 82.3 70.0 90.00 18.523.30 4.10 87.48 80.00 1000.00 18.48:3.20 4.20 89.20 85.00 115.00 19.883.40 4.00 103.00 95.00 110.0
9、0 24.80:3.50 4.30 97.80 75.00 100,00 24.10对个未定级的运动员定级第16页,共42页,编辑于2022年,星期五1=2=假设计算逆矩阵代入公式判别函数第17页,共42页,编辑于2022年,星期五程序计算Data discat1;input no x1 x2 x3 x4 x5 x6 type;Label x1=30m x2=throw small ball x3=weight liftingx4=throw medicine medicine ball x5=shot put x6=5step and jump;Cards;13.60 4.30 82.30
10、70.00 90.00 18.52 123.30 4.10 87.48 80.00 100.00 18.48 1283.20 4.20 89.20 85.00 115.00 19.8 1293.40 4.00 103.00 95.00 110.00 24.80 2.第18页,共42页,编辑于2022年,星期五.533.50 4.30 97.80 75.00 100.00 24.10 2;Run;Data discdat2;input no x1 x2 x3 x4 x5 x6;Label x1=30m x2=throw small ball x3=weight lifting x4=throw
11、medicine medicine ball x5=shot put x6=5step and jump;Cards;1 3.50 4.10 85.30 75.00 105.00 18.65143.40 4.30 97.39 75.00 110.00 22.12;Run;Proc discrinm data=discdat1 testdata=discdat2 crosslisterr testlist;Class type;Var x1-x6Run;第19页,共42页,编辑于2022年,星期五2000网易杯全国大学生数学建模竞赛题目网易杯全国大学生数学建模竞赛题目A题题 DNA序列分类序列分
12、类 2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。虽
13、然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。第20页,共42页,编辑于2022年,星期五例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字个字符组成的符组成的64种不同的种不同的3字符串,其中大多数用于编码构成蛋白质的字符串,其中大多数用于编码构成蛋白质的20种氨种氨基酸。又例如,在不用于编码蛋白质的序列片段中,基酸。又例如,在不用于编码蛋白质的序列片段中,A和和T的含量特别多些,的含量特别多些,于是以某些碱基特别丰富作为特征去研究于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果
14、。序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,现让人们相信,DNA序列中存在序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化
15、的方法往往有助于研究规律性和结构。往往有助于研究规律性和结构。作为研究作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:序列的结构的尝试,提出以下对序列集合进行分类的问题:1)下面有)下面有20个已知类别的人工制造的序列(见下页),其中序列标号个已知类别的人工制造的序列(见下页),其中序列标号110 为为A类,类,11-20为为B类。请从中提取特征,构造分类方法,并用这些已知类别的类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标个未标明类别的人工
16、序列(标号明类别的人工序列(标号2140)进行分类,把结果用序号(按从小到大的顺)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入):序)标明它们的类别(无法分类的不写入):A类类 B类类 。第21页,共42页,编辑于2022年,星期五 请详细描述你的方法,给出计算程序。如果你部分地使用了现成的分类方法,也要将方法名称准确注明。这40个序列也放在如下地址的网页上,用数据文件Art-model-data 标识,供下载:网易网址: 教育频道 在线试题;教育网: News mcm2000教育网: 中给出了182个自然DNA序列,它们都较长。用你的分类方法对它们进行分类,像1
17、)一样地给出分类结果。提示提示:衡量分类方法优劣的标准是分类的正确率,构造分类方法有许多途径,例如提取序列的某些特征,给出它们的数学表示:几何空间或向量空间的元素等,然后再选择或构造适合这种数学表示的分类方法;又例如构造概率统计模型,然后用统计方法分类等。第22页,共42页,编辑于2022年,星期五Art-model-data1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg2.cggaggacaaacgggatggcg
18、gtattggaggtggcggactgttcggggaattattcggtttaaacgggacaaggaaggcggctggaacaaccggacggtggcagcaaagga3.gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacggacggaacggaggaaggagggcggcaatcggtacggaggcggcgga4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagcttagatgcatatgttttttaaataaaatttgtattattatggtatca
19、taaaaaaaggttgcga5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggctacaccaccgtttcggcggaaaggcggagggctggcaggaggctcattacggggag6.atggaaaattttcggaaaggcggcaggcaggaggcaaaggcggaaaggaaggaaacggcggatatttcggaagtggatattaggagggcggaataaaggaacggcggcaca7.atgggattattgaatggcggaggaagatccggaataaaatatggcggaaagaactt
20、gttttcggaaatggaaaaaggactaggaatcggcggcaggaaggatatggaggcg8.atggccgatcggcttaggctggaaggaacaaataggcggaattaaggaaggcgttctcgcttttcgacaaggaggcggaccataggaggcggattaggaacggttatgagg第23页,共42页,编辑于2022年,星期五9.atggcggaaaaaggaaatgtttggcatcggcgggctccggcaactggaggttcggccatggaggcgaaaatcgtgggcggcggcagcgctggccggagtttgaggagc
21、gcg10.tggccgcggaggggcccgtcgggcgcggatttctacaagggcttcctgttaaggaggtggcatccaggcgtcgcacgctcggcgcggcaggaggcacgcgggaaaaaacg11.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt12.gtttaattactttatcatttaatttaggttttaattttaaatttaatttaggtaagatgaatttggtt
22、ttttttaaggtagttatttaattatcgttaaggaaagttaaa13.gtattacaggcagaccttatttaggttattattattatttggattttttttttttttttttttaagttaaccgaattattttctttaaagacgttacttaatgtcaatgc14.gttagtcttttttagattaaattattagattatgcagtttttttacataagaaaatttttttttcggagttcatattctaatctgtctttattaaatcttagagatatta15.gtattatatttttttatttttattatttt
23、agaatataatttgaggtatgtgtttaaaaaaaatttttttttttttttttttttttttttttttaaaatttataaatttaa16.gttatttttaaatttaattttaattttaaaatacaaaatttttactttctaaaattggtctctggatcgataatgtaaacttattgaatctatagaattacattattgat17.gtatgtctatttcacggaagaatgcaccactatatgatttgaaattatctatggctaaaaaccctcagtaaaatcaatccctaaacccttaaaaaacggcggc
24、ctatccc第24页,共42页,编辑于2022年,星期五18.gttaattatttattccttacgggcaattaattatttattacggttttatttacaattttttttttttgtcctatagagaaattacttacaaaacgttattttacatactt19.gttacattatttattattatccgttatcgataattttttacctcttttttcgctgagtttttattcttactttttttcttctttatataggatctcatttaatatcttaa20.gtatttaactctctttactttttttttcactctctacatttt
25、catcttctaaaactgtttgatttaaacttttgtttctttaaggattttttttacttatcctctgttat21.tttagctcagtccagctagctagtttacaatttcgacaccagtttcgcaccatcttaaatttcgatccgtaccgtaatttagcttagatttggatttaaaggatttagattga22.tttagtacagtagctcagtccaagaacgatgtttaccgtaacgtqacgtaccgtacgctaccgttaccggattccggaaagccgattaaggaccgatcgaaaggg 23.cggg
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 判别分析 PPT 讲稿
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内