应用多元统计分析R语言版判别分析.docx
《应用多元统计分析R语言版判别分析.docx》由会员分享,可在线阅读,更多相关《应用多元统计分析R语言版判别分析.docx(49页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、应用多元统计分析 第4章 判别分析 1 判别分析是用于判断样品所属类型的一种统计方法。 判别分析方法处理的问题看起来与聚类分析方法有些类似,似乎都是要将 观察值进行分类,但是它们的使用前提是不同的。 判别分析是根据某些指标的已有数据(或称为训练样本)对所研究的对象 建立判别函数,并进行分类的一种多变量分析方法,也称之为“有监督的 分类方法”。 进行判别归类时,由假设前提、判别依据及处理手法的不同可采用不同的 判别方法。如距离判别、贝叶斯(Bayes)判别、费希尔(Fisher)判别等。 概 念 和 方 法 l判别分析概念 判别分析(Discriminat Analysis)是多元分析中 用于判
2、别样品所属类型的一种统计分析方法。 l判别分析方法 是在已知的分类之下,对新的样品,利用某判别准 则,来判定其属于哪个类。 主 要 内 容 判别分析的目的和意义 几种判别分析方法和性质 包括:距离判别法、Bayes判别法、 R语言程序中有关判别分析的算法 Fisher判别法 4 所谓判别问题,就是将欧几里德空间划分为k个互不相交的 区域,即。当时,就判断x属于总 体。特别是,当k=2时,就是两总体的判别问题。 4 定义4.1 设是从均值向量为,协方差阵为的总体G 中 抽取的两个样品,则与之间的马氏距离定义为 样品与总体G 之间的马氏距离为 4 两总体的距离判别 设总体和的均值向量分别为和,协方
3、差阵分别为 和 ,x 是一个新样品,现在要判断x 来自哪一个总体。可计算x 到 两个总体的马氏距离的平方和,并按照下列 进行判别 当两个总体的方差相等,即 化。 时,该判别准则可以进行简 1. 当 此时 4 时的线性判别 其中 其中 是两个总体均值的平均值。令 ,则。 4 因此判别准则可简化为: 其中 称为判别函数,由于它是 判别函数。 的线性函数,故又称它为线性 4 在实际中,总体的均值向量和协方差阵一般都是未知 的,此时可用样本均值向量和样本协方差阵来代替。 设是来自总体的样品,是来自总体的 样品,则样品均值向量和样品离差阵为 的由两个总体样品构成的无偏估计为 4 2. 当时的非线性判别
4、此时判别函数为与之差,即 由于这个是x 的二次函数,故又称它为二次判别函数或非线性 判别函数。相应的判别准则为 4 与前面讨论的情况相同,在实际中总体均值向量和协方差 阵往往未知,需要用样本均值向量和样本协方差阵 来代替,这里 分别是和的无偏估计。 4 编号类别G 表4.1 砂基液化原始分类数据 例4.1在研究砂基液化问题中, 选了7个因子。今从液化和未液 化的地层中分别抽取12个和23 个样品,数据列在表4.1中,其 中1类表示已液化类,2类表示 未液化类。试按照距离判别准 则对原35个样本进行分类(即 回代),并分析误判情况。 11 21 31 41 51 61 71 81 91 101
5、111 121 132 142 152 162 172 182 192 202 212 222 232 242 252 262 6.639 6.639 6.147 6.147 8.432 7.26 8.4113 7.552 7.552 8.3113 7.8172 7.8172 8.432 8.432 8.432 6.311 7.08 7.08 7.08 8.3161 8.3161 7.26 7.26 7.26 5.56 8.4113 1.06.0 1.06.0 1.06.0 1.06.0 2.07.5 1.07.0 3.56.0 1.06.0 3.57.5 0.07.5 1.03.5 1.53
6、.0 1.05.0 2.09.0 2.54.0 4.57.5 4.54.5 6.07.5 1.56.0 1.54.0 0.52.5 3.54.0 1.03.0 1.06.0 2.53.0 3.54.5 60.12 120.12 60.08 120.08 190.35 280.30 180.15 120.16 60.16 350.12 140.21 150.21 40.35 100.35 100.35 30.20 90.25 40.25 10.25 40.08 10.08 120.30 30.30 50.30 70.18 60.15 20 20 12 12 75 30 75 40 40 180
7、45 45 75 75 75 15 30 30 30 70 70 30 30 30 18 75 解:利 行运算。 4 #首先对表4.1中数据建立文本文件biao4.1.txt 用 R程序进 library(MASS) #加载程序包 li4.1=(biao4.1.txt,head=TRUE) #读入数据 #线性判别 ld1- lda(G.,data=li4.1);ld1 #方差相同条件下的线性判别 y1-predict(ld1,data=li4.1) #对原始数据进行预测,即回代 newG1=y1$class#预测原始数据所属类别 cbind(li4.1$G,y1$x,newG1)#显示判别结果
8、 #非线性判别 qd1-qda(G.,data=li4.1);qd1 #方差不同条件下的二次判别 y2-predict(qd1,data=li4.1) #对原始数据进行预测,即回代 newG2=y2$class#预测原始数据所属类别 cbind(li4.1$G,newG2)#显示判别结果 4 Group means: 1 2 x1 7.358333 7.686957 x2 73.66667 69.60870 x3 1.458333 2.043478 x4 6.00000 5.23913 x5 15.250000 6.347826 x6 0.1716667 0.2156522 x7 49.500
9、00 70.34783 线 性 判 X1 -0.2456498 Coefficients of linear discriminants: X2 0.0012546 X3 0.2132494 X4 -0.1895015 cbind(li4.1$G,y1$x,newG1) #显示结果 X5 -0.1945152 X6 8.9125000 X7 0.0195838 别 结 果 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 G 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 序号 19 20 21 22 23 24 25 26
10、 27 28 29 30 31 32 33 34 35 G 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 LD1 1.3184485 0.2547354 0.9092838 0.3782688 1.7852837 0.8277489 0.4401957 0.8344636 0.4454332 -0.4346636 -1.1079462 2.0591480 2.5922713 1.1656606 1.6627138 0.6594853 0.3418640 newG 2 2 LD1 -0.9780645 -2.1451557 -1.3583738 -2.5254650 -0.
11、9017310 -3.8356022 -1.7839710 -1.6017548 -0.1857924 -4.3078624 -0.8966363 -0.8897761 2.2765013 0.5646537 1.6187856 0.7212500 0.6863271 1.4102727 newG 1 1 1 1 1 1 1 1 2 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 4 Group means: x1x2 73.66667 69.60870 7.358333 非7.686957 线 性 x3 1.458333 2.043478 x4
12、 6.00000 5.23913 x5 15.250000 6.347826 x6 0.1716667 0.2156522 x7 1 2 49.50000 70.34783 判 别 结 果 1 1 1 1 1 1 1 1 1 1 1 1 1 cbind(li4.1$G,newG2) #显示结果 newG序号 10 11 12 13 14 序号G 1 1 1 1 1 1 2 3 4 5 6 7 8 9 15 16 17 18 G 1 1 1 2 2 2 2 2 2 newG序号 19 20 21 22 23 24 25 26 27 G 2 2 2 2 2 2 2 2 2 newG序号 28 29
13、 30 31 32 33 34 35 G 2 2 2 2 2 2 2 2 newG 2 2 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 4 线性判别函数: 本例中。经计算得 线性判别函数为,其系数向量为 4 判别结果: (1)在方差相同条件下的线性判别结果:将训练样本回代判别, 结果有2个样本点判错,分别是第9号和第29号样本。即在方差相同 条件下,误判率为2/35=5.7%。 (2)在方差不同条件下的非线性判别结果:将训练样本回代判 别,结果全部正确,即此误判率为零。 4 多总体的距离判别 设有k 个总体 分别为,x 到 判别准则为: 判定
14、 ,它们的均值分别为 的马氏距离的平方为 ,若 协方差阵 在实际中和 替。 往往未知,此时可用相应的估计来代 4 例4.2 某地市场上销售的电视机有多种品牌,该地某商场随 机抽取了20种牌子的电视机进行调查,发现其中有5种畅销、8 种平销、7种滞销。按电视机的质量评分Q、功能评分C、销售价 格P(单位:百元)收集数据,列在表4.2中,其销售状态G中 。试根据该资料进 行判别。假设有一新厂商来推销其产品,产品质量评分为8.0, 功能评分为7.5,销售价格为65(百元),问该厂家产品销售前 景如何? 编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 多元 统计分析 语言版 判别分析
限制150内