《判别分析.pptx》由会员分享,可在线阅读,更多相关《判别分析.pptx(38页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、zf,判别分析,DiscriminateAnalysis,2020/4/10,2cxt,1判别分析的基本思想,一、什么是判别分析?判别分析根据已知对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法。如何判断(判断依据)?利用已知类别的样本信息求判别函数,根据判别函数对未知样本所属类别进行判别,2020/4/10,3cxt,判别分析的特点(基本思想)、根据已掌握的、历史上若干样本的p个指标数据及所属类别的信息,总结出该事物分类的规律性,建立判别公式和判别准则。2、根据总结出来的判别公式和判别准则,判别未知类别的样本点所属的类别。判别分析的目的:识别一个个体所属类别,2020/4/
2、10,4cxt,判别分析的应用:无处不在,医学:例1:在医学诊断中,一个病人肺部有阴影,医生要判断他患的是肺结核、肺部良性肿瘤还是肺癌?肺结核病人、肺部良性肿瘤病人、肺癌病人组成三个总体,病人来自其中一个总体,可通过病人的指标(阴影大小、边缘是否光滑等)用判别分析判断他来自哪个总体(即判断他患的什么病?),2020/4/10,5cxt,经济学:例2:中小企业的破产模型为了研究中小企业的破产模型,选定4个经济指标:X1总负债率(现金收益/总负债)X2收益性指标(纯收入/总财产)X3短期支付能力(流动资产/流动负债)X4生产效率性指标(流动资产/纯销售额)对17个破产企业(1类)和21个正常运行企
3、业(2类)进行了调查,得如下资料:,2020/4/10,10cxt,二、判别分析与聚类分析的比较,1、判别分析是在已知研究对象分成若干类型并已取得各种类型的一批已知样本的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样本进行判别分类。2、聚类分析则是对研究对象的类型未知的情况下,对其进行分类的方法。,2020/4/10,11cxt,3、判别分析和聚类分析往往联合使用。当总体分类不清楚时,先用聚类分析对一批样本进行分类,再用判别分析构建判别式对新样本进行判别。此外判别分析变量情况:被解释变量为属性变量;解释变量是定量变量。,2020/4/10,12cxt,三、判别分析类型及方法,(
4、1)按判别的组数来分,有两组判别分析和多组判别分析(2)按区分不同总体所用的数学模型来分,有线性判别和非线性判别(3)按判别对所处理的变量方法不同有逐步判别、序贯判别。(4)按判别准则来分,有费歇尔判别准则、贝叶斯判别准则等,2020/4/10,13cxt,本讲介绍的主要判别分析方法,距离判别贝叶斯(Bayes)判别(SPSS可自动实现计算)费歇尔(Fisher)判别逐步判别(SPSS可自动实现计算),线性判别,2020/4/10,14cxt,2.贝叶斯(Bayes)判别,Bayes统计的基本思想假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正
5、已有的认识(先验概率分布),得到后验概率分布,各种统计推断都通过后验概率分布来进行。,2020/4/10,15cxt,贝叶斯判别法通过计算被判样本x属于k个总体的条件概率P(n|x),n=1,2.k.比较k个概率的大小,将样本判归为来自出现概率最大的总体的判别方法。,判别准则:后验概率最大即判断x来自后验概率最大的总体,2020/4/10,16cxt,最大后验概率准则,设有k个总体且总体的概率密度为.样本x来自的先验概率为满足利用贝叶斯理论,x属于的后验概率(即当样本x已知时,它属于的概率为:最大后验概率判别准则:,例1:设有,和三个类,欲判别某样本属于哪一类已知现利用后验概率准则计算属于各组
6、的后验概率:,例2:办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,假设一般好人做好事的概率为0.9,坏人做好事的概率为0.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。,Bayes公式:,or1P(好人|做好事),类似于狼来了,例3:下表是某金融机构客户的个人资料,这些资料对一个金融机构来说,对于客户信用度的了解至关重要,因为利用这些资料,可以挖掘出许多的信息,建立客户的信用度评价体系。所选变量为:x1:月收入x2:月生活费支出x3:虚拟变量,住房
7、的所有权,自己的为“1”,租用的“0”x4:目前工作的年限x5:前一个工作的年限x6:目前住所的年限x7:前一个住所的年限X8:家庭赡养的人口数X9:信用程度,“5”的信用度最高,“1”的信用度最低。,2020/4/10,22cxt,2020/4/10,23cxt,判别分析的SPSS操作步骤:,执行菜单命令,单击Analyze、Classify、Discriminant,参考张文彤,2020/4/10,24cxt,2020/4/10,25cxt,指定分组变量及其取值范围。将分组变量从源变量窗口通过选择箭头选到分组变量窗口“Groupingvariable”。并从“DefineRange”按钮定
8、义分组变量的取值范围,给定最小值Minimum和最大值Maximum。指定判别函数中的自变量。将自变量从源变量窗口通过选择箭头选到自变量窗口。选择使用自变量的方法。对于选定的自变量可以全部应用到判别函数中去,这是系统默认的使用全部自变量法“Enterindependenttogether”。如果要对变量进行筛选检验,将使用选项逐步进入法“Usestepwisemethod”。使用该方法后,按钮“Method”将被激活,2020/4/10,26cxt,2020/4/10,27cxt,2020/4/10,28cxt,计算各类别及总体各变量均值、标准差,统计量、矩阵和函数系数的计算按钮“Statis
9、tics”将打开统计计算窗口。,输出单变量方差分析结果,各类协方差矩阵相等的检验,计算判别函数系数,Bayes判别系数,非标准化Fisher判别系数,组内相关矩阵,合并组内协方差矩阵,组间协方差矩阵,总协方差矩阵,注:默认输出标准化Fisher判别系数,2020/4/10,29cxt,2020/4/10,30cxt,2020/4/10,31cxt,分类方式和判别结果单击按钮“Classify”将设置分类所依据的判别先验概率和协方差矩阵,以及输出图形和显示结果,先验概率的设定,各类取相等先验概率,根据各类样本个数计算先验概率,输出分析结果,输出各样本的分类结果如判别得分、判别类等,交叉检验结果,
10、将缺失值用均值替代,选择分类使用的协方差阵,组内协方差阵,分组协方差阵,作图,生成一张包括各类的散点图,分类显示各个类的散点图,分界图(领域图),将坐标平面划分为不同的区域,每个区域将代表一个类,2020/4/10,32cxt,2020/4/10,33cxt,2020/4/10,34cxt,在SPSS数据文件中生成新变量单击“SAVE”按钮,保存预测的组别,判别得分和各组成员的事后概率,建立一个标明每个样本所属的类别的变量,生成一个判别得分变量,样本属于某类的概率,2020/4/10,35cxt,2020/4/10,36cxt,示例,研究某年全国各地区农民家庭收支的分布规律,根据抽样调查资料进
11、行分类,共抽取28个省、市、自治区的六个指标数据。先采用聚类分析,将28个省、市、自治区分为三组。北京、上海、广州3个城市属于待判样本。(数据家庭收支.sav),具体参见文件夹bayes案例结果-数据家庭收支,练习:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变量)进行评分。这些指标包括:企业规模(is)、服务(se)、雇员工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长(msr)、流动资金比例(cp)、资金周转速度(cs)等等。另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。我们希望根据这些企业的上述变量的打分和它们已知的类别(三个类别之一:group-1代表上升,group-2代表稳定,group-3代表下降)找出一个分类标准,以对没有被该刊物分类的企业进行分类。该数据有90个企业(90个观测值),其中30个属于上升型,30个属于稳定型,30个属于下降型。这个数据就是一个“训练样本”。,DISC.sav,2020/4/10,38cxt,
限制150内