《SAS多元统计分析》PPT课件.ppt





《《SAS多元统计分析》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《SAS多元统计分析》PPT课件.ppt(84页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Chapter7Chapter7 SASSAS多元统计分析多元统计分析Chapter7 SASChapter7 SAS多元统计分析多元统计分析 多元统计分析是统计学的重要应用工具,多元统计分析是统计学的重要应用工具,SASSAS实现了许实现了许多常用的多元统计分析方法。多常用的多元统计分析方法。SASSAS用于多变量分析的过程有用于多变量分析的过程有PRINCOMPPRINCOMP(主成分分析)、(主成分分析)、FACTORFACTOR(因子分析)、(因子分析)、CANCORRCANCORR(典型相关分析)、(典型相关分析)、MDSMDS(多维标度过程)、(多维标度过程)、MULTTESTMU
2、LTTEST(多重检验)、(多重检验)、PRINQUALPRINQUAL(定性数据的主分量分(定性数据的主分量分析)、析)、CORRESPCORRESP(对应分析),用于判别分析的过程有(对应分析),用于判别分析的过程有DISCRIMDISCRIM(判别分析)、(判别分析)、CANDISCCANDISC(典型判别)、(典型判别)、STEPDISCSTEPDISC(逐步判别),用于聚类分析的过程有(逐步判别),用于聚类分析的过程有CLUSTERCLUSTER(谱系聚类)、(谱系聚类)、FASTCLUSFASTCLUS(K K均值快速聚类)、均值快速聚类)、MODECLUSMODECLUS(非参数
3、聚类)、(非参数聚类)、VARCLUSVARCLUS(变量聚类)、(变量聚类)、TREETREE(画谱系聚(画谱系聚类的结果谱系图并给出分类结果)。类的结果谱系图并给出分类结果)。下一页返回本节首页Chapter7 SASChapter7 SAS多元统计分析多元统计分析一、主成分分析一、主成分分析二、因子分析二、因子分析三、聚类分析三、聚类分析四、判别分析四、判别分析下一页返回本节首页上一页一、一、主成分分析主成分分析主成分分析简介主成分分析简介数学模型与几何解释数学模型与几何解释PRINCOMP PRINCOMP 过程过程菜单操作方法菜单操作方法主成分的应用主成分的应用 主成分回归:解决多重
4、共线性问题主成分回归:解决多重共线性问题 综合评价综合评价下一页返回本节首页上一页主成分分析简介 在实际经济工作中,我们经常碰到多变量或多指标问在实际经济工作中,我们经常碰到多变量或多指标问题,比如,企业经济效益的评价、地区经济发展情况比较题,比如,企业经济效益的评价、地区经济发展情况比较等问题。这些问题的研究一般都先要设定研究的指标,也等问题。这些问题的研究一般都先要设定研究的指标,也就是设定评价企业经济效益与评价地区经济发展情况的指就是设定评价企业经济效益与评价地区经济发展情况的指标体系。由于变量或指标较多,分析问题具有相当的复杂标体系。由于变量或指标较多,分析问题具有相当的复杂性。然而,
5、在多数情况下,这些不同的变量或指标之间,性。然而,在多数情况下,这些不同的变量或指标之间,存在一定的相关性。这样,人们自然希望用较少的变量或存在一定的相关性。这样,人们自然希望用较少的变量或指标来代替原来较多的变量或指标,而这些较少的变量或指标来代替原来较多的变量或指标,而这些较少的变量或信息涵盖了原来变量或指标的信息。利用这种降维的思想,信息涵盖了原来变量或指标的信息。利用这种降维的思想,产生了主成分分析方法。产生了主成分分析方法。下一页上一页 主成分分析,就是设法将原来变量或指标重新组合成一组主成分分析,就是设法将原来变量或指标重新组合成一组新的、互不相关的几个综合变量或指标,同时根据实际
6、需要从新的、互不相关的几个综合变量或指标,同时根据实际需要从中选取几个较少的综合变量或指标来尽可能多地反映原变量或中选取几个较少的综合变量或指标来尽可能多地反映原变量或指标的信息。这种将多变量或多指标转化成少数几个互不相关指标的信息。这种将多变量或多指标转化成少数几个互不相关的综合变量或综合指标的统计方法叫做主成分分析或称主分量的综合变量或综合指标的统计方法叫做主成分分析或称主分量分析。分析。需要注意的是,主成分分析往往不是目的,而是达到目的需要注意的是,主成分分析往往不是目的,而是达到目的的一种手段。因此,它常常用在大型研究项目的某个中间环节的一种手段。因此,它常常用在大型研究项目的某个中间
7、环节中。例如,将它用到多重回归中,便产生了主成分回归,它可中。例如,将它用到多重回归中,便产生了主成分回归,它可以克服回归问题中由于自变量之间的高度相关而产生的分析困以克服回归问题中由于自变量之间的高度相关而产生的分析困难。另外,主成分分析还可以用于典型相关分析、聚类分析和难。另外,主成分分析还可以用于典型相关分析、聚类分析和因子分析中。因子分析中。下一页返回本节首页上一页数学模型与几何解释数学模型与几何解释 假设我们所讨论的实际问题中,有假设我们所讨论的实际问题中,有p p个指标,个指标,我们把这我们把这p p个指标看作个指标看作p p个随机变量,记为个随机变量,记为X X1 1,X X2
8、2,X Xp p,主成分分析就是要把这主成分分析就是要把这p p个指标的问题,个指标的问题,转变为讨论转变为讨论p p个指标的线性组合的问题,而这些个指标的线性组合的问题,而这些新的指标新的指标F F1 1,F F2 2,F Fk k(kp(kp),),按照保留主要按照保留主要信息量的原则充分反映原指标的信息,并且相互信息量的原则充分反映原指标的信息,并且相互独立。独立。这种由讨论多个指标降为少数几个综合指这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合常的做法是,寻求原指标的线性组合Fi。满足
9、如下的条件:满足如下的条件:主成分之间相互独立,即无重叠的信息。即主成分之间相互独立,即无重叠的信息。即主成分的方差依次递减,重要性依次递减,即主成分的方差依次递减,重要性依次递减,即每个主成分的系数平方和为每个主成分的系数平方和为1。即。即主成分分析的几何解释平移、旋转坐标轴 为了方便,我们在二维空间中讨论主成分的几何意为了方便,我们在二维空间中讨论主成分的几何意义。义。设有设有n个样品,每个样品有两个观测变量个样品,每个样品有两个观测变量xl和和x2,在由变量在由变量xl和和x2 所确定的二维平面中,所确定的二维平面中,n个样本点所散个样本点所散布的情况如椭圆状。由图可以看出这布的情况如椭
10、圆状。由图可以看出这n个样本点无论是个样本点无论是沿着沿着xl 轴方向或轴方向或x2轴方向都具有较大的离散性,其离轴方向都具有较大的离散性,其离散的程度可以分别用观测变量散的程度可以分别用观测变量xl 的方差和的方差和x2 的方差定的方差定量地表示。显然,如果只考虑量地表示。显然,如果只考虑xl和和x2 中的任何一个,中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。那么包含在原始数据中的经济信息将会有较大的损失。如果我们将如果我们将xl xl 轴和轴和x2x2轴先平移,再同时按逆时针轴先平移,再同时按逆时针方向旋转方向旋转 角度,得到新坐标轴角度,得到新坐标轴FlFl和和F2F2
11、。FlFl和和F2F2是两是两个新变量。个新变量。根据旋转变换的公式:根据旋转变换的公式:旋转变换的目的是为了使得旋转变换的目的是为了使得n n个样品点在个样品点在F Fl l轴方轴方向上的离向上的离 散程度最大,即散程度最大,即F Fl l的方差最大。变量的方差最大。变量F Fl l代代表了原始数据的绝大表了原始数据的绝大 部分信息,在研究某经济问题部分信息,在研究某经济问题时,即使不考虑变量时,即使不考虑变量F F2 2也无损大局。经过上述旋转也无损大局。经过上述旋转变换原始数据的大部分信息集中到变换原始数据的大部分信息集中到F Fl l轴上,对数据轴上,对数据中包含的信息起到了浓缩作用。
12、中包含的信息起到了浓缩作用。F Fl l,F F2 2除了可以对包含在除了可以对包含在X Xl l,X X2 2中的信息起着浓缩作用中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的个点的时避免了信息重叠所带来的虚假性。二维平面上的个点的方差大部分都归结在方差大部分都归结在F Fl l轴上,而轴上,而F F2 2轴上的方差很小。轴上的方差很小。F Fl l和和F F2 2称为原始变量称为原始变量x x1 1和和x x2 2的综合变量。的综合变量。F F简化了系统结构,抓住简化了系统
13、结构,抓住了主要矛盾。了主要矛盾。PRINCOMP PRINCOMP 过程进行主成份分析过程进行主成份分析PRINCOMPPRINCOMP过程的一般格式:过程的一般格式:Proc Proc PrincompPrincomp DATA=DATA=数据集数据集/;VarVar 变量列表变量列表;Partial Partial 变量列表变量列表;Weight Weight 变量变量;Freq Freq 变量变量;By By 变量变量;Run Run;下一页上一页 PROC PRINCOMPPROC PRINCOMP语句语句/TYPETYPECOVCOV或或TYPETYPECORRCORR指明数据集类
14、型,例如:指明数据集类型,例如:DATADATAnew TYPEnew TYPECORRCORR:表明:表明newnew为一相关系数为一相关系数CORRCORR数据集。数据集。OUTOUT输出数据集输出数据集存储原始数据和主分量得分等。存储原始数据和主分量得分等。OUTSTATOUTSTAT输出数据集输出数据集存储变量的平均数、标准差、相关系数、特征存储变量的平均数、标准差、相关系数、特征值、特征向量等。值、特征向量等。另外,另外,COVCOV指定由协方差矩阵计算(一般由相关系数矩阵进行);指定由协方差矩阵计算(一般由相关系数矩阵进行);N N个数个数指定主分量个数。指定主分量个数。STDST
15、D将输出标准化的主分量得分。将输出标准化的主分量得分。NOINTNOINT不含截距。不含截距。NOPRINTNOPRINT不输出分析结果。不输出分析结果。PROC PRINCOMPPROC PRINCOMP过程中的主要语句过程中的主要语句VARVAR语句语句指明分析的数值变量。指明分析的数值变量。PARTIALPARTIAL语句语句指明对偏相关或协方差矩阵进行分析的数值变量。指明对偏相关或协方差矩阵进行分析的数值变量。下一页上一页 例:对我国上市公司的经济效益水平进行主成例:对我国上市公司的经济效益水平进行主成分分析,选择的主要经济效益指标共有以下几个:分分析,选择的主要经济效益指标共有以下几
16、个:资金利税率,产值利税率,百元销售成本实现的利资金利税率,产值利税率,百元销售成本实现的利润,百元销售收入实现的利税,流动资金周转次数,润,百元销售收入实现的利税,流动资金周转次数,主营业务利润增长率等主营业务利润增长率等6 6个。试分析经济效益的主个。试分析经济效益的主要影响因素。要影响因素。下一页上一页Data Data sasuser.jjxysasuser.jjxy;infileinfile“x:jjxy.txtx:jjxy.txt”;”;input name$x1-x6;input name$x1-x6;run;run;proc proc princompprincomp data
17、=data=sasuser.jjxysasuser.jjxy n=6 out=n=6 out=prinprin;varvar X1-x6;X1-x6;run;run;proc print data=proc print data=prinprin;varvar prin1-prin6;prin1-prin6;run;run;下一页上一页第一、第二主成分的表达式为:第一、第二主成分的表达式为:PRIN1PRIN1=0.469779 X1+0.440631 X2+0.371196=0.469779 X1+0.440631 X2+0.371196 X3+0.472717 X4+0.122706 X5
18、+0.456998 X6X3+0.472717 X4+0.122706 X5+0.456998 X6PRIN2PRIN2=0.008123 X1-0.272433 X2+0.442503 X3-=0.008123 X1-0.272433 X2+0.442503 X3-0.012902 X4+0.797595 X5-0.305909 X60.012902 X4+0.797595 X5-0.305909 X6下一页上一页如果要对特征值大的第一、第二主成分得分按照从小到大的顺序排序并进行打印,如果要对特征值大的第一、第二主成分得分按照从小到大的顺序排序并进行打印,进而对各上市公司的经济效益进行分类,
19、那么可编写如下语句:进而对各上市公司的经济效益进行分类,那么可编写如下语句:Proc sort data=Proc sort data=prinprin;By descending prin1;By descending prin1;Run;Run;proc print data=proc print data=prinprin;VarVar prin1 x1 x2 x3 x4 x5 x6;prin1 x1 x2 x3 x4 x5 x6;Title Title 用第一主成分反映的经济效益情况依次列出各公司名单用第一主成分反映的经济效益情况依次列出各公司名单;Run;Run;Proc sort
20、data=Proc sort data=prinprin;By descending prin2;By descending prin2;Run;Run;Proc print data=Proc print data=prinprin;VarVar prin2 x1 x2 x3 x4 x5 x6;prin2 x1 x2 x3 x4 x5 x6;Title Title 用第二主成分反映的经济效益情况依次列出各公司名单用第二主成分反映的经济效益情况依次列出各公司名单;Run;Run;下一页返回本节首页上一页菜单操作方法单击单击solutions=analysis=analystsolutions=
21、analysis=analyst(在这里选择需要分析的数据集在这里选择需要分析的数据集)=statistics=MULTIVARIATE =PRINCIPAL=statistics=MULTIVARIATE =PRINCIPAL COMPONENT(COMPONENT(主成份分析主成份分析)下一页返回本节首页上一页主成分在主成分在综合评价中的应用综合评价中的应用例:例:主成分分析在企业经济效益综合评价中的应用主成分分析在企业经济效益综合评价中的应用综合评价值综合评价值其中其中下一页上一页Rank Rank 语句语句(有序变量转换成名次变量有序变量转换成名次变量)proc rank data=输
22、入数据名输入数据名 选项串选项串;/*/*选项包括选项包括:ties=high(:ties=high(或或=low)=low)相等数据取高相等数据取高(或低或低)名次名次(内设为均值内设为均值);descending descending 数据由大到小排成名次数据由大到小排成名次1,2,1,2,;out=out=输出文件名输出文件名*/var 被排序数值变量名串被排序数值变量名串;ranks 名次变量名串名次变量名串;run;下一页上一页计算综合得分及名次计算综合得分及名次data new;data new;set set prinprin;z=prin1*0.6824/(0.6824+0.2
23、093)+prin2*0.2093/(0.6824+0.z=prin1*0.6824/(0.6824+0.2093)+prin2*0.2093/(0.6824+0.2093);2093);run;run;Proc rank data=new;Proc rank data=new;VarVar z;z;Ranks Ranks zrankzrank;Run;Run;说明:说明:1.1.主成分分析是通过降维技术用少数几个综合变量来代替原始多个变量的一主成分分析是通过降维技术用少数几个综合变量来代替原始多个变量的一种统计分析方法。这些综合变量集中了原始变量的大部分信息。种统计分析方法。这些综合变量集中
24、了原始变量的大部分信息。2 2、第一主成分所包含的信息量最大,第二主成分其次,其它主成分依次递、第一主成分所包含的信息量最大,第二主成分其次,其它主成分依次递减,各主成分之间互不相关,这就保证了各主成分所含的信息互不重复。减,各主成分之间互不相关,这就保证了各主成分所含的信息互不重复。3.3.取多少个主成分,既要考虑至(前几个主成分的累计贡献率达到一定比例,取多少个主成分,既要考虑至(前几个主成分的累计贡献率达到一定比例,也要考虑到应选取尽可能少的主成分以较好地达到降维的目的。也要考虑到应选取尽可能少的主成分以较好地达到降维的目的。4.4.当各变量的单位不相同时,应从相关矩阵出发进行主成分分析
25、。当各变量的单位不相同时,应从相关矩阵出发进行主成分分析。5.5.计算出主成分之后,应对要使用的前若干个主成分作出符合实际背景和意计算出主成分之后,应对要使用的前若干个主成分作出符合实际背景和意义的解释。义的解释。下一页返回本节首页上一页二、因子分析二、因子分析因子分析简介因子分析简介因子分析因子分析数学模型数学模型FACTOR FACTOR 过程过程因子分析应用因子分析应用下一页返回本节首页上一页 因子分析因子分析(factor analysis)(factor analysis)是一种数据简化的技术。是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据它通过研究众多变量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SAS多元统计分析 SAS 多元 统计分析 PPT 课件

限制150内