概率论与数理统计在数学建模中的应用.pdf
概率论与数理统计在数学建模中的应用概率论与数理统计在数学建模中的应用国国 冰冰。第一节第一节 概率模型概率模型一、初等概率模型一、初等概率模型初等概率模型主要介绍了可靠性模型、传染病流行估计、常染色体遗传模型等三类问题:1、复合系统工作的可靠性问题的数学模型设某种机器的工作系统由N个部件组成,各部件之间是串联的,即只要有一个部件失灵,整个系统就不能正常工作为了提高系统的可靠性,在每个部件上都装有主要元件的备用件及自动投入装置(即当所使用元件损坏时,备用元件可自动替代之而开始工作)明显地,备用件越多,整个系统正常工作的可靠性就越大.但是,备用件过多势必导至整个系统的成本、重量和体积相应增大,工作精度也会降低.因此,配置的最优化问题便被提出来了:在某些限制性条件之下,如何确定各部件的备用件数量,使整个系统的工作可靠性最大这是一个整体系统的可靠性问题.我们假设第i个部件上装有xi个备用件(i 1,2,那么整个系统正常工作的可,N),此时该部件正常工作的概率为p(xi),靠度便可用p p(xi)()i1n来表示.又设第i个部件上的每个备用件的费用为Ci,重量为Wi,并要求总费用不超过C,总重量不超过W,则问题的数学模型便写成为max p p(xi)()i1nNcixi ci1Ns.twixi ci1xiN,i 1,2,N问题的目标函数为非线性的,决策变量取整数,属于非线性整数规划问题。2、传染病流行估计的数学模型问题分析和模型假设问题分析和模型假设本世纪初,瘟疫还经常在世界的某些地方流行。被传染的人数与哪些因素有关如何预报传染病高潮的到来为什么同一地区一种传染病每次流行时,被传染的人数大致不变科学家们建立了数学模型来描述传染病的蔓延过程,以便对这些问题做出回答。这里不是从医学角度探讨每一种瘟疫的传染机理,而是利用概率论的知识讨论传染病的蔓延过程。假定人群中有病人或更确切地说是带菌者,也有健康人,即可能感染者,任何两人之间的接触是随机的,当健康人与病人接触时健康人是否被感染也是随机的.问题在于一旦掌握了随机规律,那么如何去估计平均每天有多少健康人被感染,这种估计的准确性有多大给出以下假设(1)设人群只分病人和健康人两类,病人数和健康人数分别记为i和s,总数n不变,即is n()(2)人群中任何二人的接触是相互独立的,具有相同概率p,每人每天平均与m人接触;(3)当健康人与一病人接触时,健康人被感染的概率为。模型建立求解模型建立求解由假设(2)知道一个健康人每天接触的人数服从b(n1,p),且平均值是m,则m (n1)p于是p m(n1)又设一健康人被一名指定病人接触并感染的概率为p1,则由假设 3 及(9.4)式得p1p mn1那么一健康人每天被感染的概率p2为p21(1 p1)i1(1)in1m由于健康人被感染的人数服从b(s,p2),其平均值为 sp2(ni)p2标准差为sp2(1 p2)(ni)p2(1 p2)注意,通常n m,n 1,取式右端展开式的前两项,有p21(1min)min最后得到mi(ni)n1 p2nmi(ni)p2mi(ni)式给出了健康人每天平均被感染的人数与n、i、m、的关系,式变异系数,可看作对平均值的相对误差的度量。二、随机性决策模型二、随机性决策模型所谓行为决策理论,就是用行为科学的观点和方法,对决策活动进行描述,解释和预测的一种理论。它以人的决策行为作为基本要素,以自然科学的实证方法作为主要手段,归纳出一套建立在经验证据基础上的理论观点,拓展了决策论的研究范围。合理的决策必须具备三个条件:为(1)目标合理;(2)决策结果满足预定目标的要求;(3)决策本身符合效率、满意、有限合理、经济性的原则。所谓风险型决策是指在作出决策时,往往有某些随机性的因素影响,而决策者对于这些因素的了解不足,但是对各种因素发生的概率已知或者可估算出来,因此这种决策存在一定的风险.风险决策模型的基本要素决策者进行决策的个人、委员会或某个组织.在问题比较重大和严肃时,通常应以后者形式出现.方案或策略参谋人员为决策者提供的各种可行计划和谋略.如渔民要决定出海打鱼与否便是两个方案或称两个策略.准则衡量所选方案正确性的标准.作为风险型决策,采用的比较多的准则是期望效益值准则,也即根据每个方案的数学期望值作出判断.对收益讲,期望效益值越大的方案越好;反之对于损失来讲,期望效益值越小的方案越好.事件或状态不为决策者可控制的客观存在的且将发生的自然状态称为状态(事件),如下小雨,下大雨和下暴雨即为三个事件或称三种状态,均为人所不可控因素.结果某事件(状态)发生带来的收益或损失值.风险决策方法利用树形图法表示决策过程具有直观简便的特点,将其称为决策树的方法.充分利用灵敏度分析(即优化后分析)方法对决策结果作进一步的推广和分析.决策树一般都是自上而下的来生成的。选择分割的方法有好几种,但是目的都是一致的:对目标类尝试进行最佳的分割。从根到叶子节点都有一条路径,这条路径就是一条“规则”。决策树可以是二叉的,也可以是多叉的。对每个节点的衡量:1)通过该节点的记录数2)如果是叶子节点的话,分类的路径3)对叶子节点正确分类的比例。有些规则的效果可以比其他的一些规则要好。决策树对于常规统计方法的优点。构造好的决策树的关键在于如何选择好的逻辑判断或属性。对于同样一组例子,可以有很多决策树能符合这组例子。人们研究出,一般情况下或具有较大概率地说,树越小则树的预测能力越强。要构造尽可能小的决策树,关键在于选择恰当的逻辑判断或属性。由于构造最小的树是NP-难问题,因此只能采取用启发式策略选择好的逻辑判断或属性。下面我们利用一个例题来说明如何来建立风险决策模型。例 1、天龙服装厂设计了一款新式女装准备推向全国。如果直接大批量生产与销售,主观估计成功与失败的概率各为,其分别的获利为1200 万元与-500 万元,如取消生产销售计划,则损失设计与准备费用 40 万元。为稳妥起见,可先小批量生产试销,试销的投入需 45 万元。据历史资料与专家估计,试销成功与失败的概率分别为与,又据过去情况,大批生产销售为成功的例子中,试销成功的占 84%,大批生产销售失败的事例中,试销成功的占 36%。试根据以上数据,通过建立决策树模型按期望值准则确定最优决策。解答解答:本题显然是要考核风险性决策模型的建立能力。按照这类模型的建立思路,我们有:问题分析与模型假设问题分析与模型假设 1.问题涉及直接大批量生产与销售、取消生产销售计划和小批量试销售这样三个决策方案的取舍,在每种方案下又分为成功或失败两种结果;2.决策目标在表面上看是获利大小,实际上是要决定试销与否;3.尚需注意后面几句话:“大批生产销售为成功的例子中,试销成功的占84%,大批生产销售失败的事例中,试销成功的占36%”,这意味着要计算两个概率,其一是当试销成功时,大批量销售成功与失败的概率;其二是试销失败情况下,大批量销售成功与失败的概率,这意味着要利用贝叶斯概率公式;4.设定以下变量A-试销成功,则A-试销失败;B-大量销售成功,则B-大量销售失败。模型建立求解模型建立求解1.先来计算两个概率,注意到P(A/B)0.84,P(B)0.6,P(A/B)0.36,代入贝叶斯概率公式P(B/A)P(A/B)P(B)P(A/B)P(B)P(A/B)P(B)0.840.6 0.78,0.840.6 0.360.4从而P(B/A)0.22.即当试销成功时,大批量销售成功与失败的概率分别为和.同理可以算出在试销失败情况下,大批量销售成功与失败的概率分别为和.2.以试销与否作为决策思路,先画一方块“囗”称为决策结点,由决策结点向右引出若干条直线表示不同的策略(方案)称为策略分枝,策略分枝的右端画一个圆圈“”称为状态结点,由它引出表示不同状态及其发生的概率的分枝称为概率分枝,最后在概率分枝的终点画“”符号表示这一分枝的最终结果的效益值(期望值),正值表收益,负值表示损失本例对应的决策树如图(见图-2):成功试销-45 万取消销售成功1200 万失败大量销售失败-500 万取消销售成功不试销大量销售失败-500 万取消销售-40 万-40 万1200 万成功大量销售失败-500 万-40 万1200 万图-2这棵树即为所求的数学模型。我们继续将模型求解出来。根据期望利润值最大准则对决策树进行计算,值得指出的是,画决策树是从左向右画出,画的过程中将各种已知数据标于相应的位置上.但在决策树上进行决策计算却是从右向左进行的:先计算最右端每个状态结点的期望值。一级决策问题,只需利用结果点效益值计算各状态结点的期望效益值即可.当有两级以上决策时则需从右向左逐级计算.结果如图-3成功试销-45 万取消销售成功成功826大量销售826失败1200 万-500 万-40 万失败-40大量销售-126失败1200 万-500 万取消销售成功不试销-40 万1200 万350大量销售350失败-500 万取消销售-40 万图-3决策树的优缺点:决策树的优缺点:优点:1)可以生成可以理解的规则。2)计算量相对来说不是很大。3)可以处理连续和种类字段。4)决策树可以清晰的显示哪些字段比较重要缺点:1)对连续性的字段比较难预测。2)对有时间顺序的数据,需要很多预处理的工作。3)当类别太多时,错误可能就会增加的比较快。4)一般的算法分类的时候,只是根据一个字段来分类三、随机性存储模型三、随机性存储模型问题分析与模型假设问题分析与模型假设工厂为了稳定的生产,需要贮存一定的原料或零部件;商店为了满足顾客的需要,要有足够的库存商品;银行为了进行正常的营业,需要一定的货币进行周转;医院为了手术的急需,血库必备充足血液.总之库存问题是普遍存在的.早在 1915 年,哈里斯(Harris)对商业中的库存问题建立了一个简单模型,并求得了最优解,但未被人们注意.1918 年威尔逊(Wilson)重新得出了哈里斯的公式,并将其发展.他们的模型都是确定性的,二次大战后,带有随机性因素的库存模型得到研究。目前,库存问题的兴趣已转到了多物品、多个库存点的理论。在随机性需求的情况下,要制订最优的存储策略必须知道一个时间段(如一天、一周、一个月等)内需求量的概率分布,以及订货费、存储费、缺货费(在随机需求的情况下,缺货几乎是不可避免的)。这里有两个可以考虑的问题,第一个问题是:决策者在每个时间段初,应该根据已有的存储量确定应订购多少货物使存储量达到最大,记这个最大的存储量为S。第二个问题是:已有的存储量不低于什么数值时,本时间段就可以不再订购,记这个决定不再订购的那个存储量的最低值为s。整个这种随机存储策略称为(s,S)存储策略。给出以下假设:(1)只考虑一种物品,其需求是随机的,需求量X是非负连续的随机变量,密度函数为(x),分布函数为(x);(2)只考虑一个库存周期,即在库存周期开始时,做一次决策,决定进货量;(3)瞬时供货;(4)决策前原有库存量为I,进货量为Q,决策后的库存量为y I Q;(5)费用包括订货费、存贮费和缺货费.每次的订购手续费为K,货物单价为p;存贮费在周期末结算,它与期末的库存量成正比,比例系数为h(单位存贮费),缺货费与缺货量成正比,比例系数为g(单位缺货损失);(6)决策的准则是期望总费用最小.模型的建立与求解模型的建立与求解库存问题有补充库存需求三个环节.在这一系统中,若一次进货量多,进货的次数就少,进货的费用就少,但库存量大,库存费用就大,造成需求缺货就可能少,缺货损失就会少;若一次进货量少,进货的次数就多,进货费用就大,但库存量小,库存费用就小,造成需求缺货就可能多,缺货损失就会大.如何协调这些矛盾,使该系统在某种准则下运行最佳.即如何确定进货量,使其总费用最小.进货费用为K p(yI)y Ic1(yI)y I0存贮费用为h(y X)X yc2(y X)X y0期望存贮费用为Ec2(y X)c2(y x)(x)dx h(y x)(x)dx00y缺货损失为g(X y)X yc3(X y)X y0期望缺货损失为Ec3(X y)c3(x y)(x)dx g(x y)(x)dx0y记L(y)Ec2(y X)Ec3(X y)则总费用为K p(yI)L(y)y I(2)C(y)L(y)y I目的是求minC(y)y当需要进货时有C(y)K p(yI)h(y x)(x)dx g(x y)(x)dx0yydC(y)ph(x)dx g(x)dx 0(3)令0ydxy若S是使函数达到极小值的点,则(S)(x)dx 0Sg p (4)h g设s为库存量进货点,即当初始库存I s时,进货至S;当I s不进货。当的总费I s时,不进货.总费用为L(s),它应小于y S(此时进货量为S s)用K p(S s)L(S),即L(s)K p(S s)L(S)当I s时,进 货。则L(I)K p(S I)L(S),于 是s应 满 足L(s)K p(S s)L(S),即ps L(s)K pS L(S)(5)若模型假设(1)改为需求量X是非负离散随机变量,分布为PX k pk(k 0,1,),pk 0,pk1k0(1)式可变为L(y)h(y k)pk g(k y)pk(1)k0k0yy(4)式可变为g pSpk(2)pkh gk0k0S1(5)式变为ps L(s)K pS L(S)(3)s是满足上式的最小正整数.实例实例例 1 设某公司用某种原料进行生产,已知该原料每吨单价 800 元,订货费60 元,存贮费每吨 40 元,缺货损失每吨 1015 元,原有存贮量为 10 吨.已知对原料需求的概率P(X 30)0.2,P(X 40)0.2,P(X 50)0.4,P(X 60)0.2求该公司订购原料的最佳方案.解 由模型假设有:K 60,h 40,g 1015,I 10,p 800计算g p1015800 0.204g h101540因为P(X 30)0.2 0.204,P(X 30)P(X 40)0.4 0.204所以S 40,Q S I 30S=40,Q=SI=4010=30又因为K pS L(S)4026080030+1015(4030)+(5030)+(6030)=40240K pS L(S)所以s 30.故存贮策略为每个阶段开始时检查存贮量I,当I 30吨时不必补充存贮;当I 30吨时补充存贮量到 40 吨.例 2 某市石油公司希望确定一种油的存贮策略,以确定应贮存的油量.该油的市场需求服从指数分布,其密度函数为0.000001e0.000001xx 0(x)x 00该种油每近 2 元,不需进货费.由于油库归该公司管辖,油池灌满与没灌满时的管理费用实际上没有多少差别,故可以认为存贮费用为零.如缺货就从邻市调用,缺货费为 3 元/斤.解 由模型假设K 0,h 0,g 3,p 2计算 Sg p32 0.333g h30由0.000001e0.000001xdx 0.333,有e0.000001x 0.667,两端取对数解出 0S 405000因ps L(s)2s0(s x)(x)dx3(xs)(x)dx 2s3(xs)(x)dxsssK pS L(S)0(S x)(x)dx3(xS)(x)dx 2S 3(xS)(x)dxK+p0SSS由观察可知,它有唯一解s S。所以当库存下降到 405000 斤以下就应进货,使库存达到405000斤.出现s S,是因为进货费为零,可以频繁进货,又存贮费为零,存贮量多一些也不会增加费用。第二节第二节 数据分析模型数据分析模型一、主成分分析模型和因子分析模型一、主成分分析模型和因子分析模型例例1 1现希望对30 个省市自治区经济发展基本情况的八项指标进行分析。具体采用的指标有:GDP、居民消费水平、固定资产投资、职工平均工资、货物周转量、居民消费价格指数、商品零售价格指数、工业总产值,数据文件见附表。这是一个综合分析问题,八项指标较多,可以用主成分分析法进行综合。打开文件后在SPSS 中的操作如下:使用SPSS软件中的AnalyzeData ReductionFactor Analysis就进入了Factor的主对话框。在Factor的主对话框将x1 x8选入Variables框。在Descritives子对话框选中选择“Coefficients”,按Continue回到Factor的主对话框选择OK按钮输出结果,SPSS 在调用Factor Analyze 过程进行分析时,首先会自动对原始变量进行标准化,因此以后的输出结果中在通常情况下都是指标准化后的变量。在结果输出中会涉及一些因子分析中的内容,因此这里仅给出与主成分分析有关的部分如下:Correlation MatrixCorrelation Matrix居民固定职工货物消费资产平均周转水平投资工资量.267.951.187.617.267.426.716居民消费价格指数商品零售工业价格总产指数值.874.363CorrelationGDPGDP居民消费水平固定资产投资职工平均工资货物周转量居民消费价格指数商品零售价格指数工业总产值.951.426.396.431.792.099.187.716.396.617.431.022.659.763.022.763.874.363.792.099.659表1 1.1 为8个原始变量之间的相关系数矩阵,可见许多变量之间直接的相关性比较强,的确存在信息上的重叠。Total Variance ExplainedTotal Variance ExplainedExtraction Sums of SquaredInitial EigenvaluesLoadingsComponen%ofCumulative%ofCumulativetTotalVariance%TotalVariance%1234.4035.2146.1387.066.8298.015.183Extraction Method:Principal Component Analysis.表1 1.2 给出的是各成分的方差贡献率和累计贡献率,由表1 1.2 可知,只有前3个特征根大于1,因此SPSS只提取了前三个主成分。第一主成分的方差所占所有主成分方差的%,接近一半,前三个主成分的方差贡献率达到%,因此选前三个主成分己足够描述经济发展的水平。Component Matrix(a)Component Matrix(a)GDP居民消费水平固定资产投资Component12.884.385.606.911.1633.120.277.213职工平均工资.465.362货物周转量.486.737居民消费价格指数.257.794商品零售价格指数.596.433工业总产值.822.429.210Extraction Method:Principal Component Analysis.a 3 components extracted.随后表1 1.3 中的输出为主成分系数矩阵,可以说明各主成分在各变量上的载荷,从而得出各主成分的表达式,注意在表达式中各变量己经不是原始变量,而是标准化变量。F1 0.884ZX10.606ZX 20.911ZX30.465ZX 40.486ZX50.510ZX60.621ZX7 0.822ZX8F2 0.385ZX10.596ZX 20.163ZX30.725ZX40.737ZX50.257ZX60.596ZX70.429ZX8F3 0.120ZX10.277ZX20.213ZX30.362ZX40.279ZX50.794ZX60.433ZX70.210ZX8由于各自变量己经过标准化,因此以上三个主成分的均数均为0。可以证明,各主成分的方差应当为前述特征根i,但这里计算出的数值方差均为特征根的平方,即各主成分的原始数值还应该除以一个特征根的平方根才行,在第1主成分的表达式中,X1,X2,X3,X8的系数较大,可以看成是反映GDP、固定资产投资、居民消费水平和工业总产值的综合指标。在第2主成分中,X4和X5的系数较大,可以看成是反映职工平均工资和货物周转量方面的综合指标。在第3主成分中,X6系数较大,可以看成是反映居民消费价格指数方面的综合指标。主成分分析本质上是一种矩阵变换过程,并不要求各主成分部具有实际意义,本例中各主成分含义显得并不十分明确,我们将进一步在因子分析中对其继续进行分析,操作如下:选择Analyze下拉菜单中的Data Reduction中的Factor Analysis,在Factor的主对话框将x1 x8选入Variables框。在Factor的主对话框中的Descritives子对话框选中选择“KMO andBartletts test of sphericity”,按Continue回到Factor的主对话框选择OK按钮输出结果。这里只对比较重要的结果加以解释,对相同的输出结果不再重复说明。KMO和球形Bartlett检验用于因子分析的适用性检验。KMO检验变量间的偏相关是否较小,Bartlett球形检验是判断相关阵是否是单位阵。KMO and Bartletts TestKMO and Bartletts TestKaiser-Meyer-Olkin Measure ofSampling Adequacy.Bartletts Testof SphericityApprox.Chi-SquaredfSig.62028.000由Bartlett检验可以看出,应拒绝各变量独立的假设,即变量问具有较强的相关性。但是KMO 统计量为,小于,说明各变量问信息的重叠程度可能不是特别的高,有可能做出的因子分析模型不是很完善,但还是值得尝试的。CommunalitiesCommunalitiesGDP居民消费水平固定资产投资职工平均工资货物周转量居民消费价格指数商品零售价格指ExtractInitialion.945.799.902.873.857.957.928数工业总产值.904Extraction Method:Principal Component Analysis.变量共同度Communalities是表示各变量中所含原始信息能被提取的公因子所表示的程度,由上表中所示的变量共同度可知:几乎所有变量共同度都在80%以上,因此提取出的这几个公因子对各变量的解释能力是较强的。随后会输出方差累计贡献率表格,和主成分分析中完全相同,因此省略。Component Matrix(a)Component Matrix(a)Component123GDP.884.385.120居民消费水平.606.277固定资产投资.911.163.213职工平均工资.465.362货物周转量.486.737居民消费价格指数.257.794商品零售价格指数.596.433工业总产值.822.429.210Extraction Method:Principal Component Analysis.a 3 components extracted.表1 1.6 为曾经阅读过的因子载荷矩阵,在前面己经直接按列的方向将其解释为各主成分的系数,实际上严格讲因子载荷矩阵应该是各因子在各变量上的载荷,即是各因子对各变量的影响度。ZX1 0.884F10.385F20.120F31ZX2 0.606F10.596F20.277F32ZX8 0.822F10.429F20.210F38在表达式中各变量己经不是原始变量,而是标准化变量。i表示特殊因子,是除了这4个公因子外影响该变量的其他因素,其对该变量的影响程度为1变量共同度。原来设计了8个变量来表示经济发展水平,而经过因子分析后,只需用三个因子即可描述影响地区经济发展状况。因子分析要求提取出的公因子有实际含义,但是从上面各因子和原始变量的相关系数可以看出,现在各因子的意义不是很明显,为了使因子载荷矩阵中系数更加显著,可以对初始因子载荷矩阵进行旋转,使因子和原始变量间的关系进行重新分配,相关系数向0-1分化,从而更加容易进行解释。对于本例可以采用方差最大旋转加以分析,如果对于各种旋转方法没有把握,选择它一般没有什么问题。在Factor的主对话框中的Rotation子对话框选中选择“Varimax”,按Continue回到Factor的主对话框选择OK按钮输出结果变化如下:Total Variance ExplainedTotal Variance ExplainedExtraction Sums of SquaredInitial Eigenvalues%ofComponent12345678Total.403.214.138.066.015Variance.829.183Cumulative%TotalLoadings%ofVarianceCumulative%TotalRotation Sums of SquaredLoadings%ofVarianceCumulative%Extraction Method:Principal Component Analysis.方差解释表格最右侧会给出旋转后各因子的载荷情况,只有前三个特征根大于1,因此SPSS 只提取了前三个公因子。在旋转后三个公因子的方差累计贡献均发生了变化,但仍然会保持从大到小的顺序,而且前三个因子的方差贡献率仍为%,和旋转前完全相同,因此选前三个因子己足够描述经济发展的水平。Rotated Component Matrix(a)Rotated Component Matrix(a)Component1.9552.1243GDP居民消费水平固定资产投资职工平均工资货物周转量居民消费价格指数商品零售价格指数工业总产值.219.872.048.751.944.841.351.925.109.969.819Extraction Method:Principal Component Analysis.Rotation Method:Varimax with Kaiser Normalization.a Rotation converged in 5 iterations.进行方差最大旋转后,旋转后的因子载荷矩阵如上所示,可以看出第一公因子在X1、X2、X5和X8有较大的载荷,主要从GDP、固定资产投资、货物周转量和工业总产值反映经济发展状况,可以命名为总量因子。第二公因子在X2、X4有较大载荷,从居民消费水平和职工平均工资方面反映经济发展水平,因此命名为消费因子。第二公因子在X6和X7上有较大载荷,表现为居民消费价格指数和水平价格指数方面,因此命名为价格因子。与未旋转前相比较,旋转后各公因子的意义显然更加明确合理。前面得到了因子结构表达式,可以将各变量表示为公因子的线性形式,但是更多的时候需要将公因子表达为各变量的线性形式。公因子的表达式也称为因子得分函数系数,但是在因子分析中,不能像主成分分析一样,直接从列的分析得到公因子的表达式,也就是它不能通过矩阵变换的方法由因子载荷阵得到,只能采用估计的方法求得。最常用的估计方法是Regression 回归法,也是SPSS的默认估计方法。其次也可以用Bartlett或者AndersonRubin 估计法。在Score子对话杠中选择“Display factor score coefficient matrix”,即可输出因子得分函数的系数矩阵。如果还选择了Save as variables,则SPSS还可以直接保存各因子得分值为一个变量。估计出因子得分函数后,虽然可以人工计算出因子得分,但是需要先将变量标准化,再输入公式计算,比较麻烦,而通过该选项就可以直接将各因子的得分存为相应的新变量。在本例中可以得到了如表1 1.10 所示的因子得分函数系数矩阵,据此可以直接写出各公因子的表达式。Component Score Coefficient MatrixComponent Score Coefficient MatrixComponent1.306.025.270.248.070.077.3172.011.387.129.451.180.0263.047.040.075.096.653.462.123GDP居民消费水平固定资产投资职工平均工资货物周转量居民消费价格指数商品零售价格指数工业总产值Extraction Method:Principal Component Analysis.Rotation Method:Varimax with Kaiser Normalization.Component Scores.F1 0.306ZX10.025ZX 20.270ZX30.025ZX 40.248ZX50.070ZX60.077ZX70.317ZX8F2 0.011ZX10.387ZX 20.129ZX30.451ZX 40.319ZX50.180ZX60.098ZX70.026ZX8F3 0.047ZX10.040ZX 20.075ZX30.096ZX 40.139ZX50.653ZX 60.462ZX70.123ZX8在上例中,介绍了如何计算主成分。实际上,在统计界对于主成分分析法是否能作为一种独立的统计方法还存在争议,很多人认为主成分分析法只是一种思想,只能被看成是其他多元统计分析方法的基础。统计软件的设定也各不相同,SPSS就没有把主成分分析法单独列出,但在另一些统计软件中主成分分析法却又单独存在。的确,从应用范围和功能上讲,因子分析法完全能够替代主成分分析法,并且功能更为强大。但是,不管怎么说,主成分分析法还是有其独到之处的,特别是在综合评价和主成分回归(用各主成分得分作为新的自变量来代替原来的多个自变量,以消除多重共线性)时相当有用。二、聚类分析模型二、聚类分析模型例例 2 2为了反映中国各地区的生活水平差异性,我们收集整理了 2002 年中国部分省市的国民经济数据,具体包括:x1:人均粮食支出(元/人),x2:人均副食支出(元/人),x3:人均烟、酒、饮料支出(元/人),x4:人均其他副食支出(元/人),x5:人均衣着支出(元/人),x6:人均日用杂品支出(元/人),x7:人均水电燃料支出(元/人),x8:人均其他非商品支出(元/人),数据具体情况详见附表。现希望通过聚类分析的方法把相似的省份找出来,即把这些省份归为若干的类别,从而更好地了解中国各市地区生活水平的差异。在SPSS 中,实现层次聚类法的过程步骤如下:使用 SPSS 软件中的 Analyze Classify Hierarchical Cluster,就进入了层次聚类分析的对话框。在系统聚类分析的主对话框将x1x8添加到Variable(s)框,将“城市”添加到Label Cases by框。在plots子对话框选中“Dendrogram”,按Continue返回系统聚类分析的主对话框。在Method子对话框中的“Cluster Method”选择“Wards method”,在“Standardize”中选“Z scores”按Continue返回系统聚类分析的主对话框,按“OK”。在层次聚类法的操作过程中,只需按照菜单、对话杠中提供的项目进行选择就可以完成了,根据以上设置,SPSS 给出的聚类结果如下:Agglomeration ScheduleAgglomeration ScheduleStage Cluster FirstCluster CombinedStage12345678910111213141516Cluster 12714292741716318161241510214Cluster 23023312882427722292551815620Coefficients.278.646AppearsCluster 10001000007050002Cluster 200000040030091300Next Stage41610712171022131824181417202117181920212223242526272829301041214313210311117169132141112191410262314120151681922201724232829610000180110212602527262223252624282729273029300上表为聚类过程表,它说明层次聚类过程中的每一个步骤是如何进行的,一般来讲,步骤数为参加聚类的数据条数减1(在这里是30 步)。但为了便于显示,这里只给出头、尾几步的情况。表的第1 列列出了聚类过程的步骤号,第2 列和第3 列出了在某一步骤中哪些省市参与了合并,例如从结果中可以看出,在第1步中,第27条记录(陕西)和第30条记录(宁夏)首先被合并在一起。第4列列出了每一聚类步骤的聚类系数,这一数值表示被合并的两个类别之间的距离大小。第5列和第6列表示参与合并的省市(类别)是在第几步中第一次出现的,0代表该记录是第一次出现在聚类过程中,例如,从聚类过程第2 步中可以看出,该步骤中参与合并的省市是第14条记录(江西)所在类别和第23条记录(四川)所在类别,第7 列表示在这一步骤中合并的类别,下一次将在第几步中与其他类再进行合并,例如在聚类.程第2步中,看到这一步中合并产生的类别将在第16步和其他类别再进行合并。这里读者朋友要注意,在聚类过程的描述中,往往一个记录号己经不单单代表的是一个记录,而是一个类别,例如在上面所讲的第4步中,记录号27代表的是陕西、宁夏两条记录组成的类别,而不仅仅是第27条记录(陕西)一个聚类过程表中大部分内容并不是通常要关注的对象,因为在大部分实际应用中,并不关心聚类的具体过程。但是当需要判断数据应该分成多少类别时,聚类系数那一列却有着很好的参考价值。事实上,可以根据该系数的变化来判断数据应该被分成多少类,当两个相邻步骤系数变化远大于前面相邻步骤变化时,便可以大致确定从统计意义上讲,应该将聚类过程进行到那里的类别数是较为合适的。聚类分析产生的最重要的结果就是所谓的谱系图(Dendrogram),有些统计书籍中也把它叫做树状图。通过谱系图可以非常直观地看出整个聚类过程和结果。在谱系图中,聚类的全过程以直观的方式表现出来,它把类间的最大距离算做相对距离为25,其余的距离均换算成与之相比的相对距离大小。图形的左边代表进行聚类的对象或者事物,而对象或者类别的合并则通过线条连接的方式来表示,在这个例子中,对应的是这些省市列在结果的最左端,而在结果的上部列出的是类别间的相对距离。通过观察这个结果,可以把这些省市分成若干个类别。、Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +-+-+-+-+-+陕西27宁夏 30甘肃 28河南 16青海 29新疆 31山西 4黑龙江 8内蒙古 5河北 3吉林 7安徽 12云南 25湖北 17贵州 24湖南 18重庆 22山东 15江苏 10江西 14四川 23广西 20海南 21天津 2辽宁 6福建 13广东 19北京 1上海 9浙江 11西藏 26以上介绍的是SPSS 中聚类分析产生的结果,但是仔细考虑,会发现通过这样的分析,还是难以断定到底把各省市分成多少类别是合理的。为了确定分成多少个类别合适,并且为各个类别命名,还需要对聚类结果进行进一步的分析。在进行聚类的过程中,总是理想化的希望每个类别包含的对象是差不多相等的,但是从以上的分析可以看出,这几乎是不可能的,于是找出尽可能等分的分类就是通常确定类别数目的原则之一。在这里我们把 31 个城市分为 5 类:第1类:包含陕西、宁夏、甘肃、河南、青海、新疆、山西、黑龙江、内蒙古、河北、吉林、安徽、云南13省市;第2类:包含湖北、贵州、湖南、重庆、山东、江苏、江西、四川、广西、海南10省市;第3类:包含天津、辽宁、福建、广东4省市;第4类:包含北京、上海、浙江3省市;第 5 类:包西藏 1 省市。三、判别分析模型三、判别分析模型例例 3 3判别分析的一个重要应用是用于动植物的分类当中,最著名的一个例子是 1936 年 Fisher 的鸢尾花数据(Iris Data)。鸢尾花为法国的国花,Setosa、Versicolour、Virginica 是三种有