集团公司发展计划状况的数学建模与分析.doc
,.企业发展状况的数学建模与分析摘要 本文针对企业显性指标判别其发展状况进行了建模与求解算法设计。首先我们利用数据文件和SPSS软件得到两两指标的三种相关系数即Pearson、Kendall、Spearman,并用散点图确定其显著线性相关的特性;然后在满足数据压缩的两个必要条件下,建立主成成分分析模型给数据降维;再基于八大指标为判别标准,用逐步判别分析法进行分类和对比分析;接着用变异系数法求指标权重,结合均值化无差异法得到每种企业评分并分级;最后运用评价模型预测未知企业类别,用判别分析法和BP神经网络进行检验。问题一:对于指标间相关关系,用SPSS软件和原始数据算出两两指标间的三种Pearson、Kendall、Spearman相关系数,并结合数据散点图容易判别出各指标间都是呈显著线性相关的。问题二:根据满足数据压缩的两个先决条件:各指标之间是相关的,不是毫无关系的;指标变量被压缩之后必须包含不少于原始指标变量85%的信息量。建立主成成分分析降维模型,用SPSS软件将8个指标成分压缩为3个主成成分,得到3个主成成分关系式和数值结果。问题三:对于用八大指标分类,首先将其作为训练样本并建立判别准则,然后用SPSS软件中的逐步判别分析法,在引入变量的同时进行判别、选择、淘汰,最后得到判别函数,根据函数得出结论为:分类的结果和原杂志社划分结果基本一致,被错判的为1号企业,应该将它从上升企业调整为稳定企业,其案例的正确分类率为98.95%。问题四:对于构建评价函数。用变异系数法计算每种指标的权重,再用均值化无差异法对指标数据进行处理,得出各种企业的综合评分,重新排序后,用EXCEL模拟出企业序号和评分曲线图,将同一高度的企业划分为一级,得到企业的分类级别。问题五:运用上问评价模型预测得到未知企业与分类级别的关系是:91上升企业、92下降企业、93稳定企业,再运用判别分析法和BP神经网络检验得出类别为1,3,2,和预测结果一致。关键词:散点图 相关系数 主成成分分析 判别分析法 变异系数法 均值化无差异法 BP神经网络 一、问题重述某咨询公司进行研究构建了一套描绘企业状况的显性指标体系,该指标有:企业规模(is)、服务(se)、雇员工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长(msr)、流动资金比例(cp)、资金周转速度(cs)。现有某杂志将某些企业划分为上升企业、稳定企业、下降企业,分别记1、2、3.1、根据数据文件考虑指标间相关关系,分析指标是否有相关性。2、这些指标是否可以压缩,请建立数据降维模型。3、根据八大指标进行分类,并与给定的类别进行对比分析。4、根据指定类别,建立相应的数据模型,构建评价函数,并将企业进行重新分类。5、根据第4问得出模型,研究和预测未知类别企业的类型,并分析其合理性。二、问题分析对于问题1考虑指标相关性,首先运用SPSS软件求出各指标的88相关矩阵,得到每两个变量的三种相关系数Pearson、Kendall、Spearman,判别出每两个变量是否呈显著相关。为了确定两变量是否直线相关,运用散点图来判断。如果散点图中分散的观察值点呈现如图形“/”这有的分布,则两变量正相关;如果散点图中分散的观察值点呈现如图形“”这有的分布,则两变量负相关。 问题2若要对指标进行压缩则必须满足同时两个条件:各指标之间是相关的,不是毫无关系的;指标变量被压缩之后必须包含不少于原始指标变量85%的信息量。因为要以较少指标衡量企业发展状况,我们利用SPSS软件,建立主成成分分析模型,压缩原始指标,用新指标表示原指标潜在关系,衡量企业发展状况。 问题3以八大指标的数据作为训练样本,并利用该样本来建立判别准则,运用SPSS中的逐步判别分析法,逐步引入变量,一边判别,一边选择判别能力较强的变量,剔除不重要的变量。最后得出判别函数,对各企业进行分类。问题4关于建立评价函数模型。采用变异系数法算出各个指标的权重,再采用均值化无差异法对原始指标进行标准化,根据标准化的指标数据和各个指标的权重,计算出每种企业的综合评分,作为评价指标。用EXCEL对指标进行从大到小进行排序,并作出评分曲线图,根据同一高度分级,重新分出企业类型。 关于问题5预测未知企业,通过第四问建立的评价函数,对91、92、93号企业进行评分,根据评分标准进行分类。为了检验结果的合理性,首先采用第二问的判别分析法对未知类别进行分类,然后运用BP神经网络,以标准化后的八项指标数据为输入,评分结果为输出,再次对未知类别进行分类。比较分类结果,对模型进行检验分析。三、符号说明: 样本均值 :样本标准差 :总离差 :组内离差 :总体均值 :判别函数 :总体均值 :Kendall相关系数 COV(X,Y):协方差 :Spearman秩相关系数:相关系数矩阵 :Pearson相关系数 :第i个指标的权重 :组均值 :第i个指标的变异系数 :第i个指标的平均数:第i个企业的第j种指标 :第i个指标的标准差 :各指标的权重构成的向量 :第i个企业的综合得分 :相关系数矩阵的特征值 :由向量构造成的矩阵 :特征值根对应的单位特征向量 :第i个企业的指标所构成的向量 4、 模型假设假设咨询公司对企业各指标打分是客观公正的;假设题目中给出的评分数据准确无误;假设题目给出的数据时足够多的;假设本文引用的资料真实可靠。五、模型的建立与求解5.1问题1的解决方案与模型5.1.1相关系数协方差 两个连续变量X和Y,1它们的观测值分别为,它们的样本均值分别为和,样本标准差分别为,。那么协方差为协方差为0表明两个变量之间没有线性关系,协方差为正说明两变量之间有正线性相关关系,为负值说明两个变量之间有负线性相关关系。Pearson相关系数 相关系数克服了协方差和量纲有关的缺点,2它既可以衡量两个变量是否有线性关系,同事在有线性相关的条件下,也可以描述两个变量之间的方向和相关的程度。公式为 相关系数的数值范围介于-1与1之间:如果,表明两个变量没有线性关系。如果,则表示两个变量完全直线相关。线性相关的方向通过相关系数的符号来表示,“+”表示正相关,“-”表示负相关。SPSS相关系数检验的原理为: 如果相关系数显著相关,即以不成立,SPSS将在相关系数的右上角标注(*)。例如以is和cs为变量,得到描述性统计量和相关性报表1: 表1:描述性统计量和相关性报表企业规模is和资金周转速度cs的相关系数为-0.639,且为显著性相关。以is、se、sa、prr、ms、msr、cp、cs八个指标作为“Variables”在SPSS中得到相关性报表(见附录1)和描述性统计量表2。 表2:描述性统计量从相关系数可发现,八个指标间每两个指标都显著性相关。KendaII相关系数 KendaII的tau系数是另一种计算定序变量之间或者尺度变量之间相关系数的方法。KendaII的tau系数的定义为修正的tau系数公式为运用SPSS得到 KendaII相关系数报表见附录2。 Spearman 秩相关系数 Spearman等级相关系数的计算公式为。运用SPSS得到Spearman相关系数报表见附录3。5.1.2散点图相关系数本身并不是一个等距变量,也不是一个比例变量,系数间没有倍数关系,其大小与样本的差异程度有关,运用散点图判断指标间的正负相关性。下面给出几组简单分布散点图如图1,可看出is与sa正相关,与cp、msr、prr负相关。 图1:部分散点图然后用八个指标作为变量,作出矩阵分布散点图2。图2:指标分布散点图根据矩阵散点图和三个相关性报表可得出表3。表3:八个指标的相关性结论issesaprrmsmsrcpcsisPearson1.842*.831*-.728*.757*-.742*-.611*-.639*Kendall1.681*.631*-.553*.561*-.555*-.467*-.533*Spearman1.857*.843*-.757*.772*-.744*-.651*-.732*相关性正正负正负负负sePearson.842*1.800*-.730*.763*-.679*-.662*-.655*Kendall.681*1.592*-.591*.578*-.492*-.505*-.553*Spearman.857*1.789*-.775*.769*-.665*-.672*-.719*相关性正正负正负负负saPearson.831*.800*1-.716*.765*-.731*-.649*-.727*Kendall.631*.592*1-.538*.558*-.533*-.447*-.591*Spearman.843*.789*1-.746*.768*-.724*-.640*-.768*相关性正正负正负负负prrPearson-.728*-.730*-.716*1-.740*.716*.639*.692*Kendall-.553*-.591*-.538*1-.577*.530*.456*.560*Spearman-.757*-.775*-.746*1-.788*.732*.665*.771*相关性负负负负正正正msPearson.757*.763*.765*-.740*1-.659*-.624*-.637*Kendall.561*.578*.558*-.577*1-.466*-.436*-.516*Spearman.772*.769*.768*-.788*1-.660*-.622*-.703*相关性正正正负负负负msrPearson-.742*-.679*-.731*.716*-.659*1.648*.674*Kendall-.555*-.492*-.533*.530*-.466*1.428*.521*Spearman-.744*-.665*-.724*.732*-.660*1.630*.737*相关性负负负正负正正cpPearson-.611*-.662*-.649*.639*-.624*.648*1.671*Kendall-.467*-.505*-.447*.456*-.436*.428*1.508*Spearman-.651*-.672*-.640*.665*-.622*.630*1.704*相关性负负负正负正正csPearson-.639*-.655*-.727*.692*-.637*.674*.671*1Kendall-.533*-.553*-.591*.560*-.516*.521*.508*1Spearman-.732*-.719*-.768*.771*-.703*.737*.704*1相关性负负负正负正正5.2问题2的解决方案与模型 由于企业的显性指标比较多,在实际工作中根据这么多指标来判断企业的发展状况显得有点不切合实际,这就要求我们对各项指标进行整合,做到用几个指标来高度概括原来的指标。从而达到对企业状况容易判断的目的。为此我们采用SPSS软件中的主成分分析法来达到降维的目的。主成分分析法就是从变量间的相关关系出发,将多个变量综合成少数几个变量的方法。设原来有p个变量1,记为X1,X2,.,Xp,主成分分析把它们综合成q个变量,这里q<p。社样本容量为n,Xi=xi1,.,xip)表示第i个记录的p个变量的取值。主成分分析的步骤为:第一步:进行样本数据的标准化,以消除指定变量的量纲或者单位的影响。然后求出相关系数矩阵R,其中得到相关系数矩阵为:R=(rij)(维矩阵);第二步:求出相关系数矩阵R的所有非零特征根,并以大小顺序排列成(其余p-q个特征值为零);第三步:选择主成分个数。根据碎石图选择合适的主成分个数;第四步:求出相应于前s个特征根的特征向量c1,c2,.,cs,并将特征向量单位化,即把这s个向量作为列向量,即构成了主成分的载荷矩阵,记为A;第五步:计算主成分变量的取值。主成分的表达式为:根据以上步骤我们再根据碎石图(如图3)来选定要提取的主成分数量。图3:碎石图 由图中我们看出小选用三个主体成分就能比较多的涵盖原来的信息量,一般来说选用的主成分数量能够涵盖原来信息量的85%就比较符合人们的意愿了。涵盖的信息量从总方差解释表4中可以看出:三个主成分分析量涵盖的信息量约为85.983%>85%符合我们的要求。表4:解释的总方差由表4可知,相关系数矩阵的特征值分别为:表5:主成分法提取的因子载荷阵初始解对于表5中的每一列值依次分别除以这样就得到了每一个特征值根对应的单位特征向量。即:由此,可以写出第一主成分表达式:同理可以分别得到第二第三个主成分的表达式:根据公式算出90个企业3个主成成分结果(见附录4)5.3 问题3的解决方案与模型第一步:在SPSS打开原始数据908矩阵;第二步:计算变量的总体均值、组均值、总离差T、组内离差W。3其中,;第三步:给定挑选变量的F,即检验门坎值(临界值);第四步:逐步挑选变量。首先考虑剔除变量,然后考虑引入变量,再作W,T消去变换;第五步:求判别函数。迭代h步后,挑选变量结束,共选入r个变量进入判别式;第六步:判别归类。首先将已知样本进行回判,并算出错判概率。利用SPSS软件的逐步判别法淘汰了不显著的流动资金比例(cp),还剩下七个变量并得到判别式函数系数,如表6、7所示。表6:淘汰不显著的流动资金比例表7:判别式函数系数用x1,x2, x3, x4,x5, x6, x7分别表示标准化后的变量is,se,sa,prr,ms,msr,cs,得到两个典则判别函数根据这两个函数,从任何一个观测值(每个观测值都有7个变量值)都可以算出两个数。把这两个数目当成该观测值的坐标,这样数据中的90个观测值就是二维平面上的90个点。如图4所示。图4:典则判别函数从上图可以看出,第一个投影(相应于来自于第一个典则判别函数横坐标值)已经能够很好地分辨出三个企业类型了。这两个典则判别函数并不是平等的。其实一个函数就已经能够把这三类分清楚了。SPSS的一个输出就给出了这些判别函数(投影)的重要程度如表8:表8:特征值第一个函数的贡献率已经是99.2%了,而第二个只有0.8%。SPSS的分类判别表9给出表9:分类函数系数该表给出了三个线性分类函数的系数。把每个观测点带入三个函数,就可以得到分别代表三类的三个值,哪个值最大,该点就属于相应的那一类。下面就是对我们的训练样本的分类结果(SPSS)(表10)和部分按照案例顺序的统计量(表11)表10:分类结果 表11按照案例顺序的部分统计量案例数目实际组最高组预测组pdfP到质心的Mahalanobis距离交叉验证112*070.988107.6862110.219719.4953110.1687110.3834110.798713.8385110.097112.324从上面两个表可看出,案例的正确分类率为98.95%,有一个上升企业被判为了稳定企业,被错判的为1号企业。运用判别分析的结果和给定的类别基本是一致的。5.4问题4的解决方案与模型5.4.1用变异系数法确定各个指标权重决定企业状况分级的因素有:企业规模(is)、服务(se)、雇员工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长(msr)、流动资金比例(cp)、资金周转速度(cs)共8个。分析数据可知,各个因素之间存在数量级与正负性的差异,为了消除此影响,用各项指标的变异系数来衡量各个指标取值的差异程度。各项指标的变异系数公式如下: 各因素的权重为: 5.4.2各种企业状况指标的综合为了计算各种指标的综合评分,4首先采用均值化无差异法消除各个指标的量纲和数量级差异,即得到新的矩阵:各个指标的权重构造成权重向量:则第i个企业的综合得分: 。5.4.3模型求解根据模型建立,编写各步算法程序(用MATLAB软件实现)如下:A=;%读取原始数据M=mean(A);%计算指标平均数SD=std(A);%计算指标方差CV=SD./abs(M);%求得指标变异系数W=CV./sum(CV);%指标权重H=ones(90,8);for j=1:8 for i=1:90 H(i,j)=A(i,j)./mean(A(:,j); endendG=H*W%各个企业综合得分算出各种指标的权重及相关数据(详见附录5),再将公司状况按其评分从大到小排序得到如下表格12。表12:按公司状况评分从大到小排序评分公司序号评分公司序号评分公司序号评分公司序号2.330955111.34189490.831724320.626656312.193543281.267547570.801633730.625071632.18246651.190721190.800212750.618815422.137804291.153949600.792768330.609496902.075091101.144655200.783998790.597879372.01147531.109826560.769924610.597646781.999603141.073648530.769269410.574683581.97262581.060295550.760993540.570009711.875861171.05761820.747634350.552776621.829162181.037533590.747305870.539367891.81455661.036552460.746756760.470538661.665114251.022838300.746092520.464754801.633878131.005025440.743015380.436697691.627663161.000796480.741097820.402228721.620353220.997744360.707535430.369341831.484661230.98896210.701403770.331654681.477329120.984024490.695715470.307609641.473998240.971402500.681406850.203205861.41866340.968834510.653408340.166281651.405581260.963769390.653105670.151174881.394814270.916234700.6485245011.38593370.907332810.635417741.355039150.850063400.63362284运用EXCEL作出对应评分曲线图如下图5。 图5:公司状况评分曲线采取同一高度的公司划分为一级的原则,根据上图将这90个公司分类如下表13。 表13:公司状况等级分类上升企业112852910314817186251316222312244262771595719602056稳定企业535525946304448362149505139708140327375337961415435877652388243771下降企业4785346745748431634290377858716289668069728368648665885.5问题5的解决方案与模型5.5.1评价模型预测 运用第四问的评价函数,通过MATLAB程序得出91、92、93号企业的评分分别为1.411906687、0.20453761、0.957698013。根据评分标准得出91、92、93号企业等级为1、3、2,即上升企业、下降企业、稳定企业。5.5.2判别分析法检验 运用第三问的判别分析法,以938的数据矩阵,在SPSS中按照相同的步奏,得到部分按照案例顺序的统计量,如表14。表14按照案例的顺序部分统计量案例数目实际组最高组预测组pdfP到质心的Mahalanobis距离初始89330.99210.01990330.54211.23491未分组10.324212.25492未分组30.082214.99993未分组20.219213.034从上表可得出未知组91、92、93的类别为1、3、2.和前面的评价函数模型的结果一致。5.5.3 BP神经网络判断检验模型简介 BP神经网络是一种神经网络学习算法。5其由输入层、中间层、输出层组成的阶层型神经网络,中间层可扩展为多层。相邻层之间各神经元进行全连接,而每层各神经元之间无连接,网络按有教师示教的方式进行学习,当一对学习模式提供给网络后,各神经元获得网络的输入响应产生连接权值(Weight)。然后按减小希望输出与实际输出误差的方向,从输出层经各中间层逐层修正各连接权,回到输入层。此过程反复交替进行,直至网络的全局误差趋向给定的极小值,即完成学习的过程。BP神经网络是误差反向传播神经网络的简称,它由一个输入层,一个或多个隐含层和一个输出层构成,每一次由一定数量的的神经元构成。这些神经元如同人的神经细胞一样是互相关联的。其结构如图6所示: 图6:BP神经网络模型模型应用 在MATLAB中运用newff函数生成一个BP网络,将前908的标准化数据作为已知输入,901的评分数据作为已知目标,利用已知的”输入目标”样本向量数据对网络进行训练,采用train 函数来完成. 最后用后面38的标准化数据作为输入,预测出后三组对应的目标数据。具体MATLAB程序如下:>>p= ;%908的标准化数据t= ;%901的评分数据p=p;%转置t=t;%转置net=newff(minmax(p(:,1:15),40 1,logsig,purelin,traingdm);%运用newff函数生成BP网络net.trainParam.epochs=50000;net.trainParam.goal=0.001;%采用train 函数进行训练net,tr=train(net,p,t);p1= ;p1=p1%输入38的标准化数据,并转置t1=sim(net,p1);得出结果和程序运行图7>>1.4564、0.1894、0.9956图7:程序运行图根据第四问评分标准,得出类别为1、3、2,即上升企业、下降企业、稳定企业,和评价模型的结果一致。用两种方法判别得出一致结果,所以评价函数模型预测出的类型是合理的。六、模型的评价与推广6.1 模型优点 模型的计算采用专业的数学软件SPSS和MATLAB,可信度高,便于推广; 逐步判别分析法所造成的错分损失小,结果的可信度高; 逐步判别分析法运用广泛,而且运用起来简单易操作; 比起标准差来,变异系数法的好处是不需要参照数据的平均值。变异系数是一个无量 纲量,因此在比较两组量纲不同或均值不同的数据时,应该用变异系数而不是标准差来作为比较的参考。6.2模型缺点 模型虽综合考虑了很多因素,但为了建立模型,理想化了很多影响因素,具有一定的局限性,得到的结果可能与实际有一定的出入; 当平均值接近于0的时候,微小的扰动也会对变异系数产生巨大影响,因此造成精确度不足。变异系数无法发展出类似于均值的置信区间的工具。6.3模型的推广 模型建立的思想还可以进一步解决陶瓷原料分类问题、农业旱情分析、区域可持续发展能力的分析等等。 变异系数在概率论的许多分支中都有应用,比如说在更新理论、排队理论和可靠性 理论中。在这些理论中,指数分布通常比正态分布更为常见。参考文献1李洪成,姜宏华,SPSS数据分析教程,北京:人民邮电出版社,2012.1.2吴明隆,涂金堂,SPSS与统计应用分析,大连:东北财经大学出版社,2012.9.3高祥宝,董寒青,数据分析与SPSS应用,北京:清华大学出版社,2007.6.4付靖,变异系数加权法在评价高校学生成绩中的应用,http:/wenku.baidu.com/view/6e0b5ef90242a8956bece422.html,2014.8.28.5陈明,MATLAB神经网络原理与实例精解,北京:清华大学出版社,2013.3.附录附录1:Pearson相关性报表issesaprrmsmsrcpcsisPearson 相关性1.842*.831*-.728*.757*-.742*-.611*-.639*显著性(双侧)0000000平方与叉积的和67182.256597.48247000.822-162668.6324971.994-51564.936-11043.904-3601.72协方差754.8576.713528.099-1827.737280.584-579.381-124.089-40.469N9090909090909090sePearson 相关性.842*1.800*-.730*.763*-.679*-.662*-.655*显著性(双侧)0000000平方与叉积的和597.4827.493478.205-1723.504265.949-497.956-126.19-38.994协方差6.7130.0845.373-19.3652.988-5.595-1.418-0.438N9090909090909090saPearson 相关性.831*.800*1-.716*.765*-.731*-.649*-.727*显著性(双侧)0000000平方与叉积的和47000.822478.20547644.158-134704.71621261.917-42795.958-9871.046-3454.556协方差528.0995.373535.328-1513.536238.898-480.853-110.911-38.815N9090909090909090prrPearson 相关性-.728*-.730*-.716*1-.740*.716*.639*.692*显著性(双侧)0000000平方与叉积的和-162668.63-1723.504-134704.716743584.042-81274.326165576.80238382.40112993.012协方差-1827.737-19.365-1513.5368354.877-913.1951860.414431.263145.989N9090909090909090msPearson 相关性.757*.763*.765*-.740*1-.659*-.624*-.637*显著性(双侧)0000000平方与叉积的和24971.994265.94921261.917-81274.32616202.225-22477.03-5536.174-1763.336协方差280.5842.988238.898-913.195182.047-252.551-62.204-19.813N9090909090909090msrPearson 相关性-.742*-.679*-.731*.716*-.659*1.648*.674*显著性(双侧)0000000平方与叉积的和-51564.936-497.956-42795.958165576.802-22477.0371884.17812101.9453932.002协方差-579.381-5.595-480.8531860.414-252.551807.687135.97744.18N9090909090909090cpPearson 相关性-.611*-.662*-.649*.639*-.624*.648*1.671*显著性(双侧)0000000平方与叉积的和-11043.904-126.19-9871.04638382.401-5536.17412101.9454855.6121017.271协方差-124.089-1.418-110.911431.263-62.204135.97754.55711.43N9090909090909090csPearson 相关性-.639*-.655*-.727*.692*-.637*.674*.671*1显著性(双侧)0000000平方