《收藏的精品资料软件开发人员的薪金最终.doc》由会员分享,可在线阅读,更多相关《收藏的精品资料软件开发人员的薪金最终.doc(18页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、软件开发人员的薪金摘要本问题是一个多元线性回归模型,通过建立线性回归模型,从而确定该软件开发公司付给雇员的薪金与资历、管理水平、教育水平之间的定量关系。结合题目所给的以往数据,运用多元线性回归的方法求出了软件开发人员的薪金与资历、管理水平、教育水平之间的线性回归方程。同时运用逐步回归法确立了影响软件开发人员薪金的显著因素,得出了影响软件开发人员薪金因素的最佳多元回归模型。并对回归方程和各个因素进行了显著性检验。对于该问题所得的多元线性回归方程,(其中、为带估计的回归系数,为随机误差,、分别为资历、管理水平和教育程度)我们采取了最小二乘法中的多项式曲线拟合,结合题目所给的经验数据,得出了影响软件
2、开发人员薪金的较优多元回归方程,。在得出初步的回归方程后,我们对方程进行了改进,得出了该模型的较准确的解关键词:多元线性回归 多项式曲线拟合 逐步回归问题重述一家软件公司的雇员的基本薪金既取决于他们的资历和教育程度,也与他们所负责的工作岗位有关,人事总监希望建立一个薪金与这些因素之间的定量关系,从而对于新聘雇员的底薪做到心中有数。人事部为研究软件开发人员的薪金与他们的资历、管理水平、教育水平等因素之间的关系,要建立一个数学模型,以便分析公司人事部策略的合理性,并作为新聘用人员薪金的参考。他们认为目前公司人员的薪金总体上是合理的,可以作为建模的依据,于是调查了46名软件开发人员的档案资料,如表1
3、,其中资历一列指从事专业工作的年数,管理水平一列中1表示管理人员,0表示非管理人员,教育水平一列中1表示中学水平,2表示大学水平,3表示研究生水平。表1: 编号薪金资历管理水平教育水平编号薪金资历管理水平教育水平(元)(年)(元)(年)11387611124228461221160810325169787113187011132614803802411283102271740481151176710328221848136208722122913548801711772202301446710018105352013115942100291219520332231741013101231330
4、233237801012111497531134254101112122137131235148611101131980031336168821202141141740137241701213152026341338156601301161323140339263301312171288440240176461402181324550241256851513191367750342278371612201596551143188381602211236660144174831601222135261345192071702231383960246193462001符号说明: 软件开发人员的薪金
5、;: 回归系数;(=0、1、2、3);: 软件开发人员的资历;: 软件开发人员的管理水平;: 软件开发人员的教育水平;: 随机误差;: 回归系数的样本估计值;:回归系数的区间估计;: 残差;:置信区间;:用于检验回归模型的统计量,有三个数值:相关系数、值、与对应的概率模型假设(1)薪金自然随着资历(年)的增长而增加;(2)管理人员的薪金应高于非管理人员;(3)教育程度越高薪金也越高;(4)管理责任、教育程度、资历诸因素之间没有交互作用;(5)资历(年)、管理水平、教育程度分别对薪金的影响是线性的;(6)目前公司软件开发人员的薪金是合理的。(7)在模型改进中我们假设资历(年)、管理水平、教育程度
6、之间存在交互作用模型的建立与求解(一)、多元线性回归模型设有个可能的因素影响最后的预测结果,则该线性模型可记为: (1) 则当给出(,., ;)的个可能因素的组样本(, ; =1,2,3,n),就可以利用最小二乘法求得参数, 的最小二乘估计,的估计值,进而求得回归方程: (2)若与存在在线性关系,则每个数据样本可写为: (=1,2,.,n) (3) 设;则回归结果计算为:;设,若存在逆矩阵,则(二)模型的建立与求解本问题是需要找出软件开发人员的薪金与他们的资历、管理水平以及教育程度之间的关系。在此我们建立了多元线性回归模型来求解。根据上面的多元线性回归模型的建立,我们建立了多元线性回归方程。(
7、=1,2,n)为回归系数,为系统误差。工作人员的薪金,与他们的资历、管理水平、教育程度之间的关系可以用下面的方程来表示: 我们假设题目所给的数据是合理的,根据题目所给的经验数据,我们利用最小二乘法求得参数, 的最小二乘估计,的估计值对回归系数进行了点估计。在点估计中我们根据多元线性回归方程统计工具箱中的回归分析命令的点估计的函数:根据题目中的样本值,运用matlab第一次求得回归系数的点估计值。可得回归方程(三)模型的检验为了检验所得的多元线性方程,运用多元线性回归模型中的函数,对模型进行了检验与改进。(1)求回归系数的点估计和区间估计、并检验回归模型用于检验回归模型的统计量有三个数值:相关系
8、数、值、与对应的概率。相关系数接近1,说明回归方程越显著。拒绝,越大,说明回归方程越显著。与对应的概率时拒绝,回归模型成立。(2)画出残差及其置信区间: 运用函数可得第一次的残差图(一)根据残差图(一)题目所给的以往软件开发人员的档案资料中第24个数据的残差离零点较远,可视为异常点,不能很好的和回归方程符合。对于所得的异常点运用逐步回归法。逐步回归法的思想:从一个自变量开始,视自变量Y作用的显著程度,从大到地依次逐个引入回归方程;当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉;引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步;对于每一步都要进行Y值检验,以确保每次引入
9、新的显著性变量前回归方程中只包含对Y作用显著的变量;这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。对于所得的残差图(一),运用逐步回归法将其中不显著的因素剔除掉,有对该模型进行了重新的检验,得到第一次的回归分析图(二)以下都是运用逐步回归法所得模型改进的图解过程。第二次的残差图(三)。第二次回归分析图(四) 第三次残差图(五)第三次回归图(六)第四次残差图(七)第四次回归图(八)第五次残差图(九)表(二)逐步回归计算表逐步回归计算结果次数b0b1b2b3异常点FP(概率)R2第一次回归648759256461733240第二次回归6892571656
10、416036,12,21189.36600.93第三次回归64766036194170830,35,38255.12600.95第四次回归67865565613171029372.11600.96第五次回归682954954121722496.13600.97由于在最后一次的残差图中,不存在是的方程不显著的自变量异常点,同时值也是变得越来越大,也越来越接近1,回归方程成立。可得方程的最优解为。因此可得软件开发人员的薪金与资历、管理水平、教育程度之间的定量关系为 。由逐步回归的计算结果可知资历增加一年年薪增长549,管理人员薪金多5412。模型改进为了进一步优化所得模型,我们在模型一的基础上增加
11、了、之间的交互项。设 带有交互相的回归方程可求得回归系数及置信区间如下: 表(三):参数参数估计值置信区间a08989【8580 9398】a1438【397 479】a22469【1978 2960】a3753【572 934】a4-37【-91 17】a540【17 61】a61474【1282 1667】最后为,为。根据改进后的模型在资历都为一的情况下可制定六种管理-教育基本薪金。组合管理教育资历系数“基本”薪金1011a0+a1+a3+a5102202111a0+a6141263021a0+a1+2a3+2a5110124121a0+a1+2a3+a4+2a5+2a6139245031
12、a0+a1+3a3+3a594346131a0+a1+3a3+a4+3a5+3a613853所得残差图与回归图如下:图(十)图(十一) 在模型改进后的参插图中不存在异常点,因此可得该模型正确。模型的评价优点:模型的主体采用了多元线性回归模型。在求解多元线性方程是用最小二乘法进行了曲线拟合,求得了方程中的回归系数。为了对本模型进行进一步的改进与完善,在多元线性回归模型下,我们采用逐步回归法对模型和各个要素进行了显著性检验,对所得的较优解予以优化,得到了一个符合软件公司对雇员底薪的模型。对于本文所得的模型也可以用于不同单位,不同行业进行某类人才的预测。缺点:在模型求解过程中我们是采用了最小二乘法进
13、行曲线拟合,求得回归系数,在求解过程中会出现随机误差,虽然后来用逐步回归法对模型进行 了改进和检验,但是难免会出现误差。参考文献【1】 姜启源,数学模型,北京:高等教育出版社,2003年。【2】 余俊年,计量经济学,北京:对外经济贸易大学,2000年【3】 张尧庭,多元统计分析,北京:科学出版社,1999年附录b,bint,r,rint,stats=regress(y,x,0.005);b,bint,stats;rcoplot(r,rint)b = 1.0e+003 * 6.4871 0.5918 5.6459 1.7333bint = 1.0e+004 * 0.2055 1.0919 0.0
14、335 0.0849 0.2994 0.8298 -0.0013 0.3480 b,bint,r,rint,stats=regress(y,x,0.005);b,bint,stats;rcoplot(r,rint)b = 1.0e+003 * 6.8917 0.5705 6.5641 1.6034bint =1.0e+003 * 4.9920 8.7914 0.4605 0.6805 5.4116 7.7167 0.8551 2.3517 rcoplot(r,rint) b,bint,r,rint,stats=regress(y,x);rcoplot(r,rint) b,bint,r,rint
15、,stats=regress(y,x,0.005);b,bint,stats;rcoplot(r,rint)b = 1.0e+003 * 6.4255 0.6027 6.1935 1.7081bint = 1.0e+003 * 4.7383 8.1127 0.5066 0.6989 5.1756 7.2113 1.0588 2.3574 b,bint,r,rint,stats=regress(y,x);b,bint,stats;rcoplot(r,rint)b = 1.0e+003 * 6.4255 0.6027 6.1935 1.7081bint = 1.0e+003 * 5.2794 7.5716 0.5374 0.6681 5.5021 6.8849 1.2670 2.1491 b,bint,r,rint,stats=regress(y,x);rcoplot(r,rint) b,bint,r,rint,stats=regress(y,x);rcoplot(r,rint) clear plot(x,y) 18
限制150内