大学毕业论文-—多元回归分析中变量的选择spss的应用.doc
《大学毕业论文-—多元回归分析中变量的选择spss的应用.doc》由会员分享,可在线阅读,更多相关《大学毕业论文-—多元回归分析中变量的选择spss的应用.doc(28页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 毕 业 论 文题 目 多元回归分析中的变量选取SPSS的应用院 (系) 数学与统计学院 专业年级 2010级统计学 学生姓名 殷婷 学号 2010101217 指导教师 职称 副教授 日 期 2014-4-22 多元回归分析中的变量选取SPSS的应用殷婷摘要本文不仅对于复杂的统计计算通过常用的计算机应用软件SPSS来实现,同时通过对两组数据的实证分析,来研究统计学中多元回归分析中的变量选取,让大家对统计中的多元回归数据的选取和操作方法有更深层次的了解。一组数据是对于淘宝交易额的未来发展趋势的研究,一组数据时对于我国财政收入的研究。本文通过两个实证从不同程度上对数据选取的研究运用通俗的语言和浅
2、显的描述将SPSS在多元回归分析中的统计分析方法呈现在大家面前,让大家对多元回归分析以及SPSS软件都可以有更深一步的了解。通过SPSS软件对数据进行分析,对数据进行处理的方法进行总结,找出SPSS对于数据处理和分析的优缺点,最后得在对变量的选取和软件的操作提出建议。关键词:统计学 SPSS 变量的选取 多元回归分析 AbstractIn this paper, not only for complex statistical calculations done by the commonly used computer application software of SPSS, throug
3、h the empirical analysis of the two groups of data at the same time, to study the statistics of the variables in the multivariate regression analysis, let everybody to select multiple regression in statistical data and operation methods have a deeper understanding. Is a set of data for the future de
4、velopment trend of taobao transactions of research, a set of data for the research of our countrys financial income. In this paper, through two empirical to select data from different extent research using a common language and plain the SPSS statistical analysis method in multiple regression analys
5、is of present in front of everyone, let everyone to multiple regression analysis and SPSS software can have a deeper understanding. Through the SPSS software to analyze data, and summarizes method of data processing, find out the advantages and disadvantages of SPSS for data processing and analysis,
6、 finally had to put forward the proposal to the operation of the selection of variables and software.Keywords: Statistical SPSS The selection of variables multiple regression analysis 目录摘要1英文摘要1引言3第一章回归分析31.1自变量的选择41.2国内外研究现状5第二章案例分析一:淘宝交易额的研究62.1数据的来源及变量的选取62.2相关分析72.2.1散点图72.2.2计算相关系数82.3回归分析112.4
7、小结13第三章案例分析二:财政收入的研究143.1数据的来源及变量的选取143.2相关分析153.2.1散点图153.2.2计算相关系数173.3回归分析193.4逐步回归213.5小结24第四章总结及建议25参考文献26引 言统计学是一门提供数据信息的收集、处理、归纳和分析的理论与方法的科学。然而随着社会的发展,统计的运用范围越来越广泛,统计学作为高等院校经济类专业和工商管理类专业的核心课程,不管是在经济管理领域,或是在军事、医学等领域的研究中对于数量分析与统计分析都需要更高的要求,需要用到的数学知识较多,应用方面的灵活性也较强,计算量大且复杂。随着我国社会主义市场经济的日趋完善,不管是在宏
8、观经济的经济调控领域还是在微观的企业管理领域中,人们必须准确及时的获得经济运行中的各类信息才能得到高效的监控和科学的管理。然而科学研究的深入,研究的对象也日益变得复杂,复杂系统的研究问题更是成为当今研究的热点。为了更好的描述一个复杂的现象,就需要大量的数据和信息,如何高效、准确地利用已知的信息便成为当今社会研究的一项重要课题。基于以上背景,本文通过总结和吸取其他国内外学者对统计学研究的,并结合我国的实际情况,本文采用了案例一对于网络购物这块的的研究,通过对2005年到2012年的居民消费水平,以及我国网络普及度,我国人人均纯收入以及我国的居民消费水平对淘宝网的未来发展趋势进行定量数据的研究以及
9、案例二对于我国财政收入的研究,通过对2000年到2012年的人均国内生产总值,经济活动人口,全社会固定投资,进出口总额,居民消费价格水平对我国财政收入的影响进行定量数据的研究。通过对数据的选取,以及软件的操作方法来告知读者如何在SPSS的操作中变量选取的原则、要求和方法。第一章自变量的选择1.1自变量的选择在多元线性回归模型中,自变量的选择实质上就是模型的选择。现设一切可供选择的变量是t个 ,它们组成的回归模型称为全模型(记:),在获得n组观测数据后,我们有模型其中:是的观测值,是未知参数向量,是结构矩阵,并假定X的秩为。现从这t个变量中选变量,不妨设,那么对全模型中的参数和结构矩阵可作如下的
10、分块(记:):, 我们称下面的回归模型为选模型: 其中:是的观测值,是未知参数向量, 是结构矩阵,并假定的秩为。 自变量的选择可以看成是这样的两个问题,一是究竟是用全模型还是用选模型,二是若用选模型,则究竟应包含多少变量最适合。如果全模型为真,而我们用了选模型,这就表示在方程中丢掉了部分有用变量,相反,如果选模型为真,而我们选用了全模型,这就表示在方程中引入了一些无用变量,下面从参数估计和预测两个角度来看一看由于模型选择不当带来的后果。为了讨论方便起见,先引入几个记号: 全模型中参数的估计:其中:为矩阵的秩。 在点点上的预测值为在选模型中参数的估计:在 上的预测值为1.2国内外研究现状在科学技
11、术飞速发展的今天,统计学广泛吸收和融合相关学科的新理论,不断开发应用新技术和新方法,深化和丰富了统计学传统领域的理论与方法,并拓展了新的领域。今天的统计学已展现出强有力的生命力。在我国,社会主义市场经济体制的逐步建立,实践发展的需要对统计学提出了新的更多、更高的要求。随着我国社会主义市场经济的成长和不断完善,统计学的潜在功能将得到更充分更完满的开掘。在应用回归分析去处理实际问题时,回归自变量选择是首先要解决的重要问题。通常,在做回归分析时,人们根据所研究问题的目的,结合经济理论罗列出对因变量可能有影响的的一些因素作为自变量引进回归模型,其结果是把一些对因变量影响很小的,有些甚至没有影响的自变量
12、也选入了回归模型中,这样一来,不但计算量变大,而且估计和预测的精度也会下降。此外,如果遗漏了某些重要变量,回归方程的效果肯定不好。在一些情况下,某些自变量的观测数据的获得代价昂贵,如果这些自变量本身对因变量的影响很小或根本没有影响,我们不加选择的引进回归模型,势必造成观测数据收集和模型应用的费用不必要的加大。因此,在应用回归分析中,对进入模型的自变量作精心的选择是十分必要的。SPSS软件作为当今国际上运用广泛的统计分析软件,因其具有自动统计绘图、数据的深入分析、易学易用、功能齐全等特点,在各个领域得到了迅速普及,并成为各行业管理组织提高管理水平、形成科学决策的重要手段。然而,我国对该软件的理解
13、和运用还处于早期应用阶段,对其功能的研究开发与实际生活当中的运用与西方发达国家相差甚远。特别是在管理决策方面,管理者对客观现实的准确把握对于决策起着至关重要的作用,他们花费大量人力、物力、财力收集统计数据,但是由于没有进行深度分析而浪费,或者仅仅利用SPSS软件进行简单分析而未进行深度开发,致使所得信息有限、各信息间的关系不明确,最终导致管理者的判断出现偏差。第二章案例分析一:淘宝交易额的研究2.1 数据的来源及变量的解释 为研究淘宝网未来发展趋势,从新浪官方微博淘宝数据魔方中获得淘宝2009年聚划算中购物群众的年龄比例作为定性数据,进行研究年龄对淘宝购物的影响。并在新浪财经网上获得淘宝网自2
14、005年到2012年的淘宝交易额以及淘宝注册人数的数据。在中商情报局里获得我国近网络普及度等数据并从国家统计年鉴中选取统计指标居民消费水平。 淘宝注册人数()在一定程度上反应了网络购物的群众的人数,反应了当今社会网络购物的普遍性。同时淘宝的注册人数也展现了人们对网络购物的认可度,换言之也就是说接受了网络购物并会在网上进行消费,是对网络购物很大程度上的支持。 我国网络普及度()是指我国近几年网络在我国普及的范围,这一块更好的反映了网络对居民网络消费的影响,因为网络是网络消费的必要条件。我国网络普及度反映的是在我国日趋发展的经济下,网络也得到了普遍的广泛,人们对网络的接受程度,信任程度也是直接影响
15、到淘宝的网络购物。 居民消费水平()是指居民在物质产品和劳务的消费过程中,对满足人们生存、发展和享受需要方面所达到的程度。通过消费的物质产品和劳务的数量和质量反映出来。居民消费水平是指居民在物质产品和劳务的消费过程中,对满足人们生存、发展和享受需要方面所达到的程度。它主要通过消费的物质产品和劳务的数量和质量来反映。 居民消费水平的提高也能很好的展现在网络消费上作出的贡献。通过对以上这三个定量数据的研究来其与淘宝交易额的关系,从而研究淘宝未来的发展趋势以及优劣态。原始数据如下:由于数据之间单位的不同,为了消除量纲的影响,把数据标准化进行处理,得到如下标准化的数据(所有取值保留了两位小数):2.2
16、相关分析2.2.1散点图对y与各个变量作出散点图(1)淘宝注册人数与y的相关性散点图:(2)网络普及度与淘宝网交易总额的相关性检验:(3)我国居民消费水平与淘宝交易的相关性检验: 由以上三个散点图可知,其所有的点均落在了左上至右下的一条直线上,表明了数据之间存在显著相关关系。所以我们还需要对数据进行进一步的分析,得到确切的答案。2.2.2计算相关系数(1)复相关系数r是用来衡量回归直线对于观察值配合的密切程度,即用来衡量因变量y与自变量,之间相关的密切程度。以下是用SPSS对数据进行相关性分析,得到如下的相关系数图解析:图中有带“*”号的结果表明有关的两变量在0.01的显著性水平下显著相关,由
17、上图可知,y与的相关系数为0.9920,表示呈一定的线性关系,相关系数检验对应的概率P值为0.000,小于显著性水平0.05,说明淘宝交易额与淘宝注册人数之间相关性显著。y与的相关系数为0.9010,表示呈一定的线性关系,相关系数检验对应的概率P值为0.002,小于显著性水平0.05,说明淘宝交易额与我国网络普及度之间相关性显著。y与的相关系数为0.9650,表示呈一定的线性关系,相关系数检验对应的概率P值为0.000,小于显著性水平0.05,说明淘宝交易额与居民消费水平之间相关性显著。综上所述通过SPSS得出的相关系数的矩阵得到为:0.992 =0.901 =0.965 由以上数据可以看出,
18、各列之间存在正相关关系。即淘宝网注册人数、我国网络普及度、我国居民消费水平与淘宝交易总额y存在正相关关系。(2)计算偏相关系数:在多变量的情况下,变量之间的相关系数是相当复杂的。任意两个变量之间都有可能存在着相关关系,因此,只知道被解释变量与解释变量的总的相关程度是不够的。如果需要了解某两个变量间的相关程度,就应在消除其他变量影响的情况下来计算他们的相关系数,这就是偏相关系数。下面是用SPSS作出的偏相关系数:消除我国网络普及度和居民消费水平的影响后,计算淘宝注册人数与淘宝交易额的偏相关系数为:CorrelationsControl Variablesyx1x2 & x3yCorrelatio
19、n1.000.894Significance (2-tailed).016df04x1Correlation.8941.000Significance (2-tailed).016.df40解析:由上可知,淘宝注册人数与淘宝交易额的偏相关系数为0.894。消除淘宝交易额和居民消费水平的影响后,我国网络普及度和淘宝交易额的偏相关系数为:CorrelationsControl Variablesyx2x3 & x1yCorrelation1.000-.806Significance (2-tailed).053df04x2Correlation-.8061.000Significance (2-t
20、ailed).053.df40解析:由上可知我国网络普及度与淘宝交易额的偏相关系数为-0.806。消除淘宝注册人数和我国网络普及度的影响后,我国居民消费水平和淘宝交易额的偏相关系数:CorrelationsControl Variablesyx3x1 & x2yCorrelation1.000.810Significance (2-tailed).051df04x3Correlation.8101.000Significance (2-tailed).051.df40解析:由上可知,我国居民消费水平和淘宝交易额的偏相关系数为0.810 。消除我国居民消费水平和淘宝交易额的影响后,淘宝注册人数和
21、我国网络普及度的偏相关系数:CorrelationsControl Variablesx1x2x3 & yx1Correlation1.000.584Significance (2-tailed).224df04x2Correlation.5841.000Significance (2-tailed).224.df40解析:由上可知,淘宝注册人数和我国网络普及度的偏相关系数为0.584。消除淘宝注册人数和淘宝交易额的影响后,我国居民消费水平和我国网络普及度的偏相关系数:CorrelationsControl Variablesx2x3y & x1x2Correlation1.000.863Si
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大学毕业 论文 多元 回归 分析 变量 选择 spss 应用
限制150内