河南省旅游业发展的统计分析毕业论文.doc
《河南省旅游业发展的统计分析毕业论文.doc》由会员分享,可在线阅读,更多相关《河南省旅游业发展的统计分析毕业论文.doc(21页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 2011届 本科毕业论文河南省旅游业发展的统计分析院(系)名称数学科学学院专 业 名 称统计学学生姓名 学号 指导教师 完 成 时 间2011.5河南省旅游业发展的统计分析 摘要: 本文研究河南省旅游业发展状况,以人口数、人均GDP、居民人均可支配收入、省内游客、居民人均生活消费支出、恩格尔系数、商品零售价总指数、注册登记的住宿餐饮业企业单位数为指标变量,运用主成分分析法和逐步回归分析法,对影响河南省旅游业发展的因素进行分析,探寻河南省旅游业发展的规律,并建立旅游业收入与各因素的回归模型.关键词:旅游业;主成分分析;逐步回归分析;多重共线性;回归模型1 引言 河南省地处我国东西结合部、南北过
2、渡带,位于黄河中下游,历史悠久,文化灿烂,山河秀丽,旅游资源丰富.不仅各种人文、自然旅游资源种类齐全,而且拥有许多高级别的景区.到目前为止,河南拥有三大古都,1处世界文化遗产,7座历史文化名城,28处国家重点保护文物单位.还有12个“中国优秀旅游城市”,24家4A级景区,数量均居全国前列.新中国成立60年,特别是改革开放30年以来,河南省旅游业得到了良好的发展,取得了可喜的成绩,已经开始由旅游大省向旅游强省迈进.“十一五”规划中,河南省省委、省政府将旅游业作为省重点培育的七大优势产业之一;2008年,省委书记徐光春更是把这种重视进一步提升到“旅游立省”的高度.但是,与一些旅游业发达的省份相比,
3、我省仍存在一定的差距.因此,本文运用主成分分析、逐步回归分析等统计分析方法,找出影响河南省旅游收入的因素,以期望为相关管理部门和企业做出决策提供依据.多元统计分析是从经典统计学中发展起来的一个分支,是一种综合分析方法,它能够在多个对象和多个指标互相关联的情况下分析它们的统计规律.其主要内容包括多元正态分布及其抽样分布、多元正态总体的均值向量和协方差阵的假设检验、多元方差分析、直线回归与相关、多元线性回归、主成分分析与因子分析、判别分析与聚类分析、Shannon信息量及其应用.多元统计分析是统计学中一个非常重要的分支.在国外,从20世纪30年代起,已开始在自然科学、管理科学、社会和经济等领域拉开
4、了多元统计分析应用的帷幕.我国自20世纪80年代起逐步将多元统计分析应用于多个领域,20多年来在多元统计分析的理论研究和应用上取得了很显著的成绩.主成分分析是将多指标化为少数几个综合指标的一种统计方法.在实际应用中,经常遇到研究多指标的问题.由于变量个数太多,并且彼此之间存在着一定的相关关系,因而使得所观测到的数据在一定程度上反映的信息有所重叠,而且当变量较多时,在高维空间中研究样本的分布比较复杂,势必增加分析问题的复杂性.人们自然希望用较少的综合变量代替原来较多的变量,而这几个综合变量又能够尽可能多地反映原来变量的信息,并且彼此之间互不相关.利用这种降维的思想,产生了主成分分析、因子分析、典
5、型相关分析等统计方法.主成分的概念由 Karl Pearson在 1901年提出,但当时只进行了非随机变量的讨论,1933年Hotelling将主成分的概念推广到了随机变量中.在社会经济问题的主成分分析中有两个最有名的例子:Stone在1947年对美国年17项国民经济统计指标所作的分析和M.Scott在1961年对英国157个城镇的发展水平进行的分析.前者发现完全可以用三个经济指标来概括原来的17项指标,从而大大简化了数据分析结构;后者将原始测量的57个指标降到了5个综合变量(主成分).主成分分析后来逐渐被推广应用于样品的分类与排序.2 指标变量的设置旅游业(本文以河南省旅游为例)的发展是由许
6、多因素共同影响的.这些因素有经济因素、环境因素等几大类.本文主要从经济因素来分析其对河南旅游业发展的作用.首先要根据所研究问题的目的设置因变量为河南省旅游收入,然后选取与有统计关系的一些变量作为自变量,设置的自变量有:人口数,这里指河南近十年每年的常住人口;人均GDP,即总产出(社会产品和服务的产出总额)/总人口;人均可支配收入,指家庭成员得到可用于最终消费支出和其它非义务性支出以及储蓄的总和,即居民家庭可以用来自由支配的收入,它是家庭总收入扣除交纳的所得税、个人交纳的社会保障支出以及记账补贴后的收入;省内游客数;人均生活消费支出,指被调查的城镇居民家庭用于日常生活的全部支出,包括购买商品支出
7、和文化生活、服务等非商品性支出;恩格尔系数,指食物支出金额在消费性总支出金额中所占的比例,计算公式为:恩格尔系数=食品支出金额消费性总支出金额;商品零售价总指数,它是反映城乡商品零售价格变动趋势的一种经济指数;注册登记的住宿餐饮业企业单位数.现依据河南统计年鉴中近十年旅游业的统计数据(见附录),分析我省近年来旅游行业的经济发展状况,用主成分分析法和逐步回归法对影响旅游业发展的因素进行定量的分析和讨论,并建立河南省旅游业收入()与部分经济因素的回归模型.3 相关理论知识3.1 线性回归模型 设随机变量与一般变量,的线性回归模型为.其中, ,是个未知参数,称为回归常数,称为回归系数. 称为被解释变
8、量(因变量),而 ,是个可以精确测量并可控制的一般变量,称为解释变量(自变量).时,上式即为一元线性回归模型,时,上式为多元线性回归模型.是随机误差,假定称为理论回归方程.对一个实际问题,如果获得组观测数据,则线性回归模型可表示为:写成矩阵形式为,其中 , ,.矩阵是矩阵,称为回归设计矩阵或资料矩阵.3.2 主成分分析法主成分分析是将多指标化为少数几个综合指标的一种统计分析方法.具体来说它研究相关矩阵内部的依赖关系,把一些具有错综复杂关系的变量归纳为少数几个公因子,当这几个公因子的特征值都大于1,或累计贡献率达到某一百分比时(一般),就说明他们能够集中反映问题的大部分信息.设有个指标(变量),
9、这个指标(变量)反映了客观对象的各个特性,因此,每个对象观察到得个指标变量值,就是一个观察值,它是一个维的向量.如果观察了个维向量,共有个数据,用矩阵表示就有:,为观察对象数,为指标或变量数.矩阵中每一行就是一个对象的观察值.设随机变量的协方差为,用矩阵的个向量作线性组合,则可得综合指标为:,.则有: .同样, .由此得到所谓的主成分就是线性组合,它们互不相关,且使方差Var()(=1,2,)达到最大.第一主成分,就是使Var()达到最大的线性组合.显然,当用常数后Var()随之增加.为了消除这种不确定性,我们可限制的系数向量为单位长.于是,我们定义:第一主成分为线性组和,满足,且使最大.第二
10、主成分为线性组合,满足,,且使Var()达到最大.第 个主成分为线性组合,满足和,其中,且使Var()最大.3.3 逐步回归法在自变量很多时,其中有的因素可能对因变量的影响不是很大,而且自变量之间可能是不完全相互独立的,有种种互作关系.在这种情况下可用逐步回归分析,进行自变量的选择,这样建立的多元回归模型预测效果会更较好.逐步回归的基本思想是有进有出.具体做法是将变量一个一个引入,当每引入一个自变量后,对已选入的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除.引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都要进行检验,以确保每次引入新的变量之
11、前,回归方程中只包含显著的变量.这个过程反复进行,直到既无显著的自变量可选入回归方程,也无不显著自变量从回归方程中剔除为止.逐步回归法步骤:首先给出引入变量的显著性水平和剔除变量的显著性水平,然后按图1的框图筛选变量.开始对不在方程中的变量能否引入?筛选结束引入变量对已在方程中的变量考虑能否剔除?剔除变量能否能否图1 逐步回归法筛选步骤(1)剔除变量的基本步骤,假设已引入回归方程的变量为,().计算已在方程中的变量的偏回归平方和: 及偏偏 ,.其中(或或)表示包含括号中这些变量的回归模型的残差平方和(或回归平方和或决定系数).度量回归方程中变量重要程度的统计量可采用偏回归平方和的大小,也可以采
12、用偏的大小.在REG过程中,筛选变量时使用的统计量为偏.我们使用偏回归平方和作为变量重要性的度量.令,即相应的变量是方程中对影响最小的变量.检验对的影响是否显著.对变量进行回归系数的显著性经验,即检验原假设,检验统计量为,及,其中,若,则剔除,重新建立与其余个变量的回归方程,然后再检验方程中最不重要的变量可否剔除直到方程中没有变量可剔除后,转入考虑能否引入新变量的步骤.若,不能剔除,转入考虑能否引入新变量的步骤.(2)考虑可否引入新变量的基本步骤.假设已引入个变量,不在方程中的变量记为.计算不在方程中的变量的偏回归平方和:及偏偏,.并令,即不在方程中的变量是对影响最大的变量.检验变量对的影响是
13、否显著.对变量作回归系数的显著性检验,即检验是否成立,检验统计量为及.其中,若,则引入,并转入考虑可否剔除变量的步骤;若,则逐步筛选变量的过程结束.假设用逐步回归法得到个变量,再建立与这个变量的回归方程,这就是用逐步回归法得到的“最优”回归方程.4 理论模型的确定及分析先对数据作线性回归并作相关的检验及处理.4.1 线性回归及多重共线性检验设与 之间的线性回归模型为.其中为随机误差.调用SPSS做共线性诊断得如下结果:表1 线性回归系数表及多重共线性检验模型非标准化系数标准系数tSig.共线性统计量B标准 误差试用版容差VIF1(常量)989.6811137.6580.8700.476x1-0
14、.0530.105-0.024-0.5070.6620.03132.029x20.0150.0100.2351.5100.2700.003357.614x40.0920.0061.05915.4610.0040.01469.413x50.0090.0560.0360.1680.8820.002662.986x61.4333.6600.0210.3920.7330.02342.942x7-6.0351.845-0.051-3.2720.0820.2793.586x8-0.0400.017-0.272-2.3190.1460.005203.037从中得出经验回归方程为:.从回归系数的显著性检验上可
15、见,均无法通过显著性检验,且大部分自变量的方差扩大因子VIF很大,远远超过10,故说明河南省旅游收入回归方程存在着严重的多重共线性.下面分别采用主成分分析和逐步回归分析来克服多重共线性的影响.4.2 主成分分析经过数据标准化后得到的标准化数据如表所示:表2 标准化数据表Zx1Zx2Zx3Zx4Zx5Zx6Zx7Zx8Zy-1.5764-1.081-1.11-0.9469-1.0731.0446-1.1-0.949-0.936-1.1543-0.99-0.991-0.9409-0.9660.8368-0.672-0.832-0.929-0.7888-0.895-0.802-0.639-0.821
16、0.7235-0.87-0.637-0.676-0.4486-0.736-0.676-0.8652-0.670.7613-0.178-0.807-0.862-0.1336-0.409-0.415-0.356-0.4690.83681.2717-0.792-0.3160.18776-0.024-0.117-0.2361-0.1370.2323-0.046-0.212-0.2010.515380.30390.24780.149420.2439-0.618-0.310.30450.14660.824110.81340.78070.704890.8134-1.1660.84340.81950.6526
17、1.132831.38191.3451.084421.3219-1.1091.86471.33241.01131.441551.63591.73762.045381.7567-1.543-0.8041.7722.1096调用SPSS进行主成分分析,得到相关系数矩阵如下:表3 相关系数矩阵Zx1Zx2Zx3Zx4Zx5Zx6Zx7Zx8相关Zx110.9650.9630.9230.96-0.930.510.92Zx20.96510.9980.9751-0.970.4560.982Zx30.9630.99810.9841-0.970.4310.986Zx40.9230.9750.98410.99-
18、0.950.3190.979Zx50.9570.99710.9851-0.970.4150.989Zx6-0.928-0.967-0.966-0.947-11-0.338-0.981Zx70.510.4560.4310.3190.42-0.3410.329Zx80.920.9820.9860.9790.99-0.980.3291从相关系数矩阵(表3)中看到,大部分指标之间的相关系数都较高,各变量呈较强的线性关系,这是进行主成分分析的前提条件.我们采用主成分分析法来解决多重共线性问题,对上述8个因素进行主成分分析,寻找影响河南省旅游业发展的主要因素.使用统计软件SPSS对原数据进行分析,把抽取因
19、子(主成分)数目设为8,即原始变量数目,得到各主成分的数值如下:表4 主成分数值F1F2F3F4F5F6F7F8-0.8007-0.9211-1.780650.16820.004851.242680.550920.70893-0.81693-0.50585-0.84323-0.33924-0.17392-0.20205-0.2079-1.14638-0.61043-0.766050.062490.10580.4114-1.74926-1.71430.17407-0.80521-0.04860.919060.14829-1.14043-1.169371.950830.23234-0.866811
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 河南省旅游业发展的统计分析 毕业论文 河南省 旅游业 发展 统计分析
限制150内