《spss复习题.pdf》由会员分享,可在线阅读,更多相关《spss复习题.pdf(23页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 .SPSS 复习资料 一、选择题 1、SPSS 数据文件的扩展名是()。.sav 2、SPSS 软件的三种运行管理方式:()、()和()。完全窗口菜单运行管理方式 程序运行管理方式 混合运行管理方式 输出窗口的主要功能:()。显示和管理 SPSS 统计分析结果、报表和图形。3、统计学依据数据的度量尺度将数据划分为三大类,()、()和()。定距型数据 定类型数据 定序型数据 4、SPSS 有两个基本窗口:()和()。数据编辑窗口和结果输出窗口。5、SPSS 数据的组织方式有两种:()和()。原始数据的组织方式和计数数据的组织方式 5、常见的基本描述统计量有三大类:()、()和()。刻画集中趋势
2、的统计量 刻画离中趋势的统计量 刻画分布形态的统计量 6、数据编辑窗口的主要功能:()、()和()。定义 SPSS 数据的结构 录入编辑 管理待分析的数据。7、填写下面的方差分析表 ANOVA()Model Sum of Squares df Mean Square F Sig 1 Regression 1252 1 41.856 0.000 Residual -Total 1774 19-1252 522 18 29 8、SPSS 对不同类型的变量应采用不同的相关系数来度量,常用的相关系数主要有()、()和()。Pearson 简单相关系数、Spearman 等级相关系数和 Kendall相
3、关系数等。9、利用样本相关系数 r 进行变量间线性关系的分析,一般()表示两变量有较强的线性关系;()表示两变量之间的线性关系较弱。|r|0.8 表示两变量有较强的线性关系;|r|=176)Stem width:10 Each leaf:1 case(s)SPSS 有两个基本窗口:数据编辑窗口和结果输出窗口。数据编辑窗口的主要功能:定义 SPSS 数据的结构、录入编辑、管理待分析的数据。数据编辑区是显示和管理 SPSS 数据结构和数据内容的区域。数据编辑区有两个视图:data view 和 variable view。data view:录入显示和编辑管理 SPSS 的数据。variable
4、view:定义和修改 SPSS 数据的结构。每条数据都有一个顺序编号显示在编辑区的最左边。数据编辑区中的表格可以通过 .view 菜单下的 grid lines 选项设置成显示或不显示状态。SPSS 结果输出窗口(窗口标题为 Viewer)是 SPSS 的另一个主要窗口。输出窗口的主要功能:显示和管理 SPSS 统计分析结果、报表和图形。SPSS 统计分析的所有输出结果都显示在该窗口中。输出窗口内容以.spv 存于磁盘上 SPSS 软件的三种运行管理方式:1、完全窗口菜单运行管理方式 程序运行管理方式 混合运行管理方式 简述利用 SPSS 进行数据分析的基本步骤 答:1、明确数据分析目标;2、
5、正确收集能够说明分析目的的数据;3、数据的加工整理;4、弄清统计概念和统计含义,知道各种统计方 法的统计思想和使用范围,无需记忆公式;5、选择一种或几种统计分析方法探索性的分析统计数据;6、读懂统计分析结果,发现规律,得出结论 简述 SPSS 数据文件的特点 答:SPSS 数据文件的特点:SPSS 是一个有别于其他文件的特殊格式的文件,SPSS 数据文件是一种有结构的数据文件,它由数据结构和内容两部分组成,其中的数据结构记录数据变量的名称、类型、变量宽度、小数位数、变量名标签、变量值标签、缺失值、显示宽度、对齐方式和度量尺度等必要信息,数据的内容才是那些待分析的具体数据。基于上述特点,建立 S
6、PSS 数据文件时应完成两项任务,即描述数据的结构和录入编辑数据。SPSS 数据的组织方式有两种:原始数据的组织方式和计数数据的组织方式 SPSS 数据的结构是对 SPSS 每列变量及其相关属性的描述,主要包括变量名、数据类型、变量宽度、变量名标签、变量值标签、显示宽度、缺失值、对齐方式、度量尺度等信息。变量名是变量访问和分析的唯一标志。在定义 SPSS 数据结构时应首先给出每列变量的变量名。变量的命名规则如下:1.首字符应以英文字母开头,后面可以跟除了!、?、*之外的字母或数字。下划线、圆点不能为变量名的最后一个字符。SPSS 允许用汉字作为变量名。.2.变量名的字符个数最好不多于 8 个;
7、变量名不区分大小写字母。3.SPSS有默认的变量名,以字母“VAR”开头,后面补足5位数字,如VAR00001,VAR00012等。变量名不能与 SPSS 内部特有的具有特定含义的保留字同名,如 ALL,BY,AND,NOT,OR 等。4.变量名最好与其代表的数据含义相对应,每个变量名必须具有唯一性。数据类型是指每个变量取值的类型。SPSS 中有三种基本数据类型:数值型、字符型和日期型。数据中存在明显错误或明显不合理的数据或漏填数据项时统计学上称为不完全数据或缺失数据。用户缺失值与系统缺失值 统计学依据数据的度量尺度将数据划分为三大类,即定距型数据(Scale),如身高、体重;定序型数据(Or
8、dinal),如职称、职务、对某事物的赞同程度;定类型数据(Nominal),如民族、宗教信仰、性别、党派。定距型数据通常指连续型数据;定序型数据具有内在固有大小或高低顺序,但它又不同于定距型数据,一般可以用数值或字符表示;定类型数据没有内在固有大小或高低顺序,一般以数值或字符表示的分类数据。插入一个个案,即在数据编辑窗口的某个个案前插入一个新个案:将当前数据单元确定在一个个案上,选择菜单 Data+Insert Case SPSS 支持的数据格式:1、SPSS 文件格式,扩展名为.sav 2、Excel 格式文件,扩展名为.xls 3、dbf 格式文件,扩展名为.dbf 4、文本格式文件,扩
9、展名为.dat SPSS 支持的数据合并的方式有两种:纵向合并和横向合并。从外部数据文件增加变量到当前数据文件,称为横向合并,横向合并文件时要注意以下三个问题:1、相互合并的数据文件必须至少有一个名称相同的变量,该变量是两文件横向合作的依据,称为关键变量;2、两个数据文件都必须先按关键变量进行升序排列;3、不同数据文件中数据含义不相同的数据项变量名不应相同。.简述数据排序的作用 1、数据排序便于数据的浏览,有助于了解数据的取值状况、缺失值数量的多少等;2、通过数据排序能够快捷的找到数据的最大值和最小值,进而可以计算出数据的全距,初步把握和比较数据的离散程度;3、通过数据排序能够快捷地发现数据的
10、异常值,为进一步明确它们是否会对分析产生重要影响提供帮助。SPSS 数据排序选择菜单 DataSort Cases 数据选取的基本操作选择菜单 DataSelect cases 简述频数分析的目的和基本任务 答:目的:基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。基本任务:(1)频数分析的第一个基本任务是编制频数分布表。(2)频数分析的第二个任务是绘制统计图 常见的基本描述统计量有三大类:刻画集中趋势的统计量 刻画离中趋势的统计量 刻画分布形态的统计量 刻画集中趋势的描述统计量有:均值、中位数、众数、均值标准误差 刻画离散程度的描述统计量
11、有:全距、方差、标准差、刻画分布形态的描述统计量有:偏度、峰度 CH6 SPSS 的方差分析 1、什么是方差分析?答:方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量,对观测变量有显著影响的各个控制变量其不同水平以及各水平的交互搭配是如何影响观测变量的。2、方差分析认为观测变量的值得变化受两类因素的影响:第一类是控制因素(控制变量)不同水平所产生的影响;第二类是随机因素(随机变量)所产生的影响。3、方差分析对观测变量个总体分布有两个基本假设前提:(1)观测变量各总体服从正态分布;(2)观测变量各总体的方差相同。4、根据控制变量个数可以将方差分析分成单因素方
12、差分析、多因素方差分析和协多因素方差分析。5、简述方差分析的基本原理 .答:方差分析认为,如果控制变量的不同水平对观测变量产生了显著影响,那么它和随机变量共同作用必然使得观测变量值显著变动;反之,如果控制变量的不同水平没有对观测变量产生显著影响,那么观测变量值的变动就不明显,其变动可以归结为随机变量影响造成的。建立在观测变量各总体服从正态分布和同方差的假设之上,方差分析的问题就转化为在控制变量不同水平上的观测变量均值是否存在显著差异的推断问题了。综上所述,方差分析从对观测变量的方差分解入手,通过推断控制变量各水平下各观测变量的均值是否存在显著差异,分析控制变量是否给观测变量带来了显著影响,进而
13、再对控制变量各个水平对观测变量影响的程度进行剖析。6、单因素方差分析的基本步骤 提出原假设:控制变量不同水平下观测变量各总体的均值无显著差异 计算检验统计量和概率 P 值 给定显著性水平与 p 值做比较:如果 p 值小于显著性水平,则应该拒绝原假设,反之就不能拒绝原假设。7、在多因素方差分析中,影响观测值变动的因素是那些?答:(1)控制变量独立作用;(2)控制变量交互作用;(3)随机因素。CH8 SPSS 的相关分析 1、客观事物之间大致可归纳为两大类:函数关系和统计关系。2、散点图的作用:绘制散点图时相关分析过程极为常用且非常直观的分析方式。它将数据以点的形式画在直角平面上。通过观察散点图能
14、够直观地发现变量间的统计关系以及它们的强弱程度和数据对的可能走向。3、相关系数是以数值的方式精确地反映了两个变量间线性关系强弱程度。利用相关关系进行变量间线性关系的分析的两大步骤:第一、利用样本数据计算相关系数。样本相关系数反映了两变量间线性关系程度的强弱。对不同类型的变量应采用不同的相关系数指标,但它们的取值范围和含义都是相同的,即 相关系数 r 的取值在-1+1 之间。r0 表示两变量存在正的线性相关关系;r0.8 表示两变量之间具有较强的线性相关关系;|r|0.3 表示两变量之间的线性相关关系较弱;第二、对样本来自的两总体是否存在显著的线性关系进行推断。.由于存在抽样的随机性和样本量较少
15、等原因,通常样本相关系数不能直接来说明样本来自的两总体是否具有显著性的线性相关关系,需要通过假设检验的方式对样本来自的总体是否存在线性相关关系进行统计推断。基本步骤:提出原假设,即两总体无显著线性关系,存在零相关。选择检验统计量。计算检验统计量的观测值和对应的概率 P-值。决策。如果检验统计量的概率 P-值小于给定的显著性水平,则应拒绝原假设,认为两总体存在显著性的线性相关关系;反之,如果检验统计量的概率 P-值大于给定的显著性水平,则不能拒绝原假设,认为两总体存在零相关关系。4、相关系数的种类:对不同类型的变量应采用不同的相关系数来度量,常用的相关系数主要有 pearson 简单相关系数、s
16、pearman 等级相关系数和 kendall相关系数等。pearson 简单相关系数用来度量定距型变量间的线性相关关系;spearman 等级相关系数用来度量定序型变量间的线性相关关系;kendall相关系数采用非参数统计的方法度量定序型变量间的线性相关关系。5、下表给出居民住房调查中家庭收入与计划购买的住房面积的相关分析,试分析两变量间的相关性。(显著性水平=0.05)Correlations 家庭收入 计划面积 家庭收入 Pearson Correlation 1.323*Sig.(2-tailed).000 计划面积 Pearson Correlation.323*1 Sig.(2-t
17、ailed).000 *.Correlation is significant at the 0.01 level(2-tailed).答:原假设:家庭收入与计划面积所在的两总体零相关。由上表可知其相关系数检验的概率 P-值近似为 0,当显著性水平=0.05 或=0.01 时,应拒绝原假设,认为两总体存在相关性。pearson 简单相关系数值为 0.323,说明两总体存在弱相关。6、偏相关分析:偏相关分析是在控制其他变量的线性影响条件下分析两变量间的线性相关性,所采用的工具是偏相关分析。7、利用偏相关系数进行变量间偏相关分析的分析的两大步骤:第一、计算样本的偏相关系数。利用样本数据计算样本偏相
18、关系数,反映了两变量间净相关的强弱程度。第二、对样本来自的两总体是否存在显著的净相关关系进行推断。.基本步骤:提出原假设,即两总体的偏相关系数与零无显著差异。选择检验统计量。计算检验统计量的观测值和对应的概率 P-值。决策。如果检验统计量的概率 P-值小于给定的显著性水平,则应拒绝原假设,认为两总体存在显著性的线性相关关系;反之,如果检验统计量的概率 P-值大于给定的显著性水平,则不能拒绝原假设,认为两总体存在零相关关系。CH9 SPSS 回归分析 CH10 SPSS 聚类分析 1、聚类分析:聚类分析是一种建立分类的多元统计分析方法,它能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的
19、亲疏程度在没有先验经验的情况下进行的自动分类,产生多个分类结果。类内部个体特征具有相似性,不同类间个体特征的差异性较大。2、对“亲疏程度”的测度一般有两个角度:第一、个体间的相似程度;第二、个体间的差异程度。3、衡量个体间的相似程度通常可采用简单相关系数或等级相关系数等。衡量个体间的差异程度通常通过某种距离来测量。4、聚类分析首先消除数量级对聚类的影响,消除数量级最常有的方法是:标准化处理。5、层次聚类有两种类型:Q 型聚类和 R 型聚类。Q 型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来。R 型聚类是对变量进行聚类,它使差异性大的变量分离开来,具有相似特征
20、的样本聚集在一起。6、层次聚类的聚类方式有两种:凝聚方式聚类和分解方式聚类。7、简述 K-Means 聚类分析的核心步骤 答:K-Means 聚类也称快速聚类,仍将数据看成 k 维空间上的点,仍以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率,其核心步骤是:第一,指定聚类数目 K 第二,确定 K 个初始类中心 SPSS 中初始类中心的指定方式有两种:一是用户指定方式;二是系统指定方式。第三,根据距离最近原则进行分类 依次计算每个样本数据点到 K 个类中心点的欧式距离,并按距 K 个类中心点距离最短的原则将所有样本分成 K 类。第四,重新确定 K 个类中心 中心点的确
21、定原则是,依次计算各类中 k 个变量的均值,并以均值点作为 K 个类的中心 .点。第五,判断是否已满足中止聚类分析的条件 条件有两个:一是迭代次数(SPSS 默认为 10);二是类中心点偏移程度,即新确定的类中心点距上个类中心点的最大偏移量小于指定的量(SPSS 默认为 0.02)时中止聚类。CH11 SPSS 因子分析 1、因子分析:因子分析是研究如何以最少量的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。2、因子分析中因子的特点:(1)因子个数远远少于原有变量的个数。(2)因子能够反应原有变量的绝大部分信息;(3)因子之间不存在线性关系;(4)
22、因子具有命名解释性。3、简述因子分析的基本步骤 答:(1)因子分析的前提条件;因子分析的前提条件是原始变量之间应存在较强的相关关系。(2)因子提取;(3)使因子更具有命名可解释性;(4)计算各样本的因子得分。4、简述因子个数的确定方法。答:(1)根据特征根确定因子数:一般选取大于 1 的特征根,还可规定特征根数与特征根值的碎石图并通过观察碎石图确定因子数;(2)根据因子的累计方差贡献率确定因子数:通常选取累计方差贡献率大于 85%的特征根个数为因子个数。5、简述因子分析的意义。答:在实际问题的分析过程中,人们往往希望尽可能多的搜集关于分析对象的数据信息,进而能够比较全面的、完整的把握和认识它。
23、于是,对研究对象的描述就会有很多指标。如果搜集的变量过多,虽然能够比较全面精确的描述事物,但在实际建模时这些变量会给统计分析带来计算量大和信息重叠的问题。而消减变量个数必然会导致信息丢失和信息不完整等问题的产生。因子分析是解决上述问题的一种非常有效的方法。它以最少的信息丢失,将原始众多变量综合成较少的几个综合指标(因子),能够起到有效降维的目的。统计分析软件答案 一、选择题(每空 2 分,共 30 分)1、SPSS 有两个基本窗口:()和()。数据编辑窗口和结果输出窗口。2、SPSS 数据的组织方式有两种:()和()。原始数据的组织方式和计数数据的组织方式 3、统计学依据数据的度量尺度将数据划
24、分为三大类,()、()和()。.定距型数据 定类型数据 定序型数据 4、根据控制变量的个数可将方差分析分为()和()。单因素方差分析、多因素方差分析;5、SPSS 软件的三种运行管理方式:()、()和()。完全窗口菜单运行管理方式 程序运行管理方式 混合运行管理方式 6、SPSS 对不同类型的变量应采用不同的相关系数来度量,常用的相关系数主要有()、()和()。Pearson 简单相关系数、Spearman 等级相关系数和 Kendall相关系数等。二、简答题(每题 5 分,共 20 分)1、简述 SPSS 数据文件的特点 答:SPSS 数据文件的特点:SPSS 是一个有别于其他文件的特殊格式
25、的文件,SPSS 数据文件是一种有结构的数据文件,它由数据结构和内容两部分组成,其中的数据结构记录数据变量的名称、类型、变量宽度、小数位数、变量名标签、变量值标签、缺失值、显示宽度、对齐方式和度量尺度等必要信息,数据的内容才是那些待分析的具体数据。基于上述特点,建立 SPSS 数据文件时应完成两项任务,即描述数据的结构和录入编辑数据。2、简述数据排序的作用 答:数据排序便于数据的浏览,有助于了解数据的取值状况、缺失值数量的多少等;通过数据排序能够快捷的找到数据的最大值和最小值,进而可以计算出数据的全距,初步把握和比较数据的离散程度;通过数据排序能够快捷地发现数据的异常值,为进一步明确它们是否会
26、对分析产生重要影响提供帮助。3、什么是回归分析?答:回归分析是一种应用极为广泛的数量分析方法。它用于分析事物之间的统计关系,侧重考察变量之间的数量变化规律,并通过回归方程的形式描述和反映这种关系,帮助人们准确把握变量受其他一个或多个变量影响的程度,进而为预测提供科学依据。4、简述因子分析的意义。答:在实际问题的分析过程中,人们往往希望尽可能多的搜集关于分析对象的数据信息,进而能够比较全面的、完整的把握和认识它。于是,对研究对象的描述就会有很多指标。但是效果如何呢?如果搜集的变量过多,虽然能够比较全面精确的描述事物,但在实际建模时这些变量会给统计分析带来计算量大和信息重叠的问题。而消减变量个数必
27、然会导致信息丢失和信息不完整等问题的产生。因子分析是解决上述问题的一种非常有效的方法。它以最少的信息丢失,将原始众多变量综合成较少的几个综合指标(因子),能够起到有效降维的目的。5、简述方差分析的基本原理 .答:方差分析认为,如果控制变量的不同水平对观测变量产生了显著影响,那么它和随机变量共同作用必然使得观测变量值显著变动;反之,如果控制变量的不同水平没有对观测变量产生显著影响,那么观测变量值的变动就不明显,其变动可以归结为随机变量影响造成的。建立在观测变量各总体服从正态分布和同方差的假设之上,方差分析的问题就转化为在控制变量不同水平上的观测变量均值是否存在显著差异的推断问题了。综上所述,方差
28、分析从对观测变量的方差分解入手,通过推断控制变量各水平下各观测变量的均值是否存在显著差异,分析控制变量是否给观测变量带来了显著影响,进而再对控制变量各个水平对观测变量影响的程度进行剖析。三、分析题(共 50 分)1、(10 分)根据各保险公司人员构成情况数据,研究我国目前保险公司从业人员的受高等教育的程度和年轻化的程度。根据以下表格进行推断:(显著性水平=0.05)(1)保险公司具有高等教育水平的员工比例的平均值是否不低于 0.8?为什么?(2)年轻人比例的平均值与 0.5 是否有显著差异?为什么?One-Sample Statistics N Mean Std.Deviation 年轻人比例
29、 26.7139.15068 One-Sample Statistics N Mean Std.Deviation 受高等教育比例 19.7448.16734 One-Sample Test Test Value=0.5 t df Sig.(2-tailed)Mean Difference Lower Upper 年轻人比例 7.237 25.000.21388.1530.2747 One-Sample Test Test Value=0.8 t df Sig.(2-tailed)Mean Difference Lower Upper .One-Sample Test Test Value=0
30、.8 t df Sig.(2-tailed)Mean Difference Lower Upper 受高等教育比例-1.437 18.168-.05515-.1358.0255 答:上述问题的两个原假设分别为:保险公司具有高等教育水平的员工比例的平均值不低于0.8。H0:0.8 年轻人比例的平均值与 0.5 无显著差异。H0:=0.5 由上表可知:被调查的 19 家保险公司中,具有高等教育水平员工比例均值为 0.745,标准差为 0.167;单样本 t 检验中 t 统计量的双尾概率 P-值为 0.168,比例总体均值的 95%置信区间为(0.6530,0.7747)。显著性水平=0.05,由于
31、应进行单尾检验且 0.168/2 大于显著性水平,因此不应拒绝原假设,不能认为保险公司具有高等教育水平的员工比例的平均值不显著高于 0.8。同时 0.8 大于 95%的置信区间的下限值,也从另一角度证实了这一结论。由上表可知:被调查的 26 家保险公司中,年轻人比例的均值为 0.714,标准差为 0.151;单样本 t 检验中 t 统计量的双尾概率 P-值接近于 0,比例总体均值的 95%置信区间为(0.6642,0.8255)。显著性水平=0.05,由于概率 P-值小于显著性水平,因此应拒绝原假设,认为保险公司年轻人比例的平均值与 0.5 无显著差异。同时 0.5 不在相应的置信区间内,也从
32、另一角度证实了这一结论。2、(10分)根据8个国家300场的打分特点,按照层次聚类将其分类。根据所给出的层次聚类分析中的凝聚状态表分析聚类过程,画出树形图;如果将裁判分成三组怎么分法?层次聚类分析中的凝聚状态表 Stage Cluster Combined Coefficients Stage Cluster First Appears Next Stage Cluster 1 Cluster 2 Cluster 1 Cluster 2 1 2 4 28.560 0 0 3 2 3 5 32.560 0 0 4 3 2 6 52.920 1 0 6 4 3 7 53.830 2 0 5 5 1
33、 3 93.033 0 4 6 6 1 2 219.550 5 3 7 .层次聚类分析中的凝聚状态表 Stage Cluster Combined Coefficients Stage Cluster First Appears Next Stage Cluster 1 Cluster 2 Cluster 1 Cluster 2 1 2 4 28.560 0 0 3 2 3 5 32.560 0 0 4 3 2 6 52.920 1 0 6 4 3 7 53.830 2 0 5 5 1 3 93.033 0 4 6 6 1 2 219.550 5 3 7 7 1 8 233.297 6 0 0
34、 答:聚类分析的第一步中,2 号样本与 4 号样本聚成一小类,他们的个体距离是 28.560,这个小类将在第 3 步用到;聚类分析的第二步中,3 号样本与 5 号样本聚成一小类,他们的个体距离是 32.560,这个小类将在第 4 步用到;聚类分析的第三步中,6 号样本与第一步小类又聚成一小类,他们的个体距离是 52.920,形成的小类将在下面第 6 步用到。聚类分析的第 4 步中,7 号样本与第 2 步形成的小类又聚成一小类,他们的个体距离是53.830,这个小类将在第 5 步用到;聚类分析的第 5 步中,1 号样本与第 4 步形成的小类又聚成一小类,他们的个体距离是 93.033,这个小类将
35、在第 6 步用到;聚类分析的第 6步中,第 5 步形成的小类与第 3 步形成的小类又聚成一小类,他们的个体距离是 219.550,这个小类将在第 7 步用到;经过 7 步聚类过程,8 个样本最后聚成了一大类。judge2 2 judge4 4 judge6 6 judge3 3 judge5 5 judge7 7 judge1 1 judge8 8 如果将裁判分成三类:2、4、6是一类,1、3、5、7是一类,8单独一类。3、(15 分)一家产品销售公司在 30 个地区设有销售分公司。为了研究产品销售量(y)与该公司产品的销售价格(x1)、各地区的年人均收入(x2)、广告费用(x3)之间的关系,
36、搜集到 30 个地区的有关数据。进行多元线性回归分析所得的部分分析结果如下:将第一张表中的所缺数值补齐。.写出销售量与销售价格、年人均收入、广告费用的多元线性回归方程,并解释各回归系数的意义。检验回归方程的线性关系是否显著?检验各回归系数是否显著?ANOVA Model Sum of Squares df Mean Square F Sig 1 Regression 4008924.7 0.000 Residual -Total 13458586.7 29-Cofficients(a)Model Unstandardized Coefficients t Sig.1 B Std.Error C
37、onstant 7589.1025 2445.0213 3.1039 0.002 X1-117.8861 31.8974-3.6958 0.001 X2 80.6107 14.7676 5.4586 0.002 X3 0.5012 0.1259 3.9814 0.206 答:(1)SSA=12026774.1、p=3、SSE=1431812.6、n-p-1=26、55069.7、F=72.797(2)y=-117.8861*x1+80.6107*x2+0.5012*x3+7589.1025 x1 的系数的含义是,当其他解释变量不变的前提下,销售价格每提高一个单位,产品销售量减少 117.886
38、1 单位。X2 的系数的含义是,当其他解释变量不变的前提下,各地区的年人均收入每提高一个单位,产品销售量增加 80.6107 单位。X3 的系数的含义是,当其他解释变量不变的前提下,广告费用每提高一个单位,产品销售量增加 0.5012 单位 4 分(3)原假设为:各个偏回归系数同时与 0 无显著性差异。由表 ANOVA 知,F 检验统计量的观测值为 72.797,对应概率 P-值为 0.000,显著性水平=0.05,由于概率 P-值小于显著性水平,应拒绝回归方程显著性检验的原假设,认为各回归系数不同时为 0,被解释变量与解释变量全体的线性关系式显著地,可建立线性模型。(4)回归系数显著性检验的
39、原假设是:i=0,即第 i 个偏回归系数与 0 无显著性差异。由表可知,在显著性水平=0.05 下,x1 与 x2 的概率 P-值分别为 0.001、0.002,都小于显著性水平,因此拒绝原假设,认为解释变量 x1 与 x2 与被解释变量 y 的之间的线性关系显著,解释变量 x3 所对应的概率 P-值为 0.206,大于显著性水平,因此不应拒绝原假设,认为解释变量 x3 与被解释变量 y 的之间的线性关系不显著。4、(15 分)为研究全国各地区年人均收入的差异性和相似性,收集到 1997 年全国 31 个省市自治区各类经济单位包括国有经济单位、集体经济单位、联营经济单位、股份制经济单位、外商投
40、资经济单位、港澳台经济单位和其他经济单位的年人均收入数据。.写出巴特利特球形检验的零假设,并分别利用 KMO 和巴特利特球形检验分析这些变量是否适合因子分析?为什么?是对因子进行命名解释。写出因子分析的数学模型和因子得分函数。KMO and Bartletts Test Kaiser-Meyer-Olkin Measure of Sampling Adequacy.887 Bartletts Test of Sphericity Approx.Chi-Square 210.446 df 21 Sig.000 因子载荷矩阵 Component 1 2 国有经济单位.944.083 集体经济单位.
41、923.063 联营经济单位.778.497 股份制经济单位.885.144 外商投资经济单位.922-.183 港澳台经济单位.956-.114 其他经济单位.778-.479 旋转后的因子矩阵 Component 1 2 国有经济单位.212.724 集体经济单位.112.895 .联营经济单位.203.900 股份制经济单位.327.725 外商投资经济单位.784.318 港澳台经济单位.759.292 其他经济单位.890.207 因子得分系数矩阵 Component 1 2 国有经济单位.016.227 集体经济单位.039.199 联营经济单位-.530.736 股份制经济单位-
42、.069.298 外商投资经济单位.352-.117 港澳台经济单位.268-.023 其他经济单位.708-.514 答:巴特利特球形检验的零假设是:相关系数矩阵是单位阵。巴特利特球形检验统计量的观测值为 210.446,相应的概率 P-值接近于 0,在显著性水平=0.05 下,由于概率 P-值小于显著性水平,则应拒绝原假设,认为相关系数矩阵与单位矩阵有显著性差异。同时 KMO 的值为 0.887,根据 KMO 度量标准可知原有变量适合进行因子分析。国有经济单位、集体经济单位、联营经济单位和股份制经济单位在第二个因子上有较高的载荷,第二个因子主要解释了这几个变量,可解释为内部投资经济单位;其
43、他经济单位、港澳台经济单位和外商投资经济单位在第一个因子上有较高的载荷,第一个因子主要解释了这几个变量,可解释为外来投资经济单位。因子分析的数学模型为:国有经济单位=0.944*f1+0.083*f2 集体经济单位=0.923*f1+0.063*f2 联营经济单位=0.778*f1+0.497*f2 股份制经济单位=0.885*f1+0.144*f2 外商投资经济单位=0.922*f1-0.183*f2 港澳台经济单位=0.956*f1-0.114*f2 .其他经济单位=0.778*f1-0.479*f2 根据因子得分系数矩阵写出以下因子得分函数 f1=0.016*国有经济单位+0.039*集体经济单位-0.530*联营经济单位-0.069*股份制经济单位+0.352*外商投资经济单位+0.268*港澳台经济单位+0.708*其他经济单位 f2=0.227*国有经济单位+0.199*集体经济单位+0.736*联营经济单位+0.298*股份制经济单位-0.117*外商投资经济单位-0.023*港澳台经济单位-0.514*其他经济单位
限制150内