市场调研中的相关分析与回归分析.doc
【精品文档】如有侵权,请联系网站删除,仅供学习与交流市场调研中的相关分析与回归分析.精品文档.在研究具有相互关联的事件上,我们通常借助于相关分析和回归分析这两种统计方法,度量变量之间关联程度的方法叫相关分析。如果考虑的是两个变量之间关系时,称为简单相关;如果讨论一个变量与两个或多个其他变量的关系时,就称为复相关或偏相关,而回归分析则是根据已知的一个或一个以上变量(自变量)的值来估计另一个变量(因变量)的值,并且算出估计的误差。 尽管这两种方法在现实使用时可以互相替代,但仍然存在不同,相关分析只是测定变量之间的相关程度。它考虑的是随机变量之间的共同变动,而不必区分自变量和因变量,而回归分析是希望得出一个有关各个变量之间联系的数字表达式,其中只有目标变量因变量假设为随机变动,而自变量均为已知常数,正如探讨变量之间关联度不必推导出一个方程,我们也可以在不考虑变量关联度情况下做回归分析。一般而言,两种方法是混合使用的,统称为相关回归分析,下面我们将分别介绍这两种方法。 (一)相关分析(1) 1简单相关 探讨变量Xi,Yi间的相关关系时,可以先做出散点图(ScatterDiagram),以数标轴上的点代表Xi,Yi的一对观察值,这可以直观地考察变量之间联系程度,且有助于选择合适的估计模型。 对两个变量X,Y之间的简单相关,需要事先作出如下假设: ·两个变量均为随机变量,一个样本观察值同时包括X,Y的值。 ·两个变量为联合正态分布。即在任何其中一个变量的观察值不变时另一个变量呈正态分布。 如果两个变量X,Y的测定值为(X1,Y1),(X2,Y2)(Xn,Yn),变量X,Y的平均数以 , 来表示,即: (i=1,2n) 经计算r在-1与+1之间变化。若X,Y完全正相关,一单位X的增加引得Y增加一单位,此时r=+1,反之,若X增加一单位导致Y减少一单位,两者完全负相关时,r=-1,有关情况如下表(9-1)。 表9-1 R=1完全正相关 0R1 正相关 R=0不相关 -1R0 负相关 R=-1完全负相关 如果数据较多,可把X与Y分别分组,用组的组中值为代表值,由于各组皆有不同的次数f,则X1,X2XiXk与Y1,Y2YjYe可作为两个变量的相关表(Correlationtable)。见表(9-2)。 XY X1 X2 Xi Xk 合计 Y1 F11 F21 Fi1 Fk1 F·1 Y2 F12 F22 Fi2 Fk2 F·2 Fkj F·j Yj F1j F2j Fij Ye F1e F2e Fie Fke F1 合计 F1 F2 FiFk N 表中,F1,F2FiFk表示与Y无关的X的分布,F·1,F·2F·jF·e表示与X无关的Y的分布,这些分布都称为X,Y的边际分布(MarginalDistribution),其中有关符号是: 有关相关分析或回归分析的说明可以通过实例来表达,也方便我们作进一步的探讨,现在有一个生产宝珠笔的全国性生产商家“Click”,正准备对本公司在市场营销方面的策略效率进行调查。该公司借助地区代理商来分销“Click”笔,同时通过派驻公司销售代表和播放电视广告来辅助代理商进行销售。现确定以每年地区销售额作为效率的评价尺度,而且有关各地区销售代表的信息和数据可直接从公司记录中获取,比较而言其它他们认为与销售额有关的特征因素电视广告和代理商的绩效的判断就相对困难一些。为获得某一地区电视广告的情况必须对广告的时段和电视频道所覆盖的范围进行分析。代理商的效绩则要求按照一定的标准对代理商进行等级评分并以最后的加总分来进行判断,如4=优秀;3=不错;2=一般;1=差劲,考虑到获取这些信息所要花费的时间和费用,最后“Click”公司决定对销售地区进行样本调查。这次随机抽取40个地区的调查结果见表9-3。 首先做散点图(9-3),表a表示销售额随每月电视广告时数增加时增加,而表b则显示当该地区销售代表人数变多时,销售额也随之上升,最后表C显示某一地区的销售额与该地区代理商的绩效没有太大的关联。表a和表b进一步表示销售额与各变量之间的关系呈直线关系,以Y表示销售额,X1表示电视广告,X2表示销售代表,现计算Y与X1的相关系数 以及Y与X2的相关系数 分别为0.87、,表明两者之间存在显著的相关性。 表9-3 Click宝珠笔的地区调查结果 地区 销售额(千美元) 广告(电视时段/月)X1 销售代表人数X2 005 260.353 019 286.175 033 279.463 039 410.894 061 438.2126 082 315.3 83 091 565.1117 101 570.0168 115 426.1134 118 315.0 73 133 403.6106 149 220.5 44 162 343.6 94 164 644.6178 178 520.4197 187 329.5 93 189 426.0116 205 343.2 83 222 450.4135 237 421.8145 242 245.6 74 251 503.3166 260 375.7 95 266 265.5 52 279 620.6186 298 450.5185 306 270.1 53 332 368.0 76 347 556.1127 358 570.0136 362 318.5 84 370 260.2 63 391 667.0168 408 618.3198 412 525.3177 430 332.2104 442 393.2125 467 283.5 83 471 376.2105 488 481.8125 图9-2 销售Y销售Y (千美元) (千美元) 在讨论相关系数时,我们更常使用另外一个概念可决系数R2,相关系数的平方。通过一系列代数运算,R2的公式可表示如下: 正如在统计上要考虑样本值与总体值之间的差异,这里我们也必须测定可信程度的大小在我们接受样本值r值为整个销售地区的调查结果,这需要对r的显著性作假设检验。假设p表示相应未知的总体相关系数,我们计算以下的t统计量: 因为置信度=0.05,自由度为38,则临界值r=2.02或r=-2.02判别的标准为:如果r2.02或r-2.02,则拒绝假设,由此可知,无论是Y与X1还是Y与X2都应拒绝假设H。 尽管在判断联合变化的相关度时,简单相关系数很有用,但仍有二点有关它的运用需要说明。首先,样本相关系数低或未能通过t-值显著性检验并不意味着两个变量一定没有联系,这只能说明它们缺乏线性联系,如图9-4所示,该散点图清楚地表示变量X与Y之间存在强的U-型线变化关系。然而在这种情况下得出的简单相关系数却可能接近于0,仅仅由于当将这些样本点联系起来考虑时呈现不出直线性联系。所以,即使简单相关系数非常少或不具备统计意义上的显著性,我们仍可以进一步对可能存在的非线性联系(曲线相关)作探究,尤其是有关经验或理论显示两者应该存在联系。也许研究曲线相关最简单的方法就是进行描点作散点图分析。 图9-3 其次,正如有关统计书上指出的,简单相关系数本身的存在并不足以推断变量之关联变动。例如,销售额与电视广告时数之间的相关系数为0.87并不保证当广告时段数上升会导致销售额的上升,尽管它试图得出这个结论,相关所说明的唯一的事是在所调查的40个地区中有关这个两个变量数据变化的模式是相近的,但这很有可能源于销售额与电视广告时数间的偶然性联系。比如,对于各个地区销售额的水平的预期会在一定程度上决定各地区广告时数高低水平,因此除非其它相关因素保持不变或其影响已计算在内,否则仅依靠简单相关系数来推断变量间的联系是十分危险的。 (一)相关分析(2) 2复相关与偏相关 引入更多的因素变量是我们减少判断偏差提高准确度的方法之一,这就涉及到复相关和偏相关。为了方便后面的说明,这里我们先简单引入一下回归分析,借助回归方程来解释复相关系数和偏相关系数。有关回归分析的具体内容我们将在第二节作详细的介绍。 如前面所提到的,在利用相关系数说明销售额Y与电视广告时数X之间联系,我们还可以借助直线方程式来说明。建立模型(在散点图基础上) 如果一方程中所包含自变量个数超过二个,我们该回归为复回归,该方程为复回归方程。 即为复相关系数(MultipleCorrelationCoefficient) 为复相关可决系数,在对于销售额,电视广告和销售代表人数之间关系的调查中 这意味着销售额中87.4%的变动差异与电视广告时数及销售代表人数变化有关,销售代表的引入提高了变量间的相关度,因为87.4%的变动可以用这两个因素说明而电视广告时数的不同只能说明77.5%的变动。同时, 说明三者之间存在强的关联度。 所谓偏相关(PastialCorelation)是在测定n个独立变量对一个因变量的影响时,在排除其他变量的影响后,指定一个独立变量对这个因变量计算得的相关系数,称为偏相关系数,也可称为纯相关系数(NetConelationCoefficient),回忆在简单相关分析中有关销售额Y与电视广告X之间简单可决系数可以表示如下: 这意味着在销售变动中有42.4%与电视广告无关的变动可以从销售代表数目变化中得出。相应的,在估计销售额与电视广告相关性时所犯的偏差减少了42.4%是源于销售代表数目作为增加项的引入。同样,偏相关可决系数的平方根即(一般只取正平方根)为偏相关系数。 在这个例子中存在二个自变量X1,X2,因此我们可以定义有关于销售代表数目X2的偏相关系数为 ,我们可以类似的方法推算出有关电视广告的偏相关系数 。它表示在充分考虑X2与Y相关度后加入因素X1对于Y整个变动差异的影响或增加的边际贡献 之所以我们要借回归方程来解释复相关和偏相关系数是想说明各系数所代表的经济意义,并不是求相关系数非要得出回线方程不可。但从计算简便以及经济含义角度,我们经常选择两种方法一起使用。 样本相关系数的分布和测验 在假定两变量(x,y)的组合总体适合于正态分布(三度空间的立体正态曲面)的条件下,x与y的相关系数r的抽样分布是随着两个因素样本单位数n与总体相关系数P的不同而变化着,不过总的说来,r分布的形态是属于各种各样的。 如把总体相关系数p分成三类:P=0,P=0.50以及P=0.90,在不同的n条件下,r的分布形态是: 图9-3 图9-4 图9-5 由于r分布的偏态形态,作实际测验的计算时,比较困难,英国著名统计学家埃·爱·费煦为了补救这种复杂计算的缺陷,用变量E代替r,替代公式为: 其中ln表示以e为底的自然对数,对E的变量来说,它的分布接近于正态分布,因此,就可利用正态分布表作出测验。另外,费煦已经作出了r与E间的变换表格,所以计算就大大地简化了。 关于相关系数r的虚无假设的测验以及可信任界限的计算可举例如下: 例如:样本为35对数据时,求出r为0.80,试用5%的显著标准来作出总体相关系数=0.90的虚无假设测验。先假定以虚无假设出发,r=0.80可能从总体=0.90中抽出,如果概率超过5%,就接受这个假设,否则,就推翻这个假设。 从附表我们查出r=0.80时,Z=1.099,并从同一附表中,找出=0.90时,MZ=1.472,我们知道 这里,Mz是在0.31与0.87之间,因此,P是在0.30与0.70之间,这个指标是以附表中0.31与0.87的正数值而获得的。 一、相关分析(3) 3等级相关(RankConelation) 有些时候,对现象或事物无法以精密数量确定其大小,轻重,只能以等级或次序排列出。例如,才智高低,事态轻重,色泽深浅,效率大小以及味道的好坏等,一般只能以等级排列。即使是精密的数据,有时也采用等级来测定它们之间的相互关系,这种关系一般是以等级相关系数来表示的,而在这些等级相关系数中,以司庇而曼(C.Spearman)的等级相关运用最为普遍。其公式为: 其中:d=各对数据的等级差异 n=样本的数据总数 司庇而曼相关系数是针对于两个序数变量的,其中每个变量的数据已按一定标准划分成1至n个等级,如果 的和为0,那么rs=1。也就是说此时两个变量的等级是等价的。rs值由+1(完全正相关)变化到-1(完全负相关),其中若rs=0意味着彼此不相关。 现有一个案例:在过去的几年间一家工业品营销公司一直从其总部附近地区的10所商科学校毕业生中招募销售人员,现在想确定这十所学校的相对名气与它的毕业生表现业绩之间是否存在关联。该公司的销售经理自己对这10所学校的声誉以及各自毕业生在本公司的表现进行了分级,这些等级评定情况见表9-4的第二列以及第三列。现在问题是各学校的名气与来自于各学校学生的销售业绩之间究竟有多大的联系呢? 借助于司庇而曼相关等级系数公式,我们可知: rs的值为0.661表明两个等级排名之间至少存在一定的联系,那么这种联系在统计上显著吗?回答这个问题我们可以假定这10所学校是以商科学校总体中抽出的随机样本调查,然后检验以下检验: H0:PS=0 H1:PS0 PS为两个等级集总体相关等级系数,当n10时,以下的检验数据将是满足自由度为n-2的t-值分布: 因为t2.31,所以我们拒绝H0并认为各商科学校的名气与其毕业生的工作表现存在真实的相关性。换而言之,样本中0.661的相关性不大可能由于偶然性而导致的。 值得一提的是我们是根据不同等级对之间的等级差距来计算rs的,这种作法与认为构成序数尺度的数字之间的差距是没有什么意义的观点不同,事实上,在计算rs时我们已假设两个变量同等级的差距是具有可比意义的,如果这个假设前提不成立,那么司庇而曼等级相关系数也就没什么意义了。 二)回归分析(1) 由一个或一组非随机变量来估计或预测某一个随机变量的观察值时,所建立的数学模型及所进行的统计分析,称为回归分析。如果这个模型是线性的就称为线性回归分析;如果模型是曲线的就称为曲线回归分析。这种方法是处理变量间相关关系的有力工具。它不仅告诉人们怎样建立变量间的数学表达式,即经验公式,而且还利用概率统计知识进行分析讨论,判断出所建立的经验公式的有效性,从而可以进行预测式估计。这在实际中的运用是十分普遍的。线性方程是比较容易求出的,即使是曲线方程也多半会转换成线性方程进行求解。我们就从线性方程回归开始,而线性回归中最简单的就是两个变量,或者称为简单线性回归,借助第一节我们所举的“Click”公司有关销售额,电视广告以及销售代表的案例,对于销售额Y与电视广告时数X1我们可以建立模型(在散点图基础上)这是一种确定性方程,因为当、给定,一旦x1的值确定时有且仅有一个Y值与其对应值。 然而在对社会现象进行调查时,不可能存在等于零的误差。考虑到这一点我们会在上述方程式上添加一个误差变量,以可能性模型来替代确定方程,即: 这正是我们第一节中所提到的方程,误差项是该模型不可缺少的一部分,它暗示着模型可能有未包含进去的变量、一种人类行为中不可预测的因素以及偏差的度量。可能性模型在给定,值情况下,Yi与Xi不是一一对应的关系;由给Xi值所能确定的只是这种情况Yi分布的平均值,而Yi真实值则围绕其上下波动。 我们最终确定的回归方程是一种确定模型,因而我们希望能找到一条“最能代表真实可能性情况的方程或者说两者偏离最小。最常见的方法是最小二乘法。而该方法又以随机误差符合一定假设为前提的,这些假设条件具体如下: 参看表9-3销售额Y和每月电视广告时数X1的有关数据,可以得到: 25.3意味着电视广告时段每增长一个单位则销售额会增加25,300美元。正如前面所提到的,这是建立在40个地区的抽样调查基础上得出的对真实总体值的估算值,不同的样本多半会导出不同的样本值。而且,我们还不知道这个值是否具有统计上的显著性或者它是否是由偶然性引发的。然而,这是一个比较重要的方程因为它有助于我们决定广告费用的回报是否值得。截距参数值字=135.4;这表明当自变量为0时,该回归直线穿过y轴的距离。 二)回归分析(2) 估计标准差 对图9-7的仔细检查发现,尽管直线拟合数据拟合得很好,但仍存在若干点对于直线的偏离,从而实际上这些偏差的大小代表了回归方程直线拟合的优劣,成为判断方程好坏的一个指标。同样我们可以利用统计中的有关知识计算出这个指标。 (二)回归分析(3) 有关斜率系数的分析 前面计算有关斜率系数 值为25.3,但我们并不知道这个结果是否源于偶然性,是否具有意义,这就需要对其进显著性检验,根据著名的Gauss-Markov理论,如果我们要对回归系数进行统计检验我们要假设该变量的离差为随机分布,这与前面我们所提到的矩状型分布是有所出处的, 此外,我们还需要设定由最小二乘法所估计出的总体参数是符合有效,无偏,最大拟然估计原则的估计值。 如果H0不能被拒绝,情况又会怎么样呢?正如我们所指出的, 代表样本回归直线的斜率,为 变动一单位Y所相应变化的数额,如果不能证明 =0的虚无假设不存在,这也不能完全否定Y与X1之间没有联系,可能是我们在检验中犯了第二类错误,没有拒绝不成立的假设。另外一种可能就是Y与X之间的关联是以某种曲线型方式存在,而我们运用了错误的模式去推算。 对Y值的预测 如果所求出的回归方程并非为偶然联系,那么我们就可以利用它来对给定的电视广告时下的销售额进行预测,需要考虑两种情况: 1.预测给定 情况下的Y的平均值。 2.预测给定 情况下的Y的一个单值。 让我们依次来讨论这两种情况。 给定的 的值记为 ,由回归方程得出的Y值即为所求的平均值,记为 则对于一个每月电视广告时数为10的地区,预计平均销售 为: 以上告诉我们的是如何计算当电视广告时数每月为10时整个地区的平均销售额水平,但有时候我们希望能对某些特别的地区的销售进行预测。这样预测中包含了一个附加的误差项,其数值等于一个特别值可能造成的偏差。因此预测单个销售能所存在的错误率要比预测整个销售额平均水平时的大。相应地,它所满足的公式为: 读者可比较一下两种预测情况下的置信区间的范围,即两者偏差的大小。 (二)回归分析(4) 对于使用回归分析需要注意的事项: 回归分析方法的普遍性和借助计算机运算的快捷性使得许多研究人员不问该方程与研究现象适合与否或不考虑回归分析的缺陷就盲目使用,其实使用回归分析法是需要许多假设前提的,如果忽略这些前提,就会导出错误甚至是荒谬的结论,这里我们集中讨论一下有关简单回归的缺陷,这些缺陷也同样适用于我们稍后将要提到的多元回归分析。 首先,如同在相关分析中看到的,回归分折局限于揭示变量之间的线值关系。如果散点图中所揭示变量之间的规律显著不呈直线变化,那么此时运用回归分析就是非常不适合的(除非通过变量转换变成线性关系)。所以一般只要可能,都要求事先根据数据划出散点图以判断变量之间的联系。 其次,通过了显著性检验或佣有较高R2值的回归方程并不一定保证解释变量与被解释变量之间的因果关系,这一点是特别值得注意的;因变量与自变量的设定可能会让粗心的研究者习惯地认为如果回归方程是显著性相关的前者肯定可由后者推导出,但事实上两个变量之间是否有在联系必须从以前的经验和有关的知识理论推导出,而不是由对数据运用的数学方法得出,它只是一个验证。因此谁是因变量,谁是自变量要由研究者自己决定,而不足依赖统计工具。设想有人把经过某一地点各女士裙边离地高度与当时太阳黑子变动的数据合在一起进行分析,如果由此得到的回归方程有0.9的可决系数,是不是就要肯定后者导致了前者的变化呢?这显然是荒谬的。 第三,回归方程对于超过给定范围的自变量对应下因变量的预测也就是我们常说的“外推预测”上可信度不高,举一个例子,在研究电视广告与销售额之间关联时电视广告时数变化范围为419,对于超过19或低于4的广告时数对应的销售额进行预测时,我们就面临很大的风险。 因为我们并不知道当增加新的数据点后散点图是否仍遵循原来的直线。事实上,甚至在原来的范围内,随首X0值对 的偏离,所得到预测的误差都在不断加大(见图9-8) 图9-8 A.B预测值的上下边界 C对于点,yi预测值的偏离 D最小的预测值的偏离(此时 ) 第四,建立在小规模样本上的回归方程是不可靠的,极端化而言,仅由两个点推出的简单回归值线方程的可决系数为1,而不论这两点怎样分布,样本的容量进而样本包含的数据点在多元回归中占据着相当重要的地位,在多元回归中如果样本容量不大而又包含太多的自变量的话同样会导致人为形成的高相关度,一般的规则是对于方程中所含的每一个独立变量至少有10个样本数据与之对应。 第五,自变量和因变量的数据变化范围能够影响回归方程的可用性,如果要令得出的回归方程具有实用性,自变量和因变量的数据范围就应该宽泛。因为如果有关每个变量的数据过于集中想推出一条准确的直线是非常困难的,对于数据要具有足够离散度这一方面Loefher和luciavish有清晰的论述: 很明显,如果因变量没有什么变化,那么没有什么可以需要解释的,因而只需对目标人群的行为做担当少的研究。假定存在一定变动,我们便习探究为什么会这样进而引入自变量来解释。如果这些自变量自身没有任何差异那么它们对于整个问题是没有任何帮助的,因为如果解释变量没有变化,那么我们所观察到的总是一种状况,根本没法揭示有关因变量所拥有的多种不同状况。 (二)回归分析(5) 2多元回归分析 我们考虑了包括一个被解释变量(Y)和唯一个解释变量(X)的简单线形回归。我们进一步考虑对简单模型进行扩展,使用两个或更多的解释变量来估计Y值。这种扩展就是多元线性回归。多元回归的应用范围十分广泛,它是所有宏观预测模型的基础。比如对销售量进行预测,相关的几个解释变量被认为是:广告费用、销售代理人的数量、产品价格以及季节因素(用降雨量、温度等来表示)。 要知道在包括一个以上解释变量的多元回归的情形,估计的回归线不能用一个简单的二维图形(如图9-1)来表示。多元回归线是多维空间的一条曲线。确定回归方程和测算相关性的计算比在简单回归情形下要麻烦得多。这种计算一般是非人工所能为的。如今,计算机和合适的统计软件包的使用,使得回归方程和相关系数的估计成为简单的任务。 多元线性回归方程在有K个解释变量的情形下采用的一般形式如下: 这里,Yc是计算的(也就是估计的)Y值,a为截距,b1,b2,b3,,bk是估算的相应于解释变量X1,X2,X3,Xk的回归系数值。这些系数自然是它们相应的总体参数的估计值(在简单数据资料的基础上)。总体参数用大写字母来表示:A,B1,B2,B3,Bk,系数bk的值是用最小二乘法原理推算出来的(参见简单线回归的内容)。回归系数bk是这样定义的,它使得残差(也就是实际值Y和估算值Yc之差)的平方和尽可能的小。因此,目标就是使得(Y-Yc)2最小化。推导a,b1,b2等数值的计算现在都可以使用合适的计算机软件包自动地迅速地进行。因此,我们把注意力集中在对计算结果、统计显著性、与多元回归有关的缺点和局限性的阐述上。 与简单回归分析类似,在多元回归分析中也有四个方面需要考虑: (1)每个回归系数的说明。 (2)回归系数的统计显著性。 (3)回归方程的整体解释力。 (4)整体解释力的统计显著性。 以下我们依次讨论这些内容。 (1)回归系数的解释 bi代表在所有其他解释变量保持不变时,xi每变动一个单位Yc相应的变动。例如,考虑太阳镜的月销售情况,销售量(S)可用三个变量来解释:价格P,广告费用E以及每月日照小时数H。因此,销售量与解释变量之间的关系可以表示为:Sc=a+b1p+b2E+b3H这里Sc表示通过方程预测的月销售量,系数a,b1,b2和b3从过去的数据资料推导出来,包括过去一段时间销售量和三个解释变量每月的观测值。在这里截距a可以理解为当三个解释变量同时为零时的平均销售量。系数b1表示当其他解释变量保持不变,价格P变动一个单位时销售量的平均变化值。同样;系数b2表示其他变量保持不变广告费用E变动一个单位时,销售量的平均变化值。系数b3表示的意义是类似的。通过这种方法,我们能够把每个解释变量对销售量的影响分离出来,不受其他解释变量的干扰和影响。b1,b2,和b3的值被称为局部回归系数。 (二)回归分析(6) 2.多元回归分析 (2)整体解释力和统计显著性 在简单线性回归里我们详细的介绍了单个回归总数的显著性检验与回归方程的整体解释力检验,在此不再重复,我们重点对整体解释力的统计显著性检验进行介绍这需要一个不同的过程,即F-统计检验。 单个系数(bk)的统计显著性检包括一个零假设检验,HO:Bk=0。整体解释力的检验是检验所有的bk是否都等于零。相关的检验统计量,即F-统计量,也是通过计算机软件包自动计算的,没有必要关心它的实际计算过程。但是,简而言之,它被定义为被解释的变化与未被解释的变化之比。回忆一下,解释变量的方差 可以被分解为两部分,一部分通过回归值来解释, 一部分通过残差来解释, 。被解释的变化与未被解释的变化的有关表达式简单地等于,总的被解释和未被解释的方差除以各自的自由度(分别是n-k-l)。 F-检验在计算了F-统计量之后,(F-检验)的统计显著性检验依照通常的程序进行。这些程序包括着先说明假设检验,然后把计算好的F-统计值与临界值相比,临界值取自在一给定概率水平下F-概率分布的F-统计表。假设可以表述为:H0:B1=B2=Bk=0H1:系数B不全为零 如果我们拒绝HO,我们就可以断定,在被解释变量和至少一个解释变量之间有显著的关系,回归方程整体来看是显著的。但要注意即使回归整体来看是显著的,某些单个的回归系数可能统计上并不显著。因此检验每一个解释变量的统计显著性是很重要的,不要只依赖于整体解释力的检验。还值得注意的是,在只有一个解释变量时的简单回归分析的情形下,整体解释力的F-检验必然相当于单个回归系数B的t-检验。这时,可以看到,F=t2。 F-统计表和F-分布 还需要说明F-统计表的使用和设计。F-分布的形状如下图所示。注意该分布是不对称的,而且F值不可能为负。分布的实际形状决于F-统计量的表达式相应的分子和分母的自由度(分别是K和n-k-l)。F-统计表中概率值()有0·05和0·01两种,对应于相应的自 由度,分子和分母分别用VI和V2表示,从1到。比如,可以查到,在vl=9和v2=12时,F-统计量的临界值(用 表示)在0·05的显著水平下等于2·80,在0·01的显著水产下等于4·39;也就是说,只有5%的可能性得到一个大于2·80的F-统计值,只有1%的可能性超过4·39。注意附录分为两个部分,第一部分对应 =0.05,第二部分对应于 =0·01。这样,回到F-检验中,如果计算的F-统计量超过了临界值,我们拒绝零假设,并断定整个回归在统计上是显著的。 在使用多元回归中,容易忽略几个问题。为了引起注意,我们简单地予以评论。详细的讨论可以在关于回归分析的专业书籍中找到。主要问题与下面这几点有关: ·估计的回归方程选择了不恰当的方程形式(即线性或非线性关系),被称为方程形式的错误识别; ·两个或更多的解释变量彼此相关的程度,使得可靠地度量它们各自的影响成为不可能,这个问题被称为多重共线性; ·不同时间的被解释变量的观测值自身相关的可能性,被称为自相关或序列相关问题,这影响到局部回归系数显著性检验的可靠性; ·预测误差可能不是常数,相反,它可能与解释变量的由于这个原因大小相关,这个问题被称为异方差问题,这也可能影响到估计回归系数的显著性检验的可靠性; ·在回归模型中解释变量含有测量误差的可能性,这个问题被称为变量误差,这将导致回归系数的估计不是无偏的和一致的。 举例 下表是某公司在过去的12个月中每月太阳镜的销售量、平均价格、广告费用、平均日照小时数。 使用这些数据: 估计回归方程,使之能够计算三个解释变量(价格、广告费用以及日照小时数)对太阳镜销售量的影响; 对结果进行说明; 在价格为2.5英镑、广告费用为25000英镑以及平均日照数为5小时的情况下,利用回归方程预测太阳镜的销售量。 解答回归方程 这里,多元线性回归模型为: 销售量S=a+b1×(价格P)+b2×(广告费用E)+b3×(日照小时数H) 用统计软件包,我们可以得到: S=120-12.2P+2.32E+13.2H 说明 ·为了对回归果进行说明,我们注意以下几个方面: ·估的回归系数(b1,b2,b3)的大小及符号。 ·回归系数的统计显著性。 ·回归整体的统计显著性。 ·回归模型的整体解释力。 ·异常观测值(即所谓的异常点)的出现。 系数的大小和符号。我们可以事先猜测销售量与价格呈反向变动的关系(即销售量随价格的下降而增加),而与广告费用和日照小时数呈正向变动的关系。也就是说,事先的预计是价格的回归系数(b1)为负,而广告费用的回归系数(b2)和日照时间的回归系数(b3)为正。从上述回归方程来看确实如此。在解释回归系数的大小时,要记住原始数据的度量单位。 因此有价格每上涨1英镑太阳镜的销售量下降12.2×1000=12200副,广告费用每增加1000英镑销售量增加2320副,日照时间每增加1小时销售量增加13200副。系数的统计显著性。通过统计软件包得到价格P的t-值为-2.77。判断该系数的统计显著性有两种方式。一是与t-统计表中自由度为n-k-l的t的临界值相比较,其中K是自变量的个数。于是对单尾检验(假设H1:BI0来说,t=-1.86(即8个自由度的T0.05)。因为-2.77-1.86,所以我们拒绝假设HO:BI=0并推断BI是显著小于零的。进行假设检验的另一个方法是利用统计软件包计算给出的P-值(概率值)。相应于-2.77的t-值的p-统计值为0.024。这表明-2.77的t-值切断了0.024(即2.4%)的单尾区域。因此如果检验是在5%的显著水平下进行的(=0.05),p-值表明检验统计量的值落入拒绝区域的概率。一般而言,如果P-值小于那么n个检验统计量必然位于拒绝区域,而如果p-值大于或等于那么检验统计量必定位于接受区域。 解释了P-值的含义以后,我们可以很快地评论其化两个解释变量统计显著性,由统计软件包得到广告费用变量E的P-值为0.036,日照时间变量H的P-值为0.000,都小于0.05,因此可以认为两个变量在5%的显著水平下都是统计上显著的(即B20以及B30)。注意这里P-值只表述到小数点后第三位。 整体解释力。用统计软件包计算得到多元决定系数R2=0.988,这表明销售量的变化中有98.8%可以由回归方程来解释(即通过3个解释变量的变化来说明)。调整过的多元决定系数R2=0.983。 异常观测值。有些统计软件包特别指出残差(观测值减去预测值)相当大的应变量的观测值,以引起注意,它可能是误计了,也可能是一个异常事件。这样异常观测值经常被称为异常点。 预测得到的回归方程为: S=120-12.2P+2.32E+13.2H 把问题中给定的三个解释变量的值代入方程有: 预测销售量 =120-12.2×2.5+2.32×25+13.2×5 =120-30.5+58+66 =213.5(千副) (二)回归分析(7) 3曲线相关 变量之间的关系并不完全是线性相关,更多是呈现非线性关系,这就需要我们借助变量转换,将复杂难解的曲线回归转变成通常的线性回归,求出我们所需要的模型。 对数转换不仅改变了各自变量值而且也影响着方程随机误差的数值,值得注意的是,它还会改变样本的数据容量,常见的变量转换法还有增设虚变量,可以查阅有关资料,这里就不再详细介绍了。 (三)多变量数据分析简介 1多变量数据分析方法 计算机软硬件的发展为在市场调研数据分析中使用很多高级的统计方法提供了基础。这些发展也使得方便地分析大量且复杂的数据成为可能。特别是,被称为多元变量分析的一组技术在数据分析变革中已引起特别的关注。 多变量分析是指用来对所研究的每个人或物体的多重测量同时进行分析的一组统计过程。一些流行的多变量技术包括多元回归分析、判别分析、因子分析、归类(聚类)分析、认知图和联合分析。 多元回归分析使调查人员可以根据一个以上自变量的水平来预测因变量。由多元回归