市场调研中的相关分析与回归分析.doc
《市场调研中的相关分析与回归分析.doc》由会员分享,可在线阅读,更多相关《市场调研中的相关分析与回归分析.doc(16页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流市场调研中的相关分析与回归分析.精品文档.在研究具有相互关联的事件上,我们通常借助于相关分析和回归分析这两种统计方法,度量变量之间关联程度的方法叫相关分析。如果考虑的是两个变量之间关系时,称为简单相关;如果讨论一个变量与两个或多个其他变量的关系时,就称为复相关或偏相关,而回归分析则是根据已知的一个或一个以上变量(自变量)的值来估计另一个变量(因变量)的值,并且算出估计的误差。 尽管这两种方法在现实使用时可以互相替代,但仍然存在不同,相关分析只是测定变量之间的相关程度。它考虑的是随机变量之间的共同变动,而不必区分自变量和因变量,而回归分析是希望
2、得出一个有关各个变量之间联系的数字表达式,其中只有目标变量因变量假设为随机变动,而自变量均为已知常数,正如探讨变量之间关联度不必推导出一个方程,我们也可以在不考虑变量关联度情况下做回归分析。一般而言,两种方法是混合使用的,统称为相关回归分析,下面我们将分别介绍这两种方法。 (一)相关分析(1) 1简单相关 探讨变量Xi,Yi间的相关关系时,可以先做出散点图(ScatterDiagram),以数标轴上的点代表Xi,Yi的一对观察值,这可以直观地考察变量之间联系程度,且有助于选择合适的估计模型。 对两个变量X,Y之间的简单相关,需要事先作出如下假设: 两个变量均为随机变量,一个样本观察值同时包括X
3、,Y的值。 两个变量为联合正态分布。即在任何其中一个变量的观察值不变时另一个变量呈正态分布。 如果两个变量X,Y的测定值为(X1,Y1),(X2,Y2)(Xn,Yn),变量X,Y的平均数以 , 来表示,即: (i=1,2n) 经计算r在-1与+1之间变化。若X,Y完全正相关,一单位X的增加引得Y增加一单位,此时r=+1,反之,若X增加一单位导致Y减少一单位,两者完全负相关时,r=-1,有关情况如下表(9-1)。 表9-1 R=1完全正相关 0R1 正相关 R=0不相关 -1R0 负相关 R=-1完全负相关 如果数据较多,可把X与Y分别分组,用组的组中值为代表值,由于各组皆有不同的次数f,则X1
4、,X2XiXk与Y1,Y2YjYe可作为两个变量的相关表(Correlationtable)。见表(9-2)。 XY X1 X2 Xi Xk 合计 Y1 F11 F21 Fi1 Fk1 F1 Y2 F12 F22 Fi2 Fk2 F2 Fkj Fj Yj F1j F2j Fij Ye F1e F2e Fie Fke F1 合计 F1 F2 FiFk N 表中,F1,F2FiFk表示与Y无关的X的分布,F1,F2FjFe表示与X无关的Y的分布,这些分布都称为X,Y的边际分布(MarginalDistribution),其中有关符号是: 有关相关分析或回归分析的说明可以通过实例来表达,也方便我们作
5、进一步的探讨,现在有一个生产宝珠笔的全国性生产商家“Click”,正准备对本公司在市场营销方面的策略效率进行调查。该公司借助地区代理商来分销“Click”笔,同时通过派驻公司销售代表和播放电视广告来辅助代理商进行销售。现确定以每年地区销售额作为效率的评价尺度,而且有关各地区销售代表的信息和数据可直接从公司记录中获取,比较而言其它他们认为与销售额有关的特征因素电视广告和代理商的绩效的判断就相对困难一些。为获得某一地区电视广告的情况必须对广告的时段和电视频道所覆盖的范围进行分析。代理商的效绩则要求按照一定的标准对代理商进行等级评分并以最后的加总分来进行判断,如4=优秀;3=不错;2=一般;1=差劲
6、,考虑到获取这些信息所要花费的时间和费用,最后“Click”公司决定对销售地区进行样本调查。这次随机抽取40个地区的调查结果见表9-3。 首先做散点图(9-3),表a表示销售额随每月电视广告时数增加时增加,而表b则显示当该地区销售代表人数变多时,销售额也随之上升,最后表C显示某一地区的销售额与该地区代理商的绩效没有太大的关联。表a和表b进一步表示销售额与各变量之间的关系呈直线关系,以Y表示销售额,X1表示电视广告,X2表示销售代表,现计算Y与X1的相关系数 以及Y与X2的相关系数 分别为0.87、,表明两者之间存在显著的相关性。 表9-3 Click宝珠笔的地区调查结果 地区 销售额(千美元)
7、 广告(电视时段/月)X1 销售代表人数X2 005 260.353 019 286.175 033 279.463 039 410.894 061 438.2126 082 315.3 83 091 565.1117 101 570.0168 115 426.1134 118 315.0 73 133 403.6106 149 220.5 44 162 343.6 94 164 644.6178 178 520.4197 187 329.5 93 189 426.0116 205 343.2 83 222 450.4135 237 421.8145 242 245.6 74 251 503.
8、3166 260 375.7 95 266 265.5 52 279 620.6186 298 450.5185 306 270.1 53 332 368.0 76 347 556.1127 358 570.0136 362 318.5 84 370 260.2 63 391 667.0168 408 618.3198 412 525.3177 430 332.2104 442 393.2125 467 283.5 83 471 376.2105 488 481.8125 图9-2 销售Y销售Y (千美元) (千美元) 在讨论相关系数时,我们更常使用另外一个概念可决系数R2,相关系数的平方。通
9、过一系列代数运算,R2的公式可表示如下: 正如在统计上要考虑样本值与总体值之间的差异,这里我们也必须测定可信程度的大小在我们接受样本值r值为整个销售地区的调查结果,这需要对r的显著性作假设检验。假设p表示相应未知的总体相关系数,我们计算以下的t统计量: 因为置信度=0.05,自由度为38,则临界值r=2.02或r=-2.02判别的标准为:如果r2.02或r-2.02,则拒绝假设,由此可知,无论是Y与X1还是Y与X2都应拒绝假设H。 尽管在判断联合变化的相关度时,简单相关系数很有用,但仍有二点有关它的运用需要说明。首先,样本相关系数低或未能通过t-值显著性检验并不意味着两个变量一定没有联系,这只
10、能说明它们缺乏线性联系,如图9-4所示,该散点图清楚地表示变量X与Y之间存在强的U-型线变化关系。然而在这种情况下得出的简单相关系数却可能接近于0,仅仅由于当将这些样本点联系起来考虑时呈现不出直线性联系。所以,即使简单相关系数非常少或不具备统计意义上的显著性,我们仍可以进一步对可能存在的非线性联系(曲线相关)作探究,尤其是有关经验或理论显示两者应该存在联系。也许研究曲线相关最简单的方法就是进行描点作散点图分析。 图9-3 其次,正如有关统计书上指出的,简单相关系数本身的存在并不足以推断变量之关联变动。例如,销售额与电视广告时数之间的相关系数为0.87并不保证当广告时段数上升会导致销售额的上升,
11、尽管它试图得出这个结论,相关所说明的唯一的事是在所调查的40个地区中有关这个两个变量数据变化的模式是相近的,但这很有可能源于销售额与电视广告时数间的偶然性联系。比如,对于各个地区销售额的水平的预期会在一定程度上决定各地区广告时数高低水平,因此除非其它相关因素保持不变或其影响已计算在内,否则仅依靠简单相关系数来推断变量间的联系是十分危险的。 (一)相关分析(2) 2复相关与偏相关 引入更多的因素变量是我们减少判断偏差提高准确度的方法之一,这就涉及到复相关和偏相关。为了方便后面的说明,这里我们先简单引入一下回归分析,借助回归方程来解释复相关系数和偏相关系数。有关回归分析的具体内容我们将在第二节作详
12、细的介绍。 如前面所提到的,在利用相关系数说明销售额Y与电视广告时数X之间联系,我们还可以借助直线方程式来说明。建立模型(在散点图基础上) 如果一方程中所包含自变量个数超过二个,我们该回归为复回归,该方程为复回归方程。 即为复相关系数(MultipleCorrelationCoefficient) 为复相关可决系数,在对于销售额,电视广告和销售代表人数之间关系的调查中 这意味着销售额中87.4%的变动差异与电视广告时数及销售代表人数变化有关,销售代表的引入提高了变量间的相关度,因为87.4%的变动可以用这两个因素说明而电视广告时数的不同只能说明77.5%的变动。同时, 说明三者之间存在强的关联
13、度。 所谓偏相关(PastialCorelation)是在测定n个独立变量对一个因变量的影响时,在排除其他变量的影响后,指定一个独立变量对这个因变量计算得的相关系数,称为偏相关系数,也可称为纯相关系数(NetConelationCoefficient),回忆在简单相关分析中有关销售额Y与电视广告X之间简单可决系数可以表示如下: 这意味着在销售变动中有42.4%与电视广告无关的变动可以从销售代表数目变化中得出。相应的,在估计销售额与电视广告相关性时所犯的偏差减少了42.4%是源于销售代表数目作为增加项的引入。同样,偏相关可决系数的平方根即(一般只取正平方根)为偏相关系数。 在这个例子中存在二个自
14、变量X1,X2,因此我们可以定义有关于销售代表数目X2的偏相关系数为 ,我们可以类似的方法推算出有关电视广告的偏相关系数 。它表示在充分考虑X2与Y相关度后加入因素X1对于Y整个变动差异的影响或增加的边际贡献 之所以我们要借回归方程来解释复相关和偏相关系数是想说明各系数所代表的经济意义,并不是求相关系数非要得出回线方程不可。但从计算简便以及经济含义角度,我们经常选择两种方法一起使用。 样本相关系数的分布和测验 在假定两变量(x,y)的组合总体适合于正态分布(三度空间的立体正态曲面)的条件下,x与y的相关系数r的抽样分布是随着两个因素样本单位数n与总体相关系数P的不同而变化着,不过总的说来,r分
15、布的形态是属于各种各样的。 如把总体相关系数p分成三类:P=0,P=0.50以及P=0.90,在不同的n条件下,r的分布形态是: 图9-3 图9-4 图9-5 由于r分布的偏态形态,作实际测验的计算时,比较困难,英国著名统计学家埃爱费煦为了补救这种复杂计算的缺陷,用变量E代替r,替代公式为: 其中ln表示以e为底的自然对数,对E的变量来说,它的分布接近于正态分布,因此,就可利用正态分布表作出测验。另外,费煦已经作出了r与E间的变换表格,所以计算就大大地简化了。 关于相关系数r的虚无假设的测验以及可信任界限的计算可举例如下: 例如:样本为35对数据时,求出r为0.80,试用5%的显著标准来作出总
16、体相关系数=0.90的虚无假设测验。先假定以虚无假设出发,r=0.80可能从总体=0.90中抽出,如果概率超过5%,就接受这个假设,否则,就推翻这个假设。 从附表我们查出r=0.80时,Z=1.099,并从同一附表中,找出=0.90时,MZ=1.472,我们知道 这里,Mz是在0.31与0.87之间,因此,P是在0.30与0.70之间,这个指标是以附表中0.31与0.87的正数值而获得的。 一、相关分析(3) 3等级相关(RankConelation) 有些时候,对现象或事物无法以精密数量确定其大小,轻重,只能以等级或次序排列出。例如,才智高低,事态轻重,色泽深浅,效率大小以及味道的好坏等,一
17、般只能以等级排列。即使是精密的数据,有时也采用等级来测定它们之间的相互关系,这种关系一般是以等级相关系数来表示的,而在这些等级相关系数中,以司庇而曼(C.Spearman)的等级相关运用最为普遍。其公式为: 其中:d=各对数据的等级差异 n=样本的数据总数 司庇而曼相关系数是针对于两个序数变量的,其中每个变量的数据已按一定标准划分成1至n个等级,如果 的和为0,那么rs=1。也就是说此时两个变量的等级是等价的。rs值由+1(完全正相关)变化到-1(完全负相关),其中若rs=0意味着彼此不相关。 现有一个案例:在过去的几年间一家工业品营销公司一直从其总部附近地区的10所商科学校毕业生中招募销售人
18、员,现在想确定这十所学校的相对名气与它的毕业生表现业绩之间是否存在关联。该公司的销售经理自己对这10所学校的声誉以及各自毕业生在本公司的表现进行了分级,这些等级评定情况见表9-4的第二列以及第三列。现在问题是各学校的名气与来自于各学校学生的销售业绩之间究竟有多大的联系呢? 借助于司庇而曼相关等级系数公式,我们可知: rs的值为0.661表明两个等级排名之间至少存在一定的联系,那么这种联系在统计上显著吗?回答这个问题我们可以假定这10所学校是以商科学校总体中抽出的随机样本调查,然后检验以下检验: H0:PS=0 H1:PS0 PS为两个等级集总体相关等级系数,当n10时,以下的检验数据将是满足自
19、由度为n-2的t-值分布: 因为t2.31,所以我们拒绝H0并认为各商科学校的名气与其毕业生的工作表现存在真实的相关性。换而言之,样本中0.661的相关性不大可能由于偶然性而导致的。 值得一提的是我们是根据不同等级对之间的等级差距来计算rs的,这种作法与认为构成序数尺度的数字之间的差距是没有什么意义的观点不同,事实上,在计算rs时我们已假设两个变量同等级的差距是具有可比意义的,如果这个假设前提不成立,那么司庇而曼等级相关系数也就没什么意义了。 二)回归分析(1) 由一个或一组非随机变量来估计或预测某一个随机变量的观察值时,所建立的数学模型及所进行的统计分析,称为回归分析。如果这个模型是线性的就
20、称为线性回归分析;如果模型是曲线的就称为曲线回归分析。这种方法是处理变量间相关关系的有力工具。它不仅告诉人们怎样建立变量间的数学表达式,即经验公式,而且还利用概率统计知识进行分析讨论,判断出所建立的经验公式的有效性,从而可以进行预测式估计。这在实际中的运用是十分普遍的。线性方程是比较容易求出的,即使是曲线方程也多半会转换成线性方程进行求解。我们就从线性方程回归开始,而线性回归中最简单的就是两个变量,或者称为简单线性回归,借助第一节我们所举的“Click”公司有关销售额,电视广告以及销售代表的案例,对于销售额Y与电视广告时数X1我们可以建立模型(在散点图基础上)这是一种确定性方程,因为当、给定,
21、一旦x1的值确定时有且仅有一个Y值与其对应值。 然而在对社会现象进行调查时,不可能存在等于零的误差。考虑到这一点我们会在上述方程式上添加一个误差变量,以可能性模型来替代确定方程,即: 这正是我们第一节中所提到的方程,误差项是该模型不可缺少的一部分,它暗示着模型可能有未包含进去的变量、一种人类行为中不可预测的因素以及偏差的度量。可能性模型在给定,值情况下,Yi与Xi不是一一对应的关系;由给Xi值所能确定的只是这种情况Yi分布的平均值,而Yi真实值则围绕其上下波动。 我们最终确定的回归方程是一种确定模型,因而我们希望能找到一条“最能代表真实可能性情况的方程或者说两者偏离最小。最常见的方法是最小二乘
22、法。而该方法又以随机误差符合一定假设为前提的,这些假设条件具体如下: 参看表9-3销售额Y和每月电视广告时数X1的有关数据,可以得到: 25.3意味着电视广告时段每增长一个单位则销售额会增加25,300美元。正如前面所提到的,这是建立在40个地区的抽样调查基础上得出的对真实总体值的估算值,不同的样本多半会导出不同的样本值。而且,我们还不知道这个值是否具有统计上的显著性或者它是否是由偶然性引发的。然而,这是一个比较重要的方程因为它有助于我们决定广告费用的回报是否值得。截距参数值字=135.4;这表明当自变量为0时,该回归直线穿过y轴的距离。 二)回归分析(2) 估计标准差 对图9-7的仔细检查发
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 市场调研 中的 相关 分析 回归
限制150内