《数理统计模型.ppt》由会员分享,可在线阅读,更多相关《数理统计模型.ppt(66页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数理统计模型现在学习的是第1页,共66页主要内容n数理统计模型概述n描述性统计n推论性统计模型n统计模型中常见的错误n统计模型建立程式现在学习的是第2页,共66页第一节 数理统计模型概述一、统计分析概述一、统计分析概述统计分析通过计算研究对象的特征的样本平均值、方差,或者所占百分比,研究样本特征值与母体特征值的关系,研究变量之间的关系,特别是因果关系,从而发现被研究对象的发展规律,或者验证有关假想、结论是否成立,验证有关理论在新的时空中是否成立。进而可以针对深层原因,引出改变客观世界的策略。现在学习的是第3页,共66页二、统计的两种功能二、统计的两种功能描述与推理o描述性统计(descript
2、ive statistics)描述性统计是概括所取得数据的共有性质。o推论性统计(inferential statistics)。推论性统计帮助研究人员对数据做出判断。现在学习的是第4页,共66页三、管理研究中统计分析的功能o 统计分析的方法可以为管理研究提供一种清晰精确的形式化语言;o 统计分析是进行科学预测、探索未来的重要方法;o 统计分析技术是处理调查研究资料的必要工具。现在学习的是第5页,共66页第二节 描述性统计模型一、集中趋势分析一、集中趋势分析(一)含义:(一)含义:集中量数也称集中趋势量数,是用一个数值去代表一组数据的一般水平。常用的集中量数有平均数、中位数和众数。平均数是所有
3、测量数据的算术平均值,中位数是将测量数据按大小顺序一分为二的变量属性值,即位于排列顺序中间位置的数值,众数是测量数据中出现频率最高的数值。现在学习的是第6页,共66页例有一组数据是9位工人本月的产量:96、96、97、99、100、101、102、104、155,则:平均数为1055,中位数为100,众数为96。现在学习的是第7页,共66页(二)集中趋势分析的作用o集中量数说明某一管理现象在一定条件下,其数量的一般水平。o集中量数可以对于在不同空间的同类现象进行比较。o集中量数可以对一定管理现象在不同时间中的变化进行比较,以说明这些现象的发展趋势和规律。o集中量数可以用来分析某些管理现象之间的
4、依存关系。现在学习的是第8页,共66页二、离散趋势分析(一)含义离散趋势分析是反映测量数据的分散程度,其常用指标有:极差(range)与标准差(standard deviation)。极差是测量数据中的最大值与最小值之间的差异,由两个极端值来决定,只适用于定距与定比数据。标准差综合反映所有数据的分散程度,与平均数配套使用,适用于定距于定比数据,其计算式为:o其中,为标准差,x为样本值,X为平均数,N为样本总数。现在学习的是第9页,共66页三、频数与频率分析为直观地反映一组测量数据的分布状况,经常用频数与频率分析。频数分布描述测量值中各属性值出现的次数,频率分布则是用比率的形式来表示,各属性值除
5、以样本总数即可得到该属性值的频率。现在学习的是第10页,共66页o 频数分布也可转化为可视化的表达方式,如长条图、直方图、饼图。o在SPSS统计软件中,具体操作是:在统计菜单(statiatics)中单击摘要(summarize)、频数(frequencies),并在频数对话框中选择所要的图表(charts),即可获得这些图表 现在学习的是第11页,共66页第三节 推论性统计模型统计推断的功能从随机样本中推断总体参数特征、以统计为基础验证假设。现在学习的是第12页,共66页一、双变量的回归分析与相关分析o4.4.1 回归分析模型收入X居民储蓄量Y现在学习的是第13页,共66页(一)回归模型XY
6、现在学习的是第14页,共66页1、回归模型的概念o强的正相关强的正相关o弱的正相关弱的正相关中间程度的正相关中间程度的正相关o|r|=0.936o|r|=0.560o|r|=0.3390oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo强的负相关强的负相关o弱的负相关弱的负相关中间程度的负相关中间程度的负相关oooooooooooooooooooooooooooooooooooooooooooooo
7、oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo现在学习的是第15页,共66页n确立确立X X与与Y Y的关联性的关联性回归回归寻找寻找“Y”与与“X”关系的方法关系的方法什么是回归?什么是回归?描述“Y”与“X”关系的数学方法 创建过程的“模型”。回归分析回归分析o 相关是告诉关系的程度相关是告诉关系的程度,回归分析是找出回归分析是找出Y=F(X)Y=F(X)的函数关系式的函数关系式 现在学习的是第16页,共66页单纯线性回归单纯线性回归回归分析的阶段回归分析的阶段D Da a
8、t ta a 收收集集用用散散点点图图确确认认关关系系用用最最小小二二乘乘法法推推断断总总体体进进行行方方差差分分析析画画直直线线(L Li in ne e F Fi it tt ti in ng g)分分析析残残差差此章的因子为一个此章的因子为一个,因子和输出值因子和输出值(Y)(Y)的关系的关系为直线关系的单纯线性回归为直线关系的单纯线性回归(Simple Linear Simple Linear Regression)Regression)现在学习的是第17页,共66页通过样本推测的直线未知的真实直线oYi=+xi+i (i=1,.,n)oi 是相互独立的o遵守N(0,2)的概率变量单纯
9、线性回归模型iei(xi,yi)xy在这里,i iid N(0,2)Model o定义 一个独立变量(x)与 一个从属变量(Y)间的关系方程式化后显示的方法现在学习的是第18页,共66页o将误差平方和最小化的推断方法,找出将残差平方最小化的直线.oooooooooooooooooooo420o410o400o390o380o370o360o350o340o330o320o 350 400 450 o独立变量独立变量o从属变量最小平方和的单纯回归最小平方和的单纯回归单纯回归直线单纯回归直线与回归直线的与回归直线的差异差异(误差误差)直线是以直线是以“最小平方和推断法最小平方和推断法(least
10、square estimation)least square estimation)”的的原则画出的原则画出的.从资料的点到直线从资料的点到直线的距离的平方和最小化的距离的平方和最小化.现在学习的是第19页,共66页e eb bScatter Plot Y vs.X with Fitted LineScatter Plot Y vs.X with Fitted LineY=a+bXY=a+bXo直线的方程式是直线的方程式是 Y=a+bXY=a+bXo a a是是 常数常数,b,b是斜率是斜率.o “拟合线拟合线”是包括实际点和直线的平是包括实际点和直线的平 方差的和最小化后形成的直线方差的和最
11、小化后形成的直线.o 实际资料的点和直线的差异称为实际资料的点和直线的差异称为 残差残差(residuals(e).residuals(e).拟合线拟合线,回归方程式构造回归方程式构造现在学习的是第20页,共66页1.回归模型 的参数确定o y=a+bxo由历史数据得一组x、y值,可求出参数a、b o由最小二乘法得:现在学习的是第21页,共66页例o某企业年投入资本(十万元)x与销售量(万台)y的历史数据如下:yx101.920.912.440.46.451.27.060.37.078现在学习的是第22页,共66页例yxx2xy101.93.61020.912.4153.711.140.46.
12、440.962.5651.27.0498.460.37.0492.12.834.7296.3324.2平均0.566.9459.264.843.88648.16现在学习的是第23页,共66页计算结果o某企业年投入资本(十万元)x与销售量(万台)y的历史数据如下:现在学习的是第24页,共66页2、用软件进行回归分析的运算o (1)一元回归模型的软件运算o a.图象分析o b.回归运算现在学习的是第25页,共66页二、二元回归模型的软件运算o 运算步骤现在学习的是第26页,共66页1、统计值的说明o各统计值在计算机参数输出中的位置:mnmn-1m2m1bSenSen-1Se2Se1Sebr2Sey
13、FdfSSregSSresid现在学习的是第27页,共66页1、统计值说明o(1)解释变量、被解释变量:o y=m1x1+m2x2+bo(2)系数o m1,m2,.,mno系数是解释变量对预测值的贡献解释变量被解释变量现在学习的是第28页,共66页1、统计值说明o (3)系数的标准误差值ose1,se2,.,seno系数 m1,m2,.,mn 的标准误差值。o真值在系数估值正负1的标准差区间概率是2/3oSebo常数项 b 的标准误差值现在学习的是第29页,共66页1、统计值说明o(4)判定系数r2oY 的估计值与实际值之比o范围在 0 到 1 之间。如果为 1,则样本有很好的相关性,Y 的估
14、计值与实际值之间没有差别。而在另一方面,如果判定系数为 0,则回归方程不能用来预测 Y 值。现在学习的是第30页,共66页1、统计值说明o(5)Y 估计值的标准误差seyo真值在Y估值正负1的标准差区间概率是2/3o(6)F 统计值或 F 观察值Fo使用 F 统计可以判断因变量和自变量之间是否偶尔发生过观察到的关系。o(7)置信度dfo用于在统计表上查找 F 临界值。所查得的值和函数 LINEST 返回的F统计值的比值可用来判断模型的置信度。现在学习的是第31页,共66页1、统计值说明o(8)回归平方和ssrego(9)残差平方和ssresid现在学习的是第32页,共66页作业4o某企业的资金
15、投入X与销售收入Y如下表:试用一元回归方法求出回归线,说明两者的相关关系并对X=57万元企业销售额进行预测。X(万元)Y(万元)110130218180323200435250542310现在学习的是第33页,共66页例2o 某市国内生产总值y与固定资产投入X1、劳动力投入X2的历史数据如下表,试用线性回归方法确定其参数值。序号yX1X2153911264191438221154923417512043196160562071807229现在学习的是第34页,共66页例2o-2.08797o2.651822o48.34758oY=2.65X1-2.09X2+48.35o预测:x1=82,X2=
16、35 y=?oY=192.71现在学习的是第35页,共66页作业o2000年某企业产品销售量Y与企业销售投入量X1、销售点增加量X2历史数据如下表,试用回归方法求其参数值。说明两者的相关关系并对(X1=140,X2=41)的Y值进行预测。现在学习的是第36页,共66页作业序号YX1X2142205262237383509480701259977156120891871609920819011030923012031现在学习的是第37页,共66页三、参数估计(一)含义参数估计是从样本的统计值来估计总体的参数值,其逻辑程序是先有样本分布,再推测总体。当样本对总体参数进行估计时,有两种估计方法:点估
17、计(poim estimation)与区间估计(interval estimation)。1、点估计点估计是将样本中某统计量的值作为相应总体参数值的单一估计。现在学习的是第38页,共66页例:想了解某种新产品在各省会城市的销售量,我们可抽去一些省会城市调查其销售量,然后求其平均值,即为平均销售量估计。当然,如果另外抽取几个城市,就会发现其平均销售量不完全一致,这说明点估计值本身就是一个随机变量。现在学习的是第39页,共66页2、区间估计区间估计不是采用通常度量准确性的方法,如允许估计值与真实值有百分之几的误差,而要判断真实值有多大可能落在样本统计值分布的某一范围、(置馈区间)之内。这一范围越大
18、,估计值的准确性就越低。统计值落在允许偏差的范围的概率越大,故计值的可靠性就越高。一般来说,在管理研究中,置信水平选择95或99,即O95或099的概率,真实值落在偏差范围之内,允许不超过005或O01的概率超出此范围。现在学习的是第40页,共66页四、假设检验(一)含义假设检验是先对总体参数作出假设,然后从样本统计值去检验它是否与假设参数值一致。现在学习的是第41页,共66页(二)假设检验中两类错误o在假设检验中存在两类错误:样本是随机抽取的,但也有意外,例如样本没有反映典型特征。当我们错误地将偶然发生的事件当作非偶然发生的,进而错误地将虚无假设否定,则就犯了第一类错误;o如果将原本错误的事
19、件认为是正确的,没有否定本该否定的虚无假设,则就犯了第二类错误。现在学习的是第42页,共66页(三)t检验o(t-test)是检验定距或定类变量的相关性,即在定距或定类尺度上,两群体之间是否存在差异。现在学习的是第43页,共66页例:有MBA资格的人员是否比企业管理专业的本科毕业生表现要好?男性与女性对激励的反映是否相同?此类问题可通过t检验来分析研究变量中不同群体的平均数是否有显著差异,亦即针对具有两个子类别的定类变量(男性与女性、MBA与本科生)进行检验,看这两个群体在定距或定比尺度上(反映程度、表现程度等)的平均数是否存在显著差异。现在学习的是第44页,共66页T检验方法选择分析平均值比
20、较独立样本t检验选择分组变量选择置信水平选择置信水平输出结果现在学习的是第45页,共66页(四)方差分析1、含义:方差分析(ANOVA)是检验因变量是定距或定比尺度时,两个以上群体之间的平均的显著差异。现在学习的是第46页,共66页例:4组促销人员之间是否存在显著差异:一组被送到学校系统学习营销课程;一组通过实地考察在职训练,一组由经验丰富的销售经理进行指导,一组没有接受上述训练。利用方差分析来确定不同群体之间是否存在显著差异可通过F统计量获得。现在学习的是第47页,共66页2、具体方法选择分析平均值比较单因素方差分析选择两变量输出结果现在学习的是第48页,共66页(五)2检验1、含义2检验(
21、chi:square test)是用于检验两个定类变量发生频次之间是否存在差异 现在学习的是第49页,共66页例:在超市随机选择90位顾客征求他们对三种饮料的偏好,如果40位选择甲,30位选择乙,20位选择丙,即观测频次为(40,30,20),如果虚无假设(三种饮料的顾客偏好不存在差异)成立,其期望频次应为(30,30,30),x检验就是要判断观测频次(40,30,20)与期望频次(30,30,30)之间的差异是否显著。现在学习的是第50页,共66页2、方法选择分析描述统计建立交叉表统计选择2输出结果现在学习的是第51页,共66页第四节 统计分析中的常见错误一、样本平均值当作母体平均值对待 样
22、本平均值当作母体平均值对待,不做显著性检验,是常见错误之一现在学习的是第52页,共66页例:在营销研究中针对某产品设计了两种邮购广告,分别用随机抽样的方法对居民邮寄广告,甲广告寄出200份,有44位居民订购了相应的产品,乙广告寄出400,有1oo位居民订购了该产品。此时很容易算出,甲广告的订购率为22,己广告的订购率是25。我们是否可以依此就得出结论:乙广告设计比甲广告设计的好(乙广告的订购率高于甲广告)?o 常见的错误就是直接依据两组样本的比例值(甲广告的订购率为22,乙广告的订购率是25)来做结论,认为乙广告优于甲广告(乙广告的订购率高于甲厂告)。现在学习的是第53页,共66页结论:事实上
23、,乙广告未必优于甲广告,因为两个比例值是分别基于200个样本和400个样本得出的。如果继续扩大样本容量,甲乙两个广告的订购率就可能发生变化。我们要做的事情,就是依据这两组样本数据(甲组200个,乙组400个)来推断甲乙两种广告设计的优劣。这是显著性的检验的问题。显著性检验的结果是,不能认为两者具有显著性差异。现在学习的是第54页,共66页二、做相关分析时不做显著性检验 做相关分析时不做显著性检验,用简单相关分析替代偏相关分析,是又一常见错误。o偏相关表示在消除其他变量的影响之后,自变量与因变量之间的关联程度。现在学习的是第55页,共66页例:分析工人的劳动生产率与文化水平之间的关联时,要受到年
24、龄因素的影响。偏相关分析首先用一元回归分析年龄与文化水平之间的关系,回归方程的残差(多项说明不能由文化水平来解释年龄的偏差;然后求劳动生产率与年龄之间的回归方程及残差,反映不能由年龄来解释劳动生产率的偏差;最后第三个回归方程来分析第一、第二个回归方程残差之间的关联,它表示消除年龄对其他两个变量的影响后文化水平与劳动生产率之间的关联,由此算出相关系数即为偏相关系数。同样,偏相关系数的计算公式无需记忆,多数统计软件都可以输出该系数值。现在学习的是第56页,共66页结论:偏相关系数与简单相关系数在意义上是不同的,简单相关系数将其他因素作为剩余因素,任其变化而忽略不计。偏相关系数是在其他变量的关系保持
25、不变的情况下,分析与另一变量之间的关系。值得注意的是,偏相关系数可以表示两变量之间的关联强度,但不能反映二者之间变化的定量关系 现在学习的是第57页,共66页三、在获得数据之后,没有能力与知识运用恰当的统计方法,引出科学的结论(一)引出科学结论的基本方法:(1)对对象系所处状况的统计,如收入的均值、方差,各种态度的百分比,某个特征量的分布等;(2)两组人群的某特征量的均值的比较,检验有无显著性差异,如培训前后业务水平、两种激励政策的效果差异、两种管理方法的效果有无显著差异。进一步检验两个随机变量构分布是否相同。现在学习的是第58页,共66页 o(3)方差分析,用以解决多组的平均值有无显著性差异,找出哪些因素有交叉作用;还可以从多个因素中(每个因素有多个水平),找出对效果有显著作用的因素,俗称找出关键原因。现在学习的是第59页,共66页(4)相关研究用于研究变量之间是否存在相关关系,包括简单相关关系、等级相关关系、品质相关关系(如抽烟与癌症的相关关系、包装偏爱与文化程度的相关关系等),及偏相关关系(即两个变量之间的“纯”相关关系)。现在学习的是第60页,共66页 现在学习的是第61页,共66页 现在学习的是第62页,共66页 现在学习的是第63页,共66页 现在学习的是第64页,共66页 现在学习的是第65页,共66页 现在学习的是第66页,共66页
限制150内