统计模型学习.pptx
《统计模型学习.pptx》由会员分享,可在线阅读,更多相关《统计模型学习.pptx(101页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、主要内容主要内容数理统计模型概述数理统计模型概述描述性统计描述性统计推论性统计模型推论性统计模型统计模型中常见的错误统计模型中常见的错误统计模型建立程式统计模型建立程式举例举例第1页/共101页第一节第一节 数理统计模型概述数理统计模型概述一、统计分析概述一、统计分析概述 统计分析通过计算研究对象的特征的样本平均值、方差,或者所占百分比,研究样本特征值与母体特征值的关系,研究变量之间的关系,特别是因果关系,从而发现被研究对象的发展规律,或者验证有关假想、结论是否成立,验证有关理论在新的时空中是否成立。进而可以针对深层原因,引出改变客观世界的策略。第2页/共101页二、统计的两种功能二、统计的两
2、种功能描述与推理描述与推理描述性统计(descriptive statistics)描述性统计是概括所取得数据的共有性质。推论性统计(inferential statistics)。推论性统计帮助研究人员对数据做出判断。第3页/共101页三、管理研究中统计分析的功能三、管理研究中统计分析的功能统计分析的方法可以为管理研究提供一种清晰精确的形式化语言;统计分析是进行科学预测、探索未来的重要方法;统计分析技术是处理调查研究资料的必要工具。第4页/共101页第二节第二节 描述性统计模型描述性统计模型一、集中趋势分析一、集中趋势分析(一)含义:(一)含义:集中量数也称集中趋势量数,是用一个数值去代表一
3、组数据的一般水平。常用的集中量数有平均数、中位数和众数平均数、中位数和众数。平均数平均数是所有测量数据的算术平均值,中位数中位数是将测量数据按大小顺序一分为二的变量属性值,即位于排列顺序中间位置的数值,众数众数是测量数据中出现频率最高的数值。第5页/共101页例有一组数据是9位工人本月的产量:96、96、97、99、100、101、102、104、155。则:平均数为1055,中位数为100,众数为96。第6页/共101页(二)集中趋势分析的作用(二)集中趋势分析的作用集中量数说明某一管理现象在一定条件下,其数量的一般水平。集中量数可以对于在不同空间的同类现象进行比较。集中量数可以对一定管理现
4、象在不同时间中的变化进行比较,以说明这些现象的发展趋势和规律。集中量数可以用来分析某些管理现象之间的依存关系。第7页/共101页二、离散趋势分析二、离散趋势分析(一)含义 离散趋势分析是反映测量数据的分散程度,其常用指标有:极差(range)与标准差(standard deviation)。极差是测量数据中的最大值与最小值之间的差异,由两个极端值来决定,只适用于定距与定比数据。标准差综合反映所有数据的分散程度,与平均数配套使用,适用于定距于定比数据,其计算式为:其中,为标准差 ,x为样本值,X为平均数,N为样本总数。第8页/共101页三、三、频数与频率分析频数与频率分析 为直观地反映一组测量数
5、据的分布状况,经常用频数与频率分析。频数分布描述测量值中各属性值出现的次数,频率分布则是用比率的形式来表示,各属性值除以样本总数即可得到该属性值的频率。第9页/共101页频数分布也可转化为可视化的表达方式,如长条图、直方图、饼图。在SPSS统计软件中,具体操作是:在统计菜单(statiatics)中单击摘要(summarize)、频数(frequencies),并在频数对话框中选择所要的图表(charts),即可获得这些图表。第10页/共101页第三节第三节 推论性统计模型推论性统计模型统计推断的功能统计推断的功能 从随机样本中推断总体参数特征、以统计为基础验证假设。第11页/共101页一、双
6、变量的回归分析与相关分析回归分析模型收入X居民储蓄量Y第12页/共101页(一)回归模型(一)回归模型XY第13页/共101页1、回归模型的概念 强的正相关强的正相关 弱的正相关弱的正相关中间程度的正相关中间程度的正相关|r|=0.936|r|=0.560|r|=0.3390 强的负相关强的负相关 弱的负相关弱的负相关中间程度的负相关中间程度的负相关 第14页/共101页确立X X与Y Y的关联性回归回归寻找寻找“Y”“Y”与与“X”“X”关系的方法关系的方法什么是回归?什么是回归?描述“Y”与“X”关系的数学方法 创建过程的“模型”。回归分析 相关是告诉关系的程度相关是告诉关系的程度,回归分
7、析是找出回归分析是找出Y=F(X)Y=F(X)的函数关系式的函数关系式 第15页/共101页单纯线性回归单纯线性回归回归分析的阶段回归分析的阶段此章的因子为一个此章的因子为一个,因子和输出值因子和输出值(Y)(Y)的关系为直线关系的单纯线性回归的关系为直线关系的单纯线性回归(Simple Simple LinearLinear Regression)Regression)Data Data 收集收集用散点图确认关系用散点图确认关系用最小二乘法用最小二乘法推断总体推断总体进行方差分析进行方差分析画直线画直线(Line Fitting)Line Fitting)分析残差分析残差第16页/共101页
8、通过样本推测的直线未知的真实直线 Yi=+xi+i (i=1,.,n)i 是相互独立的 遵守N(0,2)的概率变量单纯线性回归模型iei(xi,yi)xy在这里,i iid N(0,2)Model 定义 一个独立变量(x)与 一个从属变量(Y)间的关系方程式化后显示的方法第17页/共101页将误差平方和最小化的推断方法,找出将残差平方最小化的直线.420 410 400 390 380 370 360 350 340 330 320 350 400 450 独立变量独立变量 从属变量最小平方和的单纯回归最小平方和的单纯回归单纯回归直线单纯回归直线与回归直线的与回归直线的差异差异直线是以直线是以
9、“最小平方和推断法最小平方和推断法(least square estimation)least square estimation)”的的原则画出的原则画出的.从资料的点到直线从资料的点到直线的距离的平方和最小化的距离的平方和最小化.第18页/共101页e eb bScatter Plot Y vs.X with Fitted LineY=a+bX直线的方程式是直线的方程式是 Y=a+bXY=a+bX a a是是 常数常数,b,b是斜率是斜率.“拟合线拟合线”是包括实际点和直线的平是包括实际点和直线的平 方差的和最小化后形成的直线方差的和最小化后形成的直线.实际资料的点和直线的差异称为实际资料
10、的点和直线的差异称为 残差残差(residuals(e).residuals(e).拟合线拟合线,回归方程式构造回归方程式构造第19页/共101页1.1.回归模型回归模型 的参数确定的参数确定y=a+bx由历史数据得一组x、y值,可求出参数a、b 由最小二乘法得:第20页/共101页例某企业年投入资本(十万元)x与销售量(万台)y的历史数据如下:yx101.920.912.440.46.451.27.060.37.078第21页/共101页例yxx2xy101.93.61020.912.4153.711.140.46.440.962.5651.27.0498.460.37.0492.12.83
11、4.7296.33 24.2平均0.56 6.9459.264.843.886 48.16第22页/共101页计算结果计算结果某企业年投入资本(十万元)x与销售量(万台)y的历史数据如下:第23页/共101页2、用软件进行回归分析的运算(1)一元回归模型的软件运算 a.图象分析 b.回归运算第24页/共101页二、二元回归模型的软件运算二、二元回归模型的软件运算 运算步骤第25页/共101页1、统计值说明、统计值说明各统计值在计算机参数输出中的位置:mnmn-1m2m1bSenSen-1Se2Se1Sebr2SeyFdfSSregSSresid第26页/共101页1、统计值说明、统计值说明(1
12、)解释变量、被解释变量:y=m1x1+m2x2+b(2)系数 m1,m2,.,mn 系数是解释变量对预测值的贡献解释变量被解释变量第27页/共101页1、统计值说明、统计值说明(3)系数的标准误差值 Se1,Se2,.,Sen 系数 m1,m2,.,mn 的标准误差值。sqrt()/()/sqrt(x)2)其中,为自变量,为因变量观测值,为线形拟合值,平均值计为x真值在系数估值正负1倍的标准差区间概率是2/3 Seb 常数项 b 的标准误差值第28页/共101页1、统计值说明、统计值说明(4)判定系数r2 Y 的估计值与实际值之比 范围在 0 到 1 之间。如果为 1,则样本有很好的相关性,Y
13、 的估计值与实际值之间没有差别。而在另一方面,如果判定系数为 0,则回归方程不能用来预测 Y 值。第29页/共101页1、统计值说明、统计值说明(5)Y 估计值的标准误差Sey 真值在Y估值正负1的标准差区间概率是2/3(6)F 统计值或 F 观察值F 使用 F 统计可以判断因变量和自变量之间是否偶尔发生过观察到的关系。(7)置信度df 用于在统计表上查找 F 临界值。所查得的值和函数 LINEST 返回的F统计值的比值可用来判断模型的置信度。第30页/共101页1、统计值说明、统计值说明(8)回归平方和SSreg(9)残差平方和SSresid第31页/共101页作业作业4某企业的资金投入X与
14、销售收入Y如下表:试用一元回归方法求出回归线,说明两者的相关关系并对X=57万元企业销售额进行预测。X(万元)Y(万元)110130218180323200435250542310第32页/共101页例例2 某市国内生产总值y与固定资产投入X1、劳动力投入X2的历史数据如下表,试用线性回归方法确定其参数值。序号yX1X2153911264191438221154923417512043196160562071807229第33页/共101页例例2-2.087972.65182248.34758Y=2.65X1-2.09X2+48.35预测:x1=82,X2=35 y=?Y=192.71第34页
15、/共101页作业2000年某企业产品销售量Y与企业销售投入量X1、销售点增加量X2历史数据如下表,试用回归方法求其参数值。说明两者的相关关系并对(X1=140,X2=41)的Y值进行预测。第35页/共101页作业作业序号YX1X2142205262237383509480701259977156120891871609920819011030923012031第36页/共101页三、参数估计(一)含义 参数估计是从样本的统计值来估计总体的参数值,其逻辑程序是先有样本分布,再推测总体。当样本对总体参数进行估计时,有两种估计方法:点估计(poim estimation)与区间估计(interval
16、 estimation)。1、点估计 点估计是将样本中某统计量的值作为相应总体参数值的单一估计。第37页/共101页例:想了解某种新产品在各省会城市的销售量,我们可抽去一些省会城市调查其销售量,然后求其平均值,即为平均销售量估计。当然,如果另外抽取几个城市,就会发现其平均销售量不完全一致,这说明点估计值本身就是一个随机变量。第38页/共101页2、区间估计 区间估计不是采用通常度量准确性的方法,如允许估计值与真实值有百分之几的误差,而要判断真实值有多大可能落在样本统计值分布的某一范围、(置馈区间)之内。这一范围越大,估计值的准确性就越低。统计值落在允许偏差的范围的概率越大,故计值的可靠性就越高
17、。一般来说,在管理研究中,置信水平选择95或99,即O95或099的概率,真实值落在偏差范围之内,允许不超过005或O01的概率超出此范围。第39页/共101页四、假设检验(一)含义 假设检验是先对总体参数作出假设,然后从样本统计值去检验它是否与假设参数值一致。第40页/共101页(二)假设检验中两类错误(二)假设检验中两类错误在假设检验中存在两类错误:样本是随机抽取的,但也有意外,例如样本没有反映典型特征。当我们错误地将偶然发生的事件当作非偶然发生的,进而错误地将虚无假设否定,则就犯了第一类错误;如果将原本错误的事件认为是正确的,没有否定本该否定的虚无假设,则就犯了第二类错误。第41页/共1
18、01页(三)(三)t t检验检验(t-test)是检验定距或定类变量的相关性,即在定距或定类尺度上,两群体之间是否存在差异。T检验是未知正态总体 X 的方差 ,对数学期望作假设检验;检验是未知正态总体X的数学期望,对方差 作假设检验。第42页/共101页例:有MBA资格的人员是否比企业管理专业的本科毕业生表现要好?男性与女性对激励的反映是否相同?此类问题可通过t检验来分析研究变量中不同群体的平均数是否有显著差异,亦即针对具有两个子类别的定类变量(男性与女性、MBA与本科生)进行检验,看这两个群体在定距或定比尺度上(反映程度、表现程度等)的平均数是否存在显著差异。第43页/共101页T检验方法选
19、择分析平均值比较独立样本t检验选择分组变量选择置信水平选择置信水平输出结果第44页/共101页(四)方差分析1、含义:方差分析(ANOVA)是检验因变量是定距或定比尺度时,两个以上群体之间的平均的显著差异。第45页/共101页例:4组促销人员之间是否存在显著差异:一组被送到学校系统学习营销课程;一组通过实地考察在职训练,一组由经验丰富的销售经理进行指导,一组没有接受上述训练。利用方差分析来确定不同群体之间是否存在显著差异可通过F统计量获得。第46页/共101页2 2、具体方法、具体方法选择分析平均值比较单因素方差分析选择两变量输出结果第47页/共101页(五)(五)2 2检验检验1、含义 2检
20、验(chi:square test)是用于检验两个定类变量发生频次之间是否存在差异。第48页/共101页例:在超市随机选择90位顾客征求他们对三种饮料的偏好,如果40位选择甲,30位选择乙,20位选择丙,即观测频次为(40,30,20),如果虚无假设(三种饮料的顾客偏好不存在差异)成立,其期望频次应为(30,30,30),x检验就是要判断观测频次(40,30,20)与期望频次(30,30,30)之间的差异是否显著。第49页/共101页2 2、方法、方法选择分析描述统计建立交叉表统计选择2输出结果第50页/共101页第四节第四节 统计分析中的常见错误统计分析中的常见错误一、样本平均值当作母体平均
21、值对待 样本平均值当作母体平均值对待,不做显著性检验,是常见错误之一第51页/共101页例:在营销研究中针对某产品设计了两种邮购广告,分别用随机抽样的方法对居民邮寄广告,甲广告寄出200份,有44位居民订购了相应的产品,乙广告寄出400,有1oo位居民订购了该产品。此时很容易算出,甲广告的订购率为22,己广告的订购率是25。我们是否可以依此就得出结论:乙广告设计比甲广告设计的好(乙广告的订购率高于甲广告)?常见的错误就是直接依据两组样本的比例值常见的错误就是直接依据两组样本的比例值(甲广告的订购率为甲广告的订购率为2222,乙广告的订购率是,乙广告的订购率是2525)来做结论,认为乙广告优于甲
22、广告来做结论,认为乙广告优于甲广告(乙广告的乙广告的订购率高于甲厂告订购率高于甲厂告)。第52页/共101页结论:事实上,乙广告未必优于甲广告,因为两个比例值是分别基于200个样本和400个样本得出的。如果继续扩大样本容量,甲乙两个广告的订购率就可能发生变化。我们要做的事情,就是依据这两组样本数据(甲组200个,乙组400个)来推断甲乙两种广告设计的优劣。这是显著性的检验的问题。显著性检验的结果是,不能认为两者具有显著性差异。第53页/共101页二、做相关分析时不做显著性检验二、做相关分析时不做显著性检验 做相关分析时不做显著性检验,用简单相关分析替代偏相关分析,是又一常见错误。偏相关表示在消
23、除其他变量的影响之后,自变量与因变量之间的关联程度。第54页/共101页例:分析工人的劳动生产率与文化水平之间的关联时,要受到年龄因素的影响。偏相关分析首先用一元回归分析年龄与文化水平之间的关系,回归方程的残差(多项说明不能由文化水平来解释年龄的偏差;然后求劳动生产率与年龄之间的回归方程及残差,反映不能由年龄来解释劳动生产率的偏差;最后第三个回归方程来分析第一、第二个回归方程残差之间的关联,它表示消除年龄对其他两个变量的影响后文化水平与劳动生产率之间的关联,由此算出相关系数即为偏相关系数。同样,偏相关系数的计算公式无需记忆,多数统计软件都可以输出该系数值。第55页/共101页结论:偏相关系数与
24、简单相关系数在意义上是不同的,简单相关系数将其他因素作为剩余因素,任其变化而忽略不计。偏相关系数是在其他变量的关系保持不变的情况下,分析与另一变量之间的关系。值得注意的是,偏相关系数可以表示两变量之间的关联强度,但不能反映二者之间变化的定量关系 第56页/共101页三、在获得数据之后,没有能力与知识、运用恰三、在获得数据之后,没有能力与知识、运用恰当的统计方法,引出科学的结论当的统计方法,引出科学的结论 (一)引出科学结论的基本方法:(1)对对象系所处状况的统计,如收入的均值、方差,各种态度的百分比,某个特征量的分布等;(2)两组人群的某特征量的均值的比较,检验有无显著性差异,如培训前后业务水
25、平、两种激励政策的效果差异、两种管理方法的效果有无显著差异。进一步检验两个随机变量构分布是否相同。第57页/共101页 (3)方差分析,用以解决多组的平均值有无显著性差异,找出哪些因素有交叉作用;还可以从多个因素中(每个因素有多个水平),找出对效果有显著作用的因素,俗称找出关键原因。(4)相关研究 用于研究变量之间是否存在相关关系,包括简单相关关系、等级相关关系、品质相关关系(如抽烟与癌症的相关关系、包装偏爱与文化程度的相关关系等),及偏相关关系(即两个变量之间的“纯”相关关系)。第58页/共101页回归模型是用统计分析方法建立的最常用的一类模型 数学建模的基本方法数学建模的基本方法机理分析机
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 模型 学习
限制150内