第五讲统计学基本概念与方法.ppt
第五讲统计学基本概念与方法现在学习的是第1页,共67页2.参数参数估估计1.预备知知识3.假假设检验4.方差方差分析分析5.回回归分析分析现在学习的是第2页,共67页 统计学学(Statistics)是一是一门收集与分析数据,收集与分析数据,并且根据数据并且根据数据进行推断的行推断的艺术与科学。与科学。大英百科全大英百科全书 (数理数理)统计学中的数据都是随机数据。学中的数据都是随机数据。统计学的任学的任务就是在随机性中去就是在随机性中去寻找找规律。律。统计学理学理论主要包含三个部分:主要包含三个部分:1.数据收集,数据收集,2.数据分析,数据分析,3.由数据做出决策。由数据做出决策。现在学习的是第3页,共67页(一一).统计学的基本概念学的基本概念 统计学中把所研究的学中把所研究的对象全体称象全体称为总体,体,总体中体中的每一个元素称的每一个元素称为一个个体。一个个体。总体与个体都用数量指体与个体都用数量指标来表示来表示1.总体与个体体与个体(population)即使面即使面临的是一个定性的的是一个定性的实际问题,也必也必须把有关的把有关的资料定量化。料定量化。一一.预备知知识现在学习的是第4页,共67页 但同但同时在直在直观上又上又认为、或者希望做到:、或者希望做到:抽取出的每个个体抽取出的每个个体(样本本)都充分都充分蕴涵涵总体信息。体信息。从从总体中取出一个个体,称体中取出一个个体,称为从从总体体中得到一个中得到一个样本。本。2.样本本(sample)统计学的目的就是从学的目的就是从样本去得出本去得出总体的信息。体的信息。由于各种原因与由于各种原因与实际条件的限制,不可能条件的限制,不可能得到一个得到一个总体中所有个体的数据。即体中所有个体的数据。即样本本总是是总体的一小部分。体的一小部分。现在学习的是第5页,共67页被研究的被研究的对象全体象全体具有代表性的具有代表性的 部分个体部分个体总体体样本本.现在学习的是第6页,共67页 独立同分布的独立同分布的样本称本称为简单随机随机样本。本。总体被体被认为是一个服从某种概率分布是一个服从某种概率分布 F 的随机的随机变量。量。样本是和本是和总体随机体随机变量有相同分布量有相同分布 F 的随机的随机变量,量,样本的个数称本的个数称为样本容量,本容量,n。总体分布体分布 F 可以是未知的,可以是未知的,非参数非参数统计学学 总体分布体分布 F 的的类型已知,但是含有型已知,但是含有一些未知的参数。一些未知的参数。参数估参数估计 现在学习的是第7页,共67页(二二).数理数理统计学的主要内容学的主要内容 1.抽抽样理理论:介介绍如何收集数据。主要如何收集数据。主要 抽抽样方法,方法,样本容量的确定,抽本容量的确定,抽样误差,差,敏感敏感问题等等2.参数估参数估计:如何根据数据得到如何根据数据得到总体参数体参数 信息。点估信息。点估计、区、区间估估计,Bayes 估估计等等3.假假设检验:如何如何对关于关于总体的一些假体的一些假设 做出决策。正做出决策。正态总体参数的体参数的检验,分布,分布拟合合 检验,秩,秩检验,列,列联表,表,统计决策等理决策等理论现在学习的是第8页,共67页4.方差分析与回方差分析与回归分析分析:变量之量之间的效的效应 关系。关系。方差分析方差分析 分分类变量与数量与数值变量的效量的效应关系关系 回回归分析分析 研究数研究数值变量之量之间的效的效应关系关系5.多元分析多元分析:研究若干个研究若干个变量之量之间的关系的关系 聚聚类分析、判分析、判别分析、主成分分析、分析、主成分分析、因子分析、典型相关分析等等因子分析、典型相关分析等等现在学习的是第9页,共67页例例1.1 希望了解某所高校学生月消希望了解某所高校学生月消费情况。情况。解决方法:从解决方法:从这所大学里所大学里随机地随机地调查有代表性的有代表性的一些一些学生,根据收集到的数据去得出学生,根据收集到的数据去得出这所大学学生每个月支所大学学生每个月支出出费用的有关信息。用的有关信息。1.如何得到如何得到样本本?不同家庭背景学生的比例不同家庭背景学生的比例应该各占多少?各占多少?样本容量本容量应该取多少才合适?被取多少才合适?被调查者拒者拒绝调查怎怎么么办?抽样调查抽样调查现在学习的是第10页,共67页2.如何确定如何确定总体的分布体的分布?这里的里的总体是体是这所大学的学生月支出所大学的学生月支出费用,我用,我们不妨不妨认为学生月支出学生月支出费用用是一个服从正是一个服从正态分布分布的随机的随机变量。量。根据根据经验或者是所或者是所讨论的的问题的的实际背景,背景,总体的分布体的分布类型一般可以事先确定下来。型一般可以事先确定下来。(不同学校不同学校对应的的这两个参数也就不相同两个参数也就不相同)即,即,总体随机体随机变量量 X N(,2),而,而这个个学学校相校相应的两个参数的两个参数 与与 2 是未知的。是未知的。现在学习的是第11页,共67页Remark 当不知道或者当不知道或者难以确定以确定总体的分布体的分布类型型时,在,在统计学中学中常常采用下面两种常常采用下面两种办法来近似得到法来近似得到总体分布的有关信息。体分布的有关信息。(1).直方直方图的方法的方法只适用只适用连续总体,得到的是体,得到的是总体密度函数近似。体密度函数近似。把收集到的把收集到的 n 个数据个数据 x1,x2,xn 从小到大排列:从小到大排列:x(1)x(2)x(n);其次取;其次取区区间(a,b),包含全部数据,包含全部数据 a x(1),x(n)b;现在学习的是第12页,共67页把把 (a,b)等分成等分成若干小区若干小区间,计算算每个小区每个小区间中包含中包含的数据的的数据的频率。率。x(1)x(n)根据根据这些些频率做出相率做出相应的小区的小区间上的矩形,上的矩形,则当当 n 充分大充分大时,这些小区些小区间上矩形的面上矩形的面积将近似于将近似于总体的体的概率密度函数下曲概率密度函数下曲边梯形的面梯形的面积。现在学习的是第13页,共67页(2).经验分布函数的方法分布函数的方法 构造一个分布函数,得到的是构造一个分布函数,得到的是总体体分布函数分布函数 F(x)的近似。的近似。Fn(x)=0,x x(1),x(k)x x(k+1)1,x x(n)这个函数个函数实际上是上是观察察值 x1,xn中中小于小于 x 的的频率,即率,即 Fn(x)=x1,xn中小于中小于 x 的个数的个数/n k n现在学习的是第14页,共67页Oxyx(1)x(2)x(3)1/n2/n 可以可以证明,明,经验分布函数分布函数 Fn(x)将依概率、将依概率、甚至是几乎甚至是几乎处处收收敛到到 F(x)。现在学习的是第15页,共67页3.如何从如何从样本得出本得出总体的信息体的信息?样本是一本是一组与与总体独立、同分布的随机体独立、同分布的随机变量,我量,我们得到的数据是得到的数据是样本本观察察值,而不是,而不是样本。本。调查一个学生得到了一个数据,相当于一个学生得到了一个数据,相当于对总体体分布做了一次随机分布做了一次随机试验而而观察到了察到了这个随机个随机变量的量的具体取具体取值。一共有一共有 n 个数据,相当于个数据,相当于对总体分布做了体分布做了 n 次独立重复次独立重复试验,而得到了,而得到了这个个总体随机体随机变量量在在这些些试验中的具体取中的具体取值。现在学习的是第16页,共67页利用利用样本本观察察值去估去估计出出总体的未知参数体的未知参数直直观上可以利用上可以利用调查到的到的 n 个学生的月支出个学生的月支出 x1,x2,xn 的算的算术平均平均:去估去估计这所学校学生的平均月支出所学校学生的平均月支出费用用 。它的合理性在哪?它的合理性在哪?还有没有其它的有没有其它的办法?法?这些不同的方法各有什么些不同的方法各有什么样的的优缺点?缺点?数理数理统计学最重要的内容之一学最重要的内容之一参数估参数估计现在学习的是第17页,共67页 事先提出一个假事先提出一个假设,利用,利用样本本观察察值去去检验这个假个假设是否可以被接受是否可以被接受假假设检验 假定学校要制定相关一些政策,如假定学校要制定相关一些政策,如奖学金、学金、贷款、款、勤工勤工俭学等;或者后勤服学等;或者后勤服务、商、商业经营的价格等等。的价格等等。共同关心的一些共同关心的一些问题,比如,比如说:0?这里里 0 是一个已知的常数。是一个已知的常数。数理数理统计学最重要的内容之一学最重要的内容之一现在学习的是第18页,共67页应该如何去做如何去做这个个检验?一种想法是:既然已一种想法是:既然已经通通过参数估参数估计得到了得到了这个学校个学校学生月平均支出学生月平均支出(即即总体的参数体的参数 )的估的估计值,自然就,自然就可以用它代替假可以用它代替假设里的里的 去做去做检验:当估当估计值比比 0 大就接受大就接受这个假个假设,否,否则就拒就拒绝 但是但是这样的的风险很大:很大:样本本总是随机得到的,因此估是随机得到的,因此估计值与真与真实值之之间不可避免地存在着随机不可避免地存在着随机误差。差。传统的方法是:的方法是:给出一个区域出一个区域(拒拒绝域域),如果,如果估估计值落在落在这个区域内,就拒个区域内,就拒绝原来的假原来的假设,否,否则就接受。就接受。现在学习的是第19页,共67页 除了除了对总体参数的体参数的检验外,外,还有一些重要的有一些重要的假假设检验问题,例如:,例如:关于关于总体分布的体分布的检验 检验得到的得到的样本数据是不是来自于某本数据是不是来自于某个事先个事先给出的出的总体体独立性的独立性的检验 检验一些分一些分类变量之量之间是否是独立的,例如:是否是独立的,例如:抽烟与肺癌,睡抽烟与肺癌,睡觉打鼾与心打鼾与心脏病病分布分布拟合合检验现在学习的是第20页,共67页关于数据差异的关于数据差异的检验 主要希望了解两主要希望了解两组或多或多组数据数据间的差异究竟是的差异究竟是来自于随机性,来自于随机性,还是是总体体间的确存在差异?的确存在差异?例如:例如:小儿麻痹症、小儿麻痹症、SARS疫苗的研制,疫苗的研制,越越战期期间美国的征兵美国的征兵计划,划,以及我以及我们在科学研究、工程在科学研究、工程实践、践、社会社会调查等等得到的数据等等得到的数据现在学习的是第21页,共67页讨论数数值变量之量之间的效的效应关系关系问题比如比如说,想了解儿子身高与父,想了解儿子身高与父亲身高之身高之间的关系。的关系。在每个被在每个被调查的家庭中同的家庭中同时获得得这两个两个变量的量的观察察值,分析它,分析它们是否有某种是否有某种(函数函数)关系,关系,一元一元线性回性回归多元多元线性回性回归 例如,例如,钢的去碳量与不同的去碳量与不同矿石、融化石、融化时间、炼钢炉体炉体积等等是否有关?关系如何?等等是否有关?关系如何?数理数理统计学重要学重要应用之一用之一回回归与相关分析与相关分析现在学习的是第22页,共67页讨论分分类变量与数量与数值变量之量之间的关系的关系 比如比如说产品品质量与不同操作人量与不同操作人员之之间的关系。的关系。是否某些人生是否某些人生产出的出的产品品质量偏高?如果偏高,量偏高?如果偏高,这种差异是否是种差异是否是纯属偶然原因,属偶然原因,单因素方差分析因素方差分析数理数理统计学重要学重要应用之一用之一方差分析方差分析双因素方差分析双因素方差分析 希望了解操作人希望了解操作人员和和设备这两个因素两个因素联合合对质量量的关系。各自的关系。各自单独是否有影响?交互效独是否有影响?交互效应如何?如何?现在学习的是第23页,共67页简单的的说,从概率,从概率论的角度出的角度出发,可以把上述数理可以把上述数理统计学的学的过程理解成:程理解成:有一个含有未知信息的概率分布有一个含有未知信息的概率分布 F针对 F 做了做了 n 次独立重复的次独立重复的试验与与观察,察,得到得到 n 个独立同分布于个独立同分布于 F 的随机的随机变量的取量的取值根据根据样本的具体本的具体观察察值,去推断出,去推断出总体体 F 所包含的未知信息,或作出所包含的未知信息,或作出进一步的决策等一步的决策等现在学习的是第24页,共67页例例1.2.如何分析与如何分析与处理理变量的关系?量的关系?分分类变量:如性量:如性别、信仰、信仰、职业等等,等等,顺序序变量:如名次量:如名次(第一、第二,第一、第二,),数数值变量:如收入、比例、量:如收入、比例、产量等等量等等简单 复复杂Remark 可以把复可以把复杂的的变量量简化化为简单变量,反之不行量,反之不行 数数值变量量 顺序序变量量 分分类变量量现在学习的是第25页,共67页变量量组合与相合与相应的的统计分析方法分析方法因因变量量 y 自自变量量 x 分分类变量量 顺序序变量量 数数值变量量分分类变量量 卡方分析卡方分析 回回归与相关与相关顺序序变量量 秩方法秩方法 数数值变量量 方差分析方差分析 回回归与相关与相关现在学习的是第26页,共67页把两个把两个变量分量分别作作为横横轴和和纵轴描出散点描出散点 散点散点图(Scatterplot)散点散点图在在简化数据的同化数据的同时,能,能够保留保留原始数据的信息。原始数据的信息。(三三).变量的量的统计图表示表示 现在学习的是第27页,共67页例例1.3.下面是下面是 24 对夫妻的数据,有两个夫妻的数据,有两个变量:量:结婚婚时间和一年内的吵架次数。和一年内的吵架次数。结婚年数婚年数 5 2 4 1 3 6 5 8 3 7 3 9争吵次数争吵次数 10 20 16 15 9 6 8 5 10 7 8 6 结婚年数婚年数 10 15 13 20 16 25 22 14 15 19 17 20争吵次数争吵次数 5 3 4 2 4 1 3 3 4 3 3 2现在学习的是第28页,共67页结婚婚时间与吵架次数的散点与吵架次数的散点图现在学习的是第29页,共67页(2).时间序列序列图特殊散点特殊散点图,以,以时间作作为横横轴的的变量量 时间序列序列图能能够反映出一个反映出一个变量随着量随着时间而而变化的化的趋势。现在学习的是第30页,共67页苏格兰羊苏格兰羊现在学习的是第31页,共67页 总体体 X 的分布函数的分布函数 F 含有未知的参数含有未知的参数 ,所有可能的取所有可能的取值范范围称称为“参数空参数空间”,记为 。从从这个个总体中抽取了一体中抽取了一组样本本 X1,Xn,相相应的的样本本观察察值是是 x1,xn。应该如何估如何估计出出 的具体数的具体数值?点估点估计就是利用就是利用样本构造一个合理的本构造一个合理的统计量:量:g(X1,Xn);用它的;用它的观察察值 g(x1,xn)去作去作为作作为 的估的估计值。二二.参数估参数估计现在学习的是第32页,共67页 你可以用你可以用这组数据中的任何一个,或者数据中的任何一个,或者样本本均均值,或者是,或者是样本中位数等,作本中位数等,作为 的估的估计值。例例2.1 甲同学在一个体重甲同学在一个体重仪上称她的体重,假定上称她的体重,假定 这个体重个体重仪没有系没有系统误差,每次称量的差,每次称量的结果果 是真是真实重量重量 加上一个随机加上一个随机误差差 k 。一般。一般认为 k N(0,2),因此,因此 n 次称量的次称量的结果果 Xk=+k N(,2)现在学习的是第33页,共67页矩估矩估计:用用样本的有关矩去作本的有关矩去作为总体有关矩的体有关矩的 估估计。即。即样本均本均值作作为总体期望的估体期望的估计;样本方差作本方差作为总体方差的估体方差的估计;样本中位数本中位数 (或众数或众数)作作为总体中位数体中位数(或众数或众数)的估的估计等等。极大似然估极大似然估计:所有情况中所有情况中“看起来最象看起来最象”的那个估的那个估计常用的点估常用的点估计方法方法现在学习的是第34页,共67页例例2.2.假定盒子里黑、白球共假定盒子里黑、白球共 5 个,但是个,但是 不知道黑球具体数目。不知道黑球具体数目。现在随机有放回抽取在随机有放回抽取 3 个小球,个小球,发现是两个黑球和一个白球。是两个黑球和一个白球。问盒子里最可能有几个黑球?盒子里最可能有几个黑球?解:盒子里黑白球所有的可能有六种:解:盒子里黑白球所有的可能有六种:5白,白,4白白1黑、黑、3白白2黑,黑,2白白3黑,黑,1白白4黑,黑,5黑黑 以以 p 记盒子里黑球所占的比例,盒子里黑球所占的比例,则 p 全部可能的全部可能的值是:是:0,1 1 2 3 4 5 5 5 5现在学习的是第35页,共67页 定定义三个三个统计量量 X1,X2,X3 表示抽表示抽样结果:果:取到黑球取到黑球记为 1,否,否则记为 0。因此。因此X1,X2,X3独立同分布于参数独立同分布于参数 p 的两点分布。的两点分布。例例题中的三个中的三个样本本观察察值 x1,x2,x3 有两个有两个取取值是是 1,一个取,一个取值为 0。而而样本的本的联合分布律合分布律显然是然是L(x,p)=px1+x2+x3(1-p)3-x1-x2-x3=p2(1-p)现在学习的是第36页,共67页 它的含它的含义是:当盒中黑球比例是:当盒中黑球比例为 p 时,随机事件随机事件“有放回取出的三个小球中有两个有放回取出的三个小球中有两个黑球、一个白球黑球、一个白球”的概率。的概率。对应于参数空于参数空间中不同的中不同的 p,样本分布本分布 L(x,p)=p2(1-p)所所对应的的这些概率是:些概率是:现在学习的是第37页,共67页 p 0,1 L(x,p)0,0 1 2 3 4 5 5 5 5 4 12 18 16 125 125 125 125 既然既然“三个小球中包含两个黑球三个小球中包含两个黑球”是已是已经发生了的随机事件,因此使得生了的随机事件,因此使得这个事件个事件发生生概率取最大的那个概率取最大的那个值就是未知参数就是未知参数 p 最有最有可能的取可能的取值。即即 p 的极大似然估的极大似然估计就是就是 3/5。现在学习的是第38页,共67页三三.假假设检验(一一).假假设检验的思想的思想它是如下的一种它是如下的一种统计推断:推断:对于一个于一个统计模型,我模型,我们提出一个假提出一个假设,根据抽取到的根据抽取到的样本,来作出是接受本,来作出是接受还是拒是拒绝这个假个假设。小概率事件在一次小概率事件在一次试验中不中不应该发生。生。现在学习的是第39页,共67页 有一种有一种饮料由料由 Tea 和和 Milk 混合而成,按照混合而成,按照顺序的不同,分序的不同,分为 TM、MT 两种,两种,有位女士声称她有能力品有位女士声称她有能力品尝出是出是 TM 还是是MT。为了了检验她的她的说法是否可信,准法是否可信,准备 8 杯杯饮料,料,TM 和和 MT 各一半,并且把各一半,并且把这一点告一点告诉她。她。现在随机的在随机的让这位女士品位女士品尝,指出哪些是,指出哪些是 TM,最最终的的结果是她全部果是她全部说对了。了。女士品茶女士品茶现在学习的是第40页,共67页R.A.Fisher 的推理的推理过程如下:程如下:引引进一个假一个假设,H0:这位女士没有位女士没有鉴别能力能力 如果如果 H0 是正确的,她只能随机从是正确的,她只能随机从 8 杯杯饮料中料中猜猜测 4 杯杯说是是 TM 。全部猜。全部猜对的概率的概率为:=0.014 现在她正确的在她正确的说出了全部的出了全部的 TM,要解,要解释这种种现象,只能有下面两种可能:象,只能有下面两种可能:1 1 C84 70现在学习的是第41页,共67页(1)H0 不成立,即:她的确有不成立,即:她的确有鉴别能力;能力;(2)H0 成立,意味着一件概率成立,意味着一件概率为 0.014 的的 随机事件在一次随机事件在一次试验中中发生了。生了。Fisher 认为,随机,随机试验的的结果果(或或样本本)构成不利于构成不利于假假设 H0 的的显著性著性证据,因此据,因此应该否定否定H0。这种推理种推理过程就称程就称为:显著性著性检验 显著性是著性是统计意意义上的上的显著,意思是一个小概著,意思是一个小概率事件是否率事件是否发生。生。一个概率不到一个概率不到 2%的随机事件在一次的随机事件在一次试验中中发生生了,了,这是比是比较稀奇或者稀奇或者说不太可能的。不太可能的。现在学习的是第42页,共67页思考思考 假如假如这位女士只位女士只说对了了 3 杯杯?一个人一个人纯粹靠随机的猜粹靠随机的猜测,能,能够说对至少至少 3 杯杯的概率的概率 (即即 H0 成立的情况下,出成立的情况下,出现这种种试验结果果的可能性的可能性):=0.243 显然我然我们不会不会对一个概率接近一个概率接近 25%的随机事件的随机事件在一次在一次试验中中发生而感到惊生而感到惊讶。试验结果并没有提供不利于果并没有提供不利于H0 的的显著性著性证据,因据,因此不能否定零假此不能否定零假设,而,而应该接受接受H0,即,即应该认为这位女士没有位女士没有鉴别能力能力。1+C43 C41 17 C84 70现在学习的是第43页,共67页(二二).假假设检验的基本的基本过程程例例3.2.当包装机器正常工作当包装机器正常工作时,每袋葡萄糖,每袋葡萄糖 的重量的重量应该是一个服从均是一个服从均值 0.5 kg,标准差准差 0.015 kg的随机的随机变量。有一天随机地抽取了量。有一天随机地抽取了 9 袋包装好的袋包装好的产品,品,测量出它量出它们的平均重量的平均重量 是是 0.511 kg,问这台包装机器是否正常工作?台包装机器是否正常工作?(假定即使工作异常假定即使工作异常标准差也不会改准差也不会改变)现在学习的是第44页,共67页1.提出一个提出一个统计假假设 根据根据题意每袋意每袋产品重量品重量 X N(,0.0152),如果机器正常工作,如果机器正常工作,应该是是 =0.5,反之,反之应该是是 0.5。因此首先提出因此首先提出统计假假设:假假设检验的任的任务就是要根据抽取出的就是要根据抽取出的样本,本,来决定是接受零假来决定是接受零假设,还是拒是拒绝零假零假设(接受接受对立假立假设)。H0:=0(=0.5)H1:0(0.5)现在学习的是第45页,共67页2.选取一个合适的取一个合适的检验统计量量 它的分布当零假它的分布当零假设成立成立时应该是已知的,是已知的,而且一般是从而且一般是从待待检验的的总体参数的良好的体参数的良好的点估点估计中中去去寻找。找。在例在例题中需要中需要检验的是的是总体期望体期望 ,因此考因此考虑样本均本均值,零假零假设成立成立时(=0.5)则有:有:现在学习的是第46页,共67页3.利用零假利用零假设成立成立时检验统计量的量的 分布构造出一个小概率事件分布构造出一个小概率事件 这个小概率就是个小概率就是给定的定的显著性水平著性水平(也称也称检验水平水平),而,而这个小概率事件就是零假个小概率事件就是零假设的的拒拒绝域域,并且拒,并且拒绝域必域必须和和对立假立假设有关:有关:零假零假设的拒的拒绝域相当于域相当于对立假立假设的接受域的接受域。在例在例题中由于中由于样本均本均值是是总体期望体期望 的的一个一个良好的点估良好的点估计,因此零假,因此零假设成立成立(=0.5)时,偏差偏差 应该比比较小,不能小,不能够太大。太大。现在学习的是第47页,共67页 而如果而如果 比比较大大时,自然我,自然我们会会认为零假零假设不成立,所以不成立,所以应该接受接受对立假立假设。所以零假所以零假设(=0.5)的拒的拒绝域的形式就是域的形式就是:根据根据检验统计量的分布,量的分布,有:有:这个个常数常数 z0 就可以取就可以取为 u/2 统计量量|z|=某个常数某个常数 z0现在学习的是第48页,共67页4.代入代入样本本观察察值,如果使得,如果使得这个小概率个小概率 事件事件发生,就否定零假生,就否定零假设而去接受而去接受对立立 假假设。否。否则说明明样本没有提供否定零假本没有提供否定零假设 的的显著性著性证据,因此据,因此应该接受零假接受零假设。在在这个例个例题里,里,检验统计量量|z|=2.2,H0:=0(=0.5)H1:0(0.5)的的显著水平著水平 的拒的拒绝域就是域就是 2.2 u/2。30.011 0.015假假设检验默默认的的显著水平是著水平是 =0.05现在学习的是第49页,共67页(1)如果取如果取 =0.05,则2.2常数常数 z0=1.96,说明明 一个概率一个概率为0.05 的随机事件的随机事件发生了,生了,样本提供本提供 了机器异常的了机器异常的显著著证据,据,应该否定零假否定零假设;(2)如果取如果取 =0.01,则2.2常数常数 z0=2.575,说 明明一个概率一个概率0.01的随机事件没有的随机事件没有发生,生,样本没有本没有 提供机器异常的提供机器异常的显著著证据,据,应该接受零假接受零假设。在不同的在不同的显著水平下,可以著水平下,可以导致最致最终得出得出的的检验结论完全不同。完全不同。这个个现象象说明了明了显著著水平水平 对于于 H0的保的保护:越小越不容易否定越小越不容易否定零假零假设。现在学习的是第50页,共67页(三三).卡方卡方 检验 如果如果一一组样本本 X1,Xn 来自分布来自分布 F,需要需要检验是如下是如下问题:H0:F=F0 H1:F F0 从理从理论上来上来说无无论 F 是离散是离散还是是连续分布,分布,卡方卡方检验都可以都可以处理;不理;不过它更适用于离散的它更适用于离散的总体,体,对于于连续的的总体体 F,采用,采用 Kolmogrov 检验更好。更好。现在学习的是第51页,共67页K.Pearson 的的拟合合优度度检验思想思想 在在实数数轴上取上取 m 个点把个点把 R1 分成分成 m+1 个部分,以个部分,以 vi 表示落在第表示落在第i 个区个区间里的里的样本个数,本个数,pi 是是总体随机体随机变量量 X 在在这个区个区间中的概率:中的概率:x t1 t2 t3 tm x(1)x(n)现在学习的是第52页,共67页当零假当零假设 H0:F=F0 成立成立时pi 可以可以计算出:算出:pi=F0(ti)-F0(ti-1),1 i m+1;这里里 F0(t0)=0,F0(tm+1)=1 n 充分大充分大时,频率率 vi/n 与概率与概率 pi 应该相当接近相当接近,因此如果零假因此如果零假设成立成立则统计量:量:应该偏小,反之偏小,反之则可以否定零假可以否定零假设 H0:F=F0。1900年年K.Pearson 证明了极限分布明了极限分布 K2 2(m),因此因此 H0 的一个水平的一个水平 拒拒绝域近似域近似为 K2 2(m)。现在学习的是第53页,共67页 总体体 X 只可能取有限个只可能取有限个值ai,1 i k。相相应地,地,样本本 X1,Xn中取中取值为ai 的个数的个数为vi,1 i k。需要需要检验:H0:P X=ai=pi,1 i k 取取检验统计量:量:则H0 的一个水平的一个水平 检验的的拒拒绝域域为 K2 2(k-1)现在学习的是第54页,共67页例例3.3.Mendel 的的遗传学例子学例子 Mendel 研究豌豆研究豌豆时发现豌豆有两种特性:豌豆有两种特性:圆与与皱、黄与、黄与绿,他,他观察了察了 556 颗豌豆:豌豆:圆黄黄 皱黄黄 圆绿 皱绿 (总数数)315 101 108 32 (556)而根据他的而根据他的遗传学理学理论,Mendel 认为这些些组合关系合关系应该有理有理论上的概率:上的概率:圆黄黄 皱黄黄 圆绿 皱绿 (概率概率)9/16 3/16 3/16 1/16 (1)现在学习的是第55页,共67页解解.总体分布的体分布的 k=4,对应 K2 统计量量为:0.052(3)=7.815,0.902(3)=0.584,0.952(3)=0.352 甚至在水平甚至在水平0.90下都可以接受零假下都可以接受零假设,即,即认为Mendel 的的遗传学理学理论是正确的。是正确的。从从p-值的角度的角度拟合合优度度 p=P 2(3)0.47 这个个值是是0.9254,理,理论分布与分布与实际数据相当吻合。数据相当吻合。现在学习的是第56页,共67页四四.方差分析方差分析 方差分析方差分析针对方差相同的多个正方差相同的多个正态总体,体,检验它它们的均的均值是否相同。是否相同。即,即,同同时判断多判断多组数据均数据均值之之间差异是否差异是否显著著 方差分析方差分析(Analysis of Variance,ANOVA):研究一个研究一个(或多个或多个)分分类自自变量如何影响一个量如何影响一个数数值因因变量的量的统计分析方法。分析方法。现在学习的是第57页,共67页方差分析的特点方差分析的特点 方差分析与一般的假方差分析与一般的假设检验不同不同 要比要比较均均值是否相同,可以使用第三章是否相同,可以使用第三章假假设检验的方法,但是只能的方法,但是只能处理两个均理两个均值。方差分析方差分析处理的是多个均理的是多个均值的情况。的情况。方差分析的目的方差分析的目的.判断某些因素判断某些因素对于我于我们感感兴趣的因趣的因变量是否量是否 具有具有“显著著”的影响,的影响,.如果因素如果因素间有交互效有交互效应,寻找最佳搭配方案。找最佳搭配方案。现在学习的是第58页,共67页常常见的方差分析主要有:的方差分析主要有:单因素方差分析,双因素方差分析,因素方差分析,双因素方差分析,多因素方差分析。多因素方差分析。方差分析与回方差分析与回归、相关分析不同、相关分析不同 回回归与相关与相关处理的是两个数理的是两个数值变量的量的问题,相相应的散点在的散点在 x 轴上具有上具有顺序序(从小到大从小到大),而,而方差分析的数据在方差分析的数据在 x 轴上可以任意交上可以任意交换位置。位置。现在学习的是第59页,共67页考察小麦考察小麦产量量(y)对于品种和施肥量的关系。于品种和施肥量的关系。Fisher的农业试验的农业试验 选择了:两个不同的小麦品种,了:两个不同的小麦品种,三个不同的施肥等三个不同的施肥等级;一共一共 23=6 种搭配做种搭配做试验,建立模型。,建立模型。现在学习的是第60页,共67页 y11=0+1+1 +11 y12=0+1+2 +12 y13=0+1+3 +13 y21=0+2+1 +21 y22=0+2+2 +22 y23=0+2+3 +23 yij 是小麦是小麦产量,量,1、2 是品种效是品种效应,1、2、3 是施肥是施肥 等等级的效的效应,0 是其它因素的是其它因素的 平均效平均效应。ij 是随机是随机误差,差,i.i.d N(0,2)品种是否品种是否对产量有影响量有影响 H01:1 =2 施肥量施肥量是否是否对产量有影响量有影响 H02:1=2=3 现在学习的是第61页,共67页把把这个模型写成矩个模型写成矩阵的形式:的形式:Y=X +在方差分析中,同一个因素的不同水平看成是模型里在方差分析中,同一个因素的不同水平看成是模型里的不同的不同变量,而不能看成是同一个自量,而不能看成是同一个自变量在不同量在不同试验里里的取的取值。(否否则需要需要 y 对 x 有有线性相依关系性相依关系)现在学习的是第62页,共67页五五.回回归与相关分析与相关分析 回回归与相关分析是用于与相关分析是用于讨论数数值变量量之之间关系的关系的统计分析方法分析方法。回回归分析研究一个分析研究一个(或多个或多个)自自变量的量的变化化如何影响因如何影响因变量,量,相关分析研究相关分析研究这两个数两个数值变量的相关程度。量的相关程度。现在学习的是第63页,共67页Regressiony=33.73+0.516 x (单位:英寸位:英寸)现在学习的是第64页,共67页 直直观上在一个上在一个总体中体中有两个特征有两个特征(X,Y),观察了察了n 次得到平面上的次得到平面上的 n 个点个点(x1,y1),(xn,yn)。xyo 如果一条曲如果一条曲线 y=f(x)基本上通基本上通过这些点,些点,或者或者这些点的大多数与些点的大多数与这条曲条曲线偏离很小,偏离很小,则称曲称曲线是是对观察察值的的拟合曲合曲线,或者称,或者称为是是 y 对于于x 的回的回归曲曲线。“回回归”的含的含义 现在学习的是第65页,共67页 在理在理论上,假定上,假定(X,Y)有有联合分布,二合分布,二阶矩矩存在,存在,则当当X 取某个取某个值 x 时Y 有一个确定的条件有一个确定的条件分布分布 F(|x),这个分布的数学期望即条件期望个分布的数学期望即条件期望 E(Y|x)存在,存在,E(Y|x)就称就称为Y 对于于x 的回的回归(函数函数)如果如果X 是一是一维随机随机变量,量,则E(Y|x)就称就称为一元回一元回归函数函数(主要是回主要是回归直直线);当当 X 是多是多维随机随机变量量时就是多元回就是多元回归(曲面曲面)Remark 采用条件期望采用条件期望E(Y|x)而不是其它的函数而不是其它的函数 y=g(x)作作为Y 对于于 x 的回的回归,原因是在均方,原因是在均方误差的意差的意义下条件期望下条件期望是最是最优的。的。现在学习的是第66页,共67页 如果如果 E(Y|x)就是就是 x 的的线性函数,即:性函数,即:E(Y|x)=0+x1 1+xk k,线性回性回归模型就定模型就定义成:成:yi=0+1 xi1+k xik+i,1 i n i 独立同分布于独立同分布于 N(0,2)y=0+x1 1+xk k 就称就称为是回是回归方程方程 这时不再把不再把 x 看成是随机看成是随机变量量X 的的观察察值,而看成是一般的数量而看成是一般的数量变量,因此量,因此线性回性回归模型模型也是一种也是一种线性模型:性模型:Y=X +,E =0现在学习的是第67页,共67页