统计学基本概念与方法.ppt
《统计学基本概念与方法.ppt》由会员分享,可在线阅读,更多相关《统计学基本概念与方法.ppt(67页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计学基本概念与方法 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望2.参数参数估计估计1.预预备备知知识识3.假设假设检验检验4.方差方差分析分析5.回归回归分析分析 统计学统计学(Statistics)是一门收集与分析数据,是一门收集与分析数据,并且根据数据进行推断的艺术与科学。并且根据数据进行推断的艺术与科学。大英百科全书大英百科全书 (数理数理)统计学中的数据都是随机数据。统计学中的数据都是随机数据。统计学的任务就是在随机性中去寻找规律。统计学的任务就是在
2、随机性中去寻找规律。统计学理论主要包含三个部分:统计学理论主要包含三个部分:1.数据收集,数据收集,2.数据分析,数据分析,3.由数据做出决策。由数据做出决策。(一一).统计学的基本概念统计学的基本概念 统计学中把所研究的对象全体称为总体,统计学中把所研究的对象全体称为总体,总体中的每一个元素称为一个个体。总体中的每一个元素称为一个个体。总体与个体都用数量指标来表示总体与个体都用数量指标来表示1.总体与个体总体与个体(population)即使面临的是一个定性的实际问题,即使面临的是一个定性的实际问题,也必须把有关的资料定量化。也必须把有关的资料定量化。一一.预备知识预备知识 但同时在直观上又
3、认为、或者希望做到:但同时在直观上又认为、或者希望做到:抽取出的每个个体抽取出的每个个体(样本样本)都充分蕴涵总体信息。都充分蕴涵总体信息。从总体中取出一个个体,称为从从总体中取出一个个体,称为从总体中得到一个样本。总体中得到一个样本。2.样本样本(sample)统计学的目的就是从样本去得出总体的信息。统计学的目的就是从样本去得出总体的信息。由于各种原因与实际条件的限制,由于各种原因与实际条件的限制,不可能得到一个总体中所有个体的数据。不可能得到一个总体中所有个体的数据。即样本总是总体的一小部分。即样本总是总体的一小部分。被研究的对象全体被研究的对象全体具有代表性的具有代表性的 部分个体部分个
4、体总体总体样本样本.独立同分布的样本称为简单随机样本。独立同分布的样本称为简单随机样本。总体被认为是一个服从某种概率总体被认为是一个服从某种概率分布分布 F 的随机变量。的随机变量。样本是和总体随机变量有相同分布样本是和总体随机变量有相同分布 F 的随的随机变量,样本的个数称为样本容量,机变量,样本的个数称为样本容量,n。总体分布总体分布 F 可以是未知的,可以是未知的,非参数统计学非参数统计学 总体分布总体分布 F 的类型已知,但是含有的类型已知,但是含有一些未知的参数。一些未知的参数。参数估计参数估计 (二二).数理统计学的主要内容数理统计学的主要内容 1.抽样理论抽样理论:介绍如何收集数
5、据。主要介绍如何收集数据。主要 抽样方法,样本容量的确定,抽样误差,抽样方法,样本容量的确定,抽样误差,敏感问题等敏感问题等2.参数估计参数估计:如何根据数据得到总体参数如何根据数据得到总体参数 信息。点估计、区间估计,信息。点估计、区间估计,Bayes 估计等估计等3.假设检验假设检验:如何对关于总体的一些假设如何对关于总体的一些假设 做出决策。正态总体参数的检验,分布拟合做出决策。正态总体参数的检验,分布拟合 检验,秩检验,列联表,统计决策等理论检验,秩检验,列联表,统计决策等理论4.方差分析与回归分析方差分析与回归分析:变量之间的效应变量之间的效应 关系。关系。方差分析方差分析 分类变量
6、与数值变量的效应关系分类变量与数值变量的效应关系 回归分析回归分析 研究数值变量之间的效应关系研究数值变量之间的效应关系5.多元分析多元分析:研究若干个变量之间的关系研究若干个变量之间的关系 聚类分析、判别分析、主成分分析、聚类分析、判别分析、主成分分析、因子分析、典型相关分析等等因子分析、典型相关分析等等例例1.1 希望了解某所高校学生月消费情况。希望了解某所高校学生月消费情况。解决方法:从这所大学里解决方法:从这所大学里随机地随机地调查调查有代表性的有代表性的一些学生,根据收集到的数据去得出这所大学学一些学生,根据收集到的数据去得出这所大学学生每个月支出费用的有关信息。生每个月支出费用的有
7、关信息。1.如何得到样本如何得到样本?不同家庭背景学生的比例应该各占多少?不同家庭背景学生的比例应该各占多少?样本容量应该取多少才合适?被调查者拒绝调样本容量应该取多少才合适?被调查者拒绝调查怎么办?查怎么办?抽样调查抽样调查2.如何确定总体的分布如何确定总体的分布?这里的总体是这所大学的学生月支出费用,这里的总体是这所大学的学生月支出费用,我们不妨认为我们不妨认为学生月支出费用学生月支出费用是一个服从正态是一个服从正态分布的随机变量。分布的随机变量。根据经验或者是所讨论的问题的实际背景,根据经验或者是所讨论的问题的实际背景,总体的分布类型一般可以事先确定下来。总体的分布类型一般可以事先确定下
8、来。(不同学校对应的这两个参数也就不相同不同学校对应的这两个参数也就不相同)即,总体随机变量即,总体随机变量 X N(,2),而这,而这个个学校相应的两个参数学校相应的两个参数 与与 2 是未知的。是未知的。Remark 当不知道或者难以确定总体的分布类型时,在当不知道或者难以确定总体的分布类型时,在统计学中常常采用下面两种办法来近似得到总体统计学中常常采用下面两种办法来近似得到总体分布的有关信息。分布的有关信息。(1).直方图的方法直方图的方法只适用连续总体,得到的是总体密度函数近似。只适用连续总体,得到的是总体密度函数近似。把收集到的把收集到的 n 个数据个数据 x1,x2,xn 从小到从
9、小到大排列:大排列:x(1)x(2)x(n);其次取其次取区间区间(a,b),包含全部数据包含全部数据 a x(1),x(n)b;把把 (a,b)等分成等分成若干小区间,计算若干小区间,计算每个小区间中包含每个小区间中包含的数据的频率。的数据的频率。x(1)x(n)根据这些频率做出相应的小区间上的矩形,根据这些频率做出相应的小区间上的矩形,则当则当 n 充分大时,这些小区间上矩形的面积将近充分大时,这些小区间上矩形的面积将近似于总体的概率密度函数下曲边梯形的面积。似于总体的概率密度函数下曲边梯形的面积。(2).经验分布函数的方法经验分布函数的方法 构造一个分布函数,得到的是总体构造一个分布函数
10、,得到的是总体分布函数分布函数 F(x)的近似。的近似。Fn(x)=0,x x(1),x(k)x x(k+1)1,x x(n)这个函数实际上是观察值这个函数实际上是观察值 x1,xn中中小于小于 x 的频率,即的频率,即 Fn(x)=x1,xn中小于中小于 x 的个数的个数/n k nOxyx(1)x(2)x(3)1/n2/n 可以证明,经验分布函数可以证明,经验分布函数 Fn(x)将依概率、将依概率、甚至是几乎处处收敛到甚至是几乎处处收敛到 F(x)。3.如何从样本得出总体的信息如何从样本得出总体的信息?样本是一组与总体独立、同分布的随机变量,样本是一组与总体独立、同分布的随机变量,我们得到
11、的数据是样本观察值,而不是样本。我们得到的数据是样本观察值,而不是样本。调查一个学生得到了一个数据,相当于调查一个学生得到了一个数据,相当于对总体分布做了一次随机试验而观察到了这对总体分布做了一次随机试验而观察到了这个随机变量的具体取值。个随机变量的具体取值。一共有一共有 n 个数据,相当于对总体分布做个数据,相当于对总体分布做了了 n 次独立重复试验,而得到了这个总体随次独立重复试验,而得到了这个总体随机变量在这些试验中的具体取值。机变量在这些试验中的具体取值。利用样本观察值去估计出总体的未知参数利用样本观察值去估计出总体的未知参数直观上可以利用调查到的直观上可以利用调查到的 n 个学生的月
12、支出个学生的月支出 x1,x2,xn 的算术平均的算术平均:去估计这所学校学生的平均月支出费用去估计这所学校学生的平均月支出费用 。它的合理性在哪?它的合理性在哪?还有没有其它的办法?还有没有其它的办法?这些不同的方法各有什么样的优缺点?这些不同的方法各有什么样的优缺点?数理统计学最重要的内容之一数理统计学最重要的内容之一参数估计参数估计 事先提出一个假设,利用样本观察值去事先提出一个假设,利用样本观察值去检验这个假设是否可以被接受检验这个假设是否可以被接受假设检验假设检验 假定学校要制定相关一些政策,如奖学金、假定学校要制定相关一些政策,如奖学金、贷款、勤工俭学等;或者后勤服务、商业经营贷款
13、、勤工俭学等;或者后勤服务、商业经营的价格等等。的价格等等。共同关心的一些问题,比如说:共同关心的一些问题,比如说:0?这里这里 0 是一个已知的常数。是一个已知的常数。数理统计学最重要的内容之一数理统计学最重要的内容之一应该如何去做这个检验?应该如何去做这个检验?一种想法是:既然已经通过一种想法是:既然已经通过参数估计参数估计得到了这得到了这个学校学生月平均支出个学校学生月平均支出(即总体的参数即总体的参数 )的估计的估计值,自然就可以用它代替假设里的值,自然就可以用它代替假设里的 去做检验:去做检验:当估计值比当估计值比 0 大就接受这个假设,否则就拒绝大就接受这个假设,否则就拒绝 但是这
14、样的风险很大:样本总是随机得到的,但是这样的风险很大:样本总是随机得到的,因此估计值与真实值之间不可避免地存在着随因此估计值与真实值之间不可避免地存在着随机误差。机误差。传统的方法是:给出一个区域传统的方法是:给出一个区域(拒绝域拒绝域),如,如果估计值落在这个区域内,就拒绝原来的假设,果估计值落在这个区域内,就拒绝原来的假设,否则就接受。否则就接受。除了对总体参数的检验外,还有一些除了对总体参数的检验外,还有一些重要的假设检验问题,例如:重要的假设检验问题,例如:关于总体分布的检验关于总体分布的检验 检验得到的样本数据是不是来自于检验得到的样本数据是不是来自于某个事先给出的总体某个事先给出的
15、总体独立性的检验独立性的检验 检验一些分类变量之间是否是独立的,检验一些分类变量之间是否是独立的,例如:例如:抽烟与肺癌,睡觉打鼾与心脏病抽烟与肺癌,睡觉打鼾与心脏病分布拟合检验分布拟合检验关于数据差异的检验关于数据差异的检验 主要希望了解两组或多组数据间的差异究竟主要希望了解两组或多组数据间的差异究竟是来自于随机性,还是总体间的确存在差异?是来自于随机性,还是总体间的确存在差异?例如:例如:小儿麻痹症、小儿麻痹症、SARS疫苗的研制,疫苗的研制,越战期间美国的征兵计划,越战期间美国的征兵计划,以及我们在科学研究、工程实践、以及我们在科学研究、工程实践、社会调查等等得到的数据社会调查等等得到的
16、数据讨论数值变量之间的效应关系问题讨论数值变量之间的效应关系问题比如说,想了解儿子身高与父亲身高之间的关系。比如说,想了解儿子身高与父亲身高之间的关系。在每个被调查的家庭中同时获得这两个变量的在每个被调查的家庭中同时获得这两个变量的观察值,分析它们是否有某种观察值,分析它们是否有某种(函数函数)关系,关系,一元线性回归一元线性回归多元线性回归多元线性回归 例如,钢的去碳量与不同矿石、融化时间、例如,钢的去碳量与不同矿石、融化时间、炼钢炉体积炼钢炉体积等等是否有关?关系如何?等等是否有关?关系如何?数理统计学重要应用之一数理统计学重要应用之一回归与相关分析回归与相关分析讨论分类变量与数值变量之间
17、的关系讨论分类变量与数值变量之间的关系 比如说产品质量与不同操作人员之间的关系。比如说产品质量与不同操作人员之间的关系。是否某些人生产出的产品质量偏高?如果偏高,是否某些人生产出的产品质量偏高?如果偏高,这种差异是否是纯属偶然原因,这种差异是否是纯属偶然原因,单因素方差分析单因素方差分析数理统计学重要应用之一数理统计学重要应用之一方差分析方差分析双因素方差分析双因素方差分析 希望了解操作人员和设备这两个因素联合对质量希望了解操作人员和设备这两个因素联合对质量的关系。各自单独是否有影响?交互效应如何?的关系。各自单独是否有影响?交互效应如何?简单的说,从概率论的角度出发,简单的说,从概率论的角度
18、出发,可以把上述数理统计学的过程理解成:可以把上述数理统计学的过程理解成:有一个含有未知信息的概率分布有一个含有未知信息的概率分布 F针对针对 F 做了做了 n 次独立重复的试验与观察,次独立重复的试验与观察,得到得到 n 个独立同分布于个独立同分布于 F 的随机变量的取值的随机变量的取值根据样本的具体观察值,去推断出总体根据样本的具体观察值,去推断出总体 F 所包含的未知信息,或作出进一步的决策等所包含的未知信息,或作出进一步的决策等例例1.2.如何分析与处理变量的关系?如何分析与处理变量的关系?分类变量:如性别、信仰、职业等等,分类变量:如性别、信仰、职业等等,顺序变量:如名次顺序变量:如
19、名次(第一、第二,第一、第二,),数值变量:如收入、比例、产量等等数值变量:如收入、比例、产量等等简简单单 复复杂杂Remark 可以把复杂的变量简化为简单变量,反之不行可以把复杂的变量简化为简单变量,反之不行 数值变量数值变量 顺序变量顺序变量 分类变量分类变量变量组合与相应的统计分析方法变量组合与相应的统计分析方法因因变变量量 y 自变量自变量 x 分类变量分类变量 顺序变量顺序变量 数值变量数值变量分类变量分类变量 卡方分析卡方分析 回归与相关回归与相关顺序变量顺序变量 秩方法秩方法 数值变量数值变量 方差分析方差分析 回归与相关回归与相关把两个变量分别作为横轴和纵轴描出散点把两个变量分
20、别作为横轴和纵轴描出散点 散点图散点图(Scatterplot)散点图在简化数据的同时,能够保留散点图在简化数据的同时,能够保留原始数据的信息。原始数据的信息。(三三).变量的统计图表示变量的统计图表示 例例1.3.下面是下面是 24 对夫妻的数据,有两个变量:对夫妻的数据,有两个变量:结婚时间和一年内的吵架次数。结婚时间和一年内的吵架次数。结婚年数结婚年数 5 2 4 1 3 6 5 8 3 7 3 9争吵次数争吵次数 10 20 16 15 9 6 8 5 10 7 8 6 结婚年数结婚年数 10 15 13 20 16 25 22 14 15 19 17 20争吵次数争吵次数 5 3 4
21、 2 4 1 3 3 4 3 3 2结婚时间与吵架次数的散点图结婚时间与吵架次数的散点图(2).时间序列图时间序列图特殊散点图,以时间作为横轴的变量特殊散点图,以时间作为横轴的变量 时间序列图能够反映出一个变量随着时间序列图能够反映出一个变量随着时间而变化的趋势。时间而变化的趋势。苏格兰羊苏格兰羊 总体总体 X 的分布函数的分布函数 F 含有未知的参数含有未知的参数 ,所有可能的取值范围称为所有可能的取值范围称为“参数空间参数空间”,记为,记为 。从这个总体中抽取了一组样本从这个总体中抽取了一组样本 X1,Xn,相应的样本观察值是相应的样本观察值是 x1,xn。应该如何估计出应该如何估计出 的
22、具体数值?的具体数值?点估计就是利用样本构造一个合理的统计量:点估计就是利用样本构造一个合理的统计量:g(X1,Xn);用它的观察值;用它的观察值 g(x1,xn)去作为作为去作为作为 的估计值。的估计值。二二.参数估计参数估计 你可以用这组数据中的任何一个,或者样本你可以用这组数据中的任何一个,或者样本均值,或者是样本中位数等,作为均值,或者是样本中位数等,作为 的估计值。的估计值。例例2.1 甲同学在一个体重仪上称她的体重,假定甲同学在一个体重仪上称她的体重,假定 这个体重仪没有系统误差,每次称量的结果这个体重仪没有系统误差,每次称量的结果 是真实重量是真实重量 加上一个随机误差加上一个随
23、机误差 k 。一般认为。一般认为 k N(0,2),因此,因此 n 次称量的结果次称量的结果 Xk=+k N(,2)矩估计矩估计:用样本的有关矩去作为总体有关矩的用样本的有关矩去作为总体有关矩的 估计。即样本均值作为总体期望的估计;估计。即样本均值作为总体期望的估计;样本方差作为总体方差的估计;样本中位数样本方差作为总体方差的估计;样本中位数 (或众数或众数)作为总体中位数作为总体中位数(或众数或众数)的估计等的估计等。极大似然估计极大似然估计:所有情况中所有情况中“看起来最象看起来最象”的那个估计的那个估计常用的点估计方法常用的点估计方法例例2.2.假定盒子里黑、白球共假定盒子里黑、白球共
24、5 个,但是个,但是 不知道黑球具体数目。现在随机有放回抽取不知道黑球具体数目。现在随机有放回抽取 3 个小球,发现是两个黑球和一个白球。个小球,发现是两个黑球和一个白球。问盒子里最可能有几个黑球?问盒子里最可能有几个黑球?解:盒子里黑白球所有的可能有六种:解:盒子里黑白球所有的可能有六种:5白,白,4白白1黑、黑、3白白2黑,黑,2白白3黑,黑,1白白4黑,黑,5黑黑 以以 p 记盒子里黑球所占的比例,记盒子里黑球所占的比例,则则 p 全部可能的值是:全部可能的值是:0,1 1 2 3 4 5 5 5 5 定义三个统计量定义三个统计量 X1,X2,X3 表示抽样结果:表示抽样结果:取到黑球记
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 基本概念 方法
限制150内