数理统计第次.pptx
数理统计是一门对客观不确定现象进行数据搜集、数理统计是一门对客观不确定现象进行数据搜集、整理和分析的科学其目的是了解客观情况,探索数据内整理和分析的科学其目的是了解客观情况,探索数据内在结构及现象之间的规律性在结构及现象之间的规律性.是通过某事物的一部分(样本),来估计事物全部是通过某事物的一部分(样本),来估计事物全部(总体)的特征的,数理统计方法也就是以样本的特征对(总体)的特征的,数理统计方法也就是以样本的特征对未知总体做出合乎逻辑的推论,得到对事物客观本质的和未知总体做出合乎逻辑的推论,得到对事物客观本质的和规律性的认识。规律性的认识。Excel 2007 Excel 2007 能够支持范围广泛的统计计算任务,提能够支持范围广泛的统计计算任务,提供工程和科学统计的基本能力。其中包括函数和数据分析供工程和科学统计的基本能力。其中包括函数和数据分析工具。工具。第第1 1节节 数理统计的基本概念数理统计的基本概念第1页/共49页按功能划分统计函数的种类包括:按功能划分统计函数的种类包括:(1 1)频数分布处理)频数分布处理(2 2)描述统计量计算)描述统计量计算(3 3)概率计算)概率计算(4 4)参数估计)参数估计(5 5)假设检验)假设检验(6 6)卡方检验)卡方检验(7 7)相关、回归分析)相关、回归分析第第1 1节节 数理统计的基本概念数理统计的基本概念第2页/共49页80个统计函数第第1 1节节 数理统计的基本概念数理统计的基本概念第3页/共49页Excel Excel 软件中提供了软件中提供了1515个数据分析工个数据分析工具:具:(1 1)统计绘图、制表)统计绘图、制表(2 2)描述统计量计算)描述统计量计算(3 3)参数估计)参数估计(4 4)假设检验)假设检验(5 5)方差分析)方差分析(6 6)相关、回归分析)相关、回归分析(7 7)时间序列分析)时间序列分析(8 8)抽样)抽样(9 9)数据变换)数据变换第第1 1节节 数理统计的基本概念数理统计的基本概念第4页/共49页第第1 1节节 数理统计的基本概念数理统计的基本概念第5页/共49页u首先单击首先单击“Office Office 按钮按钮”,然后单击,然后单击“Excel Excel 选选项项”。u单击单击“加载项加载项”,然后在,然后在“管理管理”框中,选择框中,选择“Excel Excel 加载宏加载宏”。u单击单击“转到转到”。u在在“可用加载宏可用加载宏”框中,选中框中,选中“分析工具库分析工具库”复选框,复选框,然后单击然后单击“确定确定”。u确定后确定后“数据数据”选项卡中增加了选项卡中增加了“数据分析数据分析”子项。子项。第第1 1节节 数理统计的基本概念数理统计的基本概念第6页/共49页 在进行数据分析的时候,一般首先要对数据进行描描述性统计述性统计分析(Descriptive Analysis),以发现其内在的规律,再选择进一步分析的方法。描述性统计描述性统计分析要对调查总体所有变量的有关数据做统计性描述统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计统计图形。预处理预处理、提前准备提前准备第第2 2节节 描述性统计描述性统计第7页/共49页 数据的集中趋势分析是用来反映数据的一般水平,常用的指标有平均值、中位数、众数、几何平均值、调和平均数等 作用:作用:指出一数据资料内变量的中心位置,标志着资料所代表性状的数量水平和质量水平;作为样本或资料的代表数与其它资料进行比较2.1 2.1 数据集中趋势分析数据集中趋势分析第8页/共49页平均数 算术平均数(average)调和平均数(harmean)几何平均数(geomean)2.1 2.1 数据集中趋势分析数据集中趋势分析几何平均可用于平均比率的计算,这里变化比率是在相等长度的时间区间内给出的。如果样本观测值包含某种倒数,则可用调和平均,特别地,调和平均可用于以不同的速度通过各路段,求总的平均速度;或在各种条件下,求不同密度的流体的平均密度的计算。第9页/共49页 调和平均数调和平均数 某人从C到B的平均速度为30km/h,沿同一路线返回时平均速度为60km/h,求整个往返行程的平均速度为多少?用Excel调和平均数求解:“=HARMEAN(30,60)”40 即40km/h。2.1 2.1 数据集中趋势分析数据集中趋势分析第10页/共49页 几何平均数几何平均数 一雇员在连续三年内的年薪增长率分别为6%、10%和12%,这里增加的百分数是在上一年的薪金基础上计算的,求其三年内的年薪平均增长率?用Excel几何平均数求解:“=GEOMEAN(1.06,1.1,1.12)”1.0930 所以,薪水的年平均增长率为9.3%。2.1 2.1 数据集中趋势分析数据集中趋势分析第11页/共49页中位数(MEDIAN)2.1 2.1 数据集中趋势分析数据集中趋势分析 中位数是样本的50分位点,它受极端数值的干扰很小。如果加入一个很大的干扰值,中值数仅可能有很小的移动。几何均值和调和均值同算术平均值一样,对极端数值也较敏感。它们主要用于数据为对数正态分布或偏斜程度较大时。第12页/共49页 下例显示上述几种统计量对极端数值的敏感程度 A1:A7=1 1 1 1 1 1 100 =geomean(A1:A7)1.9307 =harmean(A1:A7)1.1647 =average(A1:A7)15.1429 =median(A1:A7)1 2.1 2.1 数据集中趋势分析数据集中趋势分析几何均值调和均值算术平均值中位数第13页/共49页集中趋势 数据类型 测度指标布形状 是否整理众数 分类变量 钟形分布 顺序变量 U形分布 是 数值型变量 J形分布中位数 顺序变量 数值型变量 钟形分布 是数值平均数 数值型 变量钟形分布 均可2.1 2.1 数据集中趋势分析数据集中趋势分析-小结小结第14页/共49页算术平均数、调和平均数、几何平均数不同的数值平均数计算方法,根本原因在于个体量与总量的不同对应关系总量=个体量:如一个班同学的总成绩是每个同学的成绩之和。总量=个体量:如“十一五”期问经济的总发展速度,就等于期间各年的经济发展速度连乘积。算术平均数和调和平均数是平均指标的两种表现形式,是由于我们所掌握的资料不同而采用的不同的计算方法。2.1 2.1 数据集中趋势分析数据集中趋势分析-小结小结第15页/共49页 数据的离散程度数据的离散程度分析主要是用来反映数据之间的差异程度,常用的指标有极差、方差、标准差、四分位数间距等 作用:作用:描述变量分布的差异程度 衡量和比较均值指标的代表性高低 为抽选样本单位数提供依据2.2 2.2 数据离散程度分析数据离散程度分析第16页/共49页 极差:极差:为样本最大与最小值之差,是描述数据分散程度最简单的度量,但如果数据中出现了极端数据,极端数据有可能就是最大值或最小值,因此极差对极端数据非常敏感。标准差标准差和方差方差是常用的分散程度度量。它们对于正态分布的样本是最优的。但它们对极端数据也是较敏感的。偏离数据整体的一个极端数据可能会使它们的值急剧增大。2.2 2.2 数据离散程度分析数据离散程度分析第17页/共49页样本方差 为了度量其变异程度,对含有n个观测数x1,x2,xn的样本,可以用样本方差反映其变异程度。样本方差的定义公式为:Excel函数公式:2.2 2.2 数据离散程度分析数据离散程度分析 VAR(x1,x2,)x1,x2,为对应于总体样本的1到255个参数第18页/共49页样本标准差方差的定义虽然能够反映变量变异程度,但由于离均差取了平方值,使得它与原始数据和单位都不相适应,需要将方差开方还原,方差的标准根值就是标准差。样本标准差的定义公式:Excel函数公式:2.2 2.2 数据离散程度分析数据离散程度分析=STDEV(x1,x2,),x1,x2,为对应于总体样本的1到255个参数。第19页/共49页 下例显示上述几种统计量对极端数值的敏感程度 A1:A7=1 1 1 1 1 1 100 =max(A1:A7)-min(A1:A7)99 =stdev(A1:A7)37.4185 极差标准差2.2 2.2 数据离散程度分析数据离散程度分析第20页/共49页2.2 2.2 数据离散程度分析数据离散程度分析 设有甲乙两人,对同一名患者采耳垂血,检查红细胞数(万/mm3),每人数五个计数盘,得结果为:甲甲 480 490 500 510 520480 490 500 510 520 乙乙 440 460 500 540 560440 460 500 540 560 若让你就评价两人的检验技术的好坏,你如何评价?第21页/共49页2.2 2.2 数据离散程度分析数据离散程度分析 设有甲乙两人,对同一名患者采耳垂血,检查红细胞数(万/mm3),每人数五个计数盘,得结果为:甲甲 480 490 500 510 520480 490 500 510 520 乙乙 440 460 500 540 560440 460 500 540 560 两人计数的均数都是500,能说两人的检验技术相同吗?不能,因为甲的计数结果比较密集,而乙的分散,因此甲的检验精度显然比乙的高。可以用极差来衡量:甲计数的极差为520480=40,乙的为560-440=120。可见乙的计数较甲的波动大。第22页/共49页2.2 2.2 数据离散程度分析数据离散程度分析 设有甲乙两人,对同一名患者采耳垂血,检查红细胞数(万/mm3),每人数五个计数盘,得结果为:甲甲 480 490 500 510 520480 490 500 510 520 乙乙 440 460 500 540 560440 460 500 540 560 甲乙甲乙480440490460平均500平均500500500标准误差7.071标准误差22.8510540中位数500中位数500520560标准差15.81标准差50.99方差250方差2600第23页/共49页10.2 10.2 描述统计偏度偏度(Skewness)反映一组数据的频数分布曲线的高峰是偏左、偏右还是居中。公式:如果g10为负偏峰,表示曲线高峰偏右,长尾向左(负)方向延伸;g1=0表示曲线对称;g10为正偏锋,表示曲线高峰偏左,长尾向右(正)方向延伸。已知某地区某时段的平均温度,求出这段时间这些温度的偏度,数据如图所示。这一地区温度的偏度为:在单元格A12中,键入“=SKEW(B2:B11)”,等于0.3187。由于偏度值小于零,表示曲线高峰偏左。第24页/共49页10.2 10.2 描述统计峰度公式:峰度(Kurtosis)反映一组数据的频数分布的高峰是平阔峰、正态峰还是尖峭峰。0表示曲线高峰尖且陡峭,为尖峭峰。例10-10数据。这一地区温度的峰度为:在单元格A12中,键入“=KURT(B2:B11)”,等于1.005。由于峰度值小于零,表示曲线高峰平坦,为平阔峰。第25页/共49页10.2 10.2 描述统计描述统计工具1描述统计工具功能 用于生成对输入区域中数据的单变量分析,提供数据趋中性和易变异等有关信息。第26页/共49页10.2 10.2 描述统计描述统计工具2操作步骤用鼠标点击工作表中待分析数据的任一单元格。选择“工具”菜单的“数据分析”子菜单。用鼠标双击数据分析工具中的“描述统计”选项。出现“描述统计”对话框。如下图所示。第27页/共49页10.2 10.2 描述统计描述统计工具第28页/共49页10.2 10.2 描述统计描述统计工具3结果说明 描述统计工具生成统计指标,如右图所示。第29页/共49页第第3 3节节 假设检验假设检验 假设检验是统计推断的基本问题之一,主要是确定关于样本总体特征的判断是否合理的过程。先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的过程。n假设检验的基本思想和原理 n假设检验的步骤n总体均值的检验第30页/共49页总体总体假设检验的过程抽取随机样本抽取随机样本均值均值 x x =20=20我认为人口的平我认为人口的平均年龄是均年龄是5050岁岁 提出假设提出假设 拒绝假设 别无选择!作出决策作出决策第31页/共49页首先对几个必要的名词作简要的解释:零假设零假设:即初始判断 H0:=0 (=50)H0:0 H0:0 (=50)备选假设备选假设(也称对立假设):H1:0(50)H1:0 假设检验是在H0 成立的前提下,从样本数据中寻找证据来拒绝H0,“接受”H1.如果证据不足,则只能不拒绝H0,暂且认为H0正确第第3 3节节 假设检验假设检验第32页/共49页提出假设(例题分析)第33页/共49页提出假设(例题分析)第34页/共49页首先对几个必要的名词作简要的解释:统计量统计量:统计理论中用来对数据进行分析、检验的变量。根据样本观测结果计算得到的,并据以对零假设和备择假设作出决策的某个样本统计量 根据不同的推断要求,可以构造不同的统计量 t、z、F、x2第第3 3节节 假设检验假设检验第35页/共49页显著性水平显著性水平:在进行假设检验时应该事先规定一个小概率的标准,作为判断的界限,这个小概率标准称为显著性水平是一个概率值原假设为真时,拒绝原假设的概率被称为抽样分布的拒绝域表示为常用的=0.05,0.01,0.10 由研究者事先确定第第3 3节节 假设检验假设检验第36页/共49页P P值值:P P值是在值是在H H0 0成立前提下,比样本统成立前提下,比样本统计量更极端的概率计量更极端的概率 如果如果P P,则拒绝,则拒绝H H0 0,接受,接受H H1 1 如果如果P P,拒绝,拒绝H H0 0的样本证据不足,的样本证据不足,就不拒绝就不拒绝H H0 0,暂且认为,暂且认为H H0 0成立成立 根据统计推断结果,结合相应的专业知识,根据统计推断结果,结合相应的专业知识,给出一个专业的结论。给出一个专业的结论。第第3 3节节 假设检验假设检验第37页/共49页 1 1 假设检验的步骤:假设检验的步骤:(1)提出统计假设,零假设H0和备选假设H1 (2)规定显著水平 (3)选取样本统计量 (4)在显著水平下,算出统计量服从分布的临界值,确定假设参数的拒绝域第第3 3节节 假设检验假设检验第38页/共49页 2 2 参数的假设检验工具举例参数的假设检验工具举例 成对观测值的假设检验成对观测值的假设检验 均值假设检验:t 检验(平均值的成对二样本分析 双样本等方差、双样本异方差)Z 检验 方差检验:F检验第39页/共49页 (1)双样本的方差检验“F-检验双样本方差”分析工具通过双样本F-检验对两个样本总体的方差进行比较。【例】公司生产某产品,现在分别从同一月份上旬和下旬产品中随意各取若干个,测定其质量指标。假设设备磨损是引起变化的唯一原因,问检验结果是否表明精度显著降低了(=0.05)?上旬产品20.519.819.720.420.120.019.019.9下旬产品19.720.820.519.819.420.619.2第40页/共49页 (2)t 检验(双样本等方差、双本异方差)双样本等方差分析工具可进行双样本t检验。此t检验假设两个数据集取自具有相同方差的分布,故也称作同方差t检验。可以使用此t检验来确定两个样本是否来自具有相同总体平均值的分布。双样本异方差分析工具可进行双样本学生t检验。此t检验假设两个数据集取自具有不同方差的分布,故也称作异方差t检验。当两个样本中有截然不同的对象时,可使用此检验。第41页/共49页 (2)t 检验(双样本等方差、双本异方差)【例】今抽测甲班学生10人和乙班学生12人的跳高成绩(单位:cm)如下。试分析甲、乙两班的跳高成绩是否有差异?甲组151148164139147155161141157154乙组139165138137141136166167168165164 166第42页/共49页 (3)t 检验(平均值的成对二样本分析)用以对两组成对数据进行均值是否相等的检验。实际工作中往往会遇到均值的成对比较,如采用新教育方法前后学生的成绩、进行体育疗法前后患者的血压等。当样本中的观察值存在配对关系时,可以使用“成对双样本t-检验”。第43页/共49页 t 检验(平均值的成对二样本分析)用以对两组成对数据进行均值是否相等的检验。实际工作中往往会遇到均值的成对比较,如采用新教育方法前后学生的成绩、进行体育疗法前后患者的血压等。当样本中的观察值存在配对关系时,可以使用“成对双样本t-检验”。第44页/共49页 t 检验(平均值的成对二样本分析)【例】由纯化病毒A、B两种处理方法得10组数据,试分析两种方法是否有差异。第45页/共49页 (4)大样本的方差已知的双样本平均值检验大样本指的是样本数量大于30,即默认为服从正态分布,可以用z检验,Excel“数据分析”工具中提供的“z-检验:双样本平均值”可对具有已知方差的平均值进行双样本z-检验。此工具用于检验两个总体平均值之间不存在差异的空值假设,而不是单方或双方的其他假设。如果方差未知,则应使用工作表函数ZTEST。第46页/共49页Z Z检验检验例:某公司从两个不同的供应商处采购某同一产品,例:某公司从两个不同的供应商处采购某同一产品,为了确认其尺寸的均值差异状况,分别测量得供为了确认其尺寸的均值差异状况,分别测量得供应商和供应的产品尺寸。已知供应商供应应商和供应的产品尺寸。已知供应商供应的产品尺寸方差为的产品尺寸方差为113.53.5,供应商供应的产,供应商供应的产品尺寸方差为品尺寸方差为223.03.0,数据见表所示。问两供,数据见表所示。问两供应商的产品尺寸均值有无差异?应商的产品尺寸均值有无差异?供应商A150.00152.00156.00152.00149.00150.00148.00151.00 149.00 148.00供应商B150.00152.00150.00151.00149.00148.00151.00151.00 152.00 147.00供应商A151.00147.00151.00153.00156.00144.00149.46149.31 149.17 157.00供应商B150.00148.00149.00151.00151.00154.00148.00147.00 152.00 150.00供应商A149.03154.00146.00153.00152.00150.00152.00153.00 150.00 147.00供应商B152.00154.00155.00145.00152.00151.00153.00152.00 151.00 147.00第47页/共49页 总结:假设检验步骤情况单样本是否为大样本 30方差是否已知双样本多样本统计量第48页/共49页感谢您的观看!第49页/共49页