EXCEL-第10-1章-数理统计及应用.ppt
第第1010章章 数理统计及应用数理统计及应用n本章内容:本章内容:通过实例,介绍如何使用Excel 2007统计函数和数据分析工具进行数据统计分析与预测。包括描述性统计、假设检验、方差分析和回归分析等n教学目标:教学目标:掌握利用Excel函数和数据分析工具进行统计分析与预测的基本方法 数理统计是一门对客观不确定现象进行数据搜集、整理和分析的科学其目的是了解客观情况,探索数据内在结构及现象之间的规律性 Excel 2007 能够支持范围广泛的统计计算任务,提供工程和科学统计的基本能力。其中包括:n函数n数据分析工具第第1 1节节 数理统计的基本概念数理统计的基本概念第第1 1节节 数理统计的基本概念数理统计的基本概念按功能划分统计函数的种类包括按功能划分统计函数的种类包括:(1)频数分布处理(2)描述统计量计算(3)概率计算(4)参数估计(5)假设检验(6)卡方检验(7)相关、回归分析第第1 1节节 数理统计的基本概念数理统计的基本概念按功能划分统计函数的种类包括:(1)频数分布处理(2)描述统计量计算(3)概率计算(4)参数估计(5)假设检验(6)卡方检验(7)相关、回归分析第第1 1节节 数理统计的基本概念数理统计的基本概念数据分析工具的种类:数据分析工具的种类:(1)统计绘图、制表(2)描述统计量计算(3)参数估计(4)假设检验(5)方差分析(6)相关、回归分析(7)时间序列分析(8)抽样(9)数据变换第第1 1节节 数理统计的基本概念数理统计的基本概念使用数据分析工具,需加载:使用数据分析工具,需加载:单击“Office按钮”,然后单击“Excel选项” 单击“加载项”,然后在“管理”框中,选择“Excel 加载宏”单击“转到”在“可用加载宏”框中,选中“分析工具库”复选框,然后单击“确定”确定后“数据”选项卡中增加了“数据分析”子项 在进行数据分析的时候,一般首先是从了解数据的基本特征开始的,即先对数据进行描述性统计描述性统计分析(Descriptive Analysis),以发现其内在的规律,然后再选择进一步分析的方法。描述性统计描述性统计分析主要包括两类:一类是数据集中趋势分析,表示数量的中心位置;另一类是数据的离散程度分析,表示数量的变异程度(或称离散程度)。两者相互补充,共同反映数据的全貌。 第第2 2节节 描述性统计描述性统计数据的集中趋势分析是用来反映数据的一般水平,常用的指标有平均值、中位数和众数等: 作用:作用: 指出一数据资料内变量的中心位置,标志着资料所代表性状的数量水平和质量水平; 作为样本或资料的代表数与其它资料进行比较2.1 2.1 数据集中趋势分析数据集中趋势分析n平均数 算术平均数(average) 调和平均数(harmean) 几何平均数(geomean)2.1 2.1 数据集中趋势分析数据集中趋势分析几何平均可用于平均比率的计算,这里变化比率是在相等长度的时间区间内给出的。如果样本观测值包含某种倒数,则可用调和平均,特别地,调和平均可用于以不同的速度通过各路段,求总的平均速度;或在各种条件下,求不同密度的流体的平均密度的计算。 调和平均数调和平均数 某人从C到B的平均速度为30km/h,沿同一路线返回时平均速度为60km/h,求整个往返行程的平均速度为多少? 用Excel调和平均数求解: “=HARMEAN(30,60)” 40 即40km/h。2.1 2.1 数据集中趋势分析数据集中趋势分析 几何平均数几何平均数 一雇员在连续三年内的年薪增长率分别为6%、10%和12%,这里增加的百分数是在上一年的薪金基础上计算的,求其三年内的年薪平均增长率? 用Excel几何平均数求解: “=GEOMEAN(1.06,1.1,1.12)” 1.0930 所以,薪水的年平均增长率为9.3%。2.1 2.1 数据集中趋势分析数据集中趋势分析n中位数(MEDIAN) 2.1 数据集中趋势分析数据集中趋势分析 中位数是样本的50分位点,它受极端数值的干扰很小。如果加入一个很大的干扰值,中值数仅可能有很小的移动。 几何均值和调和均值同算术平均值一样,对极端数值也较敏感。它们主要用于数据为对数正态分布或偏斜程度较大时。 下例显示上述几种统计量对极端数值的敏感程度 A1:A7= 1 1 1 1 1 1 100 =geomean(A1:A7) 1.9307 =harmean(A1:A7) 1.1647 =average(A1:A7) 15.1429 =median(A1:A7) 1 2.1 数据集中趋势分析数据集中趋势分析几何均值调和均值算术平均值中位数中位数 数据的离散程度分析主要是用来反映数据之间的差异程度,常用的指标有极差、方差、标准差、四分位数间距等 作用:作用: 描述变量分布的差异程度 衡量和比较均值指标的代表性高低 为抽选样本单位数提供依据2.2 数据离散程度分析数据离散程度分析 极差极差( (max-min) ):是描述数据分散程度最简单的度量,但如果数据中出现了极端数据,极端数据有可能就是最大值或最小值,因此极差对极端数据非常敏感。 标准差标准差( (stdev)和方差方差( (var) )是常用的分散程度度量。它们对于正态分布的样本是最优的。但它们对极端数据也是较敏感的。偏离数据整体的一个极端数据可能会使它们的值急剧增大。2.2 数据离散程度分析数据离散程度分析 四分位数四分位数(quartile ), 四分位数不受两端个别极大值或极小值的影响,基本能反映数据的离散程度。2.2 数据离散程度分析数据离散程度分析语法语法 : quartile(array,quart) array:为需要求得四分位数值的数组区域 quart:决定返回哪一个四分位值。 下例显示上述几种统计量对极端数值的敏感程度 A1:A7= 1 1 1 1 1 1 100 =max(A1:A7)-min(A1:A7) 99 =stdev(A1:A7) 37.4185 =quartile(A1:A7 ,1) 17.2 7.2 描述性统计描述性统计极差极差标准差标准差四分位间距四分位间距2.2 数据离散程度分析数据离散程度分析 设有甲乙两人,对同一名患者采耳垂血,检查红细胞数(万/mm3),每人数五个计数盘,得结果为: 甲甲 480 490 500 510 520480 490 500 510 520 乙乙 440 460 500 540 560440 460 500 540 560 若让你就评价两人的检验技术的好坏,你如何评价?2.2 数据离散程度分析数据离散程度分析 设有甲乙两人,对同一名患者采耳垂血,检查红细胞数(万/mm3),每人数五个计数盘,得结果为: 甲甲 480 490 500 510 520480 490 500 510 520 乙乙 440 460 500 540 560440 460 500 540 560 两人计数的均数都是500,能说两人的检验技术相同吗?不能,因为甲的计数结果比较密集,而乙的分散,因此甲的检验精度显然比乙的高。 可以用极差来衡量: 甲计数的极差为520480=40, 乙的为560-440=120。可见乙的计数较甲的波动大。2.2 数据离散程度分析数据离散程度分析 设有甲乙两人,对同一名患者采耳垂血,检查红细胞数(万/mm3),每人数五个计数盘,得结果为: 甲甲 480 490 500 510 520480 490 500 510 520 乙乙 440 460 500 540 560440 460 500 540 560 甲乙甲乙480440490460平均500平均500500500标准误差7.071标准误差22.8510540中位数500中位数500520560标准差15.81标准差50.99方差250方差2600第第3 3节节 假设检验假设检验 假设检验是统计推断的基本问题之一,主要是确定关于样本总体特征的判断是否合理的过程。 先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的过程。 n假设检验的基本思想和原理假设检验的基本思想和原理 n假设检验的步骤假设检验的步骤n如何利用如何利用Excel进行总体均值的检验进行总体均值的检验我认为人口的平我认为人口的平均年龄是均年龄是5050岁岁 拒绝假设拒绝假设 别无选择别无选择! 先对总体参数的具体数值作陈述,然后利用样本信息判断假设是否成立首先对几个必要的名词作简要的解释: 零假设零假设:即初始判断 H0:=0 ( =50) 备选假设备选假设(也称对立假设): H1:0(或(或0 或或50 或或50) 假设检验是在H0 成立的前提下,从样本数据中寻找证据来拒绝H0 ,“接受” H1 .如果证据不足,则只能不拒绝H0,暂且认为H0正确第第3节节 假设检验假设检验假设假设双侧检验双侧检验单侧检验单侧检验左侧检验左侧检验右侧检验右侧检验原假设原假设H0 : : m m = m m0 0H0 : : m m m m0 0H0 : : m m m m0 0备择假设备择假设H1 : : m m m m0 0H1 : : m m m m0 0首先对几个必要的名词作简要的解释: 统计量统计量: 统计理论中用来对数据进行分析、检验的变量。根据样本观测结果计算得到的,并据以对零假设和备择假设作出决策的某个样本统计量 根据不同的推断要求,可以构造不同的统计量第第3节节 假设检验假设检验显著性水平显著性水平:在进行假设检验时应该事先规定一个小概率的标准,作为判断的界限,这个小概率标准称为显著性水平n是一个概率值n原假设为真时,拒绝原假设的概率n被称为抽样分布的拒绝域n表示为n常用的=0.01,0.05 , 0.10 n由研究者事先确定第第3节节 假设检验假设检验P P值值: P值是在值是在H0成立前提下,比样本统计量更极成立前提下,比样本统计量更极端的概率端的概率 如果如果P ,则拒绝,则拒绝H0,接受,接受H1 如果如果P,拒绝,拒绝H0的样本证据不足,就不拒绝的样本证据不足,就不拒绝H0,暂且认为,暂且认为H0成立成立 根据统计推断结果,结合相应的专业知识,给出根据统计推断结果,结合相应的专业知识,给出一个专业的结论。一个专业的结论。 第第3节节 假设检验假设检验 1 1 假设检验的步骤:假设检验的步骤: (1) 提出统计假设,零假设H0和备选假设H1 (2) 规定显著水平 (3) 选取样本统计量 (4) 在显著水平下,算出统计量服从分布的临界值,确定假设参数的拒绝域第第3节节 假设检验假设检验决策规则n给定显著性水平,计算得出相应的临界值n将检验统计量的值与 水平的临界值进行比较n作出决策n双侧检验: I I统计量统计量I I 临界值,拒绝临界值,拒绝H0n左侧检验:统计量统计量 临界值,拒绝临界值,拒绝H0 2 2 总体均值的检验:总体均值的检验:n 单个样本的假设检验(大样本、小样本) (统计函数)n 成对观测值的假设检验 (数据分析工具) 第第3节节 假设检验假设检验 2 2 总体均值的检验:总体均值的检验:n 单个样本的总体均值检验单个样本的总体均值检验 第第3节节 假设检验假设检验 对单个样本的均值检验, 我们可以根据抽样推断的思路, 用相应函数计算临界值临界值, 来判断是接受还是拒绝零假设。 总体均值的检验:总体均值的检验: (小样本,n 30) ,t 检验 计算t统计量: 用函数计算临界值临界值(双侧): TINV(,n-1) ns /xtm总体均值的检验 (例题分析)【例例】一种汽车配件的平均长度要求为12cm,高于或低于该标准均被认为是不合格的。汽车生产企业在购进配件时,通常是经过招标,然后对中标的配件提供商提供的样品进行检验,以决定是否购进。现对一个配件提供商提供的10个样本进行了检验。假定该供货商生产的配件长度服从正态分布,在0.05的显著性水平下,检验该供货商提供的配件是否符合要求? 总体均值的检验 (例题分析) 2 2 总体均值的检验:总体均值的检验:n 单个样本的总体均值检验单个样本的总体均值检验 第第3节节 假设检验假设检验 对单个样本的总体均值检验, 我们可以根据抽样推断的思路, 用相应函数计算临界值临界值, 来判断是接受还是拒绝零假设。 总体均值的检验:总体均值的检验: (大样本,n 30) ,z检验 计算z统计量: 用函数计算临界值临界值(单侧) :NORMSINV() ns /xzm总体均值的检验 (例题分析)【例例】一种罐装饮料采用自动生产线生产,每罐的容量是255ml,标准差为5ml。为检验每罐容量是否符合要求,质检人员在某天生产的饮料中随机抽取了40罐进行检 验 , 测 得 每 罐 平 均 容 量 为255.8ml。取显著性水平=0.05 ,检验该天生产的饮料容量是否符合标准要求?总体均值的检验 (例题分析)【例例】一种机床加工的零件尺寸绝对平均误差为1.35mm。生产厂家现采用一种新的机床进行加工以期进一步降低误差。为检验新机床加工的零件平均误差与旧机床相比是否有显著降低,从某天生产的零件中随机抽取50个进行检验。利用这些样本数据,检验新机床加工的零件尺寸的平均误差与旧机床相比是否有显著降低? (=0.01) 左侧检验左侧检验总体均值的检验 (例题分析)总体均值的检验 (例题分析)【例例】某一小麦品种的平均产量为5200kg/hm2 。一家研究机构对小麦品种进行了改良以期提高产量。为检验改良后的新品种产量是否有显著提高,随机抽取了36个地块进行试种,得到的样本平均产量为5275kg/hm2,标准差为120/hm2 。试检验改良后的新品种产量是否有显著提高? (=0.05) 右侧检验右侧检验总体均值的检验 (例题分析)总体均值的检验 (例题分析) 2 2 总体均值的检验:总体均值的检验:n 成对观测值的假设检验成对观测值的假设检验 第第3节节 假设检验假设检验 均值假设检验:均值假设检验: t 检验检验(平均值的成对二样本分析 双样本等方差、双样本异方差) Z 检验检验(方差已知) 方差检验:方差检验: F检验检验 第第3节节 假设检验假设检验 t 检验检验(平均值的成对二样本分析) 用以对两组成对数据进行均值是否相等的检验。 实际工作中往往会遇到均值的成对比较, 如采用新教育方法前后学生的成绩、进行体育疗法前后患者的血压等。 当样本中的观察值存在配对关系时,可以使用“成对双样本t-检验”。 第第3节节 假设检验假设检验 t 检验检验(平均值的成对二样本分析)nH0: mD 0 (mD = m1 - m2) H1: mD 0n规定显著水平:规定显著水平: n检验统计量检验统计量: t 统计量服从t分布假设假设双侧检验双侧检验左侧检验左侧检验右侧检验右侧检验H0m m1 1 = m m2 2m m1 1 m m2 2m m1 1 m m2 2H1m m1 1 m m2 2m m1 1 m m2 2举例:举例: 第第3节节 假设检验假设检验您在人力资源部工作,您想了解一个培训项目是否有效.您收集到以下考试成绩的数据:姓名姓名前前 (1)后后 (2)Sam8594Tamika9487Brian7879Mike8788在 0.10 水平,这个培训有效吗?举例:举例: 第第3节节 假设检验假设检验t-t-检验检验: : 成对双样本均值分析成对双样本均值分析前前 (1)(1)后后 (2) (2) 平均平均86868787方差方差43.333333343.33333333838观测值观测值4 44 4泊松相关系数泊松相关系数0.476435260.47643526假设平均差假设平均差0 0dfdf3 3t Statt Stat-0.3061862-0.3061862P(T=t) P(T=t) 单尾单尾0.3897410.389741t t 单尾临界单尾临界1.637744351.63774435P(T=t) P(T=t) 双尾双尾0.7794820.779482t t 双尾临界双尾临界2.353363432.35336343 第第3节节 假设检验假设检验 t 检验检验(双样本等方差平均值的检验)nH0: m1 - m2 = 0 (m1 = m2) H1: m1 - m2 0 (m1 m2)n规定显著水平:规定显著水平: n检验统计量检验统计量: t 统计量服从t分布假设假设双侧检验双侧检验左侧检验左侧检验右侧检验右侧检验H0m m1 1 = m m2 2m m1 1 m m2 2m m1 1 m m2 2H1m m1 1 m m2 2m m1 1 m m2 2 第第3节节 假设检验假设检验举例:举例: 比较甲比较甲, ,乙两种安眠药的疗效。将乙两种安眠药的疗效。将2020名患者分成名患者分成两组两组, ,每组每组1010人人. .其中其中1010人服用甲药后延长睡眠的时数人服用甲药后延长睡眠的时数分别为分别为1.9, 0.8, 1.1, 0.1, -0.1, 4.4, 5.5, 1.6, 4.6, 3.4;1.9, 0.8, 1.1, 0.1, -0.1, 4.4, 5.5, 1.6, 4.6, 3.4;另另1010人人服用乙药后延长睡眠的时数分别为服用乙药后延长睡眠的时数分别为0.7, -1.6, -0.2, -1.2, -0.7, -1.6, -0.2, -1.2, -0.1, 2.4, 2.7, 0.8, 0.0, 2.0.0.1, 2.4, 2.7, 0.8, 0.0, 2.0.若服用两种安眠药后增加的睡若服用两种安眠药后增加的睡眠时数服从方差相同的正态分布眠时数服从方差相同的正态分布. .试问两种安眠药的试问两种安眠药的疗效有无显著性差异疗效有无显著性差异?( ?( =0.10)=0.10)211210:;:mmmmHH 第第3节节 假设检验假设检验举例:举例:2.271.7341 ,2.271.7341 ,拒绝拒绝H H0 0认为两种安眠药的疗效有显著性差异认为两种安眠药的疗效有显著性差异 第第3节节 假设检验假设检验举例:举例:试检验是否甲安眠药比乙安眠药疗效显著?211210:;:mmmmHH这里这里:t=2.271.3304,故拒绝故拒绝H H0, 0,认为认为甲安眠药比乙安眠药甲安眠药比乙安眠药疗效显著疗效显著 第第3节节 假设检验假设检验 F 检验检验(方差齐性检验)nH0: 12 = 22 或 H0: 12 22 (or ) H1: 12 22 H1: 12 22 (or )n规定显著水平:规定显著水平: n检验统计量:检验统计量:F 统计量服从F分布 举例:举例: 国产与进口两药物治疗女士骨质疏松症,腰椎骨密度改善值(mg/cm2),问两种药的疗效是否相同? 第第3节节 假设检验假设检验 举例:举例: 使用t检验: 方差齐性检验 (F检验) 用=0.05 有 ,P,不拒绝H0,认为两个总体的方差相等 第第3节节 假设检验假设检验 举例:举例: 使用t检验: 双样本等方差 用=0.05 即 ,P,不拒绝H0,尚不能认为两药有差异。 认为两种药的疗效相同,所以该医生的结论是可以用国产药替代进口药。 第第3节节 假设检验假设检验 第第3节节 假设检验假设检验 Z 检验检验(方差已知)nH0: m1 - m2 = 0 (m1 = m2) H1: m1 - m2 0 (m1 m2)n规定显著水平:规定显著水平: n检验统计量检验统计量: Z 举例:举例: 为了评价两个学校的教学质量,分别在两个学校抽取样本。在A学校抽取30名学生,在B学校抽取40名学生,对两个学校的学生同时进行一次英语标准化考试,成绩见表。假设A学校考试成绩的方差为64, B学校考试成绩的方差为100。检验两个学校的教学质量是否有显著差异?( =0.1) 第第3节节 假设检验假设检验 举例:举例: 使用z检验: /2=0.05 见分析结果 ,P/2,拒绝H0,认为两个学校的教学质量有差异。 第第3节节 假设检验假设检验