第6章推断分析的基本方法:假设检验(DA)教学ppt课件数据分析基础—基于Python的实现电子教案.pptx
-
资源ID:90598735
资源大小:2.16MB
全文页数:31页
- 资源格式: PPTX
下载积分:20金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
第6章推断分析的基本方法:假设检验(DA)教学ppt课件数据分析基础—基于Python的实现电子教案.pptx
第6章 推断分析的基本方法:假设检验(DA)教学课件数据分析基础基于Python的实现 电子教案第 1 章1-2统计学Python实现贾俊平2023/5/162023/5/16贾俊平俊平2023/5/162023/5/16数据分析基础数据分析基础贾俊平俊平 2023/5/162023/5/16Fundamentals of data Fundamentals of data analysis with Pythonanalysis with Python基于基于 Python 的实现的实现第 6 章6-3数据分析基础基于Python的实现2023/5/162023/5/16贾俊平俊平2023/5/162023/5/166.1 6.1 假设检验的原理假设检验的原理 6.2 6.2 总体均值的检验总体均值的检验6.3 6.3 总体比例的检验总体比例的检验6.4 6.4 总体方差的检验总体方差的检验6.5 6.5 正态性检验正态性检验第 6 章 推断分析的基本方法:假设检验第 6 章6-4数据分析基础基于Python的实现2023/5/162023/5/16 6.1 假设检验的原理假设与假设检验假设与假设检验l假设假设在参数检验中,是对总体参数的具体数值所作的陈述就一个总体而言,总体参数包括总体均值、比例、方差等分析之前必需陈述l假假设设检检验验先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的统计方法l有参数检验和非参数检验l逻辑上运用反证法,统计上依据小概率原理小概率是在一次试验中,一个几乎不可能发生的事件发生的概率在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设第 6 章6-5数据分析基础基于Python的实现2023/5/162023/5/16 6.1 假设检验的原理原假设与备择假设原假设与备择假设第 6 章6-6数据分析基础基于Python的实现2023/5/162023/5/16 6.1 假设检验的原理双侧检验与单侧检验双侧检验与单侧检验l双侧检验双侧检验备择假设没有特定的方向性,并含有符号“”的假设检验,称为双侧检验或双尾检验(two-tailed test)l单侧检验单侧检验备择假设具有特定的方向性,并含有符号“”或“”的假设检验,称为单侧检验或单尾检验(one-tailed test)备择假设的方向为“”,称为右侧检验右侧检验假假设双双侧检验单侧检验单侧检验左左侧检验右右侧检验原假设原假设H0:m m =m m0 0H0:m m m m0 0H0:m m m m0 0备择假设备择假设H1:m m m m0 0H1:m m m m0 0第 6 章6-7数据分析基础基于Python的实现2023/5/162023/5/16 6.1 假设检验的原理双侧检验与单侧检验双侧检验与单侧检验提出假设的一个例子提出假设的一个例子【例例6-2】农夫山泉饮用水瓶子上的标签钙 400镁 50钾 35钠 80偏硅酸偏硅酸 180PH值(250C)7.3 0.5第 6 章6-8数据分析基础基于Python的实现2023/5/162023/5/16 6.1 假设检验的原理两类错误与显著性水平两类错误与显著性水平第 6 章6-9数据分析基础基于Python的实现2023/5/162023/5/16 6.1 假设检验的原理做出决策做出决策用统计量决策用统计量决策第 6 章6-10数据分析基础基于Python的实现2023/5/162023/5/16 6.1 假设检验的原理做出决策做出决策用用 P 值决策值决策第 6 章6-11数据分析基础基于Python的实现2023/5/162023/5/16 6.1 假设检验的原理做出决策做出决策用用 P 值决策值决策lP值原假设的对或错的概率无关l它反映的是在某个总体的许多样本中某一类数据出现的经常程度,它是当原假设正确时,得到目前这个样本数据的概率l值越小,你拒绝原假设的理由就越充分l有了P值,我们并不需要用5%或1%这类传统的显著性水平。P值提供了更多的信息,它让我们可以选择任意水平来评估结果是否具有统计上的显著性,从而可根据我们的需要来决定是否要拒绝原假设l传统的显著性水平,如1%、5%、10%等等,已经被人们普遍接受为“拒绝原假设足够证据”的标准,我们大概可以说:10%代表有“一些证据”不利于原假设;5%代表有“适度证据”不利于原假设;1%代表有“很强证据”不利于原假设l用P值进行检验比根据统计量检验提供更多的信息l统计量检验是我们事先给出的一个显著性水平,以此为标准进行决策,无法知道实际的显著性水平究竟是多少第 6 章6-12数据分析基础基于Python的实现2023/5/162023/5/16 6.1 假设检验的原理结果表述结果表述不拒绝而不是不拒绝而不是“接受接受”l假设检验的目的主要是收集证据拒绝原假设,而支持你所倾向的备择假设l假设检验只提供不利于原假设的证据。因此,当拒绝原假设时,表明样本提供的证据证明它是错误的,当没有拒绝原假设时,我们也没法证明它是正确的,因为假设检验的程序没有提供它正确的证据l当不拒绝原假设时,我们也从来不说“接受原假设”,因为没有证明原假设是真的l没有足够的证据拒绝原假设并不等于你已经“证明”了原假设是真的,它仅仅意为着目前还没有足够的证据拒绝原假设,只表示手头上这个样本提供的证据还不足以拒绝原假设l“不拒绝”的表述方式实际上意味着没有得出明确的结论第 6 章6-13数据分析基础基于Python的实现2023/5/162023/5/16 6.1 假设检验的原理结果表述结果表述“显著显著”或或“不显著不显著”l拒绝原假设时,我样本结果是统计上显著的(statistically Significant);不拒绝原假设时,我们称样本结果是统计上不显著的l在“显著”和“不显著”之间没有清除的界限,只是在P值越来越小时,我们就有越来越强的证据,检验的结果也就越来越显著l但P值很小而拒绝原假设时,并不一定意味着检验的结果就有实际意义因为假设检验中所说的“显著”仅仅是“统计意义上的显著”l一个在统计上显著的结论在实际中却不见得就很重要,也不意味着就有实际意义l因为值与样本的大小密切相关,样本量越大,检验统计量的P值也就越大,P值就越小,就越有可能拒绝原假设第 6 章6-14数据分析基础基于Python的实现2023/5/162023/5/16 6.1 假设检验的原理效应量分析效应量分析找出差异程度找出差异程度l假设检验拒绝原假设后,表示参数与假设值之间差异显著,但这一结果并未有告诉我们差异的大小(程度)。度量这种差异的统计量就是效应量,它描述了结果的差异程度是小、中还是大l效应量的提出者是Jacob Cohen(1988),他提供了不同检验效应量小、中、大的度量标准第 6 章6-15数据分析基础基于Python的实现2023/5/162023/5/16 6.2 总体均值的检验一个总体均值的检验一个总体均值的检验大样本大样本例题分析例题分析【例例6-3】检验空气中PM2.5的含量(=0.05)样本均值=79.55,z统计量值=-1.1856,p值=0.1179总体方差已知总体方差已知总体方差未知总体方差未知第 6 章6-16数据分析基础基于Python的实现2023/5/162023/5/16 6.2 总体均值的检验一个总体均值的检验一个总体均值的检验小样本小样本效应量效应量总体方差已知总体方差已知总体方差未知总体方差未知第 6 章6-17数据分析基础基于Python的实现2023/5/162023/5/16一个总体均值的检验一个总体均值的检验小样本小样本例题分析例题分析例题分析例题分析【例例6-4】检验砖的厚度样本均值=4.80,t统计量值=-5.6273,p值=1.998e-05#计算效算效应量量效应量 d=1.2583 6.2 总体均值的检验第 6 章6-18数据分析基础基于Python的实现2023/5/162023/5/16两个总体均值差的检验两个总体均值差的检验独立大样本独立大样本例题分析例题分析 6.2 总体均值的检验总体方差已知总体方差已知总体方差未知总体方差未知例题分析例题分析【例例6-5】检验男女学生上网的平均时间 男生平均上网时间为 3.0583,女生平均上网时间为 2.8306z统计量值=1.1188,p值=0.2632第 6 章6-19数据分析基础基于Python的实现2023/5/162023/5/16两个总体均值差的检验两个总体均值差的检验独立小样本独立小样本例题分析例题分析 6.2 总体均值的检验l假定条件两个独立的小样本;两个总体都是正态分布两个总体方差已知,或方差未知但相等,或方差未知且不相等l检验统计量总体方差已知总体方差已知总体方差未知但相等总体方差未知但相等总体方差未且不相等总体方差未且不相等第 6 章6-20数据分析基础基于Python的实现2023/5/162023/5/16两个总体均值差的检验两个总体均值差的检验独立小样本独立小样本效应量效应量 6.2 总体均值的检验第 6 章6-21数据分析基础基于Python的实现2023/5/162023/5/16两个总体均值的检验两个总体均值的检验独立小样本独立小样本例题分析例题分析甲企业灯泡平均使用寿命为8487.5,乙企业灯泡平均使用寿命为8166.0假设方差相等时,t统计量值=3.494270,自由度=38.0,p值=0.001225假设方差不相等时,t统计量值=3.494270,自由度=33.6826,p值=0.001353#计算效算效应量量效应量 d=1.104985 6.2 总体均值的检验第 6 章6-22数据分析基础基于Python的实现2023/5/162023/5/16两个总体均值差的检验两个总体均值差的检验配对样本配对样本例题分析例题分析 6.2 总体均值的检验l假定条件两个总体配对差值构成的总体服从正态分布配对差是由差值总体中随机抽取的数据配对或匹配(重复测量(前/后)l检验统计量l效应量例题分析例题分析【例例6-7】检验消费者对两款饮料的评分配对样本差值的均值=-1.3,t统计量值=-2.750848,p值=0.02245#计算效算效应量量效应量 d=0.869895第 6 章6-23数据分析基础基于Python的实现2023/5/162023/5/16一个总体比例的检验一个总体比例的检验例题分析例题分析 6.3 总体比例的检验l假定条件总体服从二项分布可用正态分布来近似(大样本)l检验的z 统计量例题分析例题分析【例【例6-8】检验收视率是否达到制作人的预期z统计量值=-2.5820,p值=0.995088第 6 章6-24数据分析基础基于Python的实现2023/5/162023/5/16两个总体比例差的检验两个总体比例差的检验例题分析例题分析 6.3 总体比例的检验例题分析例题分析【例例6-9】检验上网收费z统计量值=-1.7298,p值=0.041837例题分析例题分析【例例6-10】检验两种生产方法z统计量值=-7.9123,p值=1.2635e-15第 6 章6-25数据分析基础基于Python的实现2023/5/162023/5/16一个总体方差的检验一个总体方差的检验例题分析例题分析 6.4 总体方差的检验l检验一个总体的方差或标准差l假设总体近似服从正态分布l使用卡方分布l检验统计量【例例6-11】检验填装量的方差样本填装量的方差=5.2872,卡方统计量值=2.9741,自由度df=9,p值=0.9653第 6 章6-26数据分析基础基于Python的实现2023/5/162023/5/16两个总体方差比的检验两个总体方差比的检验例题分析例题分析 6.4 总体方差的检验l假定条件两个总体都服从正态分布,且方差相等两个独立的随机样本l检验统计量例题分析例题分析【例例6-12】检验两企业灯泡使用寿命的方差比F统计量值=0.4727,p值=0.1110第 6 章6-27数据分析基础基于Python的实现2023/5/162023/5/16正态性检验正态性检验Q-Q图图 6.5 正态性检验l参数检验(如t检验,F检验等)通常都是在假定总体服从正态分布或总体分布形式已知的条件下进行的,而且要求所分析的数据是数值型的l当总体的概率分布形式未知,或者无法对总体的概率分布做出假定时,参数检验方法往往会失效l非参数检验(nonparametric test)方法不仅对总体的分布要求很少,对数据类型的要求也比参数检验宽松l当数据不适合用参数检验时,非参数检验往往得出理想的结果第 6 章6-28数据分析基础基于Python的实现2023/5/162023/5/16正态性检验正态性检验Q-Q图图例题分析例题分析【例例6-13】(数据:example2_2.csv)沿用第2章例2-2。以北京的AQI为例,绘制正态Q-Q图,检验AQI是否服从正态分布 6.5 正态性检验第 6 章6-29数据分析基础基于Python的实现2023/5/162023/5/16正态性检验正态性检验Shapiro-Wilk检验检验例题分析例题分析【例例6-14】检验砖的厚度是否服从正态分布统计量W=0.91377,p值=0.07522 6.5 正态性检验第 6 章6-30数据分析基础基于Python的实现2023/5/162023/5/16正态性检验正态性检验K-S检验检验例题分析例题分析【例例6-15】检验砖的厚度是否服从正态分布统计量D=0.23538,p值=0.2178 6.5 正态性检验THE ENDTHE ENDT THHAANNKKS S2023/5/16人人 生生 苦苦 短短我我 用用P Py yt th ho on n