第4章推断方法的理论基础:概率分布(DA)教学ppt课件数据分析基础—基于Python的实现电子教案.pptx
-
资源ID:88334627
资源大小:2.19MB
全文页数:27页
- 资源格式: PPTX
下载积分:20金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
第4章推断方法的理论基础:概率分布(DA)教学ppt课件数据分析基础—基于Python的实现电子教案.pptx
第4章 推断方法的理论基础:概率分布(DA)教学课件数据分析基础基于Python的实现 电子教案第 1 章1-2统计学Python实现贾俊平2023/4/162023/4/16贾俊平俊平2023/4/162023/4/16数据分析基础数据分析基础贾俊平俊平 2023/4/162023/4/16Fundamentals of data Fundamentals of data analysis with Pythonanalysis with Python基于基于 Python 的实现的实现第 4 章4-3数据分析基础基于Python的实现2023/4/162023/4/16贾俊平俊平2023/4/162023/4/164.1 4.1 什么是概率什么是概率4.2 4.2 随机变量的概率分布随机变量的概率分布4.3 4.3 样本统计量的概率分布样本统计量的概率分布 第 4 章 推断分析的理论基础:概率分布第 4 章4-4数据分析基础基于Python的实现2023/4/162023/4/16 4.1 什么是概率概率概率第 4 章4-5数据分析基础基于Python的实现2023/4/162023/4/16 4.2 随机变量的概率分布随机变量的概括性度量随机变量的概括性度量随机变量随机变量l事先不知道会出现什么结果,一般用X,Y,Z 来表示投掷两枚硬币出现正面的数量一座写字楼,每平方米的出租价格一个消费者对某一特定品牌饮料的偏好 l离散型随机变量随机变量 X 取有限个值或所有取值都可以逐个列举出来以确定的概率取这些不同的值l连续型随机变量可以取一个或多个区间中任何值 所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点第 4 章4-6数据分析基础基于Python的实现2023/4/162023/4/16 4.2 随机变量的概率分布随机变量的概括性度量随机变量的概括性度量离散型离散型期望值和方差期望值和方差【例例】一家手机制造商声称,它们所生产的手机100个中拥有次品的个数及相应的概率如下表所示。求该手机次品数的期望值和标准差次品数次品数X=xi0123概率概率P(X=xi)pi0.750.120.080.05期望值:0.43 方差:0.7051 标准差:0.8397第 4 章4-7数据分析基础基于Python的实现2023/4/162023/4/16 4.2 随机变量的概率分布随机变量的概括性度量随机变量的概括性度量连续型连续型期望值和方差期望值和方差l期望值l方差E EE E E E第 4 章4-8数据分析基础基于Python的实现2023/4/162023/4/16 4.2 随机变量的概率分布随机变量的概率分布随机变量的概率分布离散型离散型第 4 章4-9数据分析基础基于Python的实现2023/4/162023/4/16 4.2 随机变量的概率分布随机变量的概率分布随机变量的概率分布离散型离散型二项分布二项分布第 4 章4-10数据分析基础基于Python的实现2023/4/162023/4/16 4.2 随机变量的概率分布随机变量的概率分布随机变量的概率分布离散型离散型二项分布二项分布l二项分布Binomial(5,b)图 第 4 章4-11数据分析基础基于Python的实现2023/4/162023/4/16 4.2 随机变量的概率分布随机变量的概率分布随机变量的概率分布离散型离散型二项分布二项分布概率计算概率计算【例例4-2】已知一批产品的次品率为6%,从中任意有放回地抽取5个。求5个产品中(1)没有次品的概率(2)恰好有1个次品的概率(3)有3个及以下次品的概率l没有次品的概率l恰好有1个次品的概率l3个及3个以下次品的概率P(X=0)=0.733904P(X=1)=0.234225 P(X3)=0.999938第 4 章4-12数据分析基础基于Python的实现2023/4/162023/4/16 4.2 随机变量的概率分布随机变量的概率分布随机变量的概率分布连续型连续型正态分布正态分布l连续型随机变量可以取某一区间或整个实数轴上的任意一个值l它取任何一个特定的值的概率都等于0l不能列出每一个值及其相应的概率l通常研究它取某一区间值的概率l用概率密度函数的形式和分布函数的形式来描述正态分布正态分布l由C.F.高斯(Carl Friedrich Gauss,17771855)作为描述误差相对频数分布的模型而提出l描述连续型随机变量的最重要的分布l许多现象都可以由正态分布来描述l可用于近似离散型随机变量的分布,如二项分布l经典统计推断的基础l概率密度函数第 4 章4-13数据分析基础基于Python的实现2023/4/162023/4/16 4.2 随机变量的概率分布随机变量的概率分布随机变量的概率分布连续型连续型正态分布正态分布正态分布正态分布l图形是关于x=对称钟形曲线,且峰值在x=处l均值和标准差一旦确定,分布形式也惟一确定,不同参数正态分布构成一个完整的“正态分布族”l均值可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的“陡峭”或“扁平”程度。越大,正态曲线扁平;越小,正态曲线越高陡峭lX的取值向横轴左右两个方向无限延伸,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交l在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1 不同均值和标准差对应的正态曲线不同均值和标准差对应的正态曲线第 4 章4-14数据分析基础基于Python的实现2023/4/162023/4/16 4.2 随机变量的概率分布随机变量的概率分布随机变量的概率分布连续型连续型正态分布正态分布标准正态分布的概率标准正态分布的概率第 4 章4-15数据分析基础基于Python的实现2023/4/162023/4/16 4.2 随机变量的概率分布随机变量的概率分布随机变量的概率分布连续型连续型正态分布正态分布标准正态分布标准正态分布l随机变量具有均值为0,标准差为1的正态分布l任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布l标准正态分布的概率密度函数第 4 章4-16数据分析基础基于Python的实现2023/4/162023/4/16 4.2 随机变量的概率分布随机变量的概率分布随机变量的概率分布连续型连续型正态分布正态分布概率计算概率计算#计算正算正态分布的概率和分位数分布的概率和分位数P(X40)=0.158655 P(30X40)=0.135905 P(Z2.5)=0.99379 P(-1.5Z2)=0.910443 q(2.5)=-1.959964第 4 章4-17数据分析基础基于Python的实现2023/4/162023/4/16 4.2 随机变量的概率分布随机变量的概率分布随机变量的概率分布连续型连续型卡方分布卡方分布不同自由度的的卡方分布的图像不同自由度的的卡方分布的图像 第 4 章4-18数据分析基础基于Python的实现2023/4/162023/4/16 4.2 随机变量的概率分布随机变量的概率分布随机变量的概率分布连续型连续型卡方分布卡方分布例题分析例题分析#计算卡方分布的概率和分位数P(10,15)=0.18026 P(15,25)=0.941383 q(0.95,10)=18.307038第 4 章4-19数据分析基础基于Python的实现2023/4/162023/4/16 4.2 随机变量的概率分布随机变量的概率分布随机变量的概率分布连续型连续型t 分布分布【例例例例4545】计计算算:(1)(1)自自由由度度为为1010,t t值值小小于于-2-2的的概概率率;(2)(2)自自由由度度为为1010,t t值值大大于于3 3的的概概率率;(3)(3)自自由由度度为为1010,t t分布双尾概率为分布双尾概率为0.050.05时的时的t t值值P(X-2,df=10)=0.036694 P(X3,df=15)=0.004486 q(P=0.975,df=25)=2.059539T T 分分布布与与标标准准正正态态分分布曲线的比较布曲线的比较第 4 章4-20数据分析基础基于Python的实现2023/4/162023/4/16 4.2 随机变量的概率分布随机变量的概率分布随机变量的概率分布连续型连续型F 分布分布【例例例例4 4 6 6】计计算算:(1 1)分分子子自自由由度度为为1010,分分母母自自由由度度为为8 8,F F值值小小于于3 3的的概概率率;(2 2)分分子子自自由由度度为为1818,分分母母自自由由度度为为1515,F F值值大大于于2.52.5的的概概率率;(3 3)分分子子自自由由度度为为2525,分分母母自自由由度度为为2020,F F分分布布累累积积概概率率为为0.950.95时时的的F F值值P(X3)=0.933549 P(X2.5)=0.03945 q(P=0.975)=2.07392第 4 章4-21数据分析基础基于Python的实现2023/4/162023/4/16 4.3 样本统计量的概率分布统计量及其分布统计量及其分布参数和统计量参数和统计量概率分布概率分布 统计量的概率分布统计量的概率分布l样本统计量的概率分布,也称抽样分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布l随机变量是样本统计量样本均值,样本比例,样本方差等l结果来自容量相同的所有可能样本l提供样本统计量长远而稳定的信息,进行推断的理论基础第 4 章4-22数据分析基础基于Python的实现2023/4/162023/4/16 4.3 样本统计量的概率分布统计量及其分布统计量及其分布样本均值的概率分布与中心极限定理样本均值的概率分布与中心极限定理 样本均值的分布样本均值的分布l在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布l一种理论概率分布l推断总体均值的理论基础中心极限定理中心极限定理从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布样本均值的分布与总体分布及样本量的关系样本均值的分布与总体分布及样本量的关系样本均本均值的分布的分布来自正来自正态总体的体的样本本正正态分布分布来自非正来自非正态总体的体的样本本大大样本本正正态分布分布小小样本本非正非正态分布分布第 4 章4-23数据分析基础基于Python的实现2023/4/162023/4/16 4.3 样本统计量的概率分布统计量及其分布统计量及其分布样本均值的概率分布与中心极限定理样本均值的概率分布与中心极限定理 中心极限定理中心极限定理从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布第 4 章4-24数据分析基础基于Python的实现2023/4/162023/4/16 4.3 样本统计量的概率分布统计量及其分布统计量及其分布样本方差的概率分布样本方差的概率分布 来自正态总体的样本方差的分布模拟来自正态总体的样本方差的分布模拟第 4 章4-25数据分析基础基于Python的实现2023/4/162023/4/16 4.3 样本统计量的概率分布统计量及其分布统计量及其分布样本比例的概率分布样本比例的概率分布 样本比例的分布样本比例的分布l统计量的抽样分布的标准差,简称标准误差l衡量统计量的离散程度,测度了用样本统计量估计总体参数的精确程度l当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误l以样本均值为例:当总体标准差未知时,可用样本标准差s代替,则在重复抽样条件下,样本均值的估计标准误为l样本均值和样本比例的标准误分别为第 4 章4-26数据分析基础基于Python的实现2023/4/162023/4/16 4.3 样本统计量的概率分布统计量及其分布统计量及其分布统计量分布的标准误统计量分布的标准误l统计量的抽样分布的标准差,简称标准误差l衡量统计量的离散程度,测度了用样本统计量估计总体参数的精确程度l当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误l以样本均值为例:当总体标准差未知时,可用样本标准差s代替,则在重复抽样条件下,样本均值的估计标准误为l样本均值和样本比例的标准误分别为 样本均值的标准误样本均值的标准误样本比例的标准误样本比例的标准误THE ENDTHE ENDT THHAANNKKS S2023/4/16人人 生生 苦苦 短短我我 用用P Py yt th ho on n