分类数据的检验讲稿.ppt
《分类数据的检验讲稿.ppt》由会员分享,可在线阅读,更多相关《分类数据的检验讲稿.ppt(32页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、分类数据的检验第一页,讲稿共三十二页哦在描述分析基础上,进行推断统计分析参数估计假设检验统计推断要求知道统计量的抽样分布什么是统计量什么是抽样分布属性数据的两种重要分布:二项分布多项分布第二页,讲稿共三十二页哦二项分布属性数据常常来源于每次试验仅有两种试验结果的n次独立重复试验,如成功与失败、合格与不合格、男与女、等等假设 代表一次试验成功的概率,代表n次试验中成功的次数,这时 服从指标n以及参数 的二项分布,即YY()(1)yyn ynP YyC(,)YB n!0,1,2,!()!ynnCyny ny其中,第三页,讲稿共三十二页哦二项分布二项分布的期望和方差分别为:当n=1时,二项分布简化为
2、:即:0-1分布是二项分布的特殊情况()()(1)E YnD Yn1()(1)yyP Yy0,1y 其中,第四页,讲稿共三十二页哦二项分布【例】假设一次考试有10道选择题,每题有五个选项。一位完全没有准备的学生随机猜测每道题的答案。试问可能回答正确的题数及其概率如何。【解】结果见表2.1可以看出,仅当=0.5时,二项分布才是对称的。对于固定的n,随着趋近0或1,二项分布表现越加偏斜。对于固定的,随着n增加,二项分布更趋近钟形。第五页,讲稿共三十二页哦二项分布当n很大时,二项分布趋近于均值 ,的正态分布(近似分布)。原则上,要使二项分布趋近正态分布,要求期望 和 都不小于5。当较大时(如0.5)
3、,n相对较小(如10)就可以满足要求;当较小时(如0.1或0.9),则要求n取较大的值(如50),即大样本要求。2(1)nnn(1)n第六页,讲稿共三十二页哦多项分布多项分布是二项分布的推广,其试验结果的类别多于两种,记为 。令c代表结果的类别数,用 表示每种结果出现的概率,且对于n次独立试验,具有 次观测落入第1类,次观测落入第2类的概率为:1n2n12,c 1j12121212!(,)!cnnncccjnP n nnn nnnn 其中,12(,)cM n 第七页,讲稿共三十二页哦多项分布显然,当c=2时多项分布简化为二项分布。通常不需要使用以上多项分布概率公式,只需掌握基于多项分布律的统计
4、量即可。大部分针对属性数据的方法都假设:单类别的计数服从二项分布多类别的计数服从多项分布任何一个确定类别 计数 具有均值 ,标准差 。jjnjn(1)jjn第八页,讲稿共三十二页哦其他分布超几何分布设N件产品中有M件次品,从中无放回取n件时所含次品数X是一个随机变量,其概率为:泊松分布描述指定时间内,或面积、体积内某一事件出现的个数的分布,其概率为:()mn mMN MnNC CP XmC()!xeP Xxx,其中 为出现的平均次数第九页,讲稿共三十二页哦二项分布的统计推断实际中,二项分布和多项分布的参数值未知,需要通过样本数据估计总体参数。在统计学原理中,可以根据样本比例的抽样分布,用样本比
5、例估计总体比例的区间,或用样本比例的差估计总体比例差。/2(1)(1)/pzppn12/2111222(2)()(1)/(1)/ppzppnppn第十页,讲稿共三十二页哦二项分布的统计推断需要强调的是,以上方法使用的前提是样本量n要足够大,或者二项比例接近0.5;否则区间估计的效果将非常差,特别是在二项比例趋近1或0时;这时,可以采用假设检验(得分检验)的方法来进行参数估计,其效果要优于一般直接采用区间估计的方法。原因在于:计算样本比例的标准误时,不需要用样本比例作为总体比例的点估计。第十一页,讲稿共三十二页哦二项分布的统计推断【例】一项新治疗手段在10次试验中有9次成功,试对总体比例进行区间
6、估计(=0.05)。【解1】基于直接区间估计方法的结果为:【解2】运用检验统计量构造区间:对于给定的p和n,使检验统计量值 的 是下面方程的解.0.90 1.96(0.90)(0.10)/10(0.714,1.086)1.96z 00001.96(1)/pn(0.596 0.982)pn代入 和 求解得,第十二页,讲稿共三十二页哦二项分布的统计推断对二项参数的假设检验:Wald检验(最简单的方法)是利用 极大似然(ML)估计值代替真实标准误表达式中的未知参数而构造的统计量近似服从标准正态分布,近似服从df=1的卡方分布称为Wald统计量0()/(1)/zpppn2z第十三页,讲稿共三十二页哦二
7、项分布的统计推断似然比检验利用似然函数构造似然比统计量,其中分子是原假设成立时似然函数的极大值,分母是不限定参数时似然函数的极大值,形式为:在原假设成立条件下,该统计量服从df=1的大样本卡方分布可以利用统计软件计算似然函数的极大值012ln(/)ll第十四页,讲稿共三十二页哦几种方法的比较【例】试对前例进行假设检验,其原假设与备择假设分别为Wald检验的统计量:得分检验的统计量:似然比检验统计量:01:0.5:0.5HH,(0.90.5)/0.9(0.1)/104.22z(0.90.5)/0.5(0.5)/102.53z 012ln(/)2ln(0.00977/0.3874)7.36ll 第
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分类 数据 检验 讲稿
限制150内