欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    定性数据统计分析第1-2章概要优秀PPT.ppt

    • 资源ID:56419537       资源大小:562KB        全文页数:49页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    定性数据统计分析第1-2章概要优秀PPT.ppt

    定性数据统计分析Categorical Data Analysis授课班级:1070612009年下学期教学内容第一章 定性数据其次章 分类数据的检验第三章 四格表第四章 二维列联表第五章 高维列联表第六章 逻辑斯蒂回来模型第七章 对数线性模型第八章 列联表的对应分析第一章 定性数据什么是定性数据?数据的类型 依据数据的取值来分:1.计量数据(Continuous Data):身高、体重等;取值为随意实数2.计数数据(Counts):职工人数、成交股票数等;取值为非负整数3.名义数据(Nominal Data):性别、婚姻状况等;取值为属性编码4.有序数据(Ordinal Data):文化程度、满足度等;取值为可排序的属性编码第一章 定性数据定性数据的描述性统计方法有表格法、图示法、数值法1、表格法【例】向50个被访者调查“你最宠爱喝的饮料”,得到表1.1。以上数据经按类别整理后,可得到频数分布表,见表1.2制作有序数据的频数分布表时,还可以统计累积频数和累积频率。第一章 定性数据假如我们想考察这些饮料受欢迎程度与性别的关系,可以制作饮料与性别的交叉分组表,见表1.3明显,这种表有利于我们进一步发觉受欢迎程度与性别之间的关系。类似地有三种、或更多种方式分组的交叉表,即列联表(contingency table)。第一章 定性数据2、图示法包括条形图、圆形图(表1.4)、排列图等其中的排列图,又叫帕累托图,是依据发生频率大小依次绘制的条形图;表示有多少结果是由已确认类型或范畴的缘由所造成;将出现的质量问题和质量改进项目依据重要程度依次排列而接受的一种图表;可以用来分析质量问题,确定产生质量问题的主要因素。通常用双坐标系表示,左边纵坐标表示频数,右边纵坐标表示频率,分析线表示累积频率累积频率;横坐标表示影响质量的各项因素,按影响程度的大小(即出现频数多少)从左到右排列;通常将累积频率080%之间的因素认为是影响质量的主要因素。(见附录1)帕累托图(Pareto Chart)(Pareto Chart)第一章 定性数据3、数值法即用代表性的数值描述定性数据的统计分布特征。代表性的数值有两类:描述定性数据的中心位置描述定性数据的离散程度中心位置:众数、中位数、百分位数离散程度:异众比率、G-S指数、熵众数数据中出现频数最高的数据值,记为Mo如上例中,“可口可乐”是众数;适用于定性名义数据中心位置的量度;众数的性质略。中位数将数据按确定依次排列后位于中间的数值,记为Me;例:游客对服务看法的评价(%)适用于定性有序数据中心位置的量度。百分位数百分位数是对数据位置的量度,但不确定是中心位置;一般地,第p百分位数是指,至少有p%的数据项小于等于这个值,且至少有(100-p)%的数据项大于等于这个值;第25百分位数称为下四分位数,记为QL,第50百分位数就是中位数,第75百分位数称为上四分位数,记为QU;异众比率用于定性名义数据离散程度的度量,记为V:离异比率越小,说明数据越集中;此外,还可以利用随机变量来刻画定性数据的离散程度;比如,随机变量,可以取 等不同的值,相应的概率为 即:Gini-Simpson指数基尼-辛卜生指数简称G-S指数随机变量的G-S指数记为G-S()G-S指数越小,说明随机变量的分布越集中;G-S指数越大,则分布越分散。当k=2,时,G-S指数达到最大值 ,即匀整分布时指数达到最大(见附录2)。熵随机变量的熵(entropy)记为H():在 的条件下,衡量给定分布与匀整分布接近的程度。越接近于匀整分布,越处于平衡状态,即离散程度越大,熵的取值越大,最大值为 ;反之也反。(见附录2)定性数据离散程度的测度【例】最宠爱的饮料的频数分布表1、用离异比率测度:若将数据稍作调整为:则饮料频数频率可口可乐苹果汁橘子汁百事可乐杏仁露2565595012101018合计50100定性数据离散程度的测度2、用G-S指数测度:调整前,调整后,3、用熵测度:调整前,调整后,定性数据离散程度的测度假如前例中每种饮料的频数相同,那么各自的G-S指数和熵分别为多少呢?当匀整分布时,定性数据的离散程度达到最大G-S指数的最大值为:熵的最大值为:本章小结定性数据的类型运用频数分布表整理数据,并计算频率绘出条形图、饼图、帕累托图描述定性数据的中心位置和离散程度其次章 分类数据的检验在描述分析基础上,进行推断统计分析参数估计假设检验统计推断要求知道统计量的抽样分布什么是统计量什么是抽样分布属性数据的两种重要分布:二项分布多项分布二项分布属性数据常常来源于每次试验仅有两种试验结果的n次独立重复试验,如成功与失败、合格与不合格、男与女、等等假设 代表一次试验成功的概率,代表n次试验中成功的次数,这时 听从指标n以及参数 的二项分布,即二项分布二项分布的期望和方差分别为:当n=1时,二项分布简化为:即:0-1分布是二项分布的特殊状况二项分布【例】假设一次考试有10道选择题,每题有五个选项。一位完全没有准备的学生随机揣测每道题的答案。试问可能回答正确的题数及其概率如何。【解】结果见表2.1可以看出,仅当=0.5时,二项分布才是对称的。对于固定的n,随着趋近0或1,二项分布表现越加偏斜。对于固定的,随着n增加,二项分布更趋近钟形。二项分布当n很大时,二项分布趋近于均值 ,的正态分布(近似分布)。原则上,要使二项分布趋近正态分布,要求期望 和 都不小于5。当较大时(如0.5),n相对较小(如10)就可以满足要求;当较小时(如0.1或0.9),则要求n取较大的值(如50),即大样本要求。多项分布多项分布是二项分布的推广,其试验结果的类别多于两种,记为 。令c代表结果的类别数,用 表示每种结果出现的概率,且对于n次独立试验,具有 次观测落入第1类,次观测落入第2类的概率为:多项分布明显,当c=2时多项分布简化为二项分布。通常不须要运用以上多项分布概率公式,只需驾驭基于多项分布律的统计量即可。大部分针对属性数据的方法都假设:单类别的计数听从二项分布多类别的计数听从多项分布任何一个确定类别 计数 具有均值 ,标准差 。其他分布超几何分布设N件产品中有M件次品,从中无放回取n件时所含次品数X是一个随机变量,其概率为:泊松分布描述指定时间内,或面积、体积内某一事务出现的个数的分布,其概率为:二项分布的统计推断实际中,二项分布和多项分布的参数值未知,须要通过样本数据估计总体参数。在统计学原理中,可以依据样本比例的抽样分布,用样本比例估计总体比例的区间,或用样本比例的差估计总体比例差。二项分布的统计推断须要强调的是,以上方法运用的前提是样本量n要足够大,或者二项比例接近0.5;否则区间估计的效果将特别差,特殊是在二项比例趋近1或0时;这时,可以接受假设检验(得分检验)的方法来进行参数估计,其效果要优于一般干脆接受区间估计的方法。缘由在于:计算样本比例的标准误时,不须要用样本比例作为总体比例的点估计。二项分布的统计推断【例】一项新治疗手段在10次试验中有9次成功,试对总体比例进行区间估计(=0.05)。【解1】基于干脆区间估计方法的结果为:【解2】运用检验统计量构造区间:对于给定的p和n,使检验统计量值 的 是下面方程的解.二项分布的统计推断对二项参数的假设检验:Wald检验(最简洁的方法)是利用 极大似然(ML)估计值代替真实标准误表达式中的未知参数而构造的统计量近似听从标准正态分布,近似听从df=1的卡方分布称为Wald统计量二项分布的统计推断似然比检验利用似然函数构造似然比统计量,其中分子是原假设成立时似然函数的极大值,分母是不限定参数时似然函数的极大值,形式为:在原假设成立条件下,该统计量听从df=1的大样本卡方分布可以利用统计软件计算似然函数的极大值几种方法的比较【例】试对前例进行假设检验,其原假设与备择假设分别为Wald检验的统计量:得分检验的统计量:似然比检验统计量:几种方法的比较其中,当以上统计推断方法结果不一样时,说明ML估计量的分布远离了正态分布,在这种状况下,运用小样本方法将更精确。对小样本时,干脆运用二项分布,而不是运用正态近似来计算P-值,将更加平安精确。分类数据的检验当分类超过两类时,形成多项分布;多项分布属性数据的假设检验一般提法:依据某项指标总体被分为r类,分别为:提出原假设:假设对该总体进行n次观测,其中Ai类的观测次数为ni,以此为基础对原假设进行检验。分类数据的2检验在原假设成立时,n次观测中属于Ai类的期望频数为 ,则实际频数与期望频数应接近,从而有Pearson卡方统计量:该统计量的值越小,说明原假设成立;若该值较大,说明实际频数与期望频数差异较大,故拒绝原假设。Mendel 的豌豆试验分类数据的2检验对得到的卡方统计量的值,可以干脆与相应的显著性水平和自由度下的卡方值比较,若大于则拒绝原假设,若小于则不拒绝原假设;查表得:,故不拒绝原假设。也可以利用P-值进行推断:须要留意的是:卡方统计量的运用要求样本量要大,且期望频数不能太小,见附录3。通常要求样本量50,期望频数5。分类数据的2检验对于小期望频数的问题,有人接受合并类别的方法。但会导致:会丢失信息;随机性受到影响;不同的类别合并方式会产生不同的结论对于前面探讨的二项分布的检验而言,同样可以接受卡方统计量进行检验。只不过只有两类而已(卡方的df=1)。分类数据的2检验以上所进行的多项分布数据检验称为拟合优度检验,或一样性检验;类似的例子如:为提高市场占用率,两个主要竞争对手绽开了公告战。已知之前A公司占用率45%,B公司为40%,其他15%。为了解广告之后是否有变更调查了200个消费者,有102人购买A公司产品,82人购买B公司产品,16人购买其他公司产品。问前后是否有差异。分类数据的似然比检验分类数据的似然函数取决于多项分布的分布律:似然函数就是观测数据出现的概率,被看作参数的函数。似然比统计量确定了在原假设下和不限定参数时似然函数极大值的比值。则多项分布的似然比统计量记为:分类数据的似然比检验似然比统计量说明,当期望频数等于实际频数时,G2等于0;越大的G2则供应了拒绝H0越充分的证据。G2与皮尔逊卡方统计量类似,当原假设成立且期望频数很大时,都听从相同的卡方分布。G2渐近卡方分布自由度的确定方法:自由度df=完全参数空间要估计的参数个数-原假设成立时要估计的参数个数Mendel 的豌豆试验前例同样可以利用似然比统计量进行检验与皮尔逊卡方统计量的值相近。检验的推断准则同卡方检验。带参数的分类数据的检验前面的分类数据检验中,假设总体比例都是已知的,进而通过计算检验统计量的值进行推断原假设是否成立。而实际中并不完全是这样的。这就须要在原假设成立时先对未知的参数进行估计,然后再进行检验。原假设为:带参数的分类数据的检验依据多项分布律构造似然函数,从而得到对数似然方程,可以求得未知参数的估计值,再来计算皮尔逊卡方统计量和似然比统计量:带参数的分类数据的检验【例】按性别和是否色盲将随机调查1000人进行分类,结果为:男性正常、女性正常、男性色盲、女性色盲各有442人、514人、38人、6人。依据遗传学理论,男性正常、女性正常、男性色盲、女性色盲的概率分别为:其中,未知,。问调查与模型相符吗?带参数的分类数据的检验可见,上例中参数是未知的,须要先求p的极大似然估计值。似然函数为:得到对数似然方程:于是求得:数值迭代算法求参数在对数似然方程无显式解时,可以运用excel,用数值迭代算法求得参数的极大似然估计值。具体方法有五个步骤,可以参见教材P26。本章小结主要的定性数据的分布类型二项分布的统计推断分类数据的检验带参数的分类数据的检验

    注意事项

    本文(定性数据统计分析第1-2章概要优秀PPT.ppt)为本站会员(1398****507)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开