定性数据统计分析第1-2章概要优秀PPT.ppt
《定性数据统计分析第1-2章概要优秀PPT.ppt》由会员分享,可在线阅读,更多相关《定性数据统计分析第1-2章概要优秀PPT.ppt(49页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、定性数据统计分析Categorical Data Analysis授课班级:1070612009年下学期教学内容第一章 定性数据其次章 分类数据的检验第三章 四格表第四章 二维列联表第五章 高维列联表第六章 逻辑斯蒂回来模型第七章 对数线性模型第八章 列联表的对应分析第一章 定性数据什么是定性数据?数据的类型 依据数据的取值来分:1.计量数据(Continuous Data):身高、体重等;取值为随意实数2.计数数据(Counts):职工人数、成交股票数等;取值为非负整数3.名义数据(Nominal Data):性别、婚姻状况等;取值为属性编码4.有序数据(Ordinal Data):文化程度
2、、满足度等;取值为可排序的属性编码第一章 定性数据定性数据的描述性统计方法有表格法、图示法、数值法1、表格法【例】向50个被访者调查“你最宠爱喝的饮料”,得到表1.1。以上数据经按类别整理后,可得到频数分布表,见表1.2制作有序数据的频数分布表时,还可以统计累积频数和累积频率。第一章 定性数据假如我们想考察这些饮料受欢迎程度与性别的关系,可以制作饮料与性别的交叉分组表,见表1.3明显,这种表有利于我们进一步发觉受欢迎程度与性别之间的关系。类似地有三种、或更多种方式分组的交叉表,即列联表(contingency table)。第一章 定性数据2、图示法包括条形图、圆形图(表1.4)、排列图等其中
3、的排列图,又叫帕累托图,是依据发生频率大小依次绘制的条形图;表示有多少结果是由已确认类型或范畴的缘由所造成;将出现的质量问题和质量改进项目依据重要程度依次排列而接受的一种图表;可以用来分析质量问题,确定产生质量问题的主要因素。通常用双坐标系表示,左边纵坐标表示频数,右边纵坐标表示频率,分析线表示累积频率累积频率;横坐标表示影响质量的各项因素,按影响程度的大小(即出现频数多少)从左到右排列;通常将累积频率080%之间的因素认为是影响质量的主要因素。(见附录1)帕累托图(Pareto Chart)(Pareto Chart)第一章 定性数据3、数值法即用代表性的数值描述定性数据的统计分布特征。代表
4、性的数值有两类:描述定性数据的中心位置描述定性数据的离散程度中心位置:众数、中位数、百分位数离散程度:异众比率、G-S指数、熵众数数据中出现频数最高的数据值,记为Mo如上例中,“可口可乐”是众数;适用于定性名义数据中心位置的量度;众数的性质略。中位数将数据按确定依次排列后位于中间的数值,记为Me;例:游客对服务看法的评价(%)适用于定性有序数据中心位置的量度。百分位数百分位数是对数据位置的量度,但不确定是中心位置;一般地,第p百分位数是指,至少有p%的数据项小于等于这个值,且至少有(100-p)%的数据项大于等于这个值;第25百分位数称为下四分位数,记为QL,第50百分位数就是中位数,第75百
5、分位数称为上四分位数,记为QU;异众比率用于定性名义数据离散程度的度量,记为V:离异比率越小,说明数据越集中;此外,还可以利用随机变量来刻画定性数据的离散程度;比如,随机变量,可以取 等不同的值,相应的概率为 即:Gini-Simpson指数基尼-辛卜生指数简称G-S指数随机变量的G-S指数记为G-S()G-S指数越小,说明随机变量的分布越集中;G-S指数越大,则分布越分散。当k=2,时,G-S指数达到最大值 ,即匀整分布时指数达到最大(见附录2)。熵随机变量的熵(entropy)记为H():在 的条件下,衡量给定分布与匀整分布接近的程度。越接近于匀整分布,越处于平衡状态,即离散程度越大,熵的
6、取值越大,最大值为 ;反之也反。(见附录2)定性数据离散程度的测度【例】最宠爱的饮料的频数分布表1、用离异比率测度:若将数据稍作调整为:则饮料频数频率可口可乐苹果汁橘子汁百事可乐杏仁露2565595012101018合计50100定性数据离散程度的测度2、用G-S指数测度:调整前,调整后,3、用熵测度:调整前,调整后,定性数据离散程度的测度假如前例中每种饮料的频数相同,那么各自的G-S指数和熵分别为多少呢?当匀整分布时,定性数据的离散程度达到最大G-S指数的最大值为:熵的最大值为:本章小结定性数据的类型运用频数分布表整理数据,并计算频率绘出条形图、饼图、帕累托图描述定性数据的中心位置和离散程度
7、其次章 分类数据的检验在描述分析基础上,进行推断统计分析参数估计假设检验统计推断要求知道统计量的抽样分布什么是统计量什么是抽样分布属性数据的两种重要分布:二项分布多项分布二项分布属性数据常常来源于每次试验仅有两种试验结果的n次独立重复试验,如成功与失败、合格与不合格、男与女、等等假设 代表一次试验成功的概率,代表n次试验中成功的次数,这时 听从指标n以及参数 的二项分布,即二项分布二项分布的期望和方差分别为:当n=1时,二项分布简化为:即:0-1分布是二项分布的特殊状况二项分布【例】假设一次考试有10道选择题,每题有五个选项。一位完全没有准备的学生随机揣测每道题的答案。试问可能回答正确的题数及
8、其概率如何。【解】结果见表2.1可以看出,仅当=0.5时,二项分布才是对称的。对于固定的n,随着趋近0或1,二项分布表现越加偏斜。对于固定的,随着n增加,二项分布更趋近钟形。二项分布当n很大时,二项分布趋近于均值 ,的正态分布(近似分布)。原则上,要使二项分布趋近正态分布,要求期望 和 都不小于5。当较大时(如0.5),n相对较小(如10)就可以满足要求;当较小时(如0.1或0.9),则要求n取较大的值(如50),即大样本要求。多项分布多项分布是二项分布的推广,其试验结果的类别多于两种,记为 。令c代表结果的类别数,用 表示每种结果出现的概率,且对于n次独立试验,具有 次观测落入第1类,次观测
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 定性 数据 统计分析 概要 优秀 PPT
限制150内