《第六章 统计分析基础知识.ppt》由会员分享,可在线阅读,更多相关《第六章 统计分析基础知识.ppt(51页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六章第六章 统计分析基础知识统计分析基础知识第1节 数据统计分析概述第2节 描述性统计分析第3节 推断统计学习目标了解统计分析中的基本概念熟悉统计分析中的变量类型掌握单变量和双变量描述统计的方法掌握参数估计和假设检验的方法第1节 数据统计分析概述一、数据统计分析的目的二、统计分析中的几个基本概念三、数据统计分析中的变量一、数据统计分析的目的简化和描述数据用样本推断总体寻找并展示变量间的统计关系二、统计分析中的基本概念同质与变异总体与样本标志与指标统计量与样本分布随机事件与概率三、统计分析中的变量1按间隙划分离散变量:当一个变量的任意两个可能取值之间没有其他取值时,该变量是离散的。连续变量:当
2、一个变量的任意两个可能取值之间还有其他可能的取值时,该变量是连续的。按作用划分自变量:如果一个变量与其他变量一起用于描述因变量,该变量称为自变量或预测变量。因变量:如果一个变量由其他变量来描述,该变量称为因变量或反应变量。根据测量尺度划分 定类变量:是一种测量精确度最低、最粗略的基于“质”因素的变量,它的取值只代表观测对象的不同类别。常用来综合定类数据的统计量是频数、比率或百分比等。定序变量:其取值的大小能够表示观测对象的某种顺序关系(等级、方位或大小等),也是基于“质”因素的变量。适合用于综合定序数据取值的集中趋势的统计量是中位数。三、统计分析中的变量2根据测量尺度划分定距变量:其取值之间可
3、以比较大小,可以用加减法计算出差异的大小。常用的统计量如均值、标准差、相关系数等。定比变量:它与定距变量意义相近,细微差别在于定距变量中的“0”值只表示某一取值,不表示“没有”,而定比变量的“0”值表示“没有”。三、统计分析中的变量3数据的四种数据的四种计计量尺度及其适用量尺度及其适用统计统计方法的比方法的比较较 尺度基本性质举例适用统计分析方法描述统计方法推断统计方法定类尺度表明对象或其类别的数字性别,品牌,商店比例,众数卡方检验,二项式检验定序尺度表示对象的相对位置,但不能表示差异大小的数字偏好排序,在市场中的位次,社会层次比例,众数,中位数顺序相关系数,Friedman ANOVA定距尺
4、度可以比较对象间的差异,但不存在绝对零点态度,意见中位数,全距,均值,标准差t检验,ANOVA,回归分析,因子分析定比尺度存在绝对零点,可以计算对象间的比率年龄,收入,成本,销售量,市场份额全距,均值,标准差,几何均值,调和均值t检验,ANOVA,回归分析,因子分析,变异系数三、统计分析中的变量4一、单变量描述统计百分数集中趋势分析离散趋势分析频数分布分析二、双变量描述统计交叉列联表分析变量关联的度量第2节 描述性统计分析一、单变量描述统计1百分数百分数主要用于估计和比较各个相同或相似的子群在总体中所占的比例、估计总体中具有某种特征的个体的数目、估计变化情况或变化速度。其计算方法为 百分数百分
5、数一般借助统计分析表来计算,例如:一、单变量描述统计2按家庭收入分类的各公司洗发水品牌的用户数按家庭收入分类的各公司洗发水品牌的用户数家庭人均收入家庭人均收入洗发水品牌洗发水品牌低低中中高高合计合计公司公司A15020050400公司公司B8013040250公司公司C309030150其他公司其他公司408080200合计合计3005002001000不同收入家庭各公司洗发水品牌的渗透率(不同收入家庭各公司洗发水品牌的渗透率(%)家庭人均收入家庭人均收入洗发水品牌洗发水品牌低低中中高高公司公司A504025公司公司B272620公司公司C101815其他公司其他公司131640合计合计100
6、100100集中趋势分析众数:观测数据中出现频率最高的属性值。例如下表中的众数为27岁。一、单变量描述统计3集中趋势分析数据集中趋势分析数据年年 龄龄25262728293031人人 数数671210655累计人数累计人数6132535414651集中趋势分析中位数:将观测数据按大小顺序一分为二的变量属性值。若样本总数是奇数,中间的那个便是中位数值;若样本总数是偶数,中位数就是中间的两个数值的平均值。中位数最适合于描述定序尺度的数据聚中趋势。对于定比和定距变量,中位数有时也能适当地反映其聚中特征。一、单变量描述统计4集中趋势分析平均数(均值):定比和定距尺度下平均数是应用最多的反映集中趋势的指
7、标,一般包括算术平均数、调和平均数和几何平均数三种。算术平均数最简单,也是测定集中趋势最常用的指标,观测值的总和除以观测次数即得出算术平均数。一、单变量描述统计5均值、中位数和众数的比较及适用范围均值适于定距或定比变量,优点是能充分利用数据的全部信息,比较稳定;缺点是易受极端值影响。中位数不适于定类变量,适于定序、定距、定比变量,特别是分布不规则的数据。优点是不受极端值的影响;缺点是没有充分利用数据的全部信息,稳定性差于均值,优于众数。众数不适用于未分组的连续变量,主要适用于定类、定序变量。优点是不受极端值影响,尤其是分布明显呈偏态时,众数的代表性更好;缺点是没有充分利用数据的全部信息,缺乏敏
8、感性和稳定性。一、单变量描述统计6离散趋势分析方差与标准差:反映的是所有观测值对均值的离散关系,其数值大小与均值代表性的大小呈反向变化关系。样本方差的计算公式:标准差为方差的二次方根。一、单变量描述统计7离散趋势分析级差:数组中最高值和最低值的差距,它只适用于定比和定距数据。极差简单直观,但它由两极端偏异值决定,并不能充分反映数据的离散程度。例如:由79,79,79,80,81,81,81构成的数组的级差为2,即81-79=2。一、单变量描述统计8离散趋势分析四分位差:将一组数据从小到大排列后,用3个四分位数点将其分为四个相等的部分,第一个四分位数点是第25百分位数点,又叫低四分位数点;第二个
9、四分位数点是第50百分位数点,即中位数;第三个四分位数点是第75百分位数点,又叫高四分位数点。高四分位数点与低四分位数点之同的距离即为四分位差。一、单变量描述统计9标准差、四分位差和极差的区别一、单变量描述统计10标准差四分位数差极差适用于定距或定比变量主要用于定序变量适用于定距或定比变量最稳定较标准差的稳定性弱最不稳定计算时要用全部数据只需要其中两段数据只需两个值,可快速估算受极端值的影响较大对极端值不敏感只对极端值的变化敏感离散趋势分析变异系数:变异系数也称为离散系数,即标准差与均值比值,主要用于不同类别数据离散程度的比较。变异系数的好处在于:标准差的大小不仅与数据的测度单位有关,也与观测
10、值的均值大小有关,不能直接用标准差比较离散程度,而变异系数消除了测度单位和观测值水平不同的影响,因而可以直接用来比较数据的离散程度。一、单变量描述统计11离散趋势分析斜度和峰度用于描述调查数据的分布与正态分布之间的差异程度。斜度表示分布的不对称程度和方向。峰度表示分布与正态曲线相比的冒尖程度或扁平程度。一、单变量描述统计12频数分布分析对变量进行频数分布分析,就是计算该变量的各取值被回答的次数及其所占的比例。频数分布分析不仅要分析所关心数据的集中趋势、离散性和分布形状,还要计算缺失数据、极端值、范围外数据的比例等。描述频数分布常用的方法是频数表和直方图。一、单变量描述统计13一、单变量描述统计
11、14目前没有家用轿车的家庭今后一年内购买的可目前没有家用轿车的家庭今后一年内购买的可能性能性项目频数百分比()累计百分比()肯定会买226.86.8可能买7623.430.2不会买4246.276.4不确定1023.6100例如:连续变量制作频数表的一般步骤是:找出数据的取值范围,即最大值、最小值;确定组数与组距,一般视分析目的而定,但组数不要太多,通常515组比较合适,也可以用Sturges公式确定组数;确定组限(上限与下限)与组中值;计算观测数据落入各组的频数与频率。一、单变量描述统计15二、双变量描述统计1 交叉列联表分析 交叉列联表分析是同时描述两个或两个以上变量的联合分布的统计技术。
12、进行交叉列联表分析的变量必须是离散变量,并且只能有有限个取值,否则要进行分组。频数交叉列联表样表频数交叉列联表样表自变量低中高总计因变量高21471280中38412099低791428121总计13810260300交叉列联表分析由于各行、列样本的总数不同,相互之间无法进行比较,难以判别变量之间的关系,为此,将各要素的频数变成百分数,即将频数除以相应行列的总数。行百分比与列百分比的选择取决于哪个变量是因变量哪个变量是自变量。一般规则是,在自变量的方向上,对因变量计算百分比。二、双变量描述统计2 交叉列联表分析二、双变量描述统计3 频数交叉列联表样表频数交叉列联表样表自变量低中高总计因变量高2
13、1471280中38412099低791428121总计13810260300变量频率关联表变量频率关联表自变量低中高因变量高15.2%46.1%20.0%中27.5%40.2%33.3%低57.3%13.7%46.7%总计100%100%100%(138)(102)(60)二、双变量描述统计4 变量关联的度量关联度量指度量变量间关联的强度或密切程度,用相关系数来表示。定类数据的关联度 这类变量最适合的关联度量指标是 ,度量变量间的相关程度,是基于误差消减比例的思路,即引入另一个变量属性的数据后,某个变量猜测值的误差会减小一定的比例。二、双变量描述统计4 变量关联的度量定序数据的关联度定序变量
14、关联度常用 来表示,取值在1和-1之间,其计算公式为 其中 为同序对数目,为异序对数目。可以分全序和偏序等不同情况进行计算。变量关联的度量定距和定比数据的相关分析测定相关关系的方法是利用积差法来计算相关系数,计算公式如下:二、双变量描述统计5 第3节 推断统计推断统计主要是参数估计和假设检验。参数估计是在总体分布已知的情况下,用样本统计量估计总体参数的方法。假设检验是在总体分布未知,或已知总体分布但不知其参数的情况下,为了推断总体的某些性质,提出有关总体的假设,再根据样本信息对假设进行判断的方法。一、参数估计1点估计由总体抽取一组样本数为n的随机样本,由此寻找样本统计量作为总体参数的估计值。区
15、间估计以区间的形式给出总体参数真值的范围,以及总体参数真值的可信度,其本质是用一个数值区间表示未知总体参数落人该区间的概率或可能性有多大的一种统计方法。定距和定比变量主要是对总体的均值和方差进行估计;对于定类、定距变量,主要是估计总体的比例。一、参数估计2区间估计区间估计的理论基础是抽样分布,区间估计的核心问题是把样本统计量与总体参数之间的关系转换成抽样分布来处理。借助抽样分布的平均数、标准差及其正态分布的统计特性就可对样本统计量与总体参数之间的关系做出概率意义上的估计与推断。一、参数估计2区间估计一般地,在95的置信水平条件下,总体平均数的置信区间 ,而在99的置信水平条件下,总体平均数的置
16、信区间置信水平越低,置信区间越小;置信水平越高,置信区间越大。一、参数估计2二、假设检验1假设检验是以抽样分布原理为基础,检验调查样本中的统计特性是否在总体中同样存在的一种统计分析方法。参数假设检验是在总体分布已知的情况下,先对总体参数提出假设,然后利用样本信息去检验该假设是否成立;非参数假设检验是在总体分布未知的情况下,先对总体提出假设,然后根据样本资料对假设的正确性进行判断。零假设和备择假设零假设就是假设在样本中观察到的事实或变量之间的关系在总体中并不存在,样本中出现的这种情形是由于抽样误差造成的。备择假设,也称为替换假设或研究假设,它是与零假设相对的假设,就是假设在样本中出现的情况在总体
17、中也同样存在。二、假设检验2二、假设检验3【例如】要确定某项特定的广告是否提高了冰箱的一个新品牌的知名度,则零假设为“:在广告前后消费者中知道该品牌的比例没有显著的差异”备择假设为“:在广告前后消费者中知道该品牌的比例有显著的差异”双侧检验或“:广告之后消费者中知道该品牌的比例比广告之前有显著的增加”单侧检验两类错误 为真时拒绝了 ,这类“弃真”错误称为第类错误;不真时接受了 ,这类“取伪”错误称为第类错误。在给定样本容量的情况下,一般总是控制犯第类错误的概率,使它小于等于 。这种只对犯第类错误的概率加以控制,而不考虑犯第类错误的检验问题,称为显著性检验问题。二、假设检验4假设检验的两种错误假
18、设检验的两种错误 接受不接受 为真正确决策第类错误 不真第类错误正确决策二、假设检验5假设检验分析的一般步骤根据实际问题,提出原假设和备择假设;确定显著性水平,视具体情况取值0.1,0.05,0.01等;确定适当的统计量以及拒绝域的形式;根据样本观察值计算检验统计量的值;根据显著性水平与统计量的分布,找出接受域与拒绝域的临界点,比较临界点与检验统计量的值,做出决策 二、假设检验6常用的假设检验结论Z统计量的双侧检验如果 ,则结果在10的水平下是显著的如果 ,则结果在5的水平下是显著的如果 ,则结果在1的水平下是显著的如果 ,则结果在0.1的水平下是显著的Z统计量的单侧检验如果 ,则结果在10的
19、水平下是显著的如果 ,则结果在10的水平下是显著的如果 ,则结果在10的水平下是显著的如果 ,则结果在10的水平下是显著的二、假设检验6几种主要的假设检验方法 单样本均值的假设检验 二、假设检验7几种主要的假设检验方法单样本比例的假设检验 二、假设检验8几种主要的假设检验方法两个独立样本均值的假设检验其中:在大样本的情况下 二、假设检验9几种主要的假设检验方法两个独立样本比例的假设检验其中:大样本的情况下 二、假设检验10几种主要的假设检验方法两个以上独立样本均值的假设检验 二、假设检验11几种主要的假设检验方法变量的独立性卡方检验二、假设检验12“喝啤酒方式喝啤酒方式”与与“年龄组年龄组”的交叉表(观察频数)的交叉表(观察频数)35岁以下35-4949岁以上行合计在酒吧休闲时喝691734120在饭店吃饭时喝422649117在家看电视时喝444277163列合计15585160400二、假设检验13卡方的计算过程卡方的计算过程观测频数和期望频数(括号内)69(47)17(25)34(48)42(45)26(25)49(47)44(63)42(35)77(65)22-8-4-312-19712484641969143614914410.32.564.080.20.040.095.731.42.21
限制150内