计量资料的统计描述.ppt.ppt
医学统计学医学统计学计量资料的统计描述计量资料的统计描述大理学院大理学院巫秀美2012年10月18日Refreshu如何学好医学统计学学习目标:工具课,学以致用。掌握基本概念统计方法的适用的条件、基本思想能够进行计算分析如何进行科学的判断?u直观的看,近几年全球的地震活动似乎越来越活跃。地震的强度和次数仿佛有增加的趋势u科学的判断:收集数据:每年发生很多次地震 整理数据:分布,指标 分析数据:各年对比,趋势分析 解释数据:得出结论,结论的可靠性u统计学:从数据到结论(到决策)统计学:从数据到结论(到决策)统计研究的过程收集数据收集数据(取得数据取得数据取得数据取得数据)整理数据整理数据(处理数据处理数据处理数据处理数据)解释数据(结果说明结果说明)分析数据分析数据(研究数据研究数据)实际问题实际问题统计设计统计学基本概念u随机事件(random event)v.s.必然事件u变异(variation)v.s.同质(homogeneity)u总体(population)v.s.样本(sample)u抽样研究与抽样误差(sampling error)u参数(parameter)v.s.统计量(statistics)随机事件的概念u随机现象:在基本条件相同基本条件相同的情况下,却可能出现不同的结果不同的结果,究竟出现哪一种结果,随“机遇”而定,带有偶然性。内在的规律性?如何研究它们?u研究随机现象:进行观察或实验,这些观察和实验统称为随机试验随机试验(Experiment),把基本条件每实现一次称为进行一次试验试验,试验的结果中所发生的现象叫做事件事件。例如:掷一次硬币,是一次随机试验。随机事件的概念 ()导体通电时,发热 ()抛一石块,下落 ()在常温下,焊锡融化 ()在标准大气压下且温度 参数为未知总 体 与 样 本u统计主要问题在于如何透过样本的统计量来推估或检证总体的参数。u样本统计量(Sample statistics)是用来描述样本特性的数量。uSample mean x、sample variance S2,and the sample proportion puSample statistics为观察到的样本之函数,样本的统计量随着取样的不同,会有不同的变化。因此,样本统计量本身可以被视为是一随机变量。描述统计学描述统计学与与推断统计学推断统计学u描述统计学(descriptive statistics):计算各种指标来反应数据的构成分布,以及用一定的表格和图形把结果显示出来是统计的基本方法但是受数据采集的局限(局部样本)u推断统计学(inferential statistics):在概率论的基础上,由随机样本的数量特征来推断总体的数量特征,并作出可靠程度的估计或检验样本的数量特征的概率分布与总体数量特征之间存在客观联系是现代统计学的主流描述统计学描述统计学与与推断统计学推断统计学u描述统计学描述统计学与与推断统计学推断统计学的关系的关系二者是统计学发展的不同阶段:大致以二者是统计学发展的不同阶段:大致以2020世纪世纪2020年代年代小样本分布理论的出现为界小样本分布理论的出现为界之前集中在数据的采集和指标的计算上;之前集中在数据的采集和指标的计算上;之后推断统计学蓬勃发展,称为主流。之后推断统计学蓬勃发展,称为主流。推断统计学推断统计学不能代替不能代替描述统计学:描述统计学:纵有难易之别,绝无(层次)高低之分纵有难易之别,绝无(层次)高低之分描述统计是基本的统计方法,是推断统计的基础描述统计是基本的统计方法,是推断统计的基础描述统计学有助于培养对数据的描述统计学有助于培养对数据的“感觉感觉”(统计(统计观念)观念)描述统计与推断统计的关系描述统计与推断统计的关系反映客观现反映客观现象的数据象的数据总体内在的总体内在的数量规律性数量规律性推断统计推断统计(利用样本信息和概率(利用样本信息和概率论对总体的数量特征进论对总体的数量特征进行估计和检验等)行估计和检验等)概率论概率论(包括分布理论、大数定律(包括分布理论、大数定律和中心极限定理等)和中心极限定理等)描述统计描述统计(统计数据的搜集、整(统计数据的搜集、整理、显示和分析等)理、显示和分析等)总体数据总体数据样本数据样本数据统计指标和指标体系u统计指标统计指标(指标指标):说明总体的综合数量特):说明总体的综合数量特征的概念和数值。征的概念和数值。u一个一个完整的完整的统计指标包括统计指标包括指标名称指标名称和和指标数指标数值值两部分。两部分。指标名称指标名称是指标本质的抽象概括,对总体数量特是指标本质的抽象概括,对总体数量特征的规定性,它一般反映一定的社会经济范畴;征的规定性,它一般反映一定的社会经济范畴;有时也被当作统计指标有时也被当作统计指标;指标数值指标数值是指标量的规定,它是根据指标的内容是指标量的规定,它是根据指标的内容所计算出来的具体数值。应该包括所计算出来的具体数值。应该包括总体范围、时总体范围、时间、地点、数值及单位间、地点、数值及单位等。等。u数据(统计指标)的四种计量尺度:统计指标和指标体系统计指标和指标体系数据的计量尺度与类型数据的计量尺度与类型定类尺度定类尺度定序尺度定序尺度定距尺度定距尺度定比尺度定比尺度精精确确程程度度良好良好19801980134134公斤公斤中国中国国籍:国籍:健康状况:健康状况:出生年份出生年份:体重:体重:(1)定定类类尺度尺度(NominalScale)u也称分类尺度也称分类尺度u例如:例如:性别、民族、职业性别、民族、职业u数据表现为数据表现为“类别类别”u各类之间各类之间无等级次序无等级次序 u各类别可以用数字代码表示各类别可以用数字代码表示u根据定类尺度得到的数据为根据定类尺度得到的数据为分类数据。分类数据。(2)定序尺度定序尺度(OrdinalScale)也称顺序尺度也称顺序尺度例如例如健康状况、质量等级健康状况、质量等级可对等级、大小等排序可对等级、大小等排序未测量出类别之间的准确差值未测量出类别之间的准确差值根据定序尺度得到的数据为顺序数据。根据定序尺度得到的数据为顺序数据。(3)定距尺度定距尺度(IntervalScale)u也称间隔尺度也称间隔尺度u例如例如年份、摄氏温度年份、摄氏温度u数据表现为数据表现为“数值数值”u可以进行加减运算可以进行加减运算u“0”0”是只是尺度上的一个点,不代表是只是尺度上的一个点,不代表“不存在不存在”u根据定距尺度得到的数据为间距数据。根据定距尺度得到的数据为间距数据。(4)定比尺度定比尺度(RatioScale)u也称比率尺度也称比率尺度u例如例如体重、身高体重、身高u数据表现为数据表现为“数值数值”u可以进行加减、乘除运算可以进行加减、乘除运算u“0”0”表示表示“没有没有”或或“不存在不存在”u根据定比尺度得到的数据为比根据定比尺度得到的数据为比率数据。率数据。四种计量尺度的比较四种计量尺度的比较四种计量尺度的比较四种计量尺度的比较定类尺度定类尺度 定序尺度定序尺度 定距尺度定距尺度 定比尺度定比尺度 分分类类(=,)排序排序()间间距距(+,-)比比值值(,)计量尺度计量尺度数学特性数学特性四种计量尺度的比较四种计量尺度的比较u四种尺度所包含的信息量是依次四种尺度所包含的信息量是依次递递增的,增的,级别级别由低到高。由低到高。u根据根据较较高高层层次的次的计计量尺度可以量尺度可以获获得得较较低低层层次的次的计计量尺度。量尺度。u不同的尺度数据不同的尺度数据对应对应着不同数据着不同数据显显示方示方法和分析方法。法和分析方法。统计数据是采用某种计量尺度对事物进行计量的结果。统计数据是采用某种计量尺度对事物进行计量的结果。采用不同的计量尺度采用不同的计量尺度 不同类型的统计数据:不同类型的统计数据:数据的类型数据的类型定性数据(品质数据)(定性数据(品质数据)(Qualitativedata):说明的是事物的品质特征,不能用数值表示。(由定类尺度或定序尺度计量形成)定量数据(数量数据)定量数据(数量数据)(Quantitativedata):说明的是事物的数量特征,能够用数值表示。(定距尺度或定比尺度计量形成)定性数据定性数据定量数据定量数据 对不同类型的数据,采用的统计方法可能有所不同。选择统计学方法资料类型统计方法计量资料t检验,u检验,方差分析,直线相关与回归计数资料卡方检验,u检验等级资料秩合检验定量资料变量的分类定量资料变量的分类离散型离散型离散型:离散型:随机变量所取的可能值是有限多个或随机变量所取的可能值是有限多个或可列无限个可列无限个,叫做离散型随机变量叫做离散型随机变量。连续型:连续型:随机变量所取的可能值可以连续地充随机变量所取的可能值可以连续地充满某个区间,叫做连续型随机变量。满某个区间,叫做连续型随机变量。随机变量随机变量连续型连续型计量资料的统计描述计量资料的统计描述Descriptions of Measurement Data 主要内容主要内容1.1.频数表频数表2.2.集中趋势集中趋势3.3.离散趋势离散趋势4.4.正态分布正态分布5.5.医学参考值的制定医学参考值的制定频数分布频数分布u频数表的编制频数表的编制 编制步骤:1.1.求极差(即全距)求极差(即全距)R R;2.2.确定组数确定组数n n、组距组距i i,并写出组段;并写出组段;3.3.列表划记。列表划记。某市1995年110名7岁男童的身高资料(cm)114.4119.2124.7125.0115.0112.8120.2110.2110.2120.9120.1125.5120.3122.3118.2116.7121.7116.8121.6115.2122.0121.7118.8121.8124.5121.7122.7116.3124.0119.0124.5121.8124.9130.0123.5128.1119.7126.1131.3123.8114.7122.2122.8128.6122.0132.5122.0123.5116.3126.1119.2126.4118.4121.0119.1116.9131.1120.4115.2118.0122.4114.3116.9126.4114.2127.2118.3127.8123.0117.4123.2119.9122.1120.4124.8122.1114.4120.5115.0122.8116.8125.8120.1124.8122.7119.4128.2124.1127.2120.0122.7118.3127.1122.5116.3125.1124.4112.3121.3127.0113.5118.8127.6125.2121.5122.5129.1122.6134.5134.5118.3132.8u本例资料,最大值为本例资料,最大值为134.5cm134.5cm,最小值为最小值为110.2cm110.2cm,故极差故极差 R=134.5-110.2=24.3cmR=134.5-110.2=24.3cmu组数不宜太多,也不宜太少。一般根据样本量的多组数不宜太多,也不宜太少。一般根据样本量的多少分成少分成8-158-15组。组。本例假设分成本例假设分成1010组。组。理论上组距等于极差除以组数。但不拘泥于计算理论上组距等于极差除以组数。但不拘泥于计算结果,而常常取一个比较好处理的数。组距可以相结果,而常常取一个比较好处理的数。组距可以相等,也可以不等。等,也可以不等。本例,组距本例,组距=24.3/10=2.43=24.3/10=2.43,我们取为,我们取为 2 cm2 cm。组段:上限、下限组段:上限、下限u列表划记列表划记某市1995年110名7岁男童身高的频数分布身高组段频数频率(%)累计频数累计频率(%)110 1 0.91 1 0.91112 3 2.73 4 3.64114 9 8.18 13 11.82116 9 8.18 22 20.00118 15 13.64 37 33.64120 18 16.36 55 50.00122 21 19.09 76 69.09124 14 12.73 90 81.82126 10 9.09100 90.91128 4 3.64104 94.55130 3 2.73107 97.27132 2 1.82109 99.09134136 1 0.91110100.00合计110100.00u频数表的用途频数表的用途根据频数表,进而可以绘制频数图。根据频数表,进而可以绘制频数图。揭示资料的分布特征和分布类型:资料的分揭示资料的分布特征和分布类型:资料的分布范围、峰(单峰或多峰)和离散情况。布范围、峰(单峰或多峰)和离散情况。对于单峰分布资料,对于单峰分布资料,对称分布,其中一种特殊的分布叫做正态分布;对称分布,其中一种特殊的分布叫做正态分布;非对称分布,又称偏态分布。非对称分布,又称偏态分布。便于发现可疑值;便于发现可疑值;便于进一步计算指标和统计分析处理。便于进一步计算指标和统计分析处理。BREAK!u集中趋势:集中趋势:u一、众数一、众数u二、中位数二、中位数u三、均值三、均值u四、众数、中位数和均值的比较四、众数、中位数和均值的比较统计数据的描述 众数(mode)定义:众数是指总体中最普遍出现的标志值。一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据 众数(不惟一性)u无众数无众数原始数据:10 5 9 12 6 8一个众数一个众数原始数据:6 5 9 8 5 5多于一个众数多于一个众数原始数据:25 28 28 36 42 42中位数 u定义:中位数是将总体各个单位按其标志值的大小顺序排列,处于数列中点的那个单位的标志值,在总体中,标志值小于中位数的单位占一半;标志值大于中位数的单位也占一半。中位数(median)MMe e50%50%1.排序后处于中间位置上的值排序后处于中间位置上的值2.不受极端值的影响不受极端值的影响3.主要用于顺序数据,也可用数值型数据,但不主要用于顺序数据,也可用数值型数据,但不能用于分类数据能用于分类数据4.各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即u一、算术平均数一、算术平均数u二、调和平均数二、调和平均数u三、几何平均数三、几何平均数 均值均值(mean)1.1.集中趋势的最常用测度值集中趋势的最常用测度值2.2.一组数据的均衡点所在一组数据的均衡点所在3.3.体现了数据的必然性特征体现了数据的必然性特征4.4.易受极端值的影响易受极端值的影响5.5.用于数值型数据,不能用于分类数据和用于数值型数据,不能用于分类数据和顺序数据顺序数据算术平均数(arithmetic mean)u算术平均数的基本公式u计算平均数的要求:总体标志总量必须是总体各单位标志值的总和,标志值和单位之间一一对应。调和平均数(harmonic mean)u1.简单调和平均数:标志值的倒数的算术平均数的倒数。几何平均数(geometric mean)n 个变量值乘积的 n 次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为可看作是均值的一种变形可看作是均值的一种变形众数、中位数和均值的比较众数、中位数和均值的比较左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布负偏态负偏态负偏态负偏态负偏态负偏态均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值=中位数中位数中位数中位数中位数中位数=众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布正偏态正偏态正偏态正偏态正偏态正偏态众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值众数、中位数、均值的特点和应用众数、中位数、均值的特点和应用1.众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用2.中位数不受极端值影响数据分布偏斜程度较大时应用3.均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用u离散趋势离散趋势极差极差方差和标准差方差和标准差变异系数变异系数四分位数间距四分位数间距计量资料的统计描述极差(range)一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布 R=max(xi)-min(xi)计算公式为计算公式为四分位数(quartile)u百分位数(percentile):P1、P2、P3、P100u四分位数:P25、P50、P75下四分位数(lower quartile):P25 QL上四分位数(upper quartile):P75 QU中位数M P50u百分位数间距(inter-percentile range):最常用的为P75P25,即四分位间距Q极差与四分位数间距u描述计量资料的离散程度,比较粗略u四分位数间距比极差稳定u二者主要用于描述偏态分布资料 方差和标准差1.离散程度的测度值之一2.最常用的测度值3.反映了数据的分布4.反映了各变量值与均值的平均差异5.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差方差和标准差1.Variance 和standard deviation用于描述正态分布资料的离散程度2.同质的两组资料,均数相近,标准差大的说明该组各观测值较分散。离散系数 1.标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较5.计算公式为变异系数(coefficient of variation)u无度量衡单位u相对离散程度:用于对不同组别数据离散程度的比较用于单位不同,或虽单位相同,但均数相差较大的资料间变异程度的比较To Be Continuedu集中趋势:集中趋势:u众数众数(mode)中位数中位数(median)均值均值(mean):算数均数、调和均数(H)、几何均数(G)计量资料的统计描述计量资料的统计描述u离散趋势离散趋势极差极差(Range)(Range)方差和标准差方差和标准差(Variance,(Variance,Standard Deviation)Standard Deviation)变异系数变异系数(Coefficient of(Coefficient of Variation)Variation)正态分布及应用正态分布及应用 图形图形定义:设X为一个随机变量,对任意实数x,称F(x)=P(X x)为X的分布函数基本性质:(1)F(x)单调不降;(2)有界:0F(x)1,F()=0,F(+)=1;(3)右连续。随机变量的分布函数随机变量的分布函数连续随机变量的密度函数连续随机变量X的可能取值充满某个区间(a,b)。因为对连续随机变量X,有P(X=x)=0,所以无法仿离散随机变量用P(X=x)来描述连续随机变量X的分布.定义:定义:设随机变量X 的分布函数为F(x),则称 X 为连续随机变量;p(x)为概率密度函数,简称密度函数。若存在非负可积函数 p(x),满足:F(x)是(,+)上的连续函数;P(X=x)=F(x)F(x0)=0;密度函数的基本性质满足(1)(2)的函数都可以看成某个连续随机变量的概率密度函数.(非负性)(正则性)连续型连续型1.密度函数 X p(x)(不唯一)2.4.P(X=a)=0离散型离散型1.分布列:pn=P(X=xn)(唯一)2.F(x)=3.F(a+0)=F(a);P(a0,是任意实数.是位置参数.是尺度参数.正态分布(Normal Distribution)yxOx正态分布的性质(1)p(x)关于 是对称的.p(x)0在 点 p(x)取得最大值.(2)若 固定,改变,(3)若 固定,改变,小大p(x)左右移动,形状保持不变.越大曲线越平坦;越小曲线越陡峭.正态变量的线性不变性定理 设 X N(,2),则当a 0 时,Y=aX+b N(a+b,a22).由此得:若 X N(,2),则 Y=(X)/N(0,1).对数正态分布定理 设 X N(,2),则 Y=e X 的服从p(x)x0 xx标准正态分布N(0,1)密度函数记为(x),分布函数记为(x).(x)的计算(1)x 0 时,查标准正态分布函数表.(2)x a)=1(a);(3)P(aXb)=(b)(a);(4)若a 0,则 P(|X|a)=P(aXa)=(a)(a)=(a)1(a)=2(a)1 标准正态分布标准正态分布u标准正态分布是均数为标准正态分布是均数为0 0,标准差为,标准差为1 1的的正态分布,对于任何参数正态分布,对于任何参数和和的正态的正态分布,都可以通过一个简单变量变换化分布,都可以通过一个简单变量变换化成标准正态分布,即成标准正态分布,即 u数据分布的不对称性称作偏态。u偏态系数(SK)是对数据分布的不对称性(偏斜程度)的测度。u偏态系数有多种计算方法,在统计软件中(如Excel等)通常采用以下公式:4.3.1偏偏态态及其及其测测定定(Skewness)分布形态的测定分布形态的测定偏态系数的含义左偏分布左偏分布(也称负偏分布也称负偏分布):偏态系数偏态系数 SK 0;偏态系数的绝;偏态系数的绝对值越大,偏斜越严重。对值越大,偏斜越严重。数据向右边数据向右边延伸得更多延伸得更多对称分布:偏态系数对称分布:偏态系数=0。u峰度:数据分布的扁平或尖峰程度。u峰度系数(K):数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度。u统计软件(如Excel等)中常用以下公式计算4.3.2峰度及其峰度及其测测定定(Kurtosis)分布形态的测定分布形态的测定峰度系数的含义扁平分布扁平分布尖峰分布尖峰分布峰度系数峰度系数K0,与正,与正态分布相比该分布一态分布相比该分布一般为尖峰、肥尾,肩般为尖峰、肥尾,肩部较瘦。部较瘦。均值和方差均值和方差相同的正态相同的正态分布分布正态分布的特征正态分布的特征 u以均数为中心对称,均数处最高;以均数为中心对称,均数处最高;u2 2个个参参数数 N N(,),是是位位置置参参数数,是变异参数是变异参数u正态曲线下面积:正态曲线下面积:1.961.96范范 围围 内内 的的 面面 积积 是是 95%95%,2.582.58范围内的面积是范围内的面积是99%99%正态分布的重要性与应用u正态分布是许多统计方法的理论基础u制定医学参考值范围(pp.27-28)u质量控制(3s原则)医学参考值范围医学参考值范围一、概念一、概念u医学参考值范围(医学参考值范围(reference value range)reference value range)又又称正常值范围称正常值范围(normal range)normal range),是指正常人的是指正常人的解剖、生理、生化、免疫等各种数据的波动范解剖、生理、生化、免疫等各种数据的波动范围。围。通常把绝大多数(如90%、95%和99%)研究对象的某指标值范围称为该研究对象该指标的正常值范围。最常用的95%正常值范围。医学参考值范围的测定方法医学参考值范围的测定方法1.1.选择足够数量的正常人作为参照样本选择足够数量的正常人作为参照样本 一般至少在一般至少在120120例以上例以上2.2.对选定的正常人进行准确的测定对选定的正常人进行准确的测定3.3.决定取单侧范围还是双侧范围值决定取单侧范围还是双侧范围值4.4.选择适当的百分范围选择适当的百分范围若若主主要要目目的的在在于于减减少少假假阳阳性性(确确诊诊病病人人),参参考考值值范范围围要要取取大大一一些些,若若目目的的是是减减少少假假阴阴性性(初初筛病人)参考值范围要减小一些。筛病人)参考值范围要减小一些。二、医学参考值范围的测定方法二、医学参考值范围的测定方法5.5.估计参考值范围的界限估计参考值范围的界限 两种方法的比较:两种方法的比较:根据资料的分布特征,有两种估计方法:根据资料的分布特征,有两种估计方法:1.1.正态分布法正态分布法n太大太小都不正常指标太大太小都不正常指标 假设假设7 7岁男童身高服从正态分布。某地岁男童身高服从正态分布。某地19951995年年随机调查随机调查110110名名7 7岁男童的身高,得到身高均岁男童的身高,得到身高均数为数为119.95cm119.95cm,标准差为标准差为4.72cm4.72cm。试估计该试估计该地地19951995年年7 7岁男童身高的岁男童身高的95%95%正常值范围。正常值范围。n太大不正常指标太大不正常指标n太小不正常指标太小不正常指标 假设肺活量服从正态分布。随机测量了某地假设肺活量服从正态分布。随机测量了某地100名名正常女青年的肺活量,得到其均数为正常女青年的肺活量,得到其均数为2000ml,标,标准差为准差为300ml。试估计该地正常女青年肺活量的。试估计该地正常女青年肺活量的95%正常值范围。正常值范围。2.2.百分位数法百分位数法 95%95%正常值范围:正常值范围:n太大太小都不正常指标太大太小都不正常指标 P P2.52.5P P97.597.5n太大不正常指标太大不正常指标 0 0P P9595n太小不正常指标太小不正常指标 P P5 5+某年某地一次伤寒爆发的潜伏期数据。某年某地一次伤寒爆发的潜伏期数据。潜伏期(天)潜伏期(天)发病人数发病人数 33 3 3 552424 772020 991717111114141313 7 71515 6 61717 2 21919 1 121232123 2 2合计合计9696 该资料显然为偏态分布资料,估计该资料显然为偏态分布资料,估计正常值范围时应用百分位数法。正常值范围时应用百分位数法。伤寒潜伏期的伤寒潜伏期的95%95%正常值范围正常值范围用途用途:评判某观察对象某指标是否正常。u质量控制质量控制 在实验研究中,用来控制误差,保证数据质量。多种统计处理方法的基础多种统计处理方法的基础BREAK!SummarizationofacollectionofdatainaclearandunderstandablewaythemostbasicformofstatisticslaysthefoundationforallstatisticalknowledgeDescriptiveStatisticsInferentialStatisticsTwomainmethods:1.estimationthesamplestatisticisusedtoestimateapopulationparameteraconfidenceintervalabouttheestimateisconstructed.2.hypothesistestinganullhypothesisisputforwardAnalysisofthedataisthenusedtodeterminewhethertorejectit.Inferentialstatisticsgenerallyrequirethatsamplingberandom Nominal:gender,type of customer(loyalty),flavor/color liked,etc.Ordinal/Ranking:type of user,preferred brand,brand awareness,etc.Interval:Attitudinal or satisfaction scales.Are you satisfied with your education at U of L?Dissatisfied SatisfiedRatio:Income,price willing to pay,age,etc.TYPESOFDATA34521Type ofMeasurementNominalTwocategoriesMore thantwo categoriesFrequency tableProportion(percentage)Frequency tableCategory proportions(percentages)ModeType of descriptive analysisRatiomeansType ofMeasurementType of descriptive analysisOrdinalRank orderMedianIntervalArithmetic meanThearrangementofstatisticaldatainarow-and-columnformatthatexhibitsthecountofresponsesorobservationsforeachcategoryassignedtoavariableHowmanyofcertainbranduserscanbecalledloyal?Whatpercentageofthemarketareheavyusersandlightusers?Howmanyconsumersareawareofanewproduct?Whatbrandisthe“TopofMind”ofthemarket?Frequency TablesMean:average value Mode:the most frequent categoryMedian:the middle observation of the dataMeasures of Central Location or TendencyTheMean(averagevalue)sumofallthescoresdividedbythenumberofscores.agoodmeasureofcentraltendencyforroughlysymmetricdistributionscanbemisleadinginskeweddistributionssinceitcanbegreatlyinfluencedbyextremescoresinwhichcaseotherstatisticssuchasthemedianmaybemoreinformativeformula m m=X/N(population)X=xi/n(sample)wherem m/Xisthepopulation/samplemeanandN/nisthenumberofscores.Mode themostfrequentcategoryusers25%non-users75%Advantages:meaningisobvioustheonlymeasureofcentraltendencythatcanbeusedwithnominaldata.Disadvantagesmanydistributionshavemorethanonemode,i.e.aremultimodalgreatlysubjecttosamplefluctuationsthereforenotrecommendedtobeusedastheonlymeasureofcentraltendency.Medianthe middle observation of the datanumber times per week consumers use mouthwash1 1 2 2 2 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 5 5 6 6 6 7 7Frequency distribution of Mouthwash use per weekHeavy userLight userModeMedianMeanNormalDistributionsCurveisbasicallybellshapedfrom-to symmetricwithscoresconcentratedinthemiddle(i.e.onthemean)thaninthetails.Mean,mediumandmodecoincideTheydifferinhowspreadouttheyare.Theareaundereachcurveis1.Theheightofanormaldistributioncanbespecifiedmathematicallyintermsoftwoparameters:themean(m m)andthestandarddeviation().Normal Distribution-abArea between a and b=P(a=X=b)Normal Distributions with different Mean0-12Occurwhenonetailofthedistributionislongerthantheother.PositiveSkewDistributions havealongtailinthepositivedirection.sometimescalledskewedtotherightmorecommonthandistributionswithnegativeskewsE.g.distributionofincome.Mostpeoplemakeunder$40,000ayear,butsomemakequiteabitmorewithasmallnumbermakingmanymillionsofdollarsperyearThepositivetailthereforeextendsoutquitealongwayNegativeSkewDistributionshavealongtailinthenegativedirection.calledskewedtotheleft.negativetailstopsatzeroSkewedDistributionsMinimum,Maximum,and RangeVarianceStandard DeviationMeasures of Dispersion or VariabilityVarianceThe difference between an observed value and the mean is called the deviation from the mean The variance is the mean squared deviation from the mean i.e.you subtract each value from the mean,square each result and then take the average.Because it is squared it can never be negative2=(x-xi)2/nThestandarddeviationisthesquarerootofthevarianceThusthestandarddeviationisexpressedinthesameunitsasthevariablesHelpsustounderstandhowclusteredorspreadthedistributionisaroundthemeanvalue.StandardDeviation S=(x-xi)2/nMeasures of Dispersion Dislike 1 2 3 4 5 Like Data 1.52.43.54.55.56.4xxxxxxX=4.6 2=0.26S=0.522=(x-xi)2/n S=(x-xi)2/nMeasures of DispersionSuppose we are testing the new flavor of a fruit punch Dislike 1 2 3 4 5 Like Data 1.32.53.34.55.36.5xxxxxxX=4 2=1S=