数据的搜集、整理和显.ppt
第二章、数据的搜集、整理与显示2.1 数据的计量与类型2.1.1 数据的计量尺度(1)定类尺度(Nominal Scale)(2)定序尺度(Ordinal Scale)(3)定距尺度(Interval Scale)(4)定比尺度(Ratio Scale)定类尺度 也叫类别尺度或列名尺度。只能按照事物的某种属性对其进行分类或分组。是最粗略,层次最低的计量尺度。如性别(男、女)、学历、企业性质、职业、地区等。由于定类尺度只能区分事物是同类或不同类,因此它具有“和”的数学特性。通常计算每一类别中各元素或个体出现的“频数或频率”来进行分析。定序尺度 也叫顺序尺度,是对事物之间等级差别或顺序差别的一种测度。它不仅可以将事物分成不同的类别,而且还可以确定这些类别的优劣或顺序。如:考试成绩:优、良、中、及格、不及格。教育水平:小学及以下、初中、高中、大学及以上。该尺度具有“和”、“和”的数学特性,但不能进行加、减、乘、除运算。定距尺度 也叫等距尺度或间隔尺度,不仅能将事物分为不同类型并进行排序,而且还可以准确地指出类别之间的差距是多少,表现为数值。如考试成绩百分制;温度等。定距尺度具有定类尺度和定序尺度的数学特性外,其结果还可以进行“加、减”运算。定比尺度 也叫比率尺度,表现为数值,它具有上述三种尺度的全部特性外,还可以计算两个测度值之间的比值。有一个绝对“零点”。如长度米、重量千克、收入元等。定距尺度中没有绝对“零点”。“0”表示一个数值,即“0”水平,而不表示“没有”或“不存在”。如“0”度表示一种温度水平,并不是没有温度。定比尺度中“0”表示“没有”或“不存在”。定距尺度只能进行加、减运算,而定比尺度可进行加、减、乘、除运算。四种计量尺度的比较2.1.2 数据的类型与分析方法 统计数据是采用某种计量尺度对事物进行计量的结果。采用不同的计量尺度会得到不同类型的统计数据。不同类型的数据定类数据:表现为类别,但不区分顺序,由定类尺度计量形成;定序数据:表现为类别,但有顺序,由定序尺度计量形成;定距数据:表现为数值,可进行加、减,由定距尺度计量形成;定比数据:表现为数值,可进行加、减、乘、除,对应于定比尺度;定性数据(Qulitative Data):定类数据、定序数据定量数据(Quantitative Data):定距数据、定比数据不同类型的数据采用不同的统计方法定类数据:计算各组的频数、频率,众数、异 众比率、列联分析、2检验等。定序数据:中数(中位数)、四分位差、等级 相关系数、非参数分析。定距数据、定比数据:计算各种统计量、参数 估计、检验。适用于低层次测量数据的统计方法,也适用于较高层次的测量数据。变量(Variable):说明事物某种特征的 概念,它的具体表现为变量值定类变量(Nominal Variable):由定类数 据记录,如性别(男、女);定序变量(Ordinal Variable):由定序数据 记录,如产品等级(一、二、三级);数值变量(Numerical Variable):由数量 数据记录,如年龄、时间、产量等2.2 统计数据的来源1、直接来源(1)调查普查:为某一特定的目的组织的一次性全面调查。如人口普查、工业普查等;特点是:涉及面广,但需要耗费大量的人力、物力、财力,时间较长;准确、规范化程度高。抽样调查:从调查对象的总体中随机抽取一部分单位作为样本进行调查,由样本的调查结果来推断总体数量特征的一种非全面调查。特点是:经济、时效性强、适应面广、准确性较高。调查方法有:访问调查、邮寄调查、电话调查、电脑辅助调查、座谈会、个别深度访问等。(2)观察与实验观察法:调查人员边观察边记录以搜集信息的方法;试验法:在所设定的特殊实验场所、特殊状态下,对调查对象进行实验以取得所需资料的一种调查方法。室内实验法:如广告效果测试、广告认知;室外市场实验法:如消费者需求调查。2、间接来源(二手数据)不是自己亲自调查的,是别人的数据、公开出版或报道的数据,如:统计年鉴;报刊、杂志、图书、广播、电视传媒中的各种数据资料。2.3 统计数据的整理与显示通过各种渠道搜集到统计数据之后,首先应对其进行加工整理,使之系统化、条理化,以符合分析的需要。整理可以大大简化数据,更容易理解和分析。数据整理:数据的预处理 数据的审核与筛选-检查每个样本点是否完整、准确;将不符合要求的数据删除,符合条件的选出来。数据的排序-便于发现数据特征或趋势,也有助于检查错误 分类或分组 汇总2.3.1 品质数据的整理与显示对品质数据主要做分类整理对数值型数据主要做分组整理1、定类数据的整理与显示(1)整理不仅列出事物的类别,还要计算出每一类别的频数、频率或比例、比率(2)显示选择适当的图形进行显示,以便对数据及其特征有一个初步的了解频数分布:把各个类别及其相应的频数全部列出来就是频数分布或次数分布(Frequency distribution)例2.1 某城市居民关注广告类型的频率分布条形图(Bar chart)用宽度相同的条形的高度或长短来表示数据变动的图形。图2.1 某城市居民关注不同类型广告的人数分布圆形图(Pie chart):也叫饼图 用圆形及圆内扇形面积来表示数值的大小。主要用于表示总体中各组成部分所占的比例。2、定序数据的整理与显示 定类数据的整理和显示的内容都适用于定序数据。除此之外定序数据还可以计算累积频数和累积频率,图形显示用到累积频数分布图和环形图。(1)累积频数(Cumulative frequencies):将各类别的频数逐级累加起来。有两种方法:向上累积:从类别顺序开始一方向最后一方累加频数;向下累积:从类别顺序最后一方向开始一方累加频数(2)累积频率或百分比(Cumulative percentages)例2.2 在一项有关住房问题的研究中,研究人员在甲、乙两个城市各抽样调查300户家庭,其中的一个问题是:“您对您家庭目前的住房状况是否满意?”(1)非常不满意;(2)不满意;(3)一般;(4)满意;(5)非常满意。甲城市家庭对住房状况的评价图2.3 向上累积分布图图2.4 向下累积分布图2.3.2 数值型数据的整理与显示一、数据的分组 数值型数据包括定距数据和定比数据,在整理时通常要进行分组。然后再计算出各组中出现的次数或频数。分组方法有单变量值分组和组距分组。1、单变量值分组 把每一个变量值作为一组,它只适合于离散变量且变量值较少的情况。例2.3 某生产车间50名工人日加工零件数(个),如下表:117 122 124 129 139 107 117 130 122 125108 131 125 117 122 133 126 122 118 108110 118 123 126 133 134 127 123 118 112112 134 127 123 119 113 120 123 127 135137 114 120 128 124 115 139 128 124 121采用单变量值分组形成的频数分布表2、组距分组 在连续变量或变量值较多的情况下,可采用组距分组。它将全部变量值依次分为若干个区间,并将这个区间的变量值作为一组。下限(Low limit):一个组的最小值上限(Upper limit):一个组的最大值组距分组的步骤:第一步:确定组数 组数过多过少都不合适。太少,数据分布过于集中;太多,数据分布过于分散。都不利于观察数据的分布情况。在实际应用中可按Strurges 提出的经验公式来确定k,k=1+lgn/lg2,n为数据个数。如:n=50,k=1+lg50/lg2=7第二步:确定组距 组距是一个组的上限与下限之差。组距=(最大值-最小值)/组数 上例中,组距=(139-107)/7=4.6,为便于计算组距取5。第三步:根据分组整理成频数分布表某车间50名工人日加工零件数分组数值型数据的图示(一)分组数据:直方图和折线图直方图(Histogram):用矩形的宽度和高度来表示频数分布的图形。直方图与条形图的区别:条形图的长度表示各类别的频数,宽度是固定的;直方图用面积表示各组频数的多少,高度表示每一组的频数或百分比,宽度表示各组的组距,高度和宽度都有意义。直方图通常是连续排列,而条形图是分开排列。折线图:频数多边形图(Frequency polygon)把直方图顶部的中点用直线连接起来,再把原来的直方图抹掉,就是折线图。组距分组数据:直方图和折线图(2)未分组数据:茎叶图和箱线图茎叶图(Stem-and-leaf display):可以对未分组的原始数据显示其分布特征。它既能给出数据的分布状况,又能给出每一个原始数值。茎叶图由“茎”和“叶”两部分构成,其图形是由数字组成的。从图中可以看出,分布是否对称,数据是否集中,是否有极端值等等。Stem-and-Leaf PlotAge(years)Stem-and-Leaf Plot Frequency Stem&Leaf 2.00 2.&10.00 2.89 36.00 3.001223344 85.00 3.555556677788888899999 163.00 4.5555555666666666777777788888889999999999 132.00 5.55555555666677777788888889999999 140.00 6.5555555666666666777777788888899999 72.00 7.555556666677788999 30.00 8.112234&14.00 8.56&Stem width:10 Each leaf:4 case(s)&denotes fractional leaves.箱线图(Boxplot)箱线图是有一组数据的5 个特征值绘制而成的,由一个箱子和两条线段组成。5 个特征值分别是:最大值(max)最小值(min)中位数(Me)下四分位(QL)上四分位(QU)最小值 下四分位 中位数 上四分位 最大值 多变量数据:雷达图(radar chart)例2.4 研究某条河流的污染程度,环保局分别在上游、中游和下游设立取样点,化验五项污染指标。将各指标用雷达图表示出来,并分析该河流的主要污染源。频数分布的类型q 正态分布q 正偏态(右偏)分布q 负偏态(左偏)分布q 正J形分布q 负J形分布qU 形分布本章结束