《统计学数据的搜集与整理新.pptx》由会员分享,可在线阅读,更多相关《统计学数据的搜集与整理新.pptx(43页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章 数据的搜集与整理第一节 数据的搜集现实生活中有不少问题是不能像我们以往解数学题一样套用公式、法则的方法解决,而需要在仔细观察和积累数据的基础上,经过整理和描述分析的数据,才能给出答案。也就是用数据来说话。当我们确定了研究问题,就需要搜集相关的数据,设计调查方案,有些研究的问题需要通过实验来获得数据,那么怎样使用实验方法获得数据呢?第1页/共43页第二章 数据的搜集与整理第一节 数据的搜集统计数据的搜集就是按照统计研究所预定的目的和任务,运用恰当的统计方法,有组织、有计划地向调查对象搜集原始统计资料的工作过程。属于统计工作过程的基础阶段。一、数据来源从使用者的角度看,统计数据来源于两种渠
2、道:一是直接来源,即统计数据直接源于自己的调查或实验,称之为一手数据或直接数据;二是间接来源,即统计数据来源于别人的调查或实验,称之为二手数据或间接数据。第2页/共43页1、数据的间接来源分为内部信息数据和外部信息数据。l内部信息数据是指从被调查单位内部直接获取的,与调查单位有关的信息数据资料,例如,通过企业的统计报表、资产负债表等获取的企业有关数据。l外部信息数据是指从各级政府、贸易组织、计算机网络等渠道获取的数据。例如,统计部门和各级政府定期发布的统计公报、定期出版的各类统计年鉴国内部分提供统计数据的网站及相关内容见表2-1。第3页/共43页2 2、数据的数据的直直接来源接来源统统计计调调
3、查查是是获获取取直直接接数数据据的的主主要要方方法法,数数据据的的直直接接来来源源主主要要有有两两个个渠渠道道:一一是是统统计计调调查查或或观观察察;二二是是科科学学实验。实验。第4页/共43页二、统计调查方案设计二、统计调查方案设计调查背景调查背景调查目的调查目的调查调查内容内容调查方法调查方法和抽样方法和抽样方法调查对象调查对象和调查范围和调查范围调查时间调查时间进度表进度表调查费用预算调查费用预算附件附件第5页/共43页三、统计调查的形式按按调调查查的的组组织织形形式式,对对统统计计调调查查方方法法进进行行分分类类:普普查查、重点调查、典型调查和抽样调查等。重点调查、典型调查和抽样调查等
4、。(一)普查普查是一种专门组织的一次性的全面调查。普查是一种专门组织的一次性的全面调查。普查是为了了解总体的全面情况。普查是为了了解总体的全面情况。(二)重点调查重重点点调调查查是是对对总总体体中中的的重重点点单单位位进进行行的的专专门门调调查查。“重重点点单单位位”是是指指此此类类单单位位的的变变量量值值(调调查查所所要要了了解解的的变变量量)占占总总体体中中该该变变量量值值总总和和有有较较大大比比重重。重重点点调调查查是是为为了了了了解总体的基本情况。解总体的基本情况。第6页/共43页(三)典型调查典典型型调调查查是是对对总总体体中中的的有有代代表表性性的的单单位位进进行行的的专专门门调调
5、查查。如如我我国国的投入产出调查。的投入产出调查。一般来说,典型调查是为了了解总体的特殊情况。一般来说,典型调查是为了了解总体的特殊情况。(四)抽样调查抽抽样样调调查查又又称称抽抽样样推推断断,它它是是指指按按随随机机原原则则对对总总体体进进行行抽抽取取样样本,以样本资料来推断总体的有关特征的一种专门调查。本,以样本资料来推断总体的有关特征的一种专门调查。抽样调查方法运用广泛。抽样调查方法运用广泛。第7页/共43页统计调查方法统计调查方法调查对象调查对象调查作用调查作用普查普查重点调查重点调查典型调查典型调查抽样调查抽样调查四种调查方法比较四种调查方法比较第8页/共43页统计调查方法统计调查方
6、法调查对象调查对象调查作用调查作用普查普查总体中的全部单位总体中的全部单位了解总体的全面情况了解总体的全面情况重点调查重点调查总体中的重点单位总体中的重点单位了解总体的基本情况了解总体的基本情况典型调查典型调查总体中的有代表性总体中的有代表性的单位的单位了解总体的特殊情况了解总体的特殊情况抽样调查抽样调查样本中的全部单位样本中的全部单位由局部推断整体由局部推断整体四种调查方法比较四种调查方法比较第9页/共43页(五)统计报表统计报表是指按照国家统一规定以统计表的形式定期逐级上报统计资料的制度化的调查方式。l优点:在报表实施范围内,各报告单位一定是以制度化形式按期并以统一口径报送统计表,从而确保
7、调查资料全面性、连续性和统一性。l缺点:要花费较大的人力、物力和财力,而且资料的准确性受人为因素影响很大,所以应将统计报表与专门调查等方法结合起来运用。我我国国的的统统计计调调查查方方法法体体系系:以以周周期期性性的的普普查查为为基基础础,以以抽抽样样调调查查为为主主体体,辅辅助助重重点点调调查查、典典型型调查和进行科学推断。调查和进行科学推断。第10页/共43页四、原始数据的搜集方法l原始数据的搜集方法主要有三类:询问法、观察法和实验法。1、询问法将所要了解的事项以当面、书面或电话的方式,向被调查者提出询问,以获取所需资料的一种方法。l面谈调查能够直接听取对方意见,灵活性高,但成本也高,调查
8、时拒访率高,调查结果容易受调查人员技术水平的影响。l电话访谈是目前应用非常广泛的一种调查方法,主要特点是速度快、成本低,但在电话普及率较低的地区不适用,电话调查的问题也不宜过多,否则会被拒访。l问卷调查是由调查人员交给被访问者的问卷,说明方法后由其自行填写,再由调查人员收回。随着互联网的普及,问卷调查也可以在网上进行。第11页/共43页2、观察法观察法是不与调查对象直接交流,而以旁观者的身份对具体事件、人物、行为模式等特征和演变过程进行记录的数据搜集方法。观察法分为直接观察法和实际痕迹测量法两种。常用的观察法有如下三种:l神秘顾客,是由经过严格培训的调查员,在规定的时间里扮演成顾客,对事先设计
9、的一系列问题逐一进行评估或评定的一种方式。神秘顾客以普通顾客身份进入客户指定的门店,观察店面,对店面环境、服务人员行为语言、服务规范性等方面进行暗访;l购买者行为研究,常常被零售商用于分析顾客的购买倾向。例如,大型超市的入口处经常陈列着厂家来推销的新产品或者商店要推销的季节性商品。顾客走进商店时,多半会驻足观看和选购这些商品。观察人员可以利用这一机会,观察和收集消费者对新产品和季节产品的关注度及购买情况的资料。l消费痕迹观察法,也是间接观察法的一种,通过观察消费者留下的痕迹来推断其消费行为。例如,国外有一家饮料公司曾根据垃圾站饮料瓶的回收情况,来分析消费者口味的偏好。第12页/共43页3、实验
10、法l实验也可以用于数据的搜集。实验法是通过实验来研究变量之间因果关系的一种方法。实验法常用来调查某种因素对市场销售量的影响,例如,某一商品在改变品种、品质、包装、设计、价格等因素时,可以在一定条件下进行小规模实验,通过观察用户的反应来做出是否推广的决策。第13页/共43页五、统计误差统计误差是指在统计工作中由于种种原因产生的统计误差是指在统计工作中由于种种原因产生的与研究对象本来状态有差异的结果。与研究对象本来状态有差异的结果。统计误差分为:(1)抽样误差是指由抽样的随机性引起的样本结果与总体真值之间的误差。在抽样的过程中,根据不同的样本,可以得到不同的观测结果。(2)非抽样误差是指相对抽样误
11、差而言的,是指除抽样误差之外的,由其他原因引起的样本观测结果与总体真值之间的差异。例如,调查者在接受调查时给出的回答与真实情况不符,导致的误差。非抽样误差是可以避免的。练习:设计大学生就业意向调查方案。第14页/共43页第二节第二节 统计数据的整理统计数据的整理统统计计数数据据整整理理是是对对所所搜搜集集到到的的原原始始的的、零零散散的的资资料料进进行行加加工工和和综综合合,使使之之系系统统化化。将将搜搜集集的的数数据据进进行行科科学的分类汇总、加工处理,才能揭示现象的规律性。学的分类汇总、加工处理,才能揭示现象的规律性。一、数据的预处理一、数据的预处理 数据的预处理主要包括数据的审核、筛选、
12、排序等。数据的预处理主要包括数据的审核、筛选、排序等。1 1、数据的审核、数据的审核数数据据审审核核就就是是检检查查数数据据中中是是否否有有错错误误,对对于于调调查查取取得得的原始数据,主要从资料的准确性和完整性审核。的原始数据,主要从资料的准确性和完整性审核。第15页/共43页准确性审核检查的方法有两个:准确性审核检查的方法有两个:一一是是逻逻辑辑检检查查,根根据据调调查查项项目目之之间间的的内内在在联联系系,检检查查资资料料是是否否符符合合逻逻辑辑性性,项项目目的的答答案案是是否否存存在在异异常常值值等等。二二是是计计算算检检查查,检检查查调调查查表表中中各各项项数数字字的的计计算算方方法
13、法、计计算算口口径径、计计算算结结果果有有无无差差错错,数数字字之之间间该该平平衡衡的的是是否平衡。否平衡。完完整整性性审审核核,主主要要是是检检查查应应调调查查的的单单位位或或个个体体是是否否有遗漏,所有的调查项目是否填写齐全等。有遗漏,所有的调查项目是否填写齐全等。第16页/共43页对对于于通通过过其其他他渠渠道道取取得得的的二二手手数数据据,要要审审核核数数据据的的适适用性和时效性。用性和时效性。适适用用性性审审核核,即即要要弄弄清清楚楚数数据据的的来来源源、数数据据的的口口径径以以及及有有关关的的背背景景资资料料,以以便便确确定定这这些些数数据据是是否否符符合合分分析研究的需要。析研究
14、的需要。时时效效性性审审核核,即即要要尽尽可可能能使使用用最最新新的的数数据据,对对于于时时效效性性较较强强的的问问题题如如数数据据过过于于滞滞后后,就就可可能能失失去去研研究究的的意义。意义。第17页/共43页2、数据筛选l数据筛选主要包括两方面:一是将某些不符合要求的数据或有明显错误的数据剔除;二是将符合某种特定条件的数据筛选出来,将不符合特定条件的数据剔除。3、数据排序l数据排序是指按一定顺序将数据排列,以便研究者通过数据发现一些明显的特征或趋势,找到解决问题的线索。第18页/共43页二、数据的整理与图示数据经过预处理后可根据需要进一步做分类或分组。针对于不同类型的数据,所采用的处理方式
15、和所使用的处理方法是不同的。数值型数据则主要是做分组整理;1、品质数据的整理与图示品质数据包括分类数据和顺序数据,主要是做分类整理。分类数据的整理与图示频数(次数)是指落在某一个特定类别或组中的数据个数。把各个类别及落在其中的相应的频数全部列出,用表格形式表现出来,称为频数分布(次数分布)。比例也称构成比,他是一个样本(或总体)中各个部分的数据与全部数据之比。第19页/共43页【例2-1】调查广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题作了问卷调查,其中的一个问题是:“您比较关心下列哪一类广告?”1.商品广告;2.服务广告;3.金融广告;4.房地产广告;5.招生招聘广告;6.
16、其他广告经过分类整理后,可以看出关注商品广告的人数最多,关注其他广告的人数最少。表2-2某城市居民关注广告类型的频数分布广告类型人数(人)比例频率(%)商品广告1120.56056.0服务广告510.25525.5金融广告90.0454.5房地产广告160.0808.0招生招聘广告100.0505.0其他广告20.0101.0合计2001100第20页/共43页l分类数据的图示条形图是用宽度相同的条形的高度或长短来表示数据多少的图形。条形图可以横置或纵置,纵置时也叫柱形图。例如,根据上例中表2-2某城市中关注广告类型的人数可以绘制如果2-1所示的条形图。图2-1 某城市居民关注不同类型广告人数
17、分布第21页/共43页饼图它是以圆的面积或圆内各扇形面积来表示数值大小或总体内部结构的一种图形。它主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例,对于研究结构性问题十分有用。例如,根据上例中表2-2可以绘制如果2-2所示的饼图。图2-2 某城市居民关注不同类型广告人数构成第22页/共43页顺序数据的整理与图示在品质数据的整理与图示中介绍的方法,如频数、比例、百分比、条形图等,也都是用于顺序数据的整理与图示。对于顺序数据,还可以计算累计频数和累计频率(百分比)。累计频数是将各有序类别或组的频数逐级累加起来得到的频数。它表明总体在某一变量值的某一水平上下一共包含的总体频数。频数的
18、累计方法有两种:向上累计,从类别顺序的开始一方向类别顺序的最后一方累加频数(数值型分组数据是从变量值小的一方向变量值大的一方累加频数),组距数列中的向上累计,表明各组上限以下一共所包含的总体频数有多少。向下累计,从类别顺序的最后一方向类别顺序的开始一方累加频数(数值型分组数据则是从变量值大的一方向变量值小的一方累加频数),组距数列中的向下累计,表明各组下线以上一共包含的总体频数有多少。第23页/共43页例2.1 在一项有关某酒店顾客满意度的调查中,研究人员在某酒店随机抽取300名顾客进行调查,其中的一个问题是:“您对酒店员工的服务态度是否满意?”要求回答的类别依次如下:1.非常满意;2.满意;
19、3.一般;4.不满意;5.非常不满意l调查结果的频数分布表如表2-3所示。第24页/共43页顺序数据的图示根据上例中的累计频数或累计频率,可以绘制累计频数分布或频率分布图。如图2-3所示。(a)向上累计 (b)向下累计图2-3 某酒店顾客对员工服务满意度的频数分布图第25页/共43页数值型数据的整理与图示分类和顺序数据的整理与图示方法,也都是用于数值型数据。但一些适用于数值型数据的特定整理和图示的方法,并不适用于分类数据和顺序数据。l数据分组数值型数据的结果表现为数值,在进行整理时通常是进行数据分组。根据统计研究的需要,将原始数据按照某种标准分成不同的组别,分组后再计算出各组中的数据出现的频数
20、,就形成了一张频数分布表。数据分组的方法有单变量分组和组距分组两种。第26页/共43页l单单变变量量分分组组:把把每每一一个个变变量量值值作作为为一一组组,通通常常只只适适用用于于离离散变量,且变量值较少的情况下使用;散变量,且变量值较少的情况下使用;l组组距距分分组组:适适用用于于连连续续变变量量或或变变量量值值较较多多的的情情况况下下,它它是是将将全全部部变变量量值值一一次次划划分分为为若若干干个个区区间间,每每一一个个区区间间的的变变量量值作为一组。值作为一组。组距组距 、上限、下限、等距数列、异距数列、上限、下限、等距数列、异距数列第27页/共43页次数密度:本组的次数与本组的组距之比
21、。次数密度:本组的次数与本组的组距之比。组中值组中值(每组变量值变动范围的中点值)(每组变量值变动范围的中点值)l组中值组中值=(上限下限)(上限下限)/2/2l缺下限开口组组中值缺下限开口组组中值=上限上限邻组组距邻组组距/2/2l缺上限开口组组中值缺上限开口组组中值=下限邻组组距下限邻组组距/2/2l如如1212及以下及以下l12-14 12-14 求组中值?求组中值?注意:在异距数注意:在异距数列中,反映总体列中,反映总体单位在各组分布单位在各组分布密集程度的指标密集程度的指标 第28页/共43页29 变量数列的编制例:30名同龄儿童身高(cm):106,99,85,121,84,94,
22、106,105,110,119,101,95,91,87,105,106,109,118,96,128,91,97,105,111,111,107,103,101,107,106。(1)将变量值按大小次序排列84,85,87,91,91,94,95,96,97,99,101,101,103,105,105,105,106,106,106,106,107,107,109,110,111,111,118,119,121,128。(2)计算全距:R=12884=44(cm)(3)确定组数与组距 令i=10cm,则组数n=44/10=4.4,取5组第29页/共43页3084,85,87,91,91,9
23、4,95,96,97,99,101,101,103,105,105,105,106,106,106,106,107,107,109,110,111,111,118,119,121,128。(4)编制变量数列第30页/共43页统计分组的原则 1.穷尽原则(每一个单位在给定的组中找到自己的归属)2.互斥性原则(不相容性原则)第31页/共43页l补充:品质型数据分组第32页/共43页数值型数据的图示直直直直方方方方图图图图是是是是用用用用直直直直方方方方形形形形的的的的高高高高度度度度和和和和宽宽宽宽度来表示次数分布特征的图形度来表示次数分布特征的图形度来表示次数分布特征的图形度来表示次数分布特征的
24、图形。ll平平平平面面面面直直直直角角角角坐坐坐坐标标标标系系系系中中中中的的的的横横横横轴轴轴轴表表表表示示示示各各各各组组组组组组组组限限限限,纵纵纵纵轴轴轴轴表表表表示示示示次次次次数数数数。对对对对于于于于异异异异距距距距数数数数列列列列则则则则应应应应以以以以次次次次数数数数密密密密度度度度为为为为纵纵纵纵轴轴轴轴、各组组限为横轴绘制直方图。各组组限为横轴绘制直方图。各组组限为横轴绘制直方图。各组组限为横轴绘制直方图。ll与与与与直直直直方方方方图图图图相相相相似似似似作作作作用用用用的的的的图图图图是是是是折折折折线线线线图图图图,它它它它以以以以各各各各组组组组标标标标志志志志值
25、值值值中中中中点点点点位位位位置置置置作作作作为为为为该该该该组组组组标标标标志志志志的的的的代代代代表表表表值值值值,然然然然后后后后用用用用折折折折线线线线将将将将各各各各组组组组次次次次数数数数连连连连接接接接起起起起来来来来。直直直直方方方方图图图图与与与与折折折折线图的面积是相等的。线图的面积是相等的。线图的面积是相等的。线图的面积是相等的。第33页/共43页频数分布的主要类型1.钟形分布特征:两头小,中间大。(1)对称分布:0第34页/共43页(2)偏态分布:右偏(正偏)分布 左偏(负偏)分布00变量值出现极大值变量值出现极小值第35页/共43页2.U形分布 特征:两头大,中间小
26、0靠近中间的变量值分布的频数少,靠近两端的变量值分布的频数多第36页/共43页3.J形分布特征:一边小,一边大(1)正J形分布 (2)反J形分布 00第37页/共43页四、四、统计表统计表统统计计表表是是用用于于展展示示数数据据的的另另一一个个工工具具,是是将将统统计计资资料料用用表表格格的的形形式式表表现现出出来来,将将搜搜集集到到的的杂杂乱乱无无章章的的数数据据整整理理到到一一张张统统计表内,会使这些数据变得一目了然,清晰易懂。计表内,会使这些数据变得一目了然,清晰易懂。第38页/共43页统计表的种类l简单表、分组表、复合表(P34)统计表的编制规则l设计内容合理l标题简明、确切、概括地反
27、应表的基本内容l主词宾词栏应先列各个项目,后列总计l空格处用“-”或“”代替。l应注明单位l必要时要在下端加注解。第39页/共43页练习:一个金融产品的预期收益率的变化通常可以衡量其投资风险。预期收益率变化越小,投资风险越低;预期收益率变化越大,投资风险越高。从市场上分别抽取40只商业类股票和40只高科技类股票,根据上市公司上年派发的现金股利与本期股票价格可以计算出预期收益率。根据40种商业类股票的预期收益率和40种高科技类股票的预期收益率可以画出一下两个直方图,如果你是投资者,你会选择投资哪一类股票?第40页/共43页通过例子,我们可以归纳完整的统计过程包括:(1)收集数据:收集股票上年派发的现金股利与本期股票价格的数据。(2)整理数据:计算收益率。(3)分析数据:用图表的形式展示数据。(4)做出决策:若是稳健型投资者,可选择商业类股票,若是激进型投资者,可选择高科技类股票。第41页/共43页作业:1.设计常熟理工学院大学生就业意向调查方案;2.根据调查方案设计调查表。第42页/共43页感谢您的观看!第43页/共43页
限制150内