数据整理与图表展示.pptx
《数据整理与图表展示.pptx》由会员分享,可在线阅读,更多相关《数据整理与图表展示.pptx(71页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、表表3-1 3-1 不同原因引起的寿命不同原因引起的寿命损失损失原因寿命减少天数原因寿命减少天数未结婚(男性)3500危险工作300惯用左手3285交通事故200吸烟(男性)2250饮酒130未结婚(女性)1600滥用药物9030%超重1300一般事故7420%超重900自然放射性8吸烟(女性)800喝咖啡6抽雪茄300医疗X射线6第1页/共71页图3-1 不同原因引起的寿命损失第2页/共71页第三章第三章 数据整理与图表展示数据整理与图表展示学习目标学习目标了解统计数据的预处理方法掌握非数值型数据的分类整理和图示掌握数值型数据的分组整理和图示重点:频数分布表绘制;各种统计图的绘制,并能解释其
2、含义第3页/共71页一、数据审核一、数据审核(data auditing)原始数据数据审核的内容和方式二、数据筛选二、数据筛选(data filter)举例 表3-2是8名学生4门课程的成绩数据。请找出统计学成绩等于87分的学生,英文成绩前5名的学生,四门课成绩均大于70分的学生。3.1 数据的预处理第4页/共71页表表3-2 83-2 8名学生的成绩数据名学生的成绩数据姓名统计学数学英文经济学A69688486B91759594C54886778D81608664E75968183F83726671G75587690H87769277第5页/共71页三、数据排序o举例 n财富 2011全球5
3、00强企业n福布斯 2011全球富豪排行榜n2011 中国大学排行榜四、数据透视表(Pivot Table)o按使用者要求对数据表重要信息进行汇总后的结果 Note:Excel的特色功能(举例)第6页/共71页n 财富 2011全球500强企业单位:百万美元排名排名公司名称公司名称营业收入营业收入利润利润201120112010201011沃尔玛(Wal-Mart Stores)421,84916,38922皇家壳牌(Royal Dutch Shell)378,15220,12733埃克森美孚(Exxon Mobil)354,67430,46044英国石油公司(BP)308,928-3,719
4、57中国石油化工中国石油化工 集团公司集团公司(Sinopec)273,4227,629610中国石油天然气集团公司中国石油天然气集团公司(China National Petroleum)240,19214,36778中国国家电网公司中国国家电网公司(State Grid)226,2944,55685丰田汽车(Toyota Motor)221,7604,76696日本邮政控股(Japan Post Holdings)203,9584,8911011雪佛龙(Chevron)196,33719,024第7页/共71页一、数据分组一、数据分组(Data Grouping)(P31)o根据研究现象特
5、点和数据分析目的,将原始数据按照总体单位的某一特征分为不同的组别。o分组数据o分组标志o非数值型数据分组和数值型数据分组3.2 非数值型数据的分类整理和展示第8页/共71页二、非数值型数据分组(分类)二、非数值型数据分组(分类)(P32)o反映事物自然属性的非数值型数据的分组o反映事物社会经济属性的非数值型数据的分组oo城镇家庭城镇家庭“可支配收入可支配收入”分组分组3.2 非数值型数据的分类整理和展示第9页/共71页表表3-33-3 2000200920002009年年 江苏省城镇家庭可支配收入分组表江苏省城镇家庭可支配收入分组表 (单位:元)(单位:元)年份年份平均可平均可支配收支配收入入
6、最低收最低收入户入户10%低收入低收入户户10%中等偏中等偏下户下户20%中等收中等收入户入户20%中等偏中等偏上户上户20%高收入高收入户户 10%最高收最高收入户入户10%20006800.232771.13843.774929.736349.988229.5710790.6914949.0920017375.12798.984072.35217.856599.28784.0111746.1217556.1820028177.672023.233616.364976.836938.89646.8913191.0924335.2120039262.462478.463980.565575.8
7、57804.6810904.6415135.6124568.26200410481.932771.82-6247.948788.5512297.75-29684.13200512318.573354.905179.427259.6110294.5914400.9819983.5433699.29200614084.263802.315967.87 8377.37 11864.25 16396.50 22745.82 38526.86 200716378.014456.096926.27 9758.20 13575.39 18980.36 26273.41 45532.64 200818679.
8、525659.78389.33 11574.74 15909.83 21504.71 29368.12 49612.44 200920551.73 6148.82 9081.23 12627.06 17330.50 23593.67 32991.38 55834.47 第10页/共71页 图3-4 20002009年江苏省城镇家庭可支配收入水平折线图第11页/共71页三、三、定类数据的整理和展示定类数据的整理和展示 1.1.频数与频数分布(频数与频数分布(Frequency Distribution)(P38)o频数o频数分布表o频率(比例)o举例-1(P38P38)按性别的人口构成(表3-4
9、)3.2 非数值型数据的分类整理和展示第12页/共71页表表3-4 2001-20033-4 2001-2003年我国按性别分人口数及构成年我国按性别分人口数及构成资料来源:2004中国统计年鉴.北京.中国统计出版社 2004 Q:统计学中怎么称呼分配在各组的单位数及其相对形式?统计分组分配在各组的单位数及其相对形式第13页/共71页1.1.频数与频数分布(频数与频数分布(Frequency Distribution)o举例-2 表3-5是调查员随机观察的50名顾客购买的饮料类型及购买者性别记录。要求:生成频数分布表,观察饮料类型和顾客性别的分布状况,并进行描述性分析。三、三、定类数据的整理和
10、展示定类数据的整理和展示第14页/共71页说明:F女;M男;ts碳酸;lc绿茶;kqs矿泉水;gz果汁;qt其它表3-5 顾客性别及购买的饮料类型性别性别饮料饮料性别性别饮料饮料性别性别饮料饮料性别性别饮料饮料FtsMlcMkqsFgzMlcMtsFlcFtsMkqsFqtFtsFgzFkqsMkqsFkqsMkqsMtsFtsMqtFtsMkqsMlcMtsFlcFtsMqtFgzFqtFlcFtsMkqsFgzMgzMlcFqtMlcMtsMlcFtsFqtFkqsFtsFqtFkqsFqtMtsFgz-MtsFlcMlc-第15页/共71页Excel结果:结果:表表3-6 3-6 不同类
11、型饮料和顾客性别的频数分布不同类型饮料和顾客性别的频数分布计数项:饮料类型性别饮料类型男女总计果汁156矿泉水6410绿茶7411其它268碳酸饮料6915总计222850第16页/共71页2.2.定类数据的图示定类数据的图示(1 1)条形图()条形图(Bar ChartBar Chart)o 用宽度相同的条形的高度或长短表示数据频数。图图3-5 3-5 饮料类型的条形图饮料类型的条形图第17页/共71页图图3-6 3-6 饮料类型和顾客性别的复式条形图饮料类型和顾客性别的复式条形图第18页/共71页2.2.定类数据的图示定类数据的图示(2 2)饼图()饼图(Pie ChartPie Char
12、t)o 主要用于说明一个样本各部分所占比例,或者总体 内部结构分析。第19页/共71页图图3-7 3-7 不同类型饮料构成的饼图不同类型饮料构成的饼图第20页/共71页2.2.定类数据的图示定类数据的图示(3 3)环形图()环形图(Doughnut ChartDoughnut Chart)o 主要用于显示多个样本各部分所占的相应比例,有助于构成的比较研究。o 举例表3-7是某年北京、上海和天津地区按收入法计算的地区生产总值(按当年价格计算)数据。请绘制环形图比较三个地区的生产总值构成。第21页/共71页表3-7 某年北京、上海和天津地区生产总值构成 单位:亿元地区劳动者报酬生产税净额固定资产折
13、旧营业盈余北京3496.571161.551251.091961.07天津1383.36775.09595.091605.61上海3756.561623.361730.513255.94第22页/共71页图3-8 北京、上海和天津地区生产总值构成 的环形图第23页/共71页四、四、定序数据的整理和展示定序数据的整理和展示 1.1.累积频数与累积频率(累积频数与累积频率(P38P38)o累积频数 o向上/向下累积o累积频率o举例 关于城市住房问题的研究中,研究人员对两个城市各抽样调查300户,其中一个问题是:“您对家庭目前的住房状况是否满意?”调查结果的频数分布表如表3-8、表3-9。3.2 非
14、数值型数据的分类整理和展示第24页/共71页表表3-8 3-8 甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别户数 百分比()向上累计向下累计(户)户数百分比户数百分比非常不满意248248300100不满意108361324427692一般93312257516856满意4515270907525非常满意30103001003010合计合计300100第25页/共71页表表3-9 3-9 乙城市家庭对住房状况评价的频数分布乙城市家庭对住房状况评价的频数分布回答类别户数 百分比()向上累计向下累计(户)户数百分比户数百分比非常不满意217.0217.0300100
15、.0不满意9933.012040.027993.0一般7826.019866.018060.0满意6421.326287.310234.0非常满意3812.7300100.03812.7合计合计300100第26页/共71页2.2.定序数据的图示定序数据的图示 举例:根据表3-7的数据绘制累积频数分布图。图图3-9 3-9 甲城市家庭对住房状况评价的累积频数分布图甲城市家庭对住房状况评价的累积频数分布图第27页/共71页一、数值型一、数值型数据分组与频数分布数据分组与频数分布 1.1.数值型数值型数据数据分组分组o根据统计研究需要,将原始数据按某种标准分成不同的组别。n关键:选择分组变量和划分
16、各组界限 2.数值型数值型数据数据分组的结果分组的结果o形成频数分布表o两个构成要素n各组的分组界限n每组中的频数、频率3.3 数值型数据的整理和图示第28页/共71页频数分布举例(表3-10)成绩人数频率60以下37.14%60-70819.05%70-801228.57%80-901535.71%90以上49.52%合计42100.00%第29页/共71页3.3.数值型数据分组方法(数值型数据分组方法(P33P33)一、数值型一、数值型数据分组与频数分布数据分组与频数分布等距分组不等距分组单变量值分组组距分组数据分组方法第30页/共71页(1)单变量值分组 每一个变量值作为一组的分组方式。
17、举例 某学院某年毕业研究生发表论文篇数的频数分布表(表3-11)发表论文篇数人数2345668532合计24第31页/共71页(2)组距分组 将全部变量值依次划分为若干个区间,将每一区间的变量值作为一组。适合于连续变量或变量值较多时。遵循“不重不漏”的原则。等距与不等距分组。第32页/共71页o基本概念n组限n上限(U)/下限(L)n组距(d)n间断/重合组限n闭口/开口组限n闭口组/开口组 Note:在采用重合组限场合,一般采用“上限不在内”的统计惯例。(P35)第33页/共71页怎样进行等距分组(结合例子)确定取值范围确定组数:Sturges 经验公式计算组距:确定各组祖限(多种形式)No
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 整理 图表 展示
限制150内