随机数据建模-初步分析分解优秀PPT.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《随机数据建模-初步分析分解优秀PPT.ppt》由会员分享,可在线阅读,更多相关《随机数据建模-初步分析分解优秀PPT.ppt(71页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、随机数据建模随机数据建模数据初步分析处理数据初步分析处理4/15/20231一、数据在模型中的重要性一、数据在模型中的重要性 建立数学模型建立数学模型解决现实问题解决现实问题目的真实世界的背景不容忽视真实世界的背景不容忽视须要收集、分析背景数据须要收集、分析背景数据数据作用于模型的形式:数据作用于模型的形式:初期:初期:寻求变量间的关系寻求变量间的关系中期:中期:模型参数估计模型参数估计后期:后期:模型检验模型检验4/15/20232建模案例建模案例96年年B题题:节水洗衣机:节水洗衣机该题没有任何数据,须要查找足够多数据才能该题没有任何数据,须要查找足够多数据才能进行下一步工作,有些甚至须要
2、通过试验获得进行下一步工作,有些甚至须要通过试验获得2004 年年A题:奥运会临时超市网点设计题:奥运会临时超市网点设计该题数据量特别大,需在统计分析基础上才可该题数据量特别大,需在统计分析基础上才可进行下一步工作进行下一步工作思索:思索:须要哪些以及何种形式的数据?须要哪些以及何种形式的数据?如何去获得数据?如何去获得数据?怎样表达数据?怎样表达数据?如何整理、分析数据?如何整理、分析数据?4/15/20233其他案例其他案例统计学中的盐(印度)统计学中的盐(印度)数据挖掘:超市商品选择数据挖掘:超市商品选择 近年的赛题,每年几乎总有一个须要对大量数近年的赛题,每年几乎总有一个须要对大量数据
3、进行处理,这也反映了科研与应用中对数据处理据进行处理,这也反映了科研与应用中对数据处理的需求;人才市场中较为青睐数据分析工作者。的需求;人才市场中较为青睐数据分析工作者。4/15/20234二、常见收集数据方法二、常见收集数据方法 着手建立模型时,关于数据需考虑以下问题:着手建立模型时,关于数据需考虑以下问题:1.须要哪些以及何种形式的数据?须要哪些以及何种形式的数据?2.2.如何去获得数据?如何去获得数据?怎样表达数据?怎样表达数据?3.如何对数据进行整理、分析?如何对数据进行整理、分析?获获得得数数据据方方式式图书文献检索图书文献检索统计机构统计机构询问相关人员询问相关人员试验、视察并记录
4、试验、视察并记录间接来源间接来源干脆来源干脆来源网络资源网络资源4/15/20235数据的计量与类型数据的计量与类型定距数据定距数据 定比数据定比数据 定性定性数据数据定量定量数据数据例:性别、种族、运动项目例:性别、种族、运动项目例:教化程度、产品等级、满足度例:教化程度、产品等级、满足度例:成果、年龄、产量例:成果、年龄、产量定类数据定类数据定类变量定类变量定序数据定序数据定序变量定序变量数字变量数字变量(离散、连续)(离散、连续)没有真正的零点例如,温度没有真正的零点例如,温度存在真正的零点;倍数有意义存在真正的零点;倍数有意义例,身高、体重例,身高、体重4/15/20236数据度量与信
5、息含量数据度量与信息含量Data Measurement and InformationData Measurement and Information度量尺度的信息含量度量尺度的信息含量由弱到强由弱到强排列:排列:定类尺度和定序尺度用于属性数据定类尺度和定序尺度用于属性数据信息量低信息量低定距尺度定距尺度和和定比尺度用于数值数据定比尺度用于数值数据信息量高信息量高定类尺度定类尺度定序尺度定序尺度定距尺度定距尺度定比尺度定比尺度4/15/20237数据的来源数据的来源干脆来源干脆来源干脆来源干脆来源普查普查统计调查方式统计调查方式统计报表统计报表重点调查重点调查典型调查典型调查抽样调查抽样调查
6、统计调查方法统计调查方法询问法询问法试验法试验法视察法视察法选择适合调查方式的方法选择适合调查方式的方法4/15/20238统计数据的误差统计数据的误差 抽样误差抽样误差由抽样随机性造成,只存在于概率抽样中。由抽样随机性造成,只存在于概率抽样中。非抽样误差非抽样误差覆盖误差覆盖误差被调查总体范围被人为减小被调查总体范围被人为减小无反馈误差无反馈误差调查回收率太低调查回收率太低道德误差道德误差调查人员缺乏业务培训或职业道调查人员缺乏业务培训或职业道德德被调查者误差被调查者误差理解有误,有意欺瞒理解有误,有意欺瞒测量误差测量误差测量工具不精确测量工具不精确4/15/20239总体总体(学生学生)样
7、本框架样本框架(电话簿里(电话簿里的学生)的学生)支配选取样本支配选取样本(选定的学生选定的学生)实际的实际的样本样本覆盖面误差覆盖面误差抽样误差抽样误差不回答和不回答和度量误差度量误差统计数据的误差统计数据的误差 4/15/202310 用数学模型描述现实问题,模型中参数的估计、模型的求解以及模型的合理性很大程度取决于数据的精确可信。试验数据中总存在试验误差试验数据中总存在试验误差 在建模工作的各个环节,试验误差都可能在建模工作的各个环节,试验误差都可能造成失之毫厘,谬之千里的失误。造成失之毫厘,谬之千里的失误。4/15/202311实实 验验 误误 差差随机误差:随机误差:系统误差:系统误
8、差:过失误差:过失误差:由一系列偶然因素引起的一类由一系列偶然因素引起的一类不易限制的测量误差。不易限制的测量误差。试验视察过程中听从确定性规试验视察过程中听从确定性规律的误差。律的误差。明显歪曲试验结果的误差。明显歪曲试验结果的误差。v 无法避开,可增加试验次数,取算术无法避开,可增加试验次数,取算术平均来减小。平均来减小。v 不能通过增加试验次数求算术平均值不能通过增加试验次数求算术平均值v来消退。但可用其他方法识别、消退。来消退。但可用其他方法识别、消退。v 可以可以识别识别、并加以、并加以处理。处理。4/15/202312在试验数据中,三类试验误差常常在试验数据中,三类试验误差常常同时
9、错综困难的存在着。同时错综困难的存在着。限制试验数据的质量限制试验数据的质量整理试验数据整理试验数据消退试验误差消退试验误差重重要要工工作作4/15/202313误差的处理方法:误差的处理方法:1.用统计检验方法检验出异样数据;用统计检验方法检验出异样数据;2.尽可能找寻产生异样点的技术上或物理上的尽可能找寻产生异样点的技术上或物理上的 缘由,作为处理异样值的依据。缘由,作为处理异样值的依据。3.依据阅历和实际背景学问做出试验数据的检依据阅历和实际背景学问做出试验数据的检查修正,异样数据的舍弃处理。查修正,异样数据的舍弃处理。例例3 施肥效果分析施肥效果分析 4/15/202314课后小作业课
10、后小作业问卷调查如何实施?需留意哪些问题?问卷调查如何实施?需留意哪些问题?尝试选择感爱好的问题设计并进行问卷调查尝试选择感爱好的问题设计并进行问卷调查可参考的问题:可参考的问题:学生怎样支配周末学生怎样支配周末学生如何运用奖学金学生如何运用奖学金学生相互间帮助关切状况学生相互间帮助关切状况学生对将来的规划与实施状况学生对将来的规划与实施状况4/15/202315再次强调:收集数据需考虑以下问题再次强调:收集数据需考虑以下问题1.须要哪些以及何种形式的数据?须要哪些以及何种形式的数据?2.2.如何去获得数据?如何去获得数据?怎样表达数据?怎样表达数据?3.如何对数据进行整理、分析?如何对数据进
11、行整理、分析?有支配地收集到数据,并有效地分析整理,有支配地收集到数据,并有效地分析整理,将使整个工作过程更加轻松,模型与结果更将使整个工作过程更加轻松,模型与结果更为牢靠。为牢靠。4/15/202316三、数据的初步分析与整理三、数据的初步分析与整理 得到数据后,可以通过图表和数据特征分析得得到数据后,可以通过图表和数据特征分析得到初步印象或初步结论到初步印象或初步结论图表分析:图表分析:频数直方图、饼图、茎叶图、箱线图、交叉表频数直方图、饼图、茎叶图、箱线图、交叉表等等数据特征分析:数据特征分析:集中趋势、离散趋势、分布形态集中趋势、离散趋势、分布形态4/15/202317单变量定量数据的
12、图表描述单变量定量数据的图表描述单变量数据的图表描述单变量数据的图表描述未未 分分 组组茎叶图茎叶图 箱线图箱线图分分 组组频数分布表频数分布表累积频数分布表累积频数分布表直方图直方图折线图折线图累积频数分布图累积频数分布图数据图数据图形描述形描述数据整理数据整理4/15/202318定类变量定类变量定类变量定类变量定序变量定序变量定序变量定序变量定性变量定性变量定性变量定性变量条形图条形图条形图条形图圆形图圆形图圆形图圆形图4/15/202319定距变量定距变量定距变量定距变量定比变量定比变量定比变量定比变量茎叶图茎叶图茎叶图茎叶图直方图直方图直方图直方图频数表频数表频数表频数表条形图条形图
13、条形图条形图圆形图圆形图圆形图圆形图4/15/202320单变量定量数据的图表描述单变量定量数据的图表描述数据整理数据整理数据整理数据整理统计分组统计分组依据统计探讨的目的和客观现象的内在特点,依据统计探讨的目的和客观现象的内在特点,按某个标记(或几个标记)把被探讨的总体划按某个标记(或几个标记)把被探讨的总体划分为若干个不同性质的组。分为若干个不同性质的组。例,收集到某班全部同学的考试成果,为了探例,收集到某班全部同学的考试成果,为了探讨须要划分优、良、及格、不及格四个成果段,讨须要划分优、良、及格、不及格四个成果段,每个成果段的范围分别是每个成果段的范围分别是85-100,70-85,60
14、-70,0-60,将每个成果归入到相应的组中。,将每个成果归入到相应的组中。4/15/202321对定量数据进行分组时,须要建立频数分布表,以便对定量数据进行分组时,须要建立频数分布表,以便更有效地显示数据的特征和分布。更有效地显示数据的特征和分布。频数分布表示例如下:频数分布表示例如下:原始数据原始数据:24,26,24,21,27,27,30,41,32,38组界组界(上界(上界+下界)下界)/2组距组距组别组别组中值组中值频数频数 15 且且 25203 25 且且 35305 35 且且 45402频率频率30.050.020.04/15/202322累积频数分布表累积频数分布表为了统
15、计分析的须要,有时要视察某一数值以为了统计分析的须要,有时要视察某一数值以上或某一数值以下频数或频率之和,这就须要上或某一数值以下频数或频率之和,这就须要在频数分布表基本分组的基础上绘出累积频数在频数分布表基本分组的基础上绘出累积频数或累计频率。或累计频率。“向下累积向下累积”由表的上方向表的下方的频数或频率相加由表的上方向表的下方的频数或频率相加“向上累积向上累积”由表的上方向表的下方的频数或频率相加由表的上方向表的下方的频数或频率相加4/15/202323小于组别下限的小于组别下限的百分数百分数 原始数据原始数据:24,26,24,21,27,27,30,41,32,38组别下界组别下界3
16、0%+50%80%+20%组别组别累计累计百分比百分比15 25 0.025 35 30.035 45 80.045 55100.0累积频数分布表实例累积频数分布表实例4/15/202324数据图形描述(分组后数据)数据图形描述(分组后数据)数据分组整理后的图形描述数据分组整理后的图形描述直方图直方图 用矩形的高度和宽度来表示频数分布用矩形的高度和宽度来表示频数分布 折线图折线图作用与直方图相像作用与直方图相像 累积频数分布图累积频数分布图描述累积频数或频率信息描述累积频数或频率信息 4/15/202325012345直直 方方 图图频数频数 或或频率频率01525354555下界下界柱条接触
17、柱条接触计数计数类别类别频数频数15 25325 35535 4524/15/202326012345中点中点虚拟的虚拟的外推组外推组0102030405060组别组别频数频数15 25325 35535 45 100%累计累计%累积折线图累积折线图4/15/202328数据图形描述(未分组数据)数据图形描述(未分组数据)数据未分组整理后的图形描述数据未分组整理后的图形描述茎叶图茎叶图 用于干脆描述未分组原始数据的探究性分析用于干脆描述未分组原始数据的探究性分析描述数据分布形态,如数据是否集中,是否有极端值描述数据分布形态,如数据是否集中,是否有极端值等等 由茎、叶、每个茎对应叶的个数、茎的宽
18、度这四元素由茎、叶、每个茎对应叶的个数、茎的宽度这四元素组成组成箱线图箱线图用于干脆描述未分组原始数据的探究性分析用于干脆描述未分组原始数据的探究性分析描述数据的分布形态,如数据是否集中,是否有极端描述数据的分布形态,如数据是否集中,是否有极端值等值等可以比较多组数据分布特征可以比较多组数据分布特征图中包含五个点组成:样本数据的最小值、下四分位图中包含五个点组成:样本数据的最小值、下四分位数、中位数、上四分位数、最大值数、中位数、上四分位数、最大值 4/15/202329把每一项视察分解把每一项视察分解为茎值和叶值为茎值和叶值茎值确定组别茎值确定组别叶值确定频数叶值确定频数 (计数计数)Xi茎
19、叶图茎叶图4/15/202330奇异值奇异值最大值最大值最小值最小值中位数中位数大于大于1.51.5倍四分位倍四分位数间距数间距四分位数四分位数间距范围间距范围箱线图箱线图4/15/202331关于箱线图关于箱线图中间的黑粗线为中位数中间的黑粗线为中位数方框为四分位间距的范围方框为四分位间距的范围离方框上离方框上/下界的距离超过四分位数间距下界的距离超过四分位数间距1.5倍倍的为的为离群值离群值,以,以“O”表示;超过表示;超过3倍的则为倍的则为极值极值,用,用“*”表示。表示。4/15/202332单变量定性数据的图表描述单变量定性数据的图表描述频数分布表(又叫总结表)频数分布表(又叫总结表
20、)类似于整理定量数据的频数分布表类似于整理定量数据的频数分布表包含:包含:分类的频数或频率,即指落在某一特定类中的分类的频数或频率,即指落在某一特定类中的视察值数视察值数分类的相对频数,指某个特定类的频数除以视分类的相对频数,指某个特定类的频数除以视察值总数所得的商察值总数所得的商累积频数分布表累积频数分布表类似于整理定量数据的累积频数分布表类似于整理定量数据的累积频数分布表4/15/202333单变量定性数据的图表描述单变量定性数据的图表描述条形图条形图类似直方图,条形图的横轴表示的是各个分类,直方类似直方图,条形图的横轴表示的是各个分类,直方图的横轴表示所分的组图的横轴表示所分的组 饼图饼
21、图通常用来描述落在各个分类中的视察值数分别在总数通常用来描述落在各个分类中的视察值数分别在总数中所占的比率中所占的比率 累积频数分布图累积频数分布图类似于描述定量数据中的累积频率分布图类似于描述定量数据中的累积频率分布图帕雷托图帕雷托图变量的分类数目较多时,用帕雷托图要比条形图和饼变量的分类数目较多时,用帕雷托图要比条形图和饼图更能直观地显示信息。图更能直观地显示信息。广泛应用于过程分析和质量分析中广泛应用于过程分析和质量分析中 4/15/202334050100150会计会计经济经济管理管理水平条表水平条表示类型变示类型变量量条长表示频条长表示频数或者数或者%条宽的条宽的1/2 到到 1 倍
22、倍相同的条相同的条宽宽零点零点频数频数专业专业也可运用百分比也可运用百分比条条 形形 图图4/15/202335经济经济10%管理管理25%会计会计65%1.表示出总量的分类表示出总量的分类2.是表示相对差异的有效方法是表示相对差异的有效方法3.角度大小角度大小360(百分数百分数)专业专业 36010%=3636饼饼 图图4/15/2023360%33%67%100%会计会计管理管理经济经济百分数百分数专业专业递减依次递减依次累积频数分布图累积频数分布图相同的条宽相同的条宽竖直条形竖直条形条的中点条的中点帕雷托图帕雷托图4/15/202337多变量定性数据的图表描述多变量定性数据的图表描述交
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 随机 数据 建模 初步 分析 分解 优秀 PPT
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内