《2-数理统计相关知识汇总.ppt》由会员分享,可在线阅读,更多相关《2-数理统计相关知识汇总.ppt(36页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2数理统计相关知识汇总数理统计相关知识汇总营销数据的统计处理引言w1998年对我国105家企业应用各种统计方法的情况作了一个调查,并把它与美国学者福吉尼在1983年对美国公司的调查情况做了比较。如下图所示:2各种方法使用情况各种方法使用情况(美美1983)1983)3 各种各种方法在中国使用情况方法在中国使用情况 (随机抽样随机抽样)(19981998年)年)4w统计学(statistics)是用以收集数据、分析数据和由数据得出结论的一组概念、原则和方法。w从统计学的内容来看,统计所研究和处理的是一批有“实际背景”的数据,尽管数据的背景和类型各不相同,但从数据的形成来看,无非是横横剖剖面面数数
2、据据和和纵纵剖剖面面数数据据两类(或者叫做静态数据和动态数据)。w研究横剖面数据结构的有效统计方法是多元统计分析。w纵剖面数据是由某一现象或若干现象在不同时刻上的状态所形成的数据,它反映的是现象以及现象之间关系的发展变化规律性。研究这种数据的有效统计方法是时间序列分析。5w多多元元统统计计分分析析是是数数理理统统计计学学的的一一个个重重要要分分支支,具具有有广广泛泛的的应应用用性性,它它在在自自然然科科学学、社社会会科科学学,尤尤其其是是经经济济学学、管管理理学学等等各各领领域域中中得得到到了了越越来来越越广广泛泛的的应应用用,是一种实用性强的数据处理方法。是一种实用性强的数据处理方法。w课课
3、程程中中将将重重点点介介绍绍多多元元统统计计中中最最具具有有实实用用性性的的内内容容,因因子子分分析析、聚聚类类分分析析、回回归归分分析析等等。特特别别介介绍绍了了降降维维技技术术,将将原原始始的的多多个个指指标标约约化化为为少少数数几几个个综综合合指指标标,便于对复杂数据进行分析处理。便于对复杂数据进行分析处理。6w时间序列分析是根据系统观测得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和方法。w一般采用曲线拟合和参数估计方法(如非线性最小二乘法)进行。时间序列分析常用在国民经济宏观控制、区域综合发展规划、企业经营管理、市场潜量预测、气象预报、水文预报、地震前兆预报、农作物病
4、虫灾害预报、环境污染控制、生态平衡、天文学和海洋学等方面。7w由于历史发展所形成的习惯,多元统计数据分析被限制在一定范围内,通常只处理所谓截面样本数据,即静态数据,而不考虑多元复杂集合的时间迹向。统计学中将时序样本数据分析归为时间序列分析。一些著名的统计学家认为,做这样的区别,与其说是逻辑上的原因,倒不如说是为了方便。将多元统计分析与时间序列动态趋势性研究有效地结合起来,这是数据分析发展的新方向。w 这也正是我安排这两部分内容的想法。8w运筹学能够对经济管理系统中的人力、物力、运筹学能够对经济管理系统中的人力、物力、财力等资源进行统筹安排,为决策者提供有财力等资源进行统筹安排,为决策者提供有依
5、据的最优方案,以实现最有效的管理。依据的最优方案,以实现最有效的管理。w通常以最优、最佳等作为决策目标,避开最通常以最优、最佳等作为决策目标,避开最劣的方案。劣的方案。运筹学(Operations Research)9运筹学在工商管理中的应用 生产计划生产计划:生产作业的计划、日程表生产作业的计划、日程表的编排、合理下料、配料问题、物料的编排、合理下料、配料问题、物料管理等。管理等。库存管理库存管理:多种物资库存量的管理,多种物资库存量的管理,库存方式、库存量等。库存方式、库存量等。运输问题运输问题:确定最小成本的运输线路、确定最小成本的运输线路、物资的调拨、运输工具的调度以及建物资的调拨、运
6、输工具的调度以及建厂地址的选择等厂地址的选择等。10运筹学在工商管理中的应用运筹学在工商管理中的应用人事管理:对人员的需求和使用的预测,确定人员编制、人员合理分配,建立人才评价体系等。市场营销:广告预算、媒介选择、定价、产品开发与销售计划制定等。11运筹学在工商管理中的应用运筹学在工商管理中的应用财务和会计:包括预测、贷款、成本分析、定价、证券管理、现金管理等。其他:设备维修、更新,项目选择、评价,工程优化设计与管理等。12w多元分析方法、时间序列分析和最优化等方法多元分析方法、时间序列分析和最优化等方法都是依赖于计算机的发展而发展的,如果不使都是依赖于计算机的发展而发展的,如果不使用计算机,
7、多元分析方法、时间序列分析和最用计算机,多元分析方法、时间序列分析和最优化等方法中的许多计算几乎是不可能完成的。优化等方法中的许多计算几乎是不可能完成的。w为了做到学以致用,在课程中我们还将结合授为了做到学以致用,在课程中我们还将结合授课内容介绍几种国内外通用的统计软件和数学课内容介绍几种国内外通用的统计软件和数学软件,如软件,如SPSSSPSS、EViewsEViews软件等。软件等。13统计的一些基本概念统计的一些基本概念1.1 统计是什么?统计是什么?w统计是人类思维的一个归纳过程统计是人类思维的一个归纳过程w站在一个路口,看到每过去站在一个路口,看到每过去2020辆小轿车时,也辆小轿车
8、时,也有有100100辆自行车通过,而且平均每辆自行车通过,而且平均每1010个轿车载有个轿车载有1212个人。于是,你认为小汽车和自行车在这个个人。于是,你认为小汽车和自行车在这个路口的运载能力为路口的运载能力为24:10024:100。w这是一个典型的统计思维过程。这是一个典型的统计思维过程。151.1 统计是什么?统计是什么?w一般来说,统计先从现实世界收集数据(信息),如观测路口的交通。w然后,根据数据作出判断,称为模型。w模型是从数据产生的,模型也需要根据新的信息来改进,不存在完美的模型。w模型的最终结局都是被更能够说明现实世界的新模型所取代。161.1 统计是什么?统计是什么?w统
9、统计计学学(statistics)是是用用以以收收集集数数据据,分分析析数数据和由数据得出结论的一组概念、原则和方法。据和由数据得出结论的一组概念、原则和方法。w统统计计与与数数学学的的区区别别:统统计计以以归归纳纳为为主主要要思思维维方方式,数学以演绎为主要思维方式式,数学以演绎为主要思维方式17w统统计计可可应应用用于于各各个个不不同同学学科科,在在有有些些学学科科已已经有其特有的方法和特点;经有其特有的方法和特点;w如如生生物物统统计计(biostatistics)(biostatistics)、经经济济计计量量学学(econometrics)(econometrics)以以及及目目前前
10、很很热热门门的的生生物物信信息息(bioinformationbioinformation)和和数数据据挖挖掘掘(Data(Data Mining)Mining)的方法主体都是统计。的方法主体都是统计。181.2 现实中的随机性和规律性、概率和机会现实中的随机性和规律性、概率和机会w我们知道物理学的许多定律我们知道物理学的许多定律:例如例如 v=vv=v0 0+at ;F=ma +at ;F=ma 等等等等w然而在许多领域,很难用如此确定的公式或论述然而在许多领域,很难用如此确定的公式或论述来描述一些现象。一些现象既有规律性又有随机来描述一些现象。一些现象既有规律性又有随机性性(randomn
11、ess)(randomness)。例如:肺癌患者中(主动或被动)吸烟的比例较例如:肺癌患者中(主动或被动)吸烟的比例较大,这体现了规律性;而绝非每个吸烟的人都会大,这体现了规律性;而绝非每个吸烟的人都会患肺癌,这体现了随机性。患肺癌,这体现了随机性。191.2 现实中的随机性和规律性、概率和机会现实中的随机性和规律性、概率和机会w再如,一般来说,白种人身材比黄种再如,一般来说,白种人身材比黄种人要高些,这就是规律性。人要高些,这就是规律性。w但对于具体的一个白人和一个黄种人,但对于具体的一个白人和一个黄种人,就很难说谁高谁矮了,这体现了随机就很难说谁高谁矮了,这体现了随机性。性。201.2 现
12、实中的随机性和规律性、概率和机会现实中的随机性和规律性、概率和机会w什么是概率什么是概率(probability)(probability)?w新闻中最常见的是新闻中最常见的是“降水概率降水概率”w从从某某种种意意义义说说来来,概概率率描描述述了了某某件件事事情情发发生生的的机机会会。显显然然,这这种种概概率率不不可可能能超超过过百百分分之之百百,也也不不可可能能少少于于百百分分之之零零。概概率率是是在在0 0和和1 1之之间间(也也可可能能是是0 0或或1 1)的一个数,描述某事件发生的机会。)的一个数,描述某事件发生的机会。211.2 现实中的随机性和规律性、概率和机会现实中的随机性和规律
13、性、概率和机会w有有些些概概率率是是无无法法精精确确推推断断的的。比比如如你你明明天天感感冒冒的的概概率率;有有些些概概率率是是可可以以知知道道的的。比比如如在在 打打 桥桥 牌牌 时时 得得 到到 一一 手手 黑黑 桃桃 的的 概概 率率 为为1/6350135596001/635013559600,大大约约为为1.5747701.5747701010-12-12(条条件是洗牌均匀,没有作弊)。件是洗牌均匀,没有作弊)。221.3 变量和数据变量和数据w一一节节火火车车车车厢厢有有多多少少坐坐位位是是一一个个固固定定的的数数目目,称为常数称为常数(constant)(constant)或者常
14、量。或者常量。w但但是是,开开车车后后,坐坐在在这这节节车车厢厢的的旅旅客客有有多多少少就就没没准准了了,具具有有随随机机性性。该该车车厢厢的的乘乘客客数数为为变量变量(variable)(variable)。w一一个个学学校校的的注注册册在在校校的的男男女女生生比比例例是是固固定定不不变变的的,为为常常量量.但但是是,该该校校任任意意一一群群学学生生的的男男女女生生比比例例就就不不一一定定和和全全校校的的比比例例一一样样了了,它为变量它为变量(variable)(variable)。231.3 变量和数据变量和数据w有了变量,何谓数据?有了变量,何谓数据?w不不同同机机构构调调查查所所得得到
15、到的的北北京京收收入入万万元元以以上上市市民民的的比比例例都都不不一一样样,这这是是变变量量。而而这这些些调调查查产产生生一一些些数目,这些数目就是数据。数目,这些数目就是数据。w数数据据是是关关于于变变量量的的观观测测值值。通通过过数数据据可可验验证证有有关关的的理理论论或或假假定定。比比如如通通过过抽抽样样调调查查验验证证美美国国选选民民对对共共和和党党候候选选人人的的支支持持率率是是否否超超过过50%。通通过过抽抽样,可以检验某批产品是否合格等等样,可以检验某批产品是否合格等等.241.4 变量之间的关系变量之间的关系w现现实实世世界界紧紧密密联联系系的的,人人们们想想知知道道投投资资方
16、方式式和和经经济济效效益益之之间间的的关关系系、旅旅客客人人数数和和经经济济发发展展之之间间的的关关系系等等等等。不不讨讨论论变变量量之之间间的的关关系系,就就无无从从谈谈起起任任何何有有深深度度的的应应用用,统计的基本概念就仅仅是摆设而已。统计的基本概念就仅仅是摆设而已。251.4.1 定量变量间的关系定量变量间的关系w例例1.1广广告告投投入入和和销销售售之之间间的的关关系系。下下表表显显示示了了某某企企业业的的广广告告投投入入和和销销售售额额之之间间的的关系(万元)关系(万元)26横坐标代表广告投入,纵坐标代表销售收横坐标代表广告投入,纵坐标代表销售收入,看得出有何种关系吗?入,看得出有
17、何种关系吗?27w能否从该数据回答下面问题:能否从该数据回答下面问题:w这两个变量是否有关系?这两个变量是否有关系?w如果有,它们的关系是否显著?如果有,它们的关系是否显著?w这些关系是什么关系,能否用数学模型来描这些关系是什么关系,能否用数学模型来描述?述?w这个关系是否带有普遍性?这个关系是否带有普遍性?w这个关系是不是因果关系?这个关系是不是因果关系?28 关于因果关系关于因果关系w在可控制的试验中,较容易找到因果关系;比如在可控制的试验中,较容易找到因果关系;比如治疗方式和疗效的关系等。治疗方式和疗效的关系等。w但是,一般来说,变量之间有关系这个事实并不但是,一般来说,变量之间有关系这
18、个事实并不意味着一定存在明确的因果关系。意味着一定存在明确的因果关系。w比如,北京比如,北京GDP在一年中是快速增长的,而一个在一年中是快速增长的,而一个刚出生的巴拿马婴儿在这一年中的体重也是快速刚出生的巴拿马婴儿在这一年中的体重也是快速增长的。如果画出图来,它们有类似线性的关系增长的。如果画出图来,它们有类似线性的关系,但它们之间显然没有因果关系。但它们之间显然没有因果关系。29w只要有关系,即使不是因果关系也不妨碍人们利只要有关系,即使不是因果关系也不妨碍人们利用这种关系来进行推断。比如利用公鸡打鸣来预用这种关系来进行推断。比如利用公鸡打鸣来预报太阳升起;虽然公鸡打鸣绝对不是日出的原因报太
19、阳升起;虽然公鸡打鸣绝对不是日出的原因(虽然打鸣发生在先)虽然打鸣发生在先)w运运用用简简单单的的办办法法(诸诸如如画画图图)可可以以得得到到一一些些信信息息,但但不不一一定定能能够够给给出出满满意意的的答答案案。需需要要运运用用更更多多的的工工具具和和手手段段来来进进行行数数值值分分析析,从从而而得得到到更更加加严严格格和精确的解答。因此,需要继续我们的课程和精确的解答。因此,需要继续我们的课程.301.4.2 定性变量间的关系定性变量间的关系w例例1.2下下面面是是对对123人人进进行行关关于于某某项项政政策策调调查查所所得得结结果果的的一一个个简简单单的的三三维维表表,该该表表显显示示了
20、了人人们们的的收收入入和和性性别别对对该该项项政策的观点。政策的观点。31计算机软件所应用的数据形式计算机软件所应用的数据形式32w从从这这个个数数据据,我我们们希希望望得得到到收收入入、性性别别对对观观点点是是否否有有影影响响及及如如何何影影响响。如如果果要要得得到到更更加加精精确确的的结结论论,就就要要进进行行进进一一步步的的分分析析和和计计算算。可可用用列列联联表表分分析析或或多多项项分分布布对对数数线性模型进行分析。线性模型进行分析。331.4.3 定性和定量变量间的混和关系定性和定量变量间的混和关系w有些数据不是仅包含定性变量或定量变量,需要有些数据不是仅包含定性变量或定量变量,需要
21、研究包括定性和定量两种变量的一些复合变量之研究包括定性和定量两种变量的一些复合变量之间的关系。间的关系。w下面数据就包含两种变量。下面数据就包含两种变量。该数据有该数据有2个定性变个定性变量(性别,污染程度)、一个定量变量(年龄)量(性别,污染程度)、一个定量变量(年龄)以及发生哮喘的人数,我们希望知道哮喘和这三以及发生哮喘的人数,我们希望知道哮喘和这三个变量之间的关系。个变量之间的关系。34351.5 统计、计算机与统计软件统计、计算机与统计软件w计计算算机机的的使使用用,从从计计算算机机语语言言到到“傻傻瓜瓜式式”的的点点击击鼠鼠标标,输输出出结结果果也也从从数数字字输输出出到到各各种种可可以以想想象象得得到到的的形形式式。输输入入数数据据,点点鼠鼠标标做做一一些些选选项项,就就可可得得到到漂漂亮亮结结果果,但但其其中中充充满满了了危危险险的的陷阱陷阱w计计算算机机无无法法识识别别统统计计方方面面的的错错误误,错错误误的的方方法法、错错误误的的数数据据形形式式都都必必然然输输出出错错误误的的结结果果(虽虽然然看上去可能很漂亮),得到大量垃圾。看上去可能很漂亮),得到大量垃圾。w另另外外,统统计计软软件件输输出出的的结结果果较较多多,完完全全理理解解比比较较困困难难,学学习习统统计计软软件件的的最最好好方方式式是是需需要要时时在在使用中学习。使用中学习。36
限制150内