《数学统计法.ppt》由会员分享,可在线阅读,更多相关《数学统计法.ppt(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数学统计法现在学习的是第1页,共37页第一章 一些基本概念现在学习的是第2页,共37页1.1 统计是什么?统计是什么?统计是人类思维的一个归纳过程统计是人类思维的一个归纳过程站在一个路口,看到每过去站在一个路口,看到每过去20辆小轿辆小轿车时,也有车时,也有100辆自行车通过辆自行车通过而且平均每而且平均每10个轿车载有个轿车载有12个人个人于是,你认为小汽车和自行车在这于是,你认为小汽车和自行车在这个路口的运载能力为个路口的运载能力为24:100这是一个典型的统计思维过程这是一个典型的统计思维过程现在学习的是第3页,共37页1.1 统计是什么?统计是什么?一般来说,统计先从现实世界收集数据一
2、般来说,统计先从现实世界收集数据(信息),如观测路口的交通(信息),如观测路口的交通然后,根据数据作出判断,称为模型然后,根据数据作出判断,称为模型模型是从数据产生的模型是从数据产生的模型也需要根据新的信息来改进模型也需要根据新的信息来改进不存在完美的模型不存在完美的模型模型的最终结局都是被更能够说明现模型的最终结局都是被更能够说明现实世界的新模型所取代实世界的新模型所取代现在学习的是第4页,共37页统计学可以应用于几乎所有的领域统计学可以应用于几乎所有的领域:精算,农业,动物学,人类学,考古学,审计学,精算,农业,动物学,人类学,考古学,审计学,晶体学,人口统计学,牙医学,生态学,经济计晶体
3、学,人口统计学,牙医学,生态学,经济计量学,教育学,选举预测和策划,工程,流行病量学,教育学,选举预测和策划,工程,流行病学,金融,水产渔业研究,遗传学,地理学,地学,金融,水产渔业研究,遗传学,地理学,地质学,历史研究,人类遗传学,水文学,工业,质学,历史研究,人类遗传学,水文学,工业,法律,语言学,文学,劳动力计划,管理科学,法律,语言学,文学,劳动力计划,管理科学,市场营销学,医学诊断,气象学,军事科学,核市场营销学,医学诊断,气象学,军事科学,核材料安全管理,眼科学,制药学,物理学,政治材料安全管理,眼科学,制药学,物理学,政治学,心理学,心理物理学,质量控制,宗教研究,学,心理学,心
4、理物理学,质量控制,宗教研究,社会学,调查抽样,分类学,气象改善,博彩等。社会学,调查抽样,分类学,气象改善,博彩等。现在学习的是第5页,共37页1.1 统计是什么?统计是什么?一句话,一句话,统统计计学学(statistics)是是用用以以收收集集数数据据,分分析析数数据据和和由由数数据据得得出出结结论论的的一一组组概概念念、原原则则和和方法。方法。现在学习的是第6页,共37页以以归归纳纳为为主主要要思思维维方方式式的的统统计计不不是是以以演绎为主的演绎为主的数学数学统统计计可可应应用用于于各各个个不不同同学学科科,在在有有些些学学科科已已经经有有其其特特有有的的方方法法和和特特点点;如如生
5、生物物统统 计计(biostatistics)、经经 济济 计计 量量 学学(econometrics)以以及及目目前前很很热热门门的的生生物物 信信 息息(bioinformation)和和数数据据挖挖掘掘(Data Mining)的方法主体都是统计。的方法主体都是统计。现在学习的是第7页,共37页1.2 现实中的随机性和规律性,概率和机会现实中的随机性和规律性,概率和机会从中学起,我们就知道物理学从中学起,我们就知道物理学的许多定律,例如的许多定律,例如v=v0+at;F=ma等等等等但是在许多领域,很难用如此但是在许多领域,很难用如此确定的公式或论述来描述一些确定的公式或论述来描述一些现
6、象。现象。现在学习的是第8页,共37页1.2 现实中的随机性和规律性,概率和机会现实中的随机性和规律性,概率和机会一些现象既有规律性又有随一些现象既有规律性又有随机性机性(randomness)肺癌患者中(主动或被动)吸肺癌患者中(主动或被动)吸烟的比例较大,这体现了规律烟的比例较大,这体现了规律性性而绝非每个吸烟的人都会患肺而绝非每个吸烟的人都会患肺癌,这体现了随机性癌,这体现了随机性现在学习的是第9页,共37页1.2 现实中的随机性和规律性,概率和机会现实中的随机性和规律性,概率和机会再如,一般来说,白种人身材再如,一般来说,白种人身材比黄种人要高些,这就是规律比黄种人要高些,这就是规律性
7、性但对于具体的一个白人和一但对于具体的一个白人和一个黄种人,就很难说谁高谁个黄种人,就很难说谁高谁矮了,这体现随机性矮了,这体现随机性现在学习的是第10页,共37页1.2 现实中的随机性和规律性,概率和机会现实中的随机性和规律性,概率和机会什么是概率什么是概率(probability)?新闻中最常见的是新闻中最常见的是“降水概率降水概率”从从某某种种意意义义说说来来,概概率率描描述述了了某某件件事事情情发生的机会。发生的机会。显显然然,这这种种概概率率不不可可能能超超过过百百分分之之百百,也不可能少于百分之零。也不可能少于百分之零。概概率率是是在在0和和1之之间间(也也可可能能是是0或或1)的
8、的一一个数,描述某事件发生的机会。个数,描述某事件发生的机会。现在学习的是第11页,共37页1.2 现实中的随机性和规律性,概率和机会现实中的随机性和规律性,概率和机会有些概率是无法精确推断的。有些概率是无法精确推断的。比如你明天感冒的概率比如你明天感冒的概率有些概率是可以知道的。有些概率是可以知道的。比比如如在在打打桥桥牌牌时时得得到到一一手手黑黑桃桃的的概概率率为为1/635013559600,大大 约约 为为1.57477010-12(条条件件是是洗洗牌牌均均匀匀,没没有有作作弊弊)。实实际际上上得得任任何何特特定定的的一一手牌的概率都是一样的,对吗?手牌的概率都是一样的,对吗?现在学习
9、的是第12页,共37页1.3 变量和数据变量和数据一一节节火火车车车车厢厢有有多多少少坐坐位位是是一一个个固固定定的的数数目目,称称为为常常数数(constant)或者常量。或者常量。但但是是,开开车车后后,坐坐在在这这节节车车厢厢的的旅旅客客有有多多少少就就没没准准了了。这这有有随随机机性性。该该车车厢厢的的乘乘客客数数为为变变量量(variable)。现在学习的是第13页,共37页1.3 变量和数据变量和数据一一个个学学校校的的注注册册在在校校男男女女生生比比例是固定的,为常量例是固定的,为常量但但是是,该该校校任任意意一一群群学学生生的的男男女女生生比比例例就就不不一一定定和和全全校校的
10、的比比例例一一样样了了,它它为为变变量量(variable)。现在学习的是第14页,共37页1.3 变量和数据变量和数据当当变变量量按按照照随随机机规规律律所所取取的的值值是是数数量量时时该该变变量量称称为为定定量量变变量量或或数数量量变变量量(quantitative variable);因因为为是是随随机机的的,也也称称为为随随机机变变量量(random variable)。如如身身高高体体重重,购购买买某某商商品品的的人人数等等数等等现在学习的是第15页,共37页1.3 变量和数据变量和数据象象性性别别,观观点点之之类类的的取取非非数数量量值值的的变变量量就就称称为为定定性性变变量量或或
11、属属性性变变量量或或分分类类变变量量(qualitative variable,或,或categorical variable)。这这些些定定性性变变量量也也可可以以由由定定量量变变量量来来描描述述,如如男男女女生生的的数数目目,持有某观点的人数比例等等。持有某观点的人数比例等等。现在学习的是第16页,共37页1.3 变量和数据变量和数据定定性性变变量量只只有有用用数数量量来来描描述述时时,才才有有可可能能建建立立数数学学模模型型,并并使使用计算机来分析。用计算机来分析。数数 据据 中中 它它 们们 通通 常常 用用 哑哑 元元(dummy variable)代代表表,比比如如性性别别用用0、
12、1代代表表,三三种种收收入入用用0、1、2代表代表(或用字母代表)或用字母代表)现在学习的是第17页,共37页1.3 变量和数据变量和数据有了变量,何谓数据?有了变量,何谓数据?不不同同机机构构调调查查所所得得到到的的北北京京收收入入万万元元以以上上市市民民的的比比例例都都不一样,这是变量不一样,这是变量而而这这些些调调查查产产生生一一些些数数目目,这这些数目就是数据些数目就是数据(data)数据是关于变量的观测值。数据是关于变量的观测值。现在学习的是第18页,共37页1.3 变量和数据变量和数据通通过过数数据据可可验验证证有有关关的的理理论论或或假定。假定。比比如如通通过过抽抽样样调调查查验
13、验证证美美国国选选民民对对共共和和党党候候选选人人的的支支持持率率是是否超过否超过50%通通过过抽抽样样,可可以以检检验验某某批批产产品品是否合格等等是否合格等等现在学习的是第19页,共37页1.4 变量之间的关系变量之间的关系现实世界紧密联系的现实世界紧密联系的人人们们想想知知道道投投资资方方式式和和经经济济效效益益之之间间的的关关系系、旅旅客客人人数数和经济发展之间的关系等等和经济发展之间的关系等等不不讨讨论论变变量量之之间间的的关关系系,就就无无从从谈谈起起任任何何有有深深度度的的应应用用,统统计计的的基基本本概概念念就就仅仅仅仅是是摆摆设设而而已。已。现在学习的是第20页,共37页1.
14、4.1 定量变量间的关系定量变量间的关系例例1.1广广告告投投入入和和销销售售之之间间的的关关系系。下下表表(数数据据ads.txt)显显示示了了某某企企业业的的广告投入和销售额之间的关系(万元)。广告投入和销售额之间的关系(万元)。现在学习的是第21页,共37页横坐标代表广告投入,而横坐标代表广告投入,而纵坐标代表销售收入。纵坐标代表销售收入。看得出有何种关系吗?看得出有何种关系吗?现在学习的是第22页,共37页1.4.1 定量变量间的关系定量变量间的关系能否从该数据回答下面问题:能否从该数据回答下面问题:这两个变量是否有关系?这两个变量是否有关系?如果有,它们的关系是否显著?如果有,它们的
15、关系是否显著?这些关系是什么关系,能否用数这些关系是什么关系,能否用数学模型来描述?学模型来描述?这个关系是否带有普遍性?这个关系是否带有普遍性?这个关系是不是因果关系?这个关系是不是因果关系?现在学习的是第23页,共37页1.4.1 定量变量间的关系定量变量间的关系关于因果关系关于因果关系在可控制的试验中,较容易找在可控制的试验中,较容易找到因果关系;比如治疗方式和到因果关系;比如治疗方式和疗效的关系等疗效的关系等但是,一般来说,变量之间但是,一般来说,变量之间有关系这个事实并不意味着有关系这个事实并不意味着一定存在明确的因果关系。一定存在明确的因果关系。现在学习的是第24页,共37页1.4
16、.1 定量变量间的关系定量变量间的关系比如,北京比如,北京GDP在一年中是快在一年中是快速增长的,而一个刚出生的巴速增长的,而一个刚出生的巴拿马婴儿在这一年中的体重也拿马婴儿在这一年中的体重也是快速增长的是快速增长的如果画出图来,它们有类似如果画出图来,它们有类似线性的关系线性的关系但它们显然没有因果关系但它们显然没有因果关系现在学习的是第25页,共37页1.4.1 定量变量间的关系定量变量间的关系只要有关系,即使不是因果关系也只要有关系,即使不是因果关系也不妨碍人们利用这种关系来进行推不妨碍人们利用这种关系来进行推断。断。比如利用公鸡打鸣来预报太阳升起;比如利用公鸡打鸣来预报太阳升起;虽然公
17、鸡打鸣绝对不是日出的原因虽然公鸡打鸣绝对不是日出的原因(虽然打鸣发生在先)虽然打鸣发生在先)现在学习的是第26页,共37页1.4.1 定量变量间的关系定量变量间的关系简简单单的的办办法法(诸诸如如画画图图)可可以以得得到到一一些些信信息息,但但不不一一定定能能够够给出满意的答案给出满意的答案需需要要更更多多的的工工具具和和手手段段来来进进行行数数值值分分析析得得到到更更加加严严格格和和精精确确的解答的解答因此,需要继续我们的课程因此,需要继续我们的课程现在学习的是第27页,共37页1.4.2 定性变量间的关系定性变量间的关系例例1.2下下面面是是对对123人人进进行行关关于于某某项项政政策策调
18、调查查所所得得结结果果的的一一个个简简单单的的三三维维表表,它它显显示示了了人人们们的的收收入入和和性性别别对对该该项项政政策策的的观观点点。(table7.txt)。)。现在学习的是第28页,共37页计算机软件所应用的数据形式计算机软件所应用的数据形式现在学习的是第29页,共37页1.4.2 定性变量间的关系定性变量间的关系从从这这个个数数据据,希希望望可可以以看看出出收收入入、性性别别对对观观点点是是否否有有影影响响及及如如何何影影响响如如果果要要得得到到更更加加精精确确的的结结论论,就就要进行进一步的分析和计算要进行进一步的分析和计算这这是是后后面面列列联联表表分分析析或或多多项项分分布
19、布对数线性模型的内容对数线性模型的内容现在学习的是第30页,共37页1.4.3 定性和定量变量间的混和关系定性和定量变量间的混和关系有些数据不是仅有定性变量有些数据不是仅有定性变量或仅有定量变量或仅有定量变量需要知道包括定性和定量两需要知道包括定性和定量两种变量的一些变量之间的关种变量的一些变量之间的关系系下面数据就包含两种变量下面数据就包含两种变量现在学习的是第31页,共37页Asthma.txt数据数据现在学习的是第32页,共37页1.4.3 定性和定量变量间的混和关系定性和定量变量间的混和关系该该数数据据有有2个个定定性性变变量量(性性别别,污污染染程程度度)、一一个个定定量量变变量量(
20、年年龄龄)以以及及发发生生哮哮喘喘的的人人数数我我们们希希望望知知道道哮哮喘喘和和这这三三个个变变量之间的关系量之间的关系这这将将在在Poisson对对数数线线性性模模型型中中讨论讨论现在学习的是第33页,共37页1.5 统计、计算机与统计软件统计、计算机与统计软件现现代代生生活活越越来来越越离离不不开开计计算算机机了了最最初初的的计计算算机机仅仅仅仅是是为为科科学学计算而设计和建造的。计算而设计和建造的。统统计计是是大大型型计计算算机机的的最最早早用用户户,现现在在仍仍然然是是数数值值计计算算的的主主要要用用户户现在学习的是第34页,共37页1.5 统计、计算机与统计软件统计、计算机与统计软
21、件计计算算机机的的使使用用,从从计计算算机机语语言到言到“傻瓜式傻瓜式”地点击鼠标地点击鼠标输输出出结结果果也也从从数数字字输输出出到到各各种可以想象得到的形式。种可以想象得到的形式。输输入入数数据据,点点鼠鼠标标做做一一些些选选项,就可得到漂亮结果项,就可得到漂亮结果但其中充满了危险的陷阱但其中充满了危险的陷阱现在学习的是第35页,共37页1.5 统计、计算机与统计软件统计、计算机与统计软件计计算算机机无无法法识识别别你你的的统统计计方方面的错误面的错误错错误误的的方方法法、错错误误的的数数据据形形式式都都必必然然输输出出错错误误的的结结果果(虽虽然然看看上上去去可可能能很很漂漂亮),得到大量垃圾亮),得到大量垃圾另另外外,统统计计软软件件输输出出的的结结果太多、很难都理解果太多、很难都理解现在学习的是第36页,共37页1.5 统计、计算机与统计软件统计、计算机与统计软件统计软件的种类很多。书中仅统计软件的种类很多。书中仅介绍最常见的几种。介绍最常见的几种。只要学会使用一种只要学会使用一种“傻瓜式傻瓜式”软件或编程软件,使用其他类软件或编程软件,使用其他类似的软件也不会困难;最多看似的软件也不会困难;最多看看帮助和说明即可。看帮助和说明即可。学习软件的最好方式是需要时学习软件的最好方式是需要时在使用中学。在使用中学。现在学习的是第37页,共37页
限制150内