数学模型课件.pptx
《数学模型课件.pptx》由会员分享,可在线阅读,更多相关《数学模型课件.pptx(119页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、回归模型回归模型是用是用统计方法统计方法建立的最常用的一类模型建立的最常用的一类模型.机理分析和机理分析和统计分析统计分析是数学建模的两种基本方法是数学建模的两种基本方法通过对数据的通过对数据的统计分析找出统计分析找出与数据拟合最好与数据拟合最好的模型的模型.不涉及回归分析的数学原理和方法不涉及回归分析的数学原理和方法.通过通过实例实例讨论如何讨论如何选择选择不同类型不同类型的的回归回归模型模型.对软件得到的结果进行对软件得到的结果进行分析分析,对模型进行,对模型进行改进改进.第九章 统计模型通过实例介绍通过实例介绍判别分析、主成分分析判别分析、主成分分析等模型等模型.第九章 统计模型9.1孕
2、妇孕妇吸烟与胎儿吸烟与胎儿健康健康9.2软件开发人员的薪金软件开发人员的薪金9.3酶促反应酶促反应9.4投资额投资额与生产总值和与生产总值和物价指数物价指数9.5冠心病冠心病与年龄与年龄9.6蠓虫蠓虫分类分类判别判别9.7学生学生考试成绩综合评价考试成绩综合评价9.8艾滋病艾滋病疗法的评价和疗效的疗法的评价和疗效的预测预测9.1孕妇吸烟与胎儿健康孕妇吸烟与胎儿健康吸烟有害健康!孕妇吸烟是否会伤害到腹中的胎儿吸烟有害健康!孕妇吸烟是否会伤害到腹中的胎儿?对于对于新生儿新生儿体重,体重,吸烟吸烟比妇女怀孕前身高、体重、受孕历比妇女怀孕前身高、体重、受孕历史等因素的影响更为史等因素的影响更为显著显著
3、美国公共卫生总署美国公共卫生总署警告警告1.新生儿体重新生儿体重(oz)1201131281231082.孕妇怀孕期(天)孕妇怀孕期(天)2842822799992823.新生儿胎新生儿胎次次(1第第1胎胎,0非第非第1胎胎)101014.孕妇怀孕时年龄孕妇怀孕时年龄27332836235.孕妇怀孕前身孕妇怀孕前身高高(in)62646469676.孕妇怀孕前孕妇怀孕前体重体重(lb)1001351151901257.孕妇吸烟孕妇吸烟状况状况(1吸烟吸烟,0不不吸烟吸烟)00111美国儿童保健和发展美国儿童保健和发展项目项目(CHDS)提供的数据提供的数据(1236个出生个出生后至少存活后至少
4、存活28天男性天男性单胞胎单胞胎新生儿体重新生儿体重及其母亲及其母亲的资料的资料)data0901.m研究目的研究目的利用利用CHDS的数据建立新生儿体重与孕妇怀孕期、的数据建立新生儿体重与孕妇怀孕期、吸烟状况等因素的数学模型,定量地讨论:吸烟状况等因素的数学模型,定量地讨论:孕妇吸烟是否会使孕妇吸烟是否会使早产率增加早产率增加,怀孕期长短对,怀孕期长短对新生儿体重有影响吗;新生儿体重有影响吗;对于新生儿体重来说,对于新生儿体重来说,孕妇吸烟孕妇吸烟是否是比孕妇年是否是比孕妇年龄、身高、体重等龄、身高、体重等更为显著的决定因素更为显著的决定因素;对对每个年龄段每个年龄段来说,孕妇吸烟对新生儿体
5、重和来说,孕妇吸烟对新生儿体重和早产率的影响是怎样的。早产率的影响是怎样的。问题背景及分析问题背景及分析美国公共卫生总署的美国公共卫生总署的警告警告容易容易受到受到人们的人们的质疑质疑:按照按照是否吸烟划分人群所做是否吸烟划分人群所做的研究,只能的研究,只能依赖于依赖于观测数据,观测数据,而而无法无法做人为的实验做人为的实验,很难,很难确定新生确定新生儿体重的差别儿体重的差别是是因为因为吸烟,还是其它因素吸烟,还是其它因素(如如怀孕怀孕期期长短长短、吸烟孕妇吸烟孕妇多是多是体重体重较较轻轻的的年青年青人等人等).“孕妇吸烟可能导致胎儿受损、早产及新生儿低体孕妇吸烟可能导致胎儿受损、早产及新生儿
6、低体重重”的的警告不如警告不如“吸烟导致肺癌吸烟导致肺癌”来得强来得强,是,是由于由于对孕妇吸烟与胎儿对孕妇吸烟与胎儿健康间的生理学关系健康间的生理学关系研究得研究得不够不够.参数估计参数估计吸烟比不吸烟孕妇新生儿吸烟比不吸烟孕妇新生儿体重体重平均低平均低9oz(250g),新生儿新生儿体重低的体重低的比例明显高比例明显高.吸烟比不吸烟孕妇怀孕期吸烟比不吸烟孕妇怀孕期平均短平均短2天天,早产率差不多早产率差不多.参数估计参数估计不吸烟孕妇(不吸烟孕妇(n=742)吸烟孕妇(吸烟孕妇(n=484)新生儿新生儿体重均值体重均值的点估计的点估计 y0=123.0472 y1=114.1095新生儿体
7、重均值的区间估计新生儿体重均值的区间估计 121.7932124.3011112.4930115.7260新生儿体重低比例的点估计新生儿体重低比例的点估计 r0=0.0310r1=0.0826怀孕期均值怀孕期均值的点估计的点估计 x0=280.1869(n=733)x1=277.9792怀孕期均值的区间估计怀孕期均值的区间估计278.9812281.3926276.6273279.3311早产率的点估计早产率的点估计q0=0.0764q1=0.0854新生儿体重和怀孕期的差别在统计学上是否显著?新生儿体重和怀孕期的差别在统计学上是否显著?prog0901a.m假设检验假设检验吸烟吸烟孕妇的新生
8、儿体重比不吸烟孕妇的低、孕妇的新生儿体重比不吸烟孕妇的低、且且新生儿新生儿体重低的比例高体重低的比例高,在,在统计学统计学上有上有显著显著意义意义.假设检验假设检验假设假设检验结果检验结果(=0.05)新生儿体重新生儿体重均值均值H0:y0 y1,H1:y0 y1拒绝拒绝H0,接受接受H1新生儿体重低新生儿体重低比例比例 H0:r0r1,H1:r0 x1拒绝拒绝H0,接受接受H1早早产率产率H0:q0=q1,H1:q0q1接受接受H0,拒绝拒绝H1(t=0.5663)吸烟与不吸烟吸烟与不吸烟孕妇孕期孕妇孕期和早产率的和早产率的差别差别难以难以肯定肯定是显著是显著的的(若若=0.01将接受将接受
9、怀孕期均值怀孕期均值相等的假设相等的假设)prog0901a.m一元线性回归分析一元线性回归分析假设检验假设检验结果:结果:孕妇孕妇吸烟状况对吸烟状况对新生儿体重大小有新生儿体重大小有显著影响显著影响,但是对怀孕期长短的影响难以确定,但是对怀孕期长短的影响难以确定。新生儿新生儿体重与体重与怀孕期怀孕期的的关系关系如何?如何?直直线线y=b0+b1x描描述述了了数数据据的的变化趋势,但是变化趋势,但是拟合拟合得不好得不好.怎样怎样衡量由拟合得到的衡量由拟合得到的模型的模型的有效性有效性?模型模型系数精确度系数精确度和模型和模型预测的数值预测的数值范围多范围多大?大?480位位吸吸烟烟孕孕妇妇的的
10、怀怀孕孕期期x和和新生儿体重新生儿体重yxy拟合直线拟合直线 y=b0+b1x一元线性一元线性回归回归模型模型y=b0+b1x+随机随机变量变量 除除x外外,影响影响y的随机因素的的随机因素的总和总和,对于不同的对于不同的x,相互独立相互独立且且服从服从N(0,2)分布分布.系数系数 系数估计值系数估计值系数置信区间系数置信区间b0-51.2983-77.5110-25.0856b10.59490.50080.6891R2=0.2438,F=154,pF(1,n-2)=3.8610(=0.05),应,应拒绝拒绝H0:b1=0的假设,模型有效的假设,模型有效。b1置信区间置信区间较长,决定系数较
11、长,决定系数R2较小较小(y的的24.38%由由x决定决定),剩余方差剩余方差s2较大较大,模型模型的精度不的精度不高高.480位位 吸吸烟烟孕孕妇妇数数据据x,y模型模型求解求解怀孕期怀孕期x,新生儿新生儿体重体重y模模型型检检验验prog0901b.m 吸烟孕妇怀孕期增加吸烟孕妇怀孕期增加一天,一天,新生儿体重平均增加约新生儿体重平均增加约0.6oz.不不是是x=0时时y的的估计估计,只能只能在数在数据据范围范围内内(x=220340天天)估计估计.一元线性一元线性回归回归模型模型y=b0+b1x+怀孕期怀孕期x,新生儿新生儿体重体重y模模型型解解释释模模型型预预测测模型精度不模型精度不高
12、导致预测区间高导致预测区间如此之如此之大!大!一元线性一元线性回归回归模型模型y=b0+b1x+怀孕期怀孕期x,新生儿新生儿体重体重y误差误差的的估计值估计值(均值均值为为0的的正态分布正态分布)若若数据残差数据残差的置信区间不含的置信区间不含零点零点,称为称为异常异常点点(偏离偏离整体整体数据的变化数据的变化趋势趋势),应剔除应剔除。系数系数 系数估计值系数估计值系数置信区间系数置信区间b0-53.6126-77.0606-30.1645b10.60070.51640.6850R2=0.3040F=196p0.0001s2=182虽然虽然b0和和b1的估计值变化不大,但置信区间变短,的估计值
13、变化不大,但置信区间变短,且且R2 和和F变大,变大,s2减小,说明减小,说明模型精度得到模型精度得到提高提高.prog0901b.m一元线性一元线性回归回归模型模型y=b0+b1x+怀孕期怀孕期x,新生儿新生儿体重体重y系数系数 系数估计值系数估计值系数置信区间系数置信区间b033.533014.998952.0671b10.32010.25410.3860R2=0.1165F=90p0.0001s2=181690位位不不吸吸烟烟孕孕妇妇数数据据x,y(剔剔除除异常点异常点后后)不不吸烟孕妇怀孕期增加吸烟孕妇怀孕期增加一天,一天,新生儿体重新生儿体重平均平均只只增加增加0.32oz.对对吸烟
14、孕妇吸烟孕妇是是增加增加约约0.6oz,二者相差很大!二者相差很大!将将吸烟吸烟状况作为状况作为另另一自变量一自变量,建立新生儿体重建立新生儿体重与与2个自变量的回归模型个自变量的回归模型,利用,利用全体全体孕妇数据进行孕妇数据进行分析分析.prog0901c.m多多元元线性回归分析线性回归分析y新生儿体重新生儿体重,x1孕妇怀孕期孕妇怀孕期,x2=0,1 不吸烟不吸烟,吸烟吸烟.模型模型y=b0+b1x1+b2x2+x1相同相同时时,吸烟比不吸烟比不吸烟吸烟孕妇孕妇的的新生儿体重平均约低新生儿体重平均约低8.8oz.对于吸烟状况对于吸烟状况x2相同的孕妇相同的孕妇,x1增加一天增加一天y平均
15、增加平均增加0.44oz.在在吸烟孕妇吸烟孕妇的的0.6与不与不吸烟孕妇吸烟孕妇的的0.32oz之间之间.与参数估计与参数估计的的数值数值相同相同,但增加但增加了了x1相同相同的的条件条件.1145位位全全部部孕孕妇妇数数据据(剔除异常点剔除异常点后后)多多元元线性回归分析线性回归分析系数系数 系数估计值系数估计值系数置信区间系数置信区间b034.092515.460552.7244b10.31810.25170.3844b2-87.0738-116.9656-57.1820b30.28040.17340.3875R2=0.2766F=145p0.0001s2=183模型模型y=b0+b1x1
16、+b2x2+模型有效模型有效,但是但是R2较小较小,s2较大较大,仍仍有有改进改进余地余地.增加乘积项增加乘积项x1x2x1和和x2对对y的的综合综合影响影响y=b0+b1x1+b2x2+b3x1x2+x2=0 x2=1不吸烟孕妇吸烟孕妇的一元模型的一元模型吸烟吸烟孕妇孕妇的一元模型的一元模型prog0901d.m变量选择与逐步回归变量选择与逐步回归CHDS提供的数据中提供的数据中除孕妇除孕妇怀孕期和吸烟状况怀孕期和吸烟状况外外,还有还有孕妇孕妇怀孕怀孕时的年龄、体重、身高和胎次时的年龄、体重、身高和胎次状况状况.变量变量选择选择从从应用的应用的角度希望角度希望将将所有影响所有影响显著的自显著
17、的自变量都变量都纳入模型纳入模型,又希望最终的模型尽量,又希望最终的模型尽量简单简单.逐步回归逐步回归迭代迭代式的变量选择式的变量选择方法方法.新生儿体重模型新生儿体重模型中中是否应该加入是否应该加入其他的其他的自变量自变量?利用利用CHDS数据提供的全部数据提供的全部信息信息,通过逐步回归通过逐步回归方法方法选择变量选择变量,建立建立新生儿体重新生儿体重的线性回归模型的线性回归模型.x1(孕妇怀孕期孕妇怀孕期),x2(胎胎次次状况状况),x3(年龄年龄),x4(身高身高),x5(体重体重),x6(吸烟状况吸烟状况)组成组成候选变量候选变量集合集合S.选取选取x1,x6为初始为初始子集子集S0
18、用逐步回归用逐步回归方法方法建立建立新生儿新生儿体重体重y的线性回归模型的线性回归模型继续继续进行,直到不能引入和移出为止进行,直到不能引入和移出为止.从从S0外外的的S中中引入引入一个一个对对y影响影响最大最大的的x,S0S1.对对S1中中的的x进行进行检验,检验,移出移出一个一个影响最小影响最小的的,S1S2.引入引入和移出都以给定的和移出都以给定的显著性水平显著性水平为标准为标准.显著性水平取显著性水平取缺省值缺省值(引入引入=0.05,移出移出=0.10)MATLAB统计工具箱中的逐步回归统计工具箱中的逐步回归逐步回归命令逐步回归命令stepwise第第1个输出个输出图形图形按照提示按
19、照提示点击,引入点击,引入x4x1,x6在模型中,给出在模型中,给出系系数估计值和置信区间数估计值和置信区间prog0901e.mMATLAB统计工具箱中的逐步回归统计工具箱中的逐步回归按照提示按照提示点击,依次引入点击,依次引入x4,x2,x5最终模型最终模型包含包含除除x3外的所有自变量外的所有自变量用逐步回归用逐步回归方法方法建立建立新生儿新生儿体重体重y的线性回归模型的线性回归模型x1(怀孕期怀孕期),x2(胎次胎次状况状况),x4(身高身高),x5(体重体重),x6(吸烟吸烟状况状况).x1,x2,x4,x5相同相同时时,吸烟吸烟比不比不吸烟吸烟孕妇孕妇的的新生儿体重新生儿体重平均低
20、平均低8.4oz.孕妇孕妇的怀孕期、身高、体重对的怀孕期、身高、体重对新生儿体重的新生儿体重的影响是正面影响是正面的的.第第1胎新生儿体重比非第胎新生儿体重比非第1胎胎平均平均约约低低3.3oz(第第1胎胎x2=1).yx1x2x3x4x5x6y1.00000.4075-0.04390.02700.20370.1559-0.2468x11.00000.0809-0.05340.07050.0237-0.0603x21.0000-0.35100.0435-0.0964-0.0096x31.0000-0.00650.1473-0.0678x41.00000.43530.0175x51.0000-0
21、.0603x61.0000y和各自变量和各自变量的的相关系数矩阵相关系数矩阵与与y相关性相关性较强的是怀孕期较强的是怀孕期x1,吸烟吸烟状况状况x6,身高身高x4.自变量间自变量间相关性较强的有:孕妇体重相关性较强的有:孕妇体重x5与身高与身高x4的的正相关正相关;年龄年龄x3与胎次状况与胎次状况x2的的负相关负相关(年龄年龄越大第越大第1胎胎x2=1越少越少).相关分析相关分析当当几几个个自变量间自变量间有有较强相关性较强相关性时时,删除删除多余的只多余的只保留一保留一个个不会不会对对模型有效性模型有效性和精确度有多大和精确度有多大影响影响.不同年龄段孕妇吸烟对新生儿体重的影响不同年龄段孕妇
22、吸烟对新生儿体重的影响小于小于25岁岁2530岁岁3035岁岁大于大于35岁岁b0-66.3893-39.1296-157.1307-130.1740b1(怀孕期怀孕期)0.39720.35210.59510.6728b2-0.9978-7.4124-0.0932-4.1835b41.21440.84091.68280.8747b5-0.00210.09590.05570.0732b6(吸烟状况吸烟状况)-8.4119-8.2656-10.5411-6.4008R20.25490.23300.33940.3136s2211.6359239.7201272.6021304.7208n444362
23、211157孕妇孕妇按年龄分组按年龄分组建立建立y与与x1,x2,x4,x5,x6的回归模型的回归模型对于对于x1和和x6两两个个影响影响y的的主要主要因素因素,30岁岁以下两以下两组组结果差别结果差别不大不大,而而与与30岁岁以上两以上两组则有组则有一定差异一定差异.建立模型研究薪金与资历、管理责任、教育程度的关系建立模型研究薪金与资历、管理责任、教育程度的关系.分析人事策略的合理性,作为新聘用人员薪金的参考分析人事策略的合理性,作为新聘用人员薪金的参考.9.2软件开发人员的薪金软件开发人员的薪金编号编号薪金薪金资历资历(从事从事专业工作专业工作年数年数)管理管理(1-管理管理人员人员,0-
24、非管理非管理人员)人员)教育教育(1-中学,中学,2-大学,大学,3-更高更高程度程度)0113876111021160810303187011134619346200146名软件开发人员的档案资料名软件开发人员的档案资料data0902.m分析与假设分析与假设 y 薪金,薪金,x1资历(年)资历(年)x2=1 管理人员,管理人员,x2=0 非管理人员非管理人员1=中学中学2=大学大学3=更高更高 资历每加一年资历每加一年,薪金的增长是常数;薪金的增长是常数;管理、教育、资历之间无交互作用管理、教育、资历之间无交互作用.教教育育线性回归模型线性回归模型 a0,a1,a4是待估计的回归系数,是待
25、估计的回归系数,是随机误差是随机误差中学:中学:x3=1,x4=0;大学:大学:x3=0,x4=1;更高:更高:x3=0,x4=0假设假设模型求解模型求解R2,F,p模型整体上可用模型整体上可用资历增加资历增加1年年薪金增长薪金增长546管理人员薪金管理人员薪金多多6883中学程度薪金比中学程度薪金比更高的少更高的少2994大学程度薪金比大学程度薪金比更高的多更高的多148a4置信区间包含零置信区间包含零点,解释不可靠点,解释不可靠!中学:中学:x3=1,x4=0;大学:大学:x3=0,x4=1;更高:更高:x3=0,x4=0.x2=1 管理,管理,x2=0 非管理非管理x1资历资历(年年)系
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学模型 课件
限制150内