《统计建模学习.pptx》由会员分享,可在线阅读,更多相关《统计建模学习.pptx(116页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、u 统计建模方法u 统计建模论文格式规范第1页/共116页 统计建模方法统计建模概念统计建模步骤统计建模方法第2页/共116页统计建模概念统计建模是以计算机统计分析软件(Excel、Spss、Sas、Matlab、R、S-plus等)为工具,利用各种统计分析方法对批量数据建立统计模型和探索处理的过程,用于揭示数据背后的因素,诠释社会经济现象,或对经济和社会发展作出预测或判断。第3页/共116页 统计建模的一般步骤(1)明确问题(2)收集信息(3)模型假设(4)模型构建(5)模型求解(6)结果分析第4页/共116页 统计建模方法方差分析回归分析聚类分类因子分析第5页/共116页 方差分析方差分析
2、概述多因素方差分析第6页/共116页 方差分析概述在科学实验中常常要探讨不同实验条件或处理方法对实验结果的影响。通常是比较不同实验条件下总体均值间的差异举例u医学界研究几种药物对某种疾病的疗效;u农业研究土壤、肥料、日照时间等因素对某种农作物产量的影响u不同饲料对牲畜体重增长的效果等u不同广告形式、地区规模等因素对广告效果的影响等 都可以使用方差分析方法去解决第7页/共116页方差分析是检验多个总体均值是否相等一种方法。本质上是研究分类型自变量对数值型因变量的影响。方差分析基本原理方差分析中判断总体均值是否相等一般是通过对数据误差来源的分析判断得到。误差来源有两种情况:随机误差和系统误差。随机
3、误差:在同一因素下的观察值由于抽样的随机性造成的误差。系统误差:不同因素下的观察值由于系统因素造成的误差。第8页/共116页数据误差用平方和表示。组内误差(随机误差)数据误差 随机误差 组间误差 系统误差 衡量同一水平下样本数据的误差衡量不同下的样本数据误差第9页/共116页方差分析的核心是方差可分解。这里的方差是指通过计算各观测值偏离均值的平方和再除以n-1得到。这样,在给定n的情况下,方差就是离差平方和,简称SST。观察量的总平方和SST分解为组间离差平方和SSA和组内误差平方和SSE,即:SST=SSA+SSE第10页/共116页由误差来源的分析得知,判断分类型自变量对数值型因变量受否有
4、影响,就是检验数值型变量存在差异的原因。如果这种差异主要是系统误差,则分类型变量对该数值存在显著影响,否则差异不显著。根据统计学原理,组间均方和组内均方的比值构成F分布。给定显著性水平,通过和F分布统计量的概率P的比较,推出总体均值是否存在显著差异。第11页/共116页 多因素方差分析u 概念u 基本思想u 数学模型u 应用 第12页/共116页 概念 多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。它不仅能分析多个因素对观测变量的独立影响,更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响,进而找到有利于观测变量的最优组合。第13页/共116页 基本思想
5、u确定观测变量和若干个控制变量u剖析观测变量的方差u比较观测变量总离差平方和和各部分所占的比例第14页/共116页多因素方差分析的数学模型设控制变量A有k个水平,B有r个水平,每个交叉水平下均有l个样本,则在控制变量A的水平Ai和控制变量B的水平Bj下的第k个样本值 定义为:多因素方差分析的饱和模型多因素方差分析的非饱和模型第15页/共116页 应用某企业在制定某商品的广告策略时,对不同广告形式在不同地区的广告效果进行了评估。通过多因素方差分析方法对广告形式、地区以及广告形式和地区的交互作用给销售额带来的影响进行分析,进而制定广告和地区的最优组合方案提供依据。第16页/共116页第17页/共1
6、16页第18页/共116页饱和模型情况第19页/共116页非饱和模型情况第20页/共116页一元线性回归多元线性回归回归分析方法回归分析方法数数学学模模型型及及定定义义模模型型参参数数估估计计检检验验、预预测测与与控控制制数数学学模模型型及及定定义义模模型型参参数数估估计计多多元元线线性性回回归归中中的的检检验验与与预预测测第21页/共116页 一元线性回归分析一元线性回归分析例例1 测16名成年女子的身高与腿长所得数据如下:以身高x为横坐标,以腿长y为纵坐标将这些数据点(xi,yi)在平面直角坐标系上标出.散点图身高身高143145146147149150153154155156157158
7、159160162164腿长腿长8885889192939395969897969899100102 1.数学模型数学模型第22页/共116页一元线性回归分析的主要任务是:一元线性回归分析的主要任务是:、1、用试验值(样本值)对0b b1b b和s s作点估计;、2、对回归系数0b b1b b作假设检验;第23页/共116页2.回归系数的置信区间回归系数的置信区间第24页/共116页3.预测与控制预测与控制(1)预测)预测:对固定的对固定的x值预测相应的值预测相应的y值值第25页/共116页(2)控制)控制第26页/共116页第27页/共116页 多元线性回归多元线性回归多元线性回归在工程上更
8、为有用。1.1.数学模型及定义数学模型及定义第28页/共116页第29页/共116页第30页/共116页第31页/共116页2.2.模型参数估计模型参数估计 第32页/共116页解得估计值第33页/共116页3.多元线性回归中的检验与预测多元线性回归中的检验与预测第34页/共116页第35页/共116页第36页/共116页第37页/共116页 线性回归例子应用例如:要研究全国各地高校教师课题总数与投入人年数、投入高级职称的人年数、投入科研事业费、专著数、论文数、获奖数之间的关系,可以通过建立多元线性回归模型来研究。相关数据在高校科研研究.sav中。第38页/共116页第39页/共116页第40
9、页/共116页此概率值小于0.05,因此拒绝原假设,即认为各回归系数不同时为0,被解释变量与解释变量全体的线性关系显著,可建立线性模型。由于调整的判定系数较接近1,因此认为模型拟合优度较高第41页/共116页通过采用逐步回归分析得到上面两表中各项系数的概率P值与0.05相比,发现只有投入年人数的系数差异显著,即对方程有用,其余的系数都没用,因此不能保留在方程中,所以最后得到的模型为:第42页/共116页第43页/共116页第44页/共116页第45页/共116页 线性回归分析还可以应用的例子1.为了考评教师的教学质量,教学研究部门设计了一个教学评估表,对学生进行一次问卷调查,要求学生对12位教
10、师的15门课程按以下指标进行打分,分值为15分,具体指标依次为:课程内容组织的合理性、主要问题展开的逻辑性、回答学生问题的有效性、课下交流的有助性、教科书的帮助性、考试评分的公正性、对教师的总体评价。要求:建立教师的总体评价与各项具体指标之间的回归模型,为提高教师的教学水平提供依据。第46页/共116页2.某大型牙膏制造企业为了更好地拓展产品市场,有效的管理库存,公司董事会要求销售部门根据市场调查,找出公司生产的牙膏销售量与销售价格、广告投入等之间的关系,从而预测出在不同价格和广告费用下的销售量。为此销售部的研究人员收集了过去30个销售周期(每个销售周期为4周)公司生产的牙膏的销售量、销售价格
11、、投入的广告费用、以及同期其他厂家生产的同类牙膏的市场平均销售价格,试根据这些指标建立一个数学模型,分析牙膏销售量与其他因素的关系,为制定价格策略和广告投入提供依据。第47页/共116页 聚类分析 物以类聚,人以群分,社会发展和科技的进步都要求对于某些物体进行分类。由于早期的定性分类已不能满足需要,于是数值分类学便应运而生。一、数学模型二、应用类例第48页/共116页一、数学模型某种物品有n个:指标,如何将其分成若干类,基本的思路是把距离较近的点归成一类。这里的距离可分为如下三类:它有m个数值量化1.距离距离 的距离,本文中的距离常用欧氏或马氏距离,公式在前几节中已述,还有一种用绝对距离:应该
12、提及马氏距离可以克服数据相关性的困难。第49页/共116页2.数数据正据正规规化化处处理理 当的分量中大,要经过正规化标准化处理,令 个指标量纲不一致时,相差很(4.1)其中(4.2)(4.3)将经过(1)(1)式处理的数据重新视作(为记号上的方便)第50页/共116页3.相似系相似系数数法法 的相关系数(4.4)可以将相关愈密切的归成一类。第51页/共116页4.最短距离聚类法(系统聚类法,逐步并类法)先将n个样本各自为一类,计算它们之间的距离,选择距离小的二个样本归为一个新类,再计算这个新类与其它样本的距离,选择距离小的二个样本(或二个新类)归为一个新类,每次合并缩小一个以上的类,直到所有
13、样本都划为一个类为止。这里规定两点间距离为:两类间的距离,即 的距离为:第52页/共116页步骤如下:1.数据正规化处理 要视各指标的量纲是否一致,相差是否太大,并选择一种距离计算法,为了方便计,一般都选择欧氏距离法。2.计算各样本间的两两距离,并记在分类距离对称表中,并记为D(0),第0步分类,此时(每一每一个个样样本点本点为为一一个个类类)3.选择选择表表D(0)中的最短距离中的最短距离,设为设为,则则将将 合并成一个新类,记为(4.5)4.4.计算新类与其它类之间的距离,定义 第53页/共116页(4.6)表示新类与类之间的距离。5.作作D(1)表表,将将D(0)中的第中的第p,q行和行
14、和p,q列列删删去去,加加上第上第r行行,第第r列。第列。第r行行,第第r列列与与其其它它类类的距离按的距离按(4.6)式判式判断断后后记记上上,这样这样得到一得到一个个新的分新的分类类距离距离对对称称表表,并并 记为记为D(1),D(1)表示表示经过经过一次聚一次聚类类后的距离表后的距离表,要注要注意的是意的是Dr类类是由是由哪两哪两类类聚聚类类得到得到应应在在D(1)表下表下给给以以说说明。明。6.对D(1)按3,4,5重复类似D(0)的聚类工作,得D(2)。7.一直重复,直到最后只剩下两类为止,并作聚类图。第54页/共116页二、应用类例 现有8个样品,每个样品有2个指标(m=2,2维变
15、量),它们的量纲相同,(否则要经过正规化处理)编号编号1 12 23 34 45 56 67 78 82 22 24 44 4-4-4-2-2-3-3-1-15 53 34 43 33 32 22 2-3-3试用系统聚类方法对这8个样品进行聚类。解:采用欧氏距离 (1)最短距离法,首先用表格形式列出D(0)第55页/共116页D(0)D(0)G1G1G2G2G3G3G4G4G5G5G6G6G7G7G8G8G1G10 0G2G22.02.00 0G3G32.22.22.22.20 0G4G42.32.32.02.01.01.00 0G5G56.36.36.06.08.18.18.08.00 0G
16、6G65.05.04.14.16.36.36.16.12.22.20 0G7G75.85.85.15.17.27.27.17.11.41.41.01.00 0G8G88.58.56.76.78.68.67.87.86.76.75.15.15.45.40 0表示第i个样品,i=1,2,8 在D(0)D(0)中,最小值是1.0,1.0,相应的距离是D(3.4),D(3.4),与D(6,7)D(6,7)。则合并为新类,把合并成。第56页/共116页(2)把把D(0)中去掉中去掉 并计算得下表,后两行重算,其余照D(0)照抄。D(1)D(1)G1G1G2G2G5G5G8G8G9G9G11G11G1G1
17、0 0G2G22.02.00 0G5G56.36.36.06.00 0G8G88.58.56.76.76.76.70 0G9G92.22.22.02.08.08.07.87.80 0G10G105.05.04.14.11.41.45.15.18.18.10 0第57页/共116页视D(1)D(1)中,最小值为1.4,1.4,相应的是D(5,10)D(5,10)将合并成新类。第58页/共116页3)同法同法构构造造D(2)表表D(2)D(2)G1G1G2G2G8G8G9G9G10G10G1G10 0G2G22.02.00 0G8G88.58.56.76.70 0G9G92.22.22.02.07
18、.87.80 0G11G115.05.04.14.15.15.16.16.10 0其中最小值D(1,2)=D(2,9)=2.0D(1,2)=D(2,9)=2.0,则把,在D(2)中,第59页/共116页D(3)D(3)G8G8G11G11G12G12G8G80 0G11G115.15.10 0G12G126.76.74.14.10 0 其中D(3)D(3)中,最小值D(11,12)=4.1D(11,12)=4.1,因此把,在D(4)D(4)G8G8G13G13G8G80 0G13G135.15.10 0(见见D(0)第第8行行)第60页/共116页 3.3.把上述聚类过程用聚类图表示:0 1
19、1.4 2 T 3 4 5 说明:聚类到一定程度即可结束第61页/共116页一般可以选取一个阈值T,到D(K)中的所有非零元素都大于T,即结束(表中的值T值)设T=2.5:则到D(3)时结束,此时的共聚为三类:如下图:85761 32 4第62页/共116页 模糊聚类分析二、数学模型一、问题的提出三、一个实例第63页/共116页一、问题的提出客观事物分成确定性和不确定性两类,处理不确定性的方法为随机数学方法。在进行随机现象的研究时,所表现的现象是不确定的,但对象事物本身是确定的。例如投一个分币,出现哪一面是随机的,但分币本身是确定的。如果所研究的事物本身是不确定的,这就是模糊数学所研究的范畴。
20、例如,一个人年龄大了,称年老,年小,或年青,但到底什么算年老,什么算年青呢?又如儿子象父亲,什么是象?象多少?再说儿子象父亲,儿子又象母亲(部分象),难道父亲象母亲?1965年由I.A.Zadeh提出模糊数学,它可以广泛地应于图象识别,聚类分析,计算机应用和社会科学。第64页/共116页例如洗衣机和空调器已用上模糊控制,本节将把模糊数学的一套方法引入聚类分析中来,称为模糊聚类分析。第65页/共116页二、数学模型设E为分明集(集合)1.定义:称为隶属度函数(分得很清楚)要末是,要末不是对A为不分明集,可以取0到1之间的任意一个实数值.当 愈接近于1.则 的程度愈大.愈接近于0.则的程度愈小.第
21、66页/共116页2.模糊数学的运算法则 如A和B为不分明集,则有:并,记为 ,交,记 ,补,记为 ,第67页/共116页3.模糊聚类 模糊聚类同于一般聚类法(相似系数法或最小距离法)以相似系数(相关系数)法为例:思路:先算相似系数矩阵(相似矩阵)将相似矩阵改造成模糊矩阵:即将原相似矩 阵的元素压缩到0,1之间 改造成模糊等价矩阵,取不同的标准,可以得 到不同的聚类标准.第68页/共116页计算步骤:第一步:计算相似的系数 先将 数据 标准化 令得到标准化的数据为 显然 (标准化数据的平均值一定为0)得标准化后比数据的相关系数为 第69页/共116页 相似矩阵 第二步:将相似系数压缩到0,1之
22、间 令 建立模糊矩阵 第70页/共116页 第三步:建立模糊等价矩阵 由于上述模糊矩阵不具有传递性:即要通过褶积将模糊矩阵改造成模糊等价矩阵:矩阵的褶积与矩阵乘法类似,只是将数的加.乘运算改成并 和交 :则褶积为:第71页/共116页 于是有:于是有:一直到 为止此时 即满足模糊等价矩阵,具有传递性 此时记它为:CR:CR第四步:进行聚类:将矩阵CRCR的元素 依大小次序排列,从1 1开始,沿着 自大到小依次取 值,定义:可以得到若干个0,10,1元素构成的CR CR 矩阵,其中之1 1的表示这二个样本划为一类第72页/共116页三、一个实例三、一个实例 =-上海4 4月平均气温;-;-北京3
23、 3月雨量 -5-5月地磁指数;-5;-5月500500毫巴W W型环流型日数 予报对象:华北五站(北京、天津、营口、太原、石家庄)7-8)7-8月降水量,仅用61-6761-67年 7 7年的资料(略)第一步:计算相似系数 经过标准化计算相似系数矩阵R R第73页/共116页第二步:建立模糊矩阵 将相似系数压缩到0,10,1之间 得 第三步:建立模糊等价矩阵 按上式计算:例如 第74页/共116页得到 ,发现 ,当 取0.920.92时:将 ,当 取0.650.65时有:第75页/共116页又将 合并成一类,当 取0.640.64时,有 此时将1,3,1,3,再与4,64,6并为一类,可分成
24、三类 再 取=0.63=0.63时 这次再将 ,只有二类:,第76页/共116页 聚类图:说明:(1)(1)当 =0.65=0.65时,共分成四类:(2)(2)当 =0.64=0.64时,共分成三类:(3)(3)当 =0.63=0.63时,共分成二类:这是以按年份为基本类的分类图 0.640.650.920.990.63第77页/共116页 聚类分析应用之一:K-Means聚类为了研究世界各国森林、草原资源的分布规律,抽取21个国家的数据,每个国家4项指标,分别是森林面积、森林覆盖率、林木蓄积量、草原面积。要求对数据进行K-Means聚类方法。第78页/共116页第79页/共116页第80页/
25、共116页第81页/共116页第82页/共116页 聚类分析应用之二:层次聚类现有某年全国主要城市的一月到十二月的日照时数,现对该数据进行层次聚类。第83页/共116页第84页/共116页第85页/共116页第86页/共116页*H I E R A R C H I C A L C L U S T E R A N A L Y S I S*Dendrogram using Average Linkage(Between Groups)Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +-+-+-+-+-+Apr
26、4 -+-+May 5 -+-+Sep 9 -+-+|Oct 10 -+-+-+Jun 6 -+-+|Aug 8 -+|Jul 7 -+|Feb 2 -+-+|Nov 11 -+|Mar 3 -+-+|Jan 1 -+-+Dec 12 -+第87页/共116页 聚类分析还可以应用的例子1.我国31个地区农民某年支出情况,通过调查反映每人平均生活消费支出情况的六个指标,分别为:食品、衣着、燃料、住房、生活用品及其它、文化生活服务支出。可通过聚类对31个地区进行分类。第88页/共116页 因子分析 n因子分析的定义n因子分析的模型n因子载荷矩阵的统计意义n因子分析的基本步骤n因子分析的应用第89页
27、/共116页因子分析的定义 因子分析就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子反映原资料的大部分信息的统计方法。比如:在商业企业的形象评价中,消费者可以通过一系列指标构成的一个评价指标体系,评价百货商场的各个方面的优劣。但消费者真正关心的只是三个方面:商店的环境、商店的服务和商品的价格。这三个方面除了价格外,商店的环境和服务质量,都是客观存在的、抽象的影响因素,都不便于直接测量,只能通过其它具体指标进行间接反映。因子分析就是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。第90页/共116页设有 维可观测的随机向量 ,其均值为 ,协方差矩阵为 因子分
28、析的一般模型为因子分析的数学模型第91页/共116页(8.2.1)式可用矩阵表示为式中 公共因子向量,为特殊因子向量,称为因子载荷矩阵因子载荷矩阵。第92页/共116页通常假设第93页/共116页1、的元素 原始变量 与公共因子 之间的协方差函数由(8.2.1)式知即 是 与 之间的协方差函数。因子载荷矩阵的统计意义因子载荷矩阵的统计意义第94页/共116页 若 为各分量已标准化了的随机向量,则 与 的相关系数此时 表示 与 之间的相关系数。第95页/共116页2、的行元素平方和 公共因子对原始变量 的方差贡献对(8.2.1)各等式两边取方差令于是第96页/共116页 反映了公共因子对 的影响
29、,可以看成是公共因子对 的方差贡献,称为共性方差(communality);而 是特殊因子 对 的方差贡献,称为特殊方差(specific variance)。当 为各分量已标准化了的随机向量时,此时有第97页/共116页3、的列元素平方和 公共因子 对 的贡献由(8.2.10)式得第98页/共116页其中 反映了公共因子 对 的影响,是衡量公共因子 重要性的一个尺度,可视为公共因子 对 的总方差贡献。第99页/共116页 因子分析的步骤因子分析的前提条件因子提取和因子载荷矩阵的求解因子命名计算因子得分第100页/共116页 因子分析的应用 现以对12个地区的5个经济指标的调查数据进行因子分析
30、为例,本数据是美国洛杉矶标准大城市统计区中的12个人口调查区的五个经济学变量的数据。第101页/共116页第102页/共116页第103页/共116页第104页/共116页第105页/共116页第106页/共116页第107页/共116页利用因子分析还可解决的问题有:1.对20名大学生进行的有关价值观的测验,包括9个项目,分别是合作性、分配、出发点、工作投入、发展机会、社会地位、权力距离、职位升迁、领导风格等。从这些指标中可以提取几个因子。2.深、沪两市证券交易所50家上市公司的13个财务指标数据分别为:流动比率、速动比率、总资产周转率、存货周转率、营运资本、每股收益、净利润增长率、每股收益增
31、长率、主营业务毛利率、主营业务利润率、成本费用利润率、净资产收益率、总资产利润率。第108页/共116页这些指标有些之间具有很强的相关性,如果利用所有的13个财务指标对这50家公司进行财务分析,难免出现信息的重叠,而利用因子分析可以解决这个问题。3.我国各地区教育人力资源发展水平的相关数据指标:每百万人口学校数、每十万人口毕业生数、每十万人口招生数、每十万人口在校生数、每十万人口研究生数、每十万人口教职工数、每十万人口专职教师数、高级教师占专职教师的比例、每所学校在校生数、师生比等。第109页/共116页 统计建模论文的格式规范题目摘要关键词目录正文参考文献第110页/共116页 摘要要求:既简练又能说明整篇论文的内容。内容包括:目的意义、采用的建模方法、得到的结果。第111页/共116页 关键词要求:要能体现在整篇论文中的地位及作用。一般最好不要超过5个。第112页/共116页 目录最好做到三级标题第113页/共116页 正文一、问题的提出 二、研究现状及存在的问题 三、模型建立前的准备 四、利用统计方法建立模型 五、结论与建议 六、模型的优缺点 七、小结 第114页/共116页统计建模论文可参看论文基于层次分析法的大连城乡统筹测度问题研究的格式第115页/共116页感谢您的观看!第116页/共116页
限制150内