《信息分析方法》PPT课件.ppt
《《信息分析方法》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《信息分析方法》PPT课件.ppt(67页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、信息分析方法信息分析方法 赵俊杰赵俊杰 Tel:010-58882325 Tel:010-58882325徐徐 峰峰Tel:010-51501774Tel:010-51501774中国科学技术信息研究所中国科学技术信息研究所中国科学技术信息研究所中国科学技术信息研究所2023/1/172023/1/171 1主要内容主要内容定量分析方法定量分析方法 简单线性分析方法简单线性分析方法回归分析法回归分析法 多元统计分析方法多元统计分析方法因子分析法因子分析法 聚类分析法聚类分析法定量与定性相结合的方法定量与定性相结合的方法 层次分析法及应用层次分析法及应用 系统动力学分析方法系统动力学分析方法20
2、23/1/172023/1/172 2回归分析方法回归分析方法2023/1/172023/1/173 3编号编号R&DR&D经费投入经费投入(亿元亿元)SCISCI论文数论文数(篇篇)199119911 1150.8150.866306630199219922 2209.8209.862246224199319933 3256.2256.296179617199419944 4309.8309.81041110411199519955 5349.1349.11313413134199619966 6404.8404.81445914459199719977 7481.9481.91688316
3、883199819988 8551.1551.11983819838199919999 9678.9678.92447624476200020001010895.7895.730499304992001200111111042.51042.535685356852002200212121287.61287.640758407582003200313131539.61539.64978849788200420041414184318435737757377中国中国1991-2004年投入及年投入及SCI论文数论文数案例案例案例案例2023/1/172023/1/174 4案例案例案例案例2023
4、/1/172023/1/175 5回归分析方法回归分析方法 回归分析方法是对变量之间回归分析方法是对变量之间统计关系统计关系进行分析的一种进行分析的一种数理统计方法数理统计方法。作用:作用:便于观察变量间的关系,了解变量所反映的一些实际问题。便于观察变量间的关系,了解变量所反映的一些实际问题。用于简单的预测,可以利用回归分析建立进行预测的回归用于简单的预测,可以利用回归分析建立进行预测的回归模型:但要模型:但要注意注意在统计检验的基础上保证预测的可靠性在统计检验的基础上保证预测的可靠性 方法:方法:对数据进行数学表达对数据进行数学表达回归方程回归方程 确定各参数确定各参数 统计检验统计检验20
5、23/1/172023/1/176 6 线性回归:一元线性回归:一元线性回归:Y=a+bXY=a+bX多元线性回归多元线性回归:Y=cY=c0 0+c+c1 1X X1 1+c+c2 2X X2 2+.+c+.+cm mX Xm m 非线性回归多项式:多项式:Y=bY=b0 0+b+b1 1X+bX+b2 2X X2 2+.+b+.+bk kX Xk k幂函数幂函数 :Y=aXY=aXb b指数函数:指数函数:Y=abY=abx x 主要的回归方程类型2023/1/172023/1/177 7最常用的回归方程建立方法最常用的回归方程建立方法最小二乘法:思路最小二乘法:思路设拟合函数为设拟合函数
6、为 Y=f(XY=f(X1 1,X,X2 2,.,X,.,Xm m),X Xi i(i=1,2,.,m(i=1,2,.,m,指自变量指自变量)对于各观测点对于各观测点k=1,2,.,nk=1,2,.,n,有估计值:有估计值:YYk k=f(X=f(Xikik)观测值:观测值:Y Yk k(k=1,2,.,n)(k=1,2,.,n)各观测值与实际函数值之间存在误差(各观测值与实际函数值之间存在误差(YYk k-Y-Yk k),使观测值与估计值之差的平方和使观测值与估计值之差的平方和目标函数为极小目标函数为极小 min min(YYk k-Y-Yk k)2 2由此可计算出中各参数。由此可计算出中各
7、参数。2023/1/172023/1/178 8对一元线性回归函数,有:对一元线性回归函数,有:2023/1/172023/1/179 9回归检验回归检验 可能存在的问题可能存在的问题可能存在的问题可能存在的问题:数据量太小,拟合度、相关系数很高,但不具备统计数据量太小,拟合度、相关系数很高,但不具备统计数据量太小,拟合度、相关系数很高,但不具备统计数据量太小,拟合度、相关系数很高,但不具备统计上的显著相关性。上的显著相关性。上的显著相关性。上的显著相关性。原始数据的点过分集中在一个小区域,可能建立起不原始数据的点过分集中在一个小区域,可能建立起不原始数据的点过分集中在一个小区域,可能建立起不
8、原始数据的点过分集中在一个小区域,可能建立起不同形式的回归方程来对应同一组数据,它们与原始数同形式的回归方程来对应同一组数据,它们与原始数同形式的回归方程来对应同一组数据,它们与原始数同形式的回归方程来对应同一组数据,它们与原始数据的拟合程度都比较接近,从而产生了不确定的情况。据的拟合程度都比较接近,从而产生了不确定的情况。据的拟合程度都比较接近,从而产生了不确定的情况。据的拟合程度都比较接近,从而产生了不确定的情况。所以,仅根据相关分析中的拟合程度或简单相关系数所以,仅根据相关分析中的拟合程度或简单相关系数所以,仅根据相关分析中的拟合程度或简单相关系数所以,仅根据相关分析中的拟合程度或简单相
9、关系数的绝对值大小来判断是不充分的。可能还需要对回归的绝对值大小来判断是不充分的。可能还需要对回归的绝对值大小来判断是不充分的。可能还需要对回归的绝对值大小来判断是不充分的。可能还需要对回归方程进行更严格的统计检验。方程进行更严格的统计检验。方程进行更严格的统计检验。方程进行更严格的统计检验。对于线性回归,可以根据相关分析来判断因变对于线性回归,可以根据相关分析来判断因变量与各自变量间成直线关系的密切程度,因而量与各自变量间成直线关系的密切程度,因而也是判断曲线拟合优劣度的一个标准。也是判断曲线拟合优劣度的一个标准。2023/1/172023/1/171010小结小结 回归分析方法是分析变量间
10、线性关系的一种方法回归分析方法是分析变量间线性关系的一种方法 在做回归分析时,应先将数据做成便于观察的图(如在做回归分析时,应先将数据做成便于观察的图(如散点图),然后根据对数据图表的观察选择适当的回散点图),然后根据对数据图表的观察选择适当的回归模型做分析归模型做分析 对回归模型做相应的检验,可以根据检验来判断所先对回归模型做相应的检验,可以根据检验来判断所先模型的适当与否模型的适当与否2023/1/172023/1/171111Excel软件的数据分析功能2023/1/172023/1/171212因子分析法因子分析法2023/1/1713林登(林登(Linden)对奥林匹克十项全能比赛得
11、分作的因子分)对奥林匹克十项全能比赛得分作的因子分析。析。十项全能项目为:十项全能项目为:100米跑(米跑(x1)、跳远()、跳远(x2)、铅球()、铅球(x3)、跳高()、跳高(x4)、)、400米跑(米跑(x5)、)、110米跨栏(米跨栏(x6)、铁)、铁饼(饼(x7)、撑杆跳高()、撑杆跳高(x8)、标枪()、标枪(x9)、)、1500米跑(米跑(x10)。)。四个因子:四个因子:短跑速度短跑速度、爆发性臂力爆发性臂力、爆发性腿力爆发性腿力 和和耐力耐力。案例案例案例案例2023/1/1714因子分析简介因子:因子:用较少的综合指标分析存在于各变量中的各类信息,用较少的综合指标分析存在于
12、各变量中的各类信息,而各综合指标之间是不相关的,代表各类信息的综合指标称而各综合指标之间是不相关的,代表各类信息的综合指标称为因子。为因子。因子分析:因子分析:用少数几个公共因子来描述许多指标或因素之用少数几个公共因子来描述许多指标或因素之间的联系,以较少的几个因子反映原始资料的大部分信息的间的联系,以较少的几个因子反映原始资料的大部分信息的统计学方法。统计学方法。特点:特点:因子变量的数量远少于原始指标变量的数量,方便分析研究;因子变量的数量远少于原始指标变量的数量,方便分析研究;因子变量不是对原有变量的取舍,而是根据原始变量的信息进行重因子变量不是对原有变量的取舍,而是根据原始变量的信息进
13、行重新组构,它能够反映原有变量大部分的信息;新组构,它能够反映原有变量大部分的信息;因子变量之间不存在相关关系,对变量的分析比较方便;因子变量之间不存在相关关系,对变量的分析比较方便;因子变量具有命名解释性,即该变量是对某些原始变量信息的综合因子变量具有命名解释性,即该变量是对某些原始变量信息的综合反映。反映。2023/1/1715数学模型2023/1/1716几个概念因子载荷因子载荷aij:因子之间完全不相关时,为第因子之间完全不相关时,为第i个原有个原有变量变量和第和第j个个因子因子变量的相关系数,即变量的相关系数,即xi在第在第j个公共因子变量上的相对重个公共因子变量上的相对重要性。要性
14、。aij 绝对值越大,则公共因子绝对值越大,则公共因子Fj和原始变量和原始变量xi关系越强。关系越强。变量共同度变量共同度(公因子方差、公共方差):反映全部公共因子变(公因子方差、公共方差):反映全部公共因子变量对原有变量量对原有变量xi的总方差解释说明比例。的总方差解释说明比例。公共因子公共因子Fj的方差贡献:的方差贡献:反映了该因子对所有原始变量总方差反映了该因子对所有原始变量总方差的解释能力,其值越高,说明因子重要程度越高。的解释能力,其值越高,说明因子重要程度越高。2023/1/1717因子分析的计算方法因子分析通常根据样本变量的相关矩阵或协方因子分析通常根据样本变量的相关矩阵或协方差
15、矩阵来计算差矩阵来计算根据相关矩阵或协方差矩阵,计算其特征值,根据相关矩阵或协方差矩阵,计算其特征值,根据特征值的大小(或正负)来选取因子根据特征值的大小(或正负)来选取因子基本原因,矩阵计算出来的不同的特征值对应基本原因,矩阵计算出来的不同的特征值对应的特征向量是不相关的,也就是说,计算出来的特征向量是不相关的,也就是说,计算出来的各因子之间是不相关的。的各因子之间是不相关的。2023/1/1718因子分析的基本步骤确定待分析的原有若干变量是否适合于因子分确定待分析的原有若干变量是否适合于因子分析:析:相关分析相关分析,计算变量间的相关系数矩阵;,计算变量间的相关系数矩阵;构造因子变量构造因
16、子变量:主成分分析法、主轴因子法、:主成分分析法、主轴因子法、极大似然法、最小二乘法等;极大似然法、最小二乘法等;利用利用旋转旋转使得因子变量更具有可解释性;使得因子变量更具有可解释性;计算因子变量的得分计算因子变量的得分:每一样本数据在不同因:每一样本数据在不同因子上的具体数值。子上的具体数值。2023/1/1719因子个数的确定特征值准则:取特征值大于等于特征值准则:取特征值大于等于1的主成分作的主成分作为初始因子。为初始因子。根据因子的累计方差贡献率来确定。根据因子的累计方差贡献率来确定。2023/1/1720因子分析的检验SPSS中提供了两种重要的检验中提供了两种重要的检验KMO样本精
17、度检验,用于判断变量间的相关样本精度检验,用于判断变量间的相关性,以及其相关性是否适于进行因子分析,性,以及其相关性是否适于进行因子分析,Bartlett球型球型检验,用于判断变量矩阵是不是检验,用于判断变量矩阵是不是单位矩阵单位矩阵2023/1/1721小结因子分析是一种十分常用的多元统计方法,因子分析是一种十分常用的多元统计方法,由于对影响研究对象的变量进行了降维处理,由于对影响研究对象的变量进行了降维处理,有助于我们对研究对象的理解有助于我们对研究对象的理解因子分析通常是对多变量,大样本量进行的因子分析通常是对多变量,大样本量进行的一种统计分析,对于变量和样本量均有一定一种统计分析,对于
18、变量和样本量均有一定的要求,通常变量与样本量的比例不应少于的要求,通常变量与样本量的比例不应少于1:5,这样才可能会有比较好的效果,这样才可能会有比较好的效果因子的可解释性是因子分析得到广泛应用的因子的可解释性是因子分析得到广泛应用的重要原因重要原因2023/1/1722聚类分析方法聚类分析方法2023/1/1723聚类分析:思考聚类分析:思考“物以类聚,人以群分物以类聚,人以群分”,现实世界中存在,现实世界中存在大量的分类问题:大量的分类问题:学生成绩分等级;学生成绩分等级;国家经济发展状况的分类(人均国民收入、人均国家经济发展状况的分类(人均国民收入、人均工农业产值、人均消费水平等统计指标
19、);工农业产值、人均消费水平等统计指标);人体健康水平的分类;人体健康水平的分类;学科门类;学科门类;2023/1/1724聚类分析聚类分析(Clauster Analysis)数值分类法的一种,在社会应用中称类型学。数值分类法的一种,在社会应用中称类型学。Robert Tryon于于1939年年提提出出的的一一种种心心理理学学研研究方法。究方法。目的:用数量关系对事物进行分类。目的:用数量关系对事物进行分类。对对于于可可以以用用某某些些数数量量描描述述的的事事物物,采采用用样样本本间间的的距距离离来来将将性性质质接接近近的的事事物物归归为为一一类类,从从而而达达到到对对事事物物的分析和评价。
20、的分析和评价。聚聚类类分分析析作作分分类类时时各各类类群群乃乃至至类类群群数数事事先先未未知知,而而是是根根据据数数据据的的特特征征确确定定的的,又又称称为为无无师师可可循循的分类。的分类。一般分为逐步聚类、系统聚类和其它方法。一般分为逐步聚类、系统聚类和其它方法。2023/1/1725X1X2X3X4X5X6X7X8北京2959.19730.79749.41513.34467.871141.82478.42457.64天津2459.77河北1495.63山西1406.33内蒙古1303.97辽宁1730.84吉林1561.86黑龙江1410.11上海3712.31江苏2207.58浙江262
21、9.16安徽1844.78福建2709.46消费性支出数据消费性支出数据(单位:元)数据来源:2000年中国统计年鉴数据示例数据示例数据示例数据示例2023/1/17261.1.系统聚类法系统聚类法 在开始时不选重心,而是令各样本自成一类;在开始时不选重心,而是令各样本自成一类;计算各计算各样本样本间的间的距离距离或或相似度相似度,使距离最近的,使距离最近的,或相似度最大的两个样本并成一类;或相似度最大的两个样本并成一类;计算合并后的各计算合并后的各类类间的距离或相似度,使距离间的距离或相似度,使距离最小的或相似度最大的两类并成一类。最小的或相似度最大的两类并成一类。重复进行两个最近类的合并,
22、每次减少一类,重复进行两个最近类的合并,每次减少一类,直至所有的样本合并为一类,或直到满意的分直至所有的样本合并为一类,或直到满意的分类为止。类为止。判据:判据:距离最小距离最小或或相似度最大相似度最大。2023/1/1727样本之间的距离明氏距离样本之间的距离明氏距离Q Q为样本所在空间的维度。为样本所在空间的维度。当各变量单位不同或测量范围相差很大时,要对变量进行当各变量单位不同或测量范围相差很大时,要对变量进行标准化处理标准化处理。2023/1/1728样本之间的距离兰氏距离样本之间的距离兰氏距离兰氏距离与各变量的单位无关。对大的异常值不敏兰氏距离与各变量的单位无关。对大的异常值不敏感,
23、故适用于高度偏斜的数据。感,故适用于高度偏斜的数据。明氏距离和兰氏距离都没有考虑变量之间的相关性,明氏距离和兰氏距离都没有考虑变量之间的相关性,因此,这两种距离更适合于变量之间互不相关的情因此,这两种距离更适合于变量之间互不相关的情形。形。2023/1/1729样本之间的距离马氏距离样本之间的距离马氏距离马氏距离考虑了各变量之间的相关性,且与各变马氏距离考虑了各变量之间的相关性,且与各变量的单位无关。量的单位无关。S难以确定,难以确定,S不应随聚类过程而变化。实际聚类不应随聚类过程而变化。实际聚类分析中,马氏距离不理想。分析中,马氏距离不理想。2023/1/1730相似系数:表示样本之间的相似
24、度相似系数:表示样本之间的相似度 相关系数:相关系数:夹角余弦夹角余弦2023/1/1731类间距离的计算类间距离的计算最大距离法最大距离法又称完全连接法,是以两类间最远的样本间的距离为类间距离;又称完全连接法,是以两类间最远的样本间的距离为类间距离;最小距离法最小距离法又称单连接法,是以两类间最近的样本间距离为类间距离;又称单连接法,是以两类间最近的样本间距离为类间距离;中间距离法中间距离法以两类间最大和最小距离之中值为类间距离;以两类间最大和最小距离之中值为类间距离;类平均法类平均法以两类样本间距离的平均值为类间距离;以两类样本间距离的平均值为类间距离;重心法重心法类与类之间的距离定义为它
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息分析方法 信息 分析 方法 PPT 课件
限制150内