实用统计方法第一讲主成分分析幻灯片.ppt
《实用统计方法第一讲主成分分析幻灯片.ppt》由会员分享,可在线阅读,更多相关《实用统计方法第一讲主成分分析幻灯片.ppt(48页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、实用统计方法第一讲主成分分析第1页,共48页,编辑于2022年,星期五统计是什么?统计是什么?统计是人类思维的一个归纳过程统计是人类思维的一个归纳过程站在一个路口,看到每过去站在一个路口,看到每过去20辆小轿辆小轿车时,也有车时,也有100辆自行车通过辆自行车通过而且平均每而且平均每10个轿车载有个轿车载有12个人个人于是,你认为小汽车和自行车在这于是,你认为小汽车和自行车在这个路口的运载能力为个路口的运载能力为24:100这是一个典型的统计思维过程这是一个典型的统计思维过程第2页,共48页,编辑于2022年,星期五统计是什么?统计是什么?一般来说,统计先从现实世界收集数据一般来说,统计先从现
2、实世界收集数据(信息),如观测路口的交通(信息),如观测路口的交通然后,根据数据作出判断,称为模型然后,根据数据作出判断,称为模型模型是从数据产生的模型是从数据产生的模型也需要根据新的信息来改进模型也需要根据新的信息来改进不存在完美的模型不存在完美的模型模型的最终结局都是被更能够说明现实模型的最终结局都是被更能够说明现实世界的新模型所取代世界的新模型所取代第3页,共48页,编辑于2022年,星期五统计学可以应用于几乎所有的领域统计学可以应用于几乎所有的领域:精算,农业,动物学,人类学,考古学,审计学,精算,农业,动物学,人类学,考古学,审计学,晶体学,人口统计学,牙医学,生态学,经济计晶体学,
3、人口统计学,牙医学,生态学,经济计量学,教育学,选举预测和策划,工程,流行病量学,教育学,选举预测和策划,工程,流行病学,金融,水产渔业研究,遗传学,地理学,地学,金融,水产渔业研究,遗传学,地理学,地质学,历史研究,人类遗传学,水文学,工业,质学,历史研究,人类遗传学,水文学,工业,法律,语言学,文学,劳动力计划,管理科学,法律,语言学,文学,劳动力计划,管理科学,市场营销学,医学诊断,气象学,军事科学,核市场营销学,医学诊断,气象学,军事科学,核材料安全管理,眼科学,制药学,物理学,政治材料安全管理,眼科学,制药学,物理学,政治学,心理学,心理物理学,质量控制,宗教研究,学,心理学,心理物
4、理学,质量控制,宗教研究,社会学,调查抽样,分类学,气象改善,博彩等。社会学,调查抽样,分类学,气象改善,博彩等。第4页,共48页,编辑于2022年,星期五 统计是什么?统计是什么?一句话,一句话,统统计计学学(statistics)是是用用以以收收集集数数据据,分分析析数数据据和和由由数数据据得得出出结结论论的的一一组组概概念念、原原则则和和方方法。法。第5页,共48页,编辑于2022年,星期五以以归归纳纳为为主主要要思思维维方方式式的的统统计计不不是是以以演演绎为主的绎为主的数学数学。统统计计可可应应用用于于各各个个不不同同学学科科,在在有有些些学学科科已已经经有有其其特特有有的的方方法法
5、和和特特点点;如如生生物物统统 计计(biostatistics)、经经 济济 计计 量量 学学(econometrics)以以及及目目前前很很热热门门的的生生物物信信息息(bioinformation)和和数数据据挖挖掘掘(Data Mining)的方法主体都是统计。的方法主体都是统计。第6页,共48页,编辑于2022年,星期五你想过下面的问题吗?你想过下面的问题吗?当当你你买买了了一一台台电电视视时时,被被告告知知三三年年内内可可以以免免费费保保修修。你你想想过过厂厂家家凭凭什什么么这这样样说说吗吗?说说多多了了,厂厂家家会会损损失失;说说少少了了,会会失失去去竞竞争争,也也是是损损失失。
6、到到底底这个保修期是怎样决定的呢?这个保修期是怎样决定的呢?大大学学排排名名是是一一个个非非常常敏敏感感的的问问题题。不不同同的的机机构构得得出出不不同同的的结结果果;各各自自都都说说自自己己是是客客观观、公公正正和和有有道理的。到底如何理解这些不同的结果呢?道理的。到底如何理解这些不同的结果呢?疾疾病病传传播播时时,如如何何能能够够通通过过感感染染者者入入院院前前后后的的各各种种因素得到一个疾病传染方式的模型呢?因素得到一个疾病传染方式的模型呢?第7页,共48页,编辑于2022年,星期五可以想象出的统计应用例子可以想象出的统计应用例子如何确定观众如何确定观众/听众是否忠实于某节目听众是否忠实
7、于某节目(专栏专栏)如何对电视节目排名次如何对电视节目排名次什么因素影响一个节目的收视率什么因素影响一个节目的收视率如何按照各种不同环境估计某商店的顾客人数如何按照各种不同环境估计某商店的顾客人数如何按照各种指标评价雇员如何按照各种指标评价雇员如何把地区如何把地区(市县镇等市县镇等)按照各种指标分类按照各种指标分类如何确定红楼梦第几回不是曹雪芹所写如何确定红楼梦第几回不是曹雪芹所写如何确定一个产品的可靠性如何确定一个产品的可靠性如何进行偏差较少的民意调查如何进行偏差较少的民意调查如何根据一些财务数据发现漏税的嫌疑单位如何根据一些财务数据发现漏税的嫌疑单位?第8页,共48页,编辑于2022年,星
8、期五统计的一些做法统计的一些做法统计可以指导我们收集数据统计可以指导我们收集数据.当拥有来自一些变量当拥有来自一些变量(指标指标)的数据或记录的数据或记录,但缺乏模但缺乏模型来描述这些变量之间关系的情况下型来描述这些变量之间关系的情况下,可用统计方法可用统计方法建立模型建立模型.在有了一定的模型时在有了一定的模型时,统计可以确定手中数据是否统计可以确定手中数据是否令人信服地支持某种论点令人信服地支持某种论点.模型也用来对未来进行模型也用来对未来进行预测预测.统计直观的图表展示统计直观的图表展示,可以使各个领域的专家容可以使各个领域的专家容易理解易理解第9页,共48页,编辑于2022年,星期五统
9、计需要的知识统计需要的知识数学的几乎所有内容数学的几乎所有内容(不一定事先知不一定事先知道需要什么道需要什么)用计算机做统计计算用计算机做统计计算其他其他(对象对象)领域的知识领域的知识第10页,共48页,编辑于2022年,星期五统计和数学的区别统计和数学的区别数学思维是以演绎为主数学思维是以演绎为主统计思维是以归纳为主统计思维是以归纳为主,兼有演绎兼有演绎统计各领域利用几乎所有存在的数学统计各领域利用几乎所有存在的数学内容内容.但统计本身的数学是为具体目标服务但统计本身的数学是为具体目标服务的的,自己一般不形成数学体系自己一般不形成数学体系第11页,共48页,编辑于2022年,星期五第一讲第
10、一讲 主成分分析主成分分析Principal Component Analysis(PCA)第12页,共48页,编辑于2022年,星期五主成分分析的基本原理主成分分析的基本原理 主成分分析的计算主成分分析的计算 主成分分析应用实例主成分分析应用实例 几个问题几个问题第13页,共48页,编辑于2022年,星期五 在社会经济的研究中,为了全面系统的分析和研究问在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的映我们所研究的对象的特征,但在某种程度上存在信
11、息的重叠,重叠,变量太多,变量太多,这这无疑会增加分析问题的难度与复杂性,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关而且在许多实际问题中,多个变量之间是具有一定的相关关系的。系的。因此,人们会很自然地想到,能否在相关分析的基因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信这些较少的新变量尽可能多地保留原来变量所反映的信息?息?问题的提出问题的提出:第14页,共48页,编辑于2022年,星期五 事实上,这种想法是可
12、以实现的,主成分分析事实上,这种想法是可以实现的,主成分分析方法就是综合处理这种问题的一种强有力的工具。方法就是综合处理这种问题的一种强有力的工具。主成分分析是把原来多个变量划为少数几个主成分分析是把原来多个变量划为少数几个综合指标综合指标的一种统计分析方法。的一种统计分析方法。从数学角度来看,这是一种降维处理技术。从数学角度来看,这是一种降维处理技术。第15页,共48页,编辑于2022年,星期五一、主成分分析的基本原理一、主成分分析的基本原理 假定有假定有n个样本,每个样本共有个样本,每个样本共有p p个变量,构成个变量,构成一个一个np阶的数据矩阵阶的数据矩阵第16页,共48页,编辑于20
13、22年,星期五 当当p较大时,在较大时,在p维空间中考察问题比较麻烦。为了维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个克服这一困难,就需要进行降维处理,即用较少的几个综合指标综合指标代替原来较多的变量指标,而且使这些较代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。所反映的信息,同时它们之间又是彼此独立的。第17页,共48页,编辑于2022年,星期五 定义:记定义:记x1,x2,xP为原变量指标,为原变量指标,z1,z2,zm(mp)为新变量指
14、标)为新变量指标第18页,共48页,编辑于2022年,星期五n系数系数lij的确定原则:的确定原则:zi与与zj(ij;i,j=1,2,m)相互无关相互无关;z1是是x1,x2,xP的一切线性组合中的一切线性组合中方差最大方差最大者,者,z2是与是与z1不相关不相关的的x1,x2,xP的所有线性组合中方差最的所有线性组合中方差最大者大者,或者说是对原始数据中尚未被或者说是对原始数据中尚未被z1解释的差异部分拥有解释的差异部分拥有最大最大的解释能力的解释能力;zm是与是与z1,z2,zm1都不相关的都不相关的x1,x2,xP,的所的所有线性组合中方差最大者。有线性组合中方差最大者。则新变量指标则
15、新变量指标z1,z2,zm分别称为原变量指标分别称为原变量指标x1,x2,xP的的第一,第二,第一,第二,第,第m主成分主成分。第19页,共48页,编辑于2022年,星期五 从以上的分析可以看出,主成分分析的实质就是确从以上的分析可以看出,主成分分析的实质就是确定原来变量定原来变量xj(j=1,2,p)在诸主成分)在诸主成分zi(i=1,2,m)上的载荷)上的载荷 lij(i=1,2,m;j=1,2,p)。)。因此主成分分析的关键就是确定这些系数。因此主成分分析的关键就是确定这些系数。从数学上容易知道,从数学上可以证明,它们从数学上容易知道,从数学上可以证明,它们分别是的分别是的协方差(协方差
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实用 统计 方法 第一 成分 分析 幻灯片
限制150内