(本科)第6章数据降维ppt课件.pptx
《(本科)第6章数据降维ppt课件.pptx》由会员分享,可在线阅读,更多相关《(本科)第6章数据降维ppt课件.pptx(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、课程主讲人:第6章数据降维医学大数据分析数据降维高等教育出版社CONTENTS目 录1数据降维简介2主成分分析方法3Lasso算法4思考题1数据降维简介 数据降维(Dimension Reduction)就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数f : x-y,其中x是原始数据点的表达,也是目前最常用的向量表达形式。y是数据点映射后的低维向量表达,通常y的维度小于x的维度。f可能是显式的或隐式的、线性的或非线性的。数据降维的概念监督学习中的训练数据降维图像处理的特征降维数据降维的优点在监督学习中,当训练数据的维数很多时候,很容易引起过拟合的
2、问题,因为数据维度高意味着模型的变量多,也就是所用模型的复杂度很高。这种情况下使用数据降维对训练数据的自变量进行降维能有效解决过拟合问题,还能使模型的工程实现难度降低,更容易得到正确的参数估计值;并且有效地消除随机噪声因素的影响,更好地抓住数据的主要特征。图像处理常常涉及很高维的数据,比如对于一个长边有m个像素点,宽边有n个像素点的图片,表示它的向量为m*n维。处理这种高维数据是很困难的,因此我们常常使用数据降维的方法减少图像特征,使图像信息浓缩到较低维度的向量。数据降维的直观好处是降低维度,便于计算和可视化,其更深层次的意义在于提取有效信息,摒弃无用信息。数据降维的应用主成分分析法主成分分析
3、法(Principal Component Analysis,PCA)是一种有效的常用数据降维方法,主要用在指标综合评价、减少特征数量等方面。Lasso方法Lasso(Least absolute shrinkage and selection operator)是1996年由多伦多大学Robert Tibshirani提出的,是另一种数据降维方法,该方法不仅适用于线性情况,也适用于非线性情况。数据降维主要有以下两种方法数据降维的方法2主成分分析方法 主成分分析主要用在指标综合评价、减少特征数量等方面,例如证券投资、医院综合评价、经济评价、教学质量评价、财务管理与分析等众多领域。主成分分析在医
4、学领域有不少应用,例如臧书芹将PCA应用于直肠癌新辅助放射化学治疗效果磁共振影像,共提取到1409个组学特征,采用PCA法进行特征值降维,将影像组学特征重新组合为新的特征,选取前5个最能代表整个影像组学特征矩阵的特征。王琪如将PCA用百岁老人健康状况综合评价的37项生化指标进行降维后得到8个综合指标。主成分分析主要应用领域基本原理主成分分析的定义主成分分析是设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中取出几个较少的综合变量尽可能多地反映原来变量信息的方法。主成分分析的R语言实现在R语言中实现主成分分析可使用princomp()函数。主成分分析的优缺点主成分分析的
5、优点是可以提取数据的主要信息,并且其误差最小。缺点是主成分分析将所有的样本(特征向量集合)作为一个整体对待,去寻找一个均方误差最小意义下的最优线性映射投影,而忽略了类别属性,而它所忽略的投影方向有可能刚好包含了重要的可分性信息。主成分分析的步骤主成分分析的步骤包括对各原始数据进行标准化,再求出相关矩阵,接着求出相关矩阵的特征值和特征值所对应的特征向量,最后提取主成分并获得主成分的表达式。01020304主成分分析基本原理不同指标在类型、量纲和数量级上存在差别,因此需要对数据进行标准化处理,通过适当的变化,转换为无量纲的标准化指标。对原始数据进行标准化处理主成分分析步骤01计算样本相关系数矩阵主
6、成分分析步骤02主成分分析步骤03计算主成分贡献率及累计贡献率主成分分析步骤04计算主成分得分主成分分析步骤05在R语言中实现主成分分析可使用princomp()函数,其格式有两种:格式一: princomp(formula, data = NULL, subset, na.action, .) 格式二:princomp(x,cor = FALSE, scores = TRUE, covmat = NULL, subset = rep(TRUE,nrow(as.matrix(x), .) 上述函数中,cor默认值为FALSE,表示指示计算应该使用相关矩阵,如果cor =TRUE,表示计算应该使
7、用协方差矩阵;scores默认为TRUE,指示是否计算每个主成分上的分数。princomp ()函数的返回值参数包括sdev为标准差、loadings为特征向量矩阵、scores为每个主成分上的分数。主成分分析的R语言实现应用场景主成分分析应用实例为了研究全国各地区医疗发展状况,以31个地区为主要研究对象,选取10个指标,运用主成分分析,根据结果对全国各区域医疗水平状况作出分析与评价。研究数据来自2019中国卫生健康统计年鉴:X1:医疗卫生机构数(个) x2:三级医院数(个)x3:卫生人员数(人)X4:每千人口卫生技术人员数(人)x5:医院人员数(人)X6:医疗卫生机构床位数(张)x7:每千人
8、口医疗卫生机构床位(张)X8:卫生总费用(亿元)x9:人均卫生总费用(元)x10:基本医疗保险参保人数(万人)主成分分析应用实例地区地区X1X2X3X4X5X6X7X8X9X10北京北京10058102326102122267371236265.742193.810106.41771天津天津5686431325256.790765682474.37864.745554.361089河北河北85088716239746.13657724219165.582197.12921.866883山西山西42079573308916.61976922083055.61087.742938.243215内蒙
9、古内蒙古24610802414247.41482811590066.271010.413995.952162辽宁辽宁3602913439191972672343144407.211605.713675.322278吉林吉林22691512414246.81477981669946.181007.533707.671381黑龙江黑龙江20349962996366.11954332501296.631342.253542.762893上海上海5293472382258.11598111390295.742087.098630.31840江苏江苏332541617393147.34425904915
10、226.113691.214597.187619浙江浙江327541345893578.53761273320865.792826.044995.655252安徽安徽24925684269565.32651333281235.191812.242897.372108福建福建27590773185036.31825731924734.881407.523598.893769江西江西36545693258475.31790902494905.371256.222717.894762山东山东814701819613607.45534396084596.063570.823568.749296河南河南
11、71351948631676.54093616085196.342747.672874.4310411湖北湖北364861305219306.93008843935146.652174.453698.895622湖南湖南56239795578086.33283284824396.992147.283130.086906广东广东514512069183966.75527245169294.564619.234135.7610365广西广西33742774203606.52162012559405.21392.982851.555173海南海南532522813876.848091448004.8
12、369.493991.16420重庆重庆20524482727946.71666372201047.11179.673836.113249四川四川815372007463226.74382025988987.183055.643680.67715贵州贵州28066583233816.81907932456396.821044.072916.381001云南云南24954693897706.22308632911946.031511.853149.364464西藏西藏684412368065.515950167874.88139.284131.0470陕西陕西35300644108968.525
13、83662537116.571538.054010.091251甘肃甘肃278973720704561127961627376.17812.73095.172512青海青海639620593697.437119391466.49270.084513.492512宁夏宁夏445013657647.743680410055.96298.864383.5618新疆新疆18450482271367.11462781788817.191088.834453.891040从原始表格可以看出,每一列数的单位是不统一的,因此需要对它作标准化处理,才能原始进行主成分分析。读入原始数据并对数据进行标准化将原始数据
14、读入并将数据进行标准化可以使用如下代码实现:setwd(d:/test) data-read.csv(./wsnj1.csv) #读入原始数据std_data=scale(data2:11) #数据标准化rownames(std_data)=data1 #数组各行名字定义为数据文件的第一列经过数据标准化以后,数据转换为如下图所示的格式,每一列数据的单位得到统一。01主成分分析应用实例主成分分析应用实例数据标准化结果计算相关系数矩阵 相关系数是用以反映变量之间相关关系密切程度的统计指标。使用如下代码求相关系数矩阵:cor(df) #求相关系数矩阵 求得相关系数矩阵如下图所示:02主成分分析应用实
15、例求特征值和特征向量求特征值和特征向量可以直接使用eigen()函数,该函数返回的特征值存放在values里面,特征向量存放在vectors里面。y=eigen(cor(df) #求特征值与特征向量y$values #显示特征值y$vectors #显示特征向量03主成分分析应用实例输出前三个累计贡献率sum(y$values1:3)/sum(y$values) #求前3个主成分的累计方差贡献率 从计算结果可以得到前三个因子的累计贡献率为93.05%。同时,可以利用如下命令画出碎石图,以方便我们更主观地找出主成分。screeplot(df.pr,type=line) #type表示画线的类型0
16、4主成分分析应用实例输出前三个累计贡献率04主成分分析应用实例图中横坐标表示第一主成分(Comp.1)到第十主成分(Comp.10),纵坐标表示标准差的平方。从上图可以看出,前三个主成分的标准差平方均大于1。主成分分析为了简化上述的计算过程,使用R语言的princomp()函数可以直接实现主成分分析并计算载荷矩阵(载荷矩阵是数据X的协方差矩阵的特征向量)。具体实现代码如下,其中cor=TRUE表示计算时使用相关矩阵,如果cor=FALSE则表示使用协方差矩阵,loadings表示是否计算载荷。df.pr-princomp(std_data,cor=TRUE) #主成分分析summary(df.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 本科 数据 ppt 课件
限制150内