机器学习-降维算法ppt课件.ppt
《机器学习-降维算法ppt课件.ppt》由会员分享,可在线阅读,更多相关《机器学习-降维算法ppt课件.ppt(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统讲授人:XXX时间:2017.3.31机器学习降维算法讲解延迟符号篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统什么是降维?降维就是这样一个过程,在降低数据集维度的同时,保证其中包含的主要信息是相似的(就是保证有效信息不要丢失)。降维技术最典型的应用就是在机器学习问题中,进行有效的特征选择,以此获得更好的分类、回归效果。延迟符号篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类
2、型的系统为什么要降维?延迟符号降维?在机器学习中,如果特征值(也可称之为维度,或feature)过多,会引发维度灾难。维度灾难最直接的后果就是过拟合现象,进而导致分类识别的错误,因此我们需要对所提的特征进行降维处理。图 基本模式识别过程降维后数据应该包含更多的信息?降维后会损失多少信息?降维后对分类识别效果有多大影响?问题篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统降维的好处(1)进行数据压缩,减少数据存储所需空间以及计算所需时间。(2)消除数据间的冗余,以简化数据,提高计算效率。(3)去除噪声,提高模型性能。(4)改善数据的可理
3、解性,提高学习算法的精度。(5)将数据维度减少到2维或者3维,进行可视化。延迟符号篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统延迟符号Contents降维方法0102特征选择FeatureSelection 选 择 有 效 的 特 征 子 集,即 去 掉 不 相关 或 冗 余 的 特 征。特 征 选 择 后 留 下 的 特征 值 的 数 值 在 选 择 前 后 没 有 变 化。也 就是 说,特 征 选 择 后 的 特 征 是 原 来 特 征 的一个子集。特 征 抽 取 是 指 改 变 原 有 的 特 征 空 间,并 将 其 映 射
4、 到 一 个 新 的 特 征 空 间。也 就是 说,特 征 抽 取 后 的 新 特 征 是 原 来 特 征的一个映射。特征抽取FeatureExtraction*篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统降维算法可以根据所采用策略的不同而进行不同的分类降维算法分类延迟符号篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统延迟符号主成分分析(PCA)PCA是principalcomponentanalysis的缩写,即主成分分析。此方法目标是找到数据中最主要的元素和结构,去
5、除噪音和冗余,将原有的复杂数据降维,揭露出隐藏在复杂数据背后的简单结构。主成分分析就是试图在力保数据信息丢失最少的原则下,对这种多变量的数据表进行最佳综合简化。这些综合指标就称为主成分,也就是说,对高维变量空间进行降维处理,从线性代数角度来看,PCA目标是找到一组新正交基去重新描述得到的数据空间,这个维度就是主元。篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统向量的表示及基变换A(3,2)延迟符号篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 去中心化现在问题来了:如果我
6、们必须使用一维来表示这些数据,又希望尽量保留原始的信息,你要如何选择?例题:延迟符号篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 下面是三维空间中的一组数据,很明显,数据的分布让我们很容易就能看出来主成分的轴(简称主轴)的大致方向。下面的问题就是如何通过数学计算找出主轴的方向。来看这张图:延迟符号篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统1.给定一组数据:2.将其中心化后表示为:3.中心化后的数据在第一主轴u1 方向上分布散的最开,也就是说在u1 方向上的投影的绝对
7、值之和最大(也可以说方差最大),计算投影的方法就是将x 与u1 做内积,由于只需要求u1 的方向,所以设u1 是单位向量。也就是最大化下式:也即最大化:两个向量做内积可以转化成矩阵乘法:所以目标函数可以表示为:推导过程:延迟符号篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统所以目标函数最后化为:目标函数和约束条件构成了一个最大化问题:延迟符号篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统构造拉格朗日函数:对u1 求导:显然,u1 即为XXT特征值对应的特征向量!XXT的所
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 算法 ppt 课件
限制150内