欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    聚类分析优秀PPT.ppt

    • 资源ID:86777384       资源大小:830KB        全文页数:73页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    聚类分析优秀PPT.ppt

    数据的分类聚类分析在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费习惯。它作为数据挖掘中的一个模块,可以作为一个单独的工具来发觉数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把留意力放在某一个特定的类上做进一步的分析。聚类分析的算法可以分为划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法。其中,最广泛运用的聚类算法k-means算法属于划分法。聚类算法给定一个有N个元组或者纪录的数据集,划分法将构造K个分组,每一个分组就代表一个聚类,Ko。在解决实际问题时,一般不是取p个主成分,而是依据累计贡献率的大小取前几个。定义 称第一主成分的贡献率为主成分的贡献率就是主成分的方差在全部方差中的比值因此第一2023/4/1546个值越大,表明第一主成分综合X1 ,Xp信息的实力越强。前两个主成分的累计贡献率定义为前两个主成分的累计贡献率定义为前 k 个主成分的贡献率达到85,表明取前是个主成分基本包含了全部测量指标所具有的信息,这样既削减了变量的个数又便于对实际问题的分析和探讨。假如 值得指出的是:当协差阵未知时,可用其估计值 S(样本协差阵)来代替,设原始资料阵为:2023/4/1547 则其中而相关系数阵:其中2023/4/1548明显当原始变量Xl,Xp标准化后,则 实际应用时,往往指标的量纲不同,所以在计算之前先消退量纲的影响,而将原始数据标准化,这样一来S和R相同。因此一般求R的特征根和特征向量,并且不妨取RX X。因为这时的R与不变,它并不影响求主成分。只差一个系数,明显与的特征根相差n倍,但它们的特征向量(2)、主成分的主要性质性质1 F的协差阵为对角阵A。2023/4/1549证明:记 明显性质2证明:性质32023/4/15514 计算步骤及实例 设有 n 个样品,每个样品观测 p 个指标,将原始数据写成矩1将原始数据标准化。这里不妨设上边矩阵已标准化了。2建立变量的相关系数阵:不妨设2023/4/15523求特征根及相应的单位特征向量:4写出主成分 例 对全国30个省市自治区经济发展基本状况的八项指标作主成分分析,原始数据如下:2023/4/15532023/4/15542023/4/15552023/4/1556第一步 将原始数据标准化。其次步 建立指标之间的相关系数阵R如下2023/4/1557第三步 求R的特征值和特征向量。2023/4/1558 从上表看,前3个特征值累计贡献率已达89564,说明前3个主成分基本包含了全部指标具有的信息,我们取前3个特征值,并计算出相应的特征向量:2023/4/1559因而前三个主成分为:第一主成分:其次主成分:F2=0.107995X1+0.258512X2+0.287536X3 +0.100931X4-0.40431X5+0.498801X6 -0.48868X7+0.167392X82023/4/1560第三主成分:在第一主成分的表达式中第一、二、三项指标的系数较大,这三个指标起主要作用,我们可以把第一王成分看成是由国内生产总值、固定资产投资和居民消费水平所该划的反映经济发展状况的综合指标;在其次主成分中,第四、五、六、七项指标的影响大,且第六、七项指标的影响尤其大,可将之看成是反映物价指数、职工工资和货物周转量的综合指标;在第三主成分中,第八项指数影响最大,远超过其它指标的影响,可单独看成是工业总产值的影响。2023/4/15615 附注 1从和从R动身计算主成分一般是不同的,当变量取值范围彼此相差很大或度量单位不同时,应当考虑标准化,以便使计算结果有合理的说明,避开出现误会。假如没有上述度量单位和数量级的差异,从和从R动身计算的结果对主成分的说明或计算贡献时,在一般状况下是不会发生冲突的。2主成分是原始变量的线性组合,它不能简洁地说明为单变量的属性作用,因而不能干脆说明单个原始变量属性对主成分的作用,而应当同时看一些起主要作用的原始变量的综合作用,依此给主成分一个合理说明。3从主成分的数学推导,不难看出主成分仅依靠于X1,X2,Xp的协差阵(或相关系数阵)并不要求分布2023/4/1562是多元正态的,即未对总体分布提出什么特定的要求。4主成分个数的确定。一种方法在前边计算过程中已提到即依据实际问题的须要由累计贡献率的大小来确定,因此一般就选前二、三个主成分代替原来p个变量的信息,而不会损失很多信息。另一种方法是作如下的假设检验:(假如不作检验就没必要有这个限制)因为特征根相等意味着数据在相应的p一q维空间上有各向同性的散布,若接受H0 则在q 的基础上,再增加任何主成分就得把剩下的全部包括进去,因为后p一q个主成分含有相同的信息量。在H0成立下可得Bartlet近似检验统计量:2023/4/1563 其中(算术平均)(几何平均)若拒绝H0即应增加主成分的个数。若接受H0,说明在已给检验水平下取q个主成分已能描述数据。5主成分分析用于系统评估 系统评估是指对系统营运状态做出评估,而评估一个系统的营运状态往往须要综合考察很多营运的指标.2023/4/1564 例如对某一类企业经济效益作评占,影响企业经济效益就有很多指标,很难干脆比较其优劣,听以解决评估问题的焦点就是希望科学、客观地将一个多指标问题综合成一个单指标的形式,也就是说只有在一维空间中才能使排序评估成为可能,因此产生了许很多多评估方法。鉴于系统评估在社会、经济等很多领域中有着广泛而重要的应用,下面介绍三种方法。第一种方法,利用主成分F1,Fp做线性组合,并以每个主成分 Fi 的方差贡献率 作为权数构造一个综合评价函数:也称 y 为评估指数,依据对每个系统计算出的 y 值大小进行排序比较或分类划级。2023/4/1565 这一方法目前在一些专业文献中都有介绍,但在实践中常常看到它的应用效果并不志向,主要缘由是产生主成分的特征向量的各重量符号不一样,很难进行排序评估,因此有下面的改进方法。其次种方法,只用第一个主成分作评估指数即Y=F1,理由是:第一主成分与原始变量X1,Xp综合相关度最强即从这个意义上看,假如想以一个综合变量来代替原来全部原始变量,则最佳选择应当是F1,另一方面由于第一主成分F1对应于数据变异最大的方向也就是使数据信息损失最小,精度最高的一维综合变量。但值得指出的是运用这种方法是有前提条件的即要求全部评估指标变量都是正相关2023/4/1566的,也就是说对听有变量均有同增、同减的趋势,这个前提条件是基于代数中的Frobinius定理。定理 若相关系数阵中的每一个元素都是正值,即对一切则只矩阵的第一个特征向量中的全部重量均大于零,即 假如不满足这个前提条件,在原变量系统中X1,Xp有一部分变量正相关,另一部分变量负相关,则无法保证第一个特征向量u1o,因此生成的F1有一部分与原变量正相关与另一部分变量负相关甚至于一部分变量无关,这时很难以 n取值的大小来排序。特殊是当出现某一重量 时运用Fq作为评估指数,更要慎重防止遗漏 上的重要信息。2023/4/1567 第三种方法是在前两种方法的基础上又作了改进,具体做法.(1)将原始资料阵进行标准化处理记为标准化后的变量记为(2)令即依据变量的重要程度赐予权数,重要的变量取大些,这时因此,各变量的方差分别为由于一部分在系统评估中更为重要的变量被赐予更大的权2023/4/1568因此在这些指标上,变量的变差被拉长,于是在求第一主成分时,这些指标会得到更多的重视。(3)对标准化又加权后的数据阵计算协差阵求的最大特征值 和特征向量(4)令然后按进行排序比较或分类划级。6除本章介绍的主成分分析之外,还有主成分回来和加权主成分分析等。顾名思义,主成分回来,就是把各主成分作为新的自变量代替原变量作回来,在一般状况下它可以克服多重共线性带来的干扰。所谓加权主成分分析是当原来指标X1,Xp的重要程度存在较大差异时,这时对原指标应辅以加权,即相当于用一个权数阵2023/4/1569去乘而得出其中然后对作主成分分析.2023/4/15701、用主成分分析探讨股票内在的联系。2、对国民经济增长方式作主成分分析。3、房地产指标的主成分分析。思索题稀疏子空间聚类模型给定一组数据设,这组数据属于k(k已知或未知)个线性子空间的并,子空间聚类是指将这组数据分割为不同的类,在志向状况下,每一类对应一个子空间。而稀疏性是指用完可能少的基的线性组合表示数据,使数据的线性表示中的非零系数最少。依据子空间的定义,非零系数的位置表明该数据属于由相应基组成的子空间,同时非零系数的个数也反映了数据本身的维数,因此可以通过稀疏子空间聚类分析可以反映数据的子空间特性。

    注意事项

    本文(聚类分析优秀PPT.ppt)为本站会员(l****)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开