欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    聚类分析与判别分析精选PPT.ppt

    • 资源ID:43116624       资源大小:794.50KB        全文页数:22页
    • 资源格式: PPT        下载积分:18金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要18金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    聚类分析与判别分析精选PPT.ppt

    关于聚类分析与判别分析第1页,讲稿共22张,创作于星期二概述概述n聚聚类类分分析析:顾顾名名思思义义是是一一种种分分类类的的多多元元统统计计分分析析方方法法。按按照照个个体体或或样样品品(individuals,objects or subjects)的的特特征征将将它它们们分分类类,使使同同一一类类别别内内的的个个体体具具有有尽尽可可能能高高的的同同质质性性(homogeneity),而而类别之间则应具有尽可能高的异质性类别之间则应具有尽可能高的异质性(heterogeneity)。第2页,讲稿共22张,创作于星期二基本思想基本思想n指指标标:描描述述研研究究对对象象(样样本本或或变变量量,常常用用的的是是样样本本)之之间间的的联联系系的的紧紧密密程程度度。“距距离离”和和“相相似似系系数数”,假假定定研研究究对对象象均用所谓的均用所谓的“点点”来表示。来表示。n一一般般的的规规则则是是将将“距距离离”较较小小的的点点或或“相相似似系系数数”较较大大的的点点归归为为同同一一类,将类,将“距离距离”较大的点或较大的点或“相似系数相似系数”较小的点归为不同的类!较小的点归为不同的类!n严严格格说说来来聚聚类类分分析析并并不不是是纯纯粹粹的的统统计计技技术术,它它不不像像其其它它多多元元分分析析法法那那样样,需需要要从从样样本本去去推推断断总总体体。聚聚类类分分析析一一般般都都涉涉及及不不到到有有关关统统计计量量的的分分布布,也也不不需需要要进进行行显显著著性性检检验验。聚聚类类分分析析更更像像是是一一种种建立假设的方法,而对假设的检验还需要借助其它统计方法。建立假设的方法,而对假设的检验还需要借助其它统计方法。第3页,讲稿共22张,创作于星期二n分分类类:nQ型型聚聚类类对对样样本本进进行行分分类类处处理理;nR型型聚聚类类对对变变量量进进行行分分类类处处理理。n方方法法:n系系统统聚聚类类法法nK-均均值值聚聚类类法法n有有序序样样品品聚聚类类法法第4页,讲稿共22张,创作于星期二个体之间距离的度量方法个体之间距离的度量方法n针针对对连连续续变变量量的的距距离离测测量量:n欧欧式式距距离离;n欧欧式式距距离离平平方方;n切切比比雪雪夫夫距距离离;n布布洛洛克克距距离离;n明明可可夫夫斯斯基基距距离离;n自自定定义义距距离离;n夹夹角角余余弦弦;n皮皮尔尔逊逊相相关关系系数数第5页,讲稿共22张,创作于星期二n针针对对计计数数变变量量的的距距离离测测度度:n卡卡方方距距离离;nPhi方方距距离离;n针针对对二二值值变变量量的的距距离离测测度度:n二二值值欧欧式式距距离离;n二二值值欧欧式式距距离离平平方方;n不不对对称称指指数数;n不不相相似似性性测测度度;n方方差差一般聚类个数在46类,不宜太多,或太少;第6页,讲稿共22张,创作于星期二聚类分析应注意的问题聚类分析应注意的问题n所选择的变量应符合聚类的要求;所选择的变量应符合聚类的要求;n各变量的变量值不应有数量级上的差异;各变量的变量值不应有数量级上的差异;n各变量间不应有较强的线性相关关系。各变量间不应有较强的线性相关关系。第7页,讲稿共22张,创作于星期二系统聚类系统聚类/层次聚类层次聚类n凝凝聚聚式式聚聚类类和和分分解解式式聚聚类类。n基基本本思思想想:距距离离相相近近的的样样品品(或或变变量量)先先聚聚成成类类,距距离离相相远远的的后后聚聚成成类类,过过程程一一直直进进行行下下去去,每每个个样样品品(或或变变量量)总总能能聚聚到到合合适适的的类类中中。n步步骤骤:n第第一一步步:每每个个样样品品独独自自聚聚成成类类,共共n个个类类;n第第二二步步:把把距距离离较较近近的的两两个个样样品品聚聚合合为为一一类类,形形成成n-1类类;n第第三三步步:将将n-1个个类类中中“距距离离”最最近近的的两两个个类类进进一一步步聚聚成成一一类类,形形成成n-2类类;n直直至至所所有有样样品品全全聚聚成成一一类类。第8页,讲稿共22张,创作于星期二个体与小类,小类与小类个体与小类,小类与小类“亲疏程度亲疏程度”度量方法度量方法n组间平均连接距离:个体与小类中每个个体距离的平均值;组间平均连接距离:个体与小类中每个个体距离的平均值;n组组内内平平均均连连接接距距离离:个个体体与与小小类类中中每每个个个个体体距距离离以以及及小小类类内内各各个体间距离的平均值个体间距离的平均值;n最近邻距离:个体与小类中每个个体距离的最小值;最近邻距离:个体与小类中每个个体距离的最小值;n最远邻距离:个体与小类中每个个体距离的最大值;最远邻距离:个体与小类中每个个体距离的最大值;n重心距离:该个体与小类的重心点的距离;重心距离:该个体与小类的重心点的距离;n中位数距离;中位数距离;n离离差差平平方方和和法法:使使小小类类内内离离差差平平方方和和增增加加最最小小的的两两小小类类应应首首先先合合并为一类。并为一类。第9页,讲稿共22张,创作于星期二案例案例9.3 系统聚类分析系统聚类分析n案案例例9.3.sav的的资资料料是是我我国国2005年年各各地地城城镇镇居居民民平平均均每每人人全全年年家家庭收入来源统计表。试对全国各地区的收入来源结构进行分类。庭收入来源统计表。试对全国各地区的收入来源结构进行分类。第10页,讲稿共22张,创作于星期二二阶段聚类分析二阶段聚类分析n二二阶阶段段聚聚类类分分析析是是一一种种新新型型的的分分层层聚聚类类方方法法,主主要要用用于于一一般般的的数数据据挖挖掘掘和和多多元元统统计计的的交交叉叉领领域域模模式式分分类类,其其算算法法适适用用于于任任何何尺尺度度的的变变量。量。第11页,讲稿共22张,创作于星期二案例案例9.2 二阶段聚类分析二阶段聚类分析n案案例例9.1.sav的的资资料料是是美美国国22个个公公共共团团体体的的数数据据。试试以以“是是否否使使用用核核能能源源”为为分分类类变变量量对对这这些些团团体体进进行行聚聚类类分分析析,其其中中“1”表表示示使使用用核核能能源源,“0”表表示示没没有有使使用用核核能能源源,观观测测这这两两类类企企业业所所属属类类别别的情况。的情况。第12页,讲稿共22张,创作于星期二K-均值聚类均值聚类n是是一一种种快快速速聚聚类类法法。适适合合处处理理大大样样本本数数据据。n基基本本思思想想是是:将将每每个个样样品品分分配配给给最最近近中中心心(均均值值)的的类类中中,具具体体步步骤骤:指指定定聚聚类类数数目目K确确定定K个个初初始始类类中中心心(用用户户指指定定或或系系统统指指定定);根根据据距距离离最最近近原原则则进进行行分分类类(欧欧式式距距离离);重重新新确确定定K个个类类中中心心;判判断断是是否否已已满满足足终终止止聚聚类类分分析析的的条条件件:迭迭代代次次数数或或类类中中心心偏偏移移程程度度(0.02)。第13页,讲稿共22张,创作于星期二案例案例9.2 K中心聚类分析中心聚类分析n案案例例9.2.sav的的资资料料是是我我国国2006年年各各地地区区能能源源消消耗耗的的情情况况。根根据据不不同同省省市市的的能能源源消消耗耗情情况况,进进行行分分类类,以以了了解解我我国国不不同同地地区区的的能能源消耗情况。源消耗情况。第14页,讲稿共22张,创作于星期二判别分析概述判别分析概述n根根据据已已有有的的划划分分类类别别的的有有关关历历史史资资料料,确确定定一一种种判判定定方方法法,判判定定一一个新的样本归属哪一类。个新的样本归属哪一类。n设设定定有有k个个样样本本,对对每每个个样样本本测测得得p项项指指标标的的数数据据,已已知知每每个个样样本本属属于于k个个类类别别中中的的每每一一类类。利利用用这这些些数数据据,找找出出一一种种判判别别函函数数,使使得得这这一一函函数数具具有有某某种种最最优优性性质质,能能把把属属于于不不同同类类别别的的样样本本点点尽尽可可能能地地区区别别开开来来,并并对对测测得得同同样样p项项指指标标数数据据的的一一个个新新样样本本,能能判定这个样本属于哪一类。判定这个样本属于哪一类。第15页,讲稿共22张,创作于星期二距离判别法距离判别法n两个总体两个总体G1和和G2,均值向量:,均值向量:;协差阵:;协差阵:n数据点数据点X到总体到总体Gi的马氏距离定义为:的马氏距离定义为:n设判别函数:设判别函数:n若若W(X)0,则则 ;若若W(X)0,则则 ;若若W(X)=0,则则待判断。待判断。n各总体协方差阵相等,判别函数为线性判别函数;各总体协方差阵相等,判别函数为线性判别函数;n各总体协方差阵不相等,判别函数为二次判别函数;各总体协方差阵不相等,判别函数为二次判别函数;第16页,讲稿共22张,创作于星期二Fisher判别分析判别分析n借助方差分析思想构造一个线性判别函数:借助方差分析思想构造一个线性判别函数:n系系数数 确确定定的的原原则则是是使使得得各各总总体体之之间间区区别别最最大大,而而使使得每个总体内部的离差最小。得每个总体内部的离差最小。n判判别别规规则则:待待判判样样品品的的典典型型判判别别函函数数值值ux与与第第G类类中中心心的的典典型型判判别别函函数数值值u(i)的的绝绝对对离离差差 最最小小,则则可可以以将将该该样样品品判判入第入第G类。类。第17页,讲稿共22张,创作于星期二Bayes判别分析判别分析n基本思想:首先计算待判样品属于各个总体的条件概率基本思想:首先计算待判样品属于各个总体的条件概率,然然后后比比较较这这k个个概概率率值值的的大大小小,将将待待判判样样本本归归为条件概率最大的总体。为条件概率最大的总体。n在在观观测测到到一一个个样样品品x的的情情况况下下,利利用用Bayes公公式式,可可以以计计算算它它来来自自第第g个总体的后验概率:个总体的后验概率:。n当当 时,则可将时,则可将x判入第判入第h类。类。n先先验验概概率率取取法法有有两两种种:一一是是用用样样品品频频率率代代替替;二二是是令令各各总总体体先先验验概概率率相相等。等。第18页,讲稿共22张,创作于星期二案例案例9.4 判别分析判别分析n案案例例9.4.sav的的资资料料为为三三种种不不同同种种类类豇豇豆豆豆豆荚荚的的质质量量、宽宽度度和和长长度度的的统统计计表表,每每种种类类型型都都为为20个个样样本本,共共60个个样样本本。试试根根据据不不同种类豇豆豆荚的特征,建立鉴别不同种类豇豆判别方程。同种类豇豆豆荚的特征,建立鉴别不同种类豇豆判别方程。第19页,讲稿共22张,创作于星期二nFisher判别函数判别函数ny1=-11.528+0.21质量质量-1.95宽度宽度+0.186长度长度ny2=-15.935+0.112质量质量+2.246宽度宽度+0.092长度长度典型判别式函数系数函数12质量.210.112宽度.9502.246长度.186.092(常量)-11.528-15.935非标准化系数第20页,讲稿共22张,创作于星期二n三个类别的三个类别的Bayes判别函数判别函数n类别类别1=-90.708+2.557质量质量+18.166宽度宽度+1.922长度长度n类别类别2=-212.439+3.589质量质量+32.357宽度宽度+2.78长度长度n类别类别3=-404.182+6.8519质量质量-10.855宽度宽度+5.697长度长度分类函数系数类型123质量2.5573.5896.851宽度18.16632.357-10.855长度1.9222.7805.697(常量)-90.708-212.439-404.182Fisher 的线性判别式函数第21页,讲稿共22张,创作于星期二感感谢谢大大家家观观看看第22页,讲稿共22张,创作于星期二

    注意事项

    本文(聚类分析与判别分析精选PPT.ppt)为本站会员(石***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开