《聚类分析与判别分析讲稿.ppt》由会员分享,可在线阅读,更多相关《聚类分析与判别分析讲稿.ppt(22页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于聚类分析与判别分析第一页,讲稿共二十二页哦概述概述n聚聚类类分分析析:顾顾名名思思义义是是一一种种分分类类的的多多元元统统计计分分析析方方法法。按按照照个个体体或或样样品品(individuals,objects or subjects)的的特特征征将将它它们们分分 类类,使使 同同 一一 类类 别别 内内 的的 个个 体体 具具 有有 尽尽 可可 能能 高高 的的 同同 质质 性性(homogeneity),而而类类别别之之间间则则应应具具有有尽尽可可能能高高的的异异质质性性(heterogeneity)。第二页,讲稿共二十二页哦基本思想基本思想n指指标标:描描述述研研究究对对象象(样样
2、本本或或变变量量,常常用用的的是是样样本本)之之间间的的联联系系的的紧紧密密程程度度。“距距离离”和和“相相似似系系数数”,假假定定研研究究对对象象均均用用所所谓谓的的“点点”来表示。来表示。n一一般般的的规规则则是是将将“距距离离”较较小小的的点点或或“相相似似系系数数”较较大大的的点点归归为为同同一一类类,将将“距距离离”较较大大的的点点或或“相相似似系系数数”较较小小的的点点归归为为不不同同的类!的类!n严严格格说说来来聚聚类类分分析析并并不不是是纯纯粹粹的的统统计计技技术术,它它不不像像其其它它多多元元分分析析法法那那样样,需需要要从从样样本本去去推推断断总总体体。聚聚类类分分析析一一
3、般般都都涉涉及及不不到到有有关关统统计计量量的的分分布布,也也不不需需要要进进行行显显著著性性检检验验。聚聚类类分分析析更更像像是是一一种种建立假设的方法,而对假设的检验还需要借助其它统计方法。建立假设的方法,而对假设的检验还需要借助其它统计方法。第三页,讲稿共二十二页哦n分分类类:nQ型型聚聚类类对对样样本本进进行行分分类类处处理理;nR型型聚聚类类对对变变量量进进行行分分类类处处理理。n方方法法:n系系统统聚聚类类法法nK-均均值值聚聚类类法法n有有序序样样品品聚聚类类法法第四页,讲稿共二十二页哦个体之间距离的度量方法个体之间距离的度量方法n针针对对连连续续变变量量的的距距离离测测量量:n
4、欧欧式式距距离离;n欧欧式式距距离离平平方方;n切切比比雪雪夫夫距距离离;n布布洛洛克克距距离离;n明明可可夫夫斯斯基基距距离离;n自自定定义义距距离离;n夹夹角角余余弦弦;n皮皮尔尔逊逊相相关关系系数数第五页,讲稿共二十二页哦n针针对对计计数数变变量量的的距距离离测测度度:n卡卡方方距距离离;nPhi方方距距离离;n针针对对二二值值变变量量的的距距离离测测度度:n二二值值欧欧式式距距离离;n二二值值欧欧式式距距离离平平方方;n不不对对称称指指数数;n不不相相似似性性测测度度;n方方差差一般聚类个数在46类,不宜太多,或太少;第六页,讲稿共二十二页哦聚类分析应注意的问题聚类分析应注意的问题n所
5、选择的变量应符合聚类的要求;所选择的变量应符合聚类的要求;n各变量的变量值不应有数量级上的差异;各变量的变量值不应有数量级上的差异;n各变量间不应有较强的线性相关关系。各变量间不应有较强的线性相关关系。第七页,讲稿共二十二页哦系统聚类系统聚类/层次聚类层次聚类n凝凝聚聚式式聚聚类类和和分分解解式式聚聚类类。n基基本本思思想想:距距离离相相近近的的样样品品(或或变变量量)先先聚聚成成类类,距距离离相相远远的的后后聚聚成成类类,过过程程一一直直进进行行下下去去,每每个个样样品品(或或变变量量)总总能能聚聚到到合合适适的的类类中中。n步步骤骤:n第第一一步步:每每个个样样品品独独自自聚聚成成类类,共
6、共n个个类类;n第第二二步步:把把距距离离较较近近的的两两个个样样品品聚聚合合为为一一类类,形形成成n-1类类;n第第三三步步:将将n-1个个类类中中“距距离离”最最近近的的两两个个类类进进一一步步聚聚成成一一类类,形形成成n-2类类;n直直至至所所有有样样品品全全聚聚成成一一类类。第八页,讲稿共二十二页哦个体与小类,小类与小类个体与小类,小类与小类“亲疏程度亲疏程度”度量方法度量方法n组间平均连接距离:个体与小类中每个个体距离的平均值;组间平均连接距离:个体与小类中每个个体距离的平均值;n组组内内平平均均连连接接距距离离:个个体体与与小小类类中中每每个个个个体体距距离离以以及及小小类类内内各
7、各个个体体间距离的平均值间距离的平均值;n最近邻距离:个体与小类中每个个体距离的最小值;最近邻距离:个体与小类中每个个体距离的最小值;n最远邻距离:个体与小类中每个个体距离的最大值;最远邻距离:个体与小类中每个个体距离的最大值;n重心距离:该个体与小类的重心点的距离;重心距离:该个体与小类的重心点的距离;n中位数距离;中位数距离;n离离差差平平方方和和法法:使使小小类类内内离离差差平平方方和和增增加加最最小小的的两两小小类类应应首首先先合合并并为一类。为一类。第九页,讲稿共二十二页哦案例案例9.3 系统聚类分析系统聚类分析n案案例例9.3.sav的的资资料料是是我我国国2005年年各各地地城城
8、镇镇居居民民平平均均每每人人全全年年家家庭庭收入来源统计表。试对全国各地区的收入来源结构进行分类。收入来源统计表。试对全国各地区的收入来源结构进行分类。第十页,讲稿共二十二页哦二阶段聚类分析二阶段聚类分析n二二阶阶段段聚聚类类分分析析是是一一种种新新型型的的分分层层聚聚类类方方法法,主主要要用用于于一一般般的的数数据据挖挖掘掘和和多多元元统统计计的的交交叉叉领领域域模模式式分分类类,其其算算法法适适用用于于任任何何尺尺度度的变量。的变量。第十一页,讲稿共二十二页哦案例案例9.2 二阶段聚类分析二阶段聚类分析n案案例例9.1.sav的的资资料料是是美美国国22个个公公共共团团体体的的数数据据。试
9、试以以“是是否否使使用用核核能能源源”为为分分类类变变量量对对这这些些团团体体进进行行聚聚类类分分析析,其其中中“1”表表示示使使用用核能源,核能源,“0”表示没有使用核能源,观测这两类企业所属类别的情况。表示没有使用核能源,观测这两类企业所属类别的情况。第十二页,讲稿共二十二页哦K-均值聚类均值聚类n是是一一种种快快速速聚聚类类法法。适适合合处处理理大大样样本本数数据据。n基基本本思思想想是是:将将每每个个样样品品分分配配给给最最近近中中心心(均均值值)的的类类中中,具具体体步步骤骤:指指定定聚聚类类数数目目K确确定定K个个初初始始类类中中心心(用用户户指指定定或或系系统统指指定定);根根据
10、据距距离离最最近近原原则则进进行行分分类类(欧欧式式距距离离);重重新新确确定定K个个类类中中心心;判判断断是是否否已已满满足足终终止止聚聚类类分分析析的的条条件件:迭迭代代次次数数或或类类中中心心偏偏移移程程度度(0.02)。第十三页,讲稿共二十二页哦案例案例9.2 K中心聚类分析中心聚类分析n案案例例9.2.sav的的资资料料是是我我国国2006年年各各地地区区能能源源消消耗耗的的情情况况。根根据据不不同同省省市市的的能能源源消消耗耗情情况况,进进行行分分类类,以以了了解解我我国国不不同同地地区区的的能能源源消消耗情况。耗情况。第十四页,讲稿共二十二页哦判别分析概述判别分析概述n根根据据已
11、已有有的的划划分分类类别别的的有有关关历历史史资资料料,确确定定一一种种判判定定方方法法,判判定定一一个新的样本归属哪一类。个新的样本归属哪一类。n设设定定有有k个个样样本本,对对每每个个样样本本测测得得p项项指指标标的的数数据据,已已知知每每个个样样本本属属于于k个个类类别别中中的的每每一一类类。利利用用这这些些数数据据,找找出出一一种种判判别别函函数数,使使得得这这一一函函数数具具有有某某种种最最优优性性质质,能能把把属属于于不不同同类类别别的的样样本本点点尽尽可可能能地地区区别别开开来来,并对测得同样并对测得同样p项指标数据的一个新样本,能判定这个样本属于哪一类。项指标数据的一个新样本,
12、能判定这个样本属于哪一类。第十五页,讲稿共二十二页哦距离判别法距离判别法n两个总体两个总体G1和和G2,均值向量:,均值向量:;协差阵:;协差阵:n数据点数据点X到总体到总体Gi的马氏距离定义为:的马氏距离定义为:n设判别函数:设判别函数:n若若W(X)0,则则 ;若若W(X)0,则则 ;若若W(X)=0,则则待判断。待判断。n各总体协方差阵相等,判别函数为线性判别函数;各总体协方差阵相等,判别函数为线性判别函数;n各总体协方差阵不相等,判别函数为二次判别函数;各总体协方差阵不相等,判别函数为二次判别函数;第十六页,讲稿共二十二页哦Fisher判别分析判别分析n借助方差分析思想构造一个线性判别
13、函数:借助方差分析思想构造一个线性判别函数:n系系数数 确确定定的的原原则则是是使使得得各各总总体体之之间间区区别别最最大大,而而使使得得每个总体内部的离差最小。每个总体内部的离差最小。n判判别别规规则则:待待判判样样品品的的典典型型判判别别函函数数值值ux与与第第G类类中中心心的的典典型型判判别别函函数数值值u(i)的的绝绝对对离离差差 最最小小,则则可可以以将将该该样样品品判判入第入第G类。类。第十七页,讲稿共二十二页哦Bayes判别分析判别分析n基本思想:首先计算待判样品属于各个总体的条件概率基本思想:首先计算待判样品属于各个总体的条件概率,然然后后比比较较这这k个个概概率率值值的的大大
14、小小,将将待待判判样样本本归归为为条条件件概率最大的总体。概率最大的总体。n在在观观测测到到一一个个样样品品x的的情情况况下下,利利用用Bayes公公式式,可可以以计计算算它它来来自自第第g个个总体的后验概率:总体的后验概率:。n当当 时,则可将时,则可将x判入第判入第h类。类。n先先验验概概率率取取法法有有两两种种:一一是是用用样样品品频频率率代代替替;二二是是令令各各总总体体先先验概率相等。验概率相等。第十八页,讲稿共二十二页哦案例案例9.4 判别分析判别分析n案案例例9.4.sav的的资资料料为为三三种种不不同同种种类类豇豇豆豆豆豆荚荚的的质质量量、宽宽度度和和长长度度的的统统计计表表,
15、每每种种类类型型都都为为20个个样样本本,共共60个个样样本本。试试根根据据不不同同种种类类豇豇豆豆豆豆荚的特征,建立鉴别不同种类豇豆判别方程。荚的特征,建立鉴别不同种类豇豆判别方程。第十九页,讲稿共二十二页哦nFisher判别函数判别函数ny1=-11.528+0.21质量质量-1.95宽度宽度+0.186长度长度ny2=-15.935+0.112质量质量+2.246宽度宽度+0.092长度长度典型判别式函数系数函数12质量.210.112宽度.9502.246长度.186.092(常量)-11.528-15.935非标准化系数第二十页,讲稿共二十二页哦n三个类别的三个类别的Bayes判别函数判别函数n类别类别1=-90.708+2.557质量质量+18.166宽度宽度+1.922长度长度n类别类别2=-212.439+3.589质量质量+32.357宽度宽度+2.78长度长度n类别类别3=-404.182+6.8519质量质量-10.855宽度宽度+5.697长度长度分类函数系数类型123质量2.5573.5896.851宽度18.16632.357-10.855长度1.9222.7805.697(常量)-90.708-212.439-404.182Fisher 的线性判别式函数第二十一页,讲稿共二十二页哦感感谢谢大大家家观观看看第二十二页,讲稿共二十二页哦
限制150内