第二章聚类分析.pptx
《第二章聚类分析.pptx》由会员分享,可在线阅读,更多相关《第二章聚类分析.pptx(163页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1第二章 聚类分析 (Clustering Analysis)2.1 聚类分析的概念2.2 模式相似性测度2.3 类的定义与类间距离2.4 聚类的算法第1页/共163页22.1 聚类分析的概念一、聚类分析的基本思想 相似的归为一类。模式相似性的度量和聚类算法。无监督分类(Unsupervised)。二、特征量的类型 物理量-(重量、长度、速度)次序量-(等级、技能、学识)名义量-(性别、状态、种类)第二章 聚类分析第2页/共163页3三、方法的有效性 取决于分类算法和特征点分布情况的匹配。2.1 聚类分析的概念22W11W2x1xb分类无效时的情况1.特征选取不当使分类无效。第二章 聚类分析第
2、3页/共163页4三、方法的有效性 取决于分类算法和特征点分布情况的匹配。2.1 聚类分析的概念分类无效时的情况2.特征选取不足可能使不同类别的模式判为一类。22W11W2x1x33W第二章 聚类分析第4页/共163页5三、方法的有效性 取决于分类算法和特征点分布情况的匹配。2.1 聚类分析的概念分类无效时的情况3.特征选取过多可能无益反而有害,增加分析负担并使分析效果变差。22W11W2x1xb第二章 聚类分析第5页/共163页6三、方法的有效性 取决于分类算法和特征点分布情况的匹配。2.1 聚类分析的概念分类无效时的情况4.量纲选取不当。第二章 聚类分析第6页/共163页7三、方法的有效性
3、 取决于分类算法和特征点分布情况的匹配。2.1 聚类分析的概念分类无效时的情况4.量纲选取不当。第二章 聚类分析第7页/共163页8三、方法的有效性 取决于分类算法和特征点分布情况的匹配。2.1 聚类分析的概念分类无效时的情况4.量纲选取不当。第二章 聚类分析第8页/共163页9下列是一些动物的名称:羊 (sheep)狗 (dog)蓝鲨(blue shark)蜥蜴 (lizard)毒蛇(viper)猫 (cat)麻雀(sparrow)海鸥 (seagull)金鱼(gold fish)绯鲵鲣(red-mullet)蛙 (frog)要对这些动物进行分类,则不同的特征有不同的分法:特征选取不同对聚类
4、结果的影响第二章 聚类分析第9页/共163页10特征选取不同对聚类结果的影响羊,狗,猫蓝鲨蜥蜴,毒蛇,麻雀,海鸥,金鱼,绯鲵鲣,青蛙(a)按繁衍后代的方式分哺乳动物非哺乳动物第二章 聚类分析第10页/共163页11金鱼绯鲵鲣蓝鲨羊,狗,猫蜥蜴,毒蛇麻雀,海鸥 青蛙(b)按肺是否存在分无肺有肺特征选取不同对聚类结果的影响第二章 聚类分析第11页/共163页12青蛙羊,狗,猫 蜥蜴,毒蛇麻雀,海鸥 金鱼绯鲵鲣 蓝鲨(c)按生活环境分陆地水里两栖特征选取不同对聚类结果的影响第二章 聚类分析第12页/共163页13蓝鲨金鱼绯鲵鲣蜥蜴,毒蛇麻雀,海鸥 青蛙羊,狗,猫(d)按繁衍后代方式和肺是否存在分非哺
5、乳且有肺哺乳且无肺哺乳且有肺非哺乳且无肺特征选取不同对聚类结果的影响第二章 聚类分析第13页/共163页14距离测度不同,聚类结果也不同数据的粗聚类是两类,细聚类为4类第二章 聚类分析第14页/共163页15综上可见:选择什么特征?选择多少个特征?选择什么样的量纲?选择什么样的距离测度?这些对分类结果都会产生极大影响。第二章 聚类分析第15页/共163页聚类过程遵循的基本步骤 一、特征选择(feature selection)尽可能多地包含任务关心的信息二、近邻测度(proximity measure)定量测定两特征如何“相似”或“不相似”三、聚类准则(clustering criterion
6、)以蕴涵在数据集中类的类型为基础四、聚类算法(clustering algorithm)按近邻测度和聚类准则揭示数据集的聚类结构五、结果验证(validation of the results)常用逼近检验验证聚类结果的正确性六、结果判定(interpretation of the results)由专家用其他方法判定结果的正确性第16页/共163页17聚类应用的四个基本方向一、减少数据 许多时候,当数据量N很大时,会使数据处理变得很费力。因此可使用聚类分析的方法将数据分成几组可判断的聚类m(mN)来处理,每一个类可当作独立实体来对待。从这个角度看,数据被压缩了。第二章 聚类分析第17页/共1
7、63页18二、假说生成 在这种情况下,为了推导出数据性质的一些假说,对数据集进行聚类分析。因此,这里使用聚类作为建立假说的方法,然后用其他数据集验证这些假说。聚类应用的四个基本方向第二章 聚类分析第18页/共163页19聚类应用的四个基本方向三、假说检验 用聚类分析来验证指定假说的有效性。例如:考虑这样的假说“大公司在海外投资”。要验证这个假说是否正确,就要对大公司和有代表性的公司按规模、海外活跃度、成功完成项目的能力等进行聚类分析。从而来支持这个假说。第二章 聚类分析第19页/共163页20四、基于分组的预测 对现有数据进行聚类分析,形成模式的特征,并用特征表示聚类,接下来,对于一个未知模式
8、,就可以用前面的聚类来确定是哪一类?聚类应用的四个基本方向例如:考虑被同种疾病感染的病人数据集。先按聚类分析进行分类,然后对新的病人确定他适合的聚类,从而判断他病情。第二章 聚类分析第20页/共163页212.2 模式相似性测度 用于描述各模式之间特征的相似程度 距 离 测 度 相 似 测 度 匹 配 测 度第二章 聚类分析第21页/共163页222.2 模式相似性测度一、距离测度(差值测度)测度基础:两个矢量矢端的距离测度数值:两矢量各相应分量之差的函数。时,等号成立;,当且仅当第二章 聚类分析第22页/共163页232.2 模式相似性测度常用的距离测度有:1.欧氏(Euclidean)距离
9、 第二章 聚类分析第23页/共163页242.2 模式相似性测度4.明氏(Minkowski)距离 (2-2-4)2.绝对值距离(街坊距离或Manhattan距离)(2-2-2)3.切氏(Chebyshev)距离 (2-2-3)第二章 聚类分析第24页/共163页252.2 模式相似性测度第二章 聚类分析第25页/共163页262.2 模式相似性测度5.马氏(Mahalanobis)距离注意!马氏距离对一切非奇异线性变换都是不变的,这说明它不受特征量纲选择的影响,并且是平移不变的。上面的V的含义是这个矢量集的协方差阵的统计量,故马氏距离加入了对特征的相关性的考虑。第二章 聚类分析第26页/共1
10、63页272.2 模式相似性测度第二章 聚类分析第27页/共163页第28页/共163页现金识别例子(欧氏平均距离)数据样本介绍:10个文本文件文件名:rmb00.txt rmb09.txt每个文件有4个币种的数据,分别是:100圆、50圆、20圆、10圆每个币种有新旧两种版本,4个方向,故有8个数据块:如100圆的8个数据块:data100a,data100b,data100c,data100d老版 data100e,data100f,data100g,data100h新版每个数据块有8个传感器数据:传感器1,传感器2,传感器8每个传感器有60个采样数据:数据1,数据2,数据60第29页/共
11、163页现金识别例子Eucliden=15.000000Manhattan=33.000000Chebyshev=11.000000Minkowski=11.039449m=8100元A面第1个样本第10点和20点的距离X:(75,76,101,83,102,96,91,82)Y:(70,74,90,76,99,96,90,86)X-Y:5,2,11,7,3,0,1,-4距离测度rmbdis第30页/共163页现金识别例子欧式平均距离100a-100a:(2.65,49.66)24.41100a-100b:(16.37,55.87)33.97100a-100c:(3.87,58.34)29.4
12、1100a-100d:(6.86,53.74)33.04100a-100e:(3.87,62.12)27.51100a-100f:(13.60,67.61)34.67100a-100g:(11.40,68.56)32.27100a-100h:(11.27,68.61)34.43100a-50a:(18.76,76.20)40.72100a-20a:(13.23,81.28)42.87100a-10a:(12.45,90.91)54.99第31页/共163页现金识别例子100圆A面的马式矩阵SW为:43.5 53.9 64.8 52.7 52.7 52.3 46.8 37.9 53.9 132.
13、0 137.5 107.8 59.6 74.0 52.1 31.5 64.8 137.5 165.9 124.1 74.6 84.1 67.6 37.1 52.7 107.8 124.1 105.5 57.5 67.2 54.5 35.2 52.7 59.6 74.6 57.5 76.2 71.7 65.8 57.9 52.3 74.0 84.1 67.2 71.7 73.1 62.8 55.0 46.8 52.1 67.6 54.5 65.8 62.8 59.6 51.9 37.9 31.5 37.1 35.2 57.9 55.0 51.9 54.7第32页/共163页现金识别例子SW的逆矩
14、阵为:0.3 -0.0 0.1 -0.1 -0.1 -0.1 -0.2 0.2-0.0 0.3 -0.1 -0.1 0.1 -0.6 0.3 0.2 0.1 -0.1 0.3 -0.1 -0.0 -0.2 -0.3 0.4-0.1 -0.1 -0.1 0.2 0.1 0.3 -0.1 -0.2-0.1 0.1 -0.0 0.1 0.7 -0.7 -0.4 0.2-0.1 -0.6 -0.2 0.3 -0.7 2.2 -0.0 -1.0-0.2 0.3 -0.3 -0.1 -0.4 -0.0 1.2 -0.5 0.2 0.2 0.4 -0.2 0.2 -1.0 -0.5 1.0第33页/共163
15、页现金识别例子马式平均距离100a:(7.46,80.05)39.73100b:(26.75,179.86)91.89100c:(14.50,231.44)103.76100d:(11.69,155.28)78.58100e:(5.65,2968.84)247.42100f:(39.19,2191.91)108.10100g:(10.68,2875.99)265.16100h:(9.41,2673.54)107.56 50a:(22.78,221.07)101.41 20a:(22.51,343.26)162.90 10a:(20.93,975.67)256.38第34页/共163页现金识别例
16、子马式平均距离a:39.73 101.41 162.90 256.38b:91.89 230.25 288.69 659.47c:103.76 135.94 257.57 724.96d:78.58 171.10 330.97 675.90e:247.42 443.46 333.93 218.71f:108.10 328.11 305.19 607.51g:265.16 956.58 818.83 348.42h:107.56 339.64 387.10 628.88100圆 50圆 20圆 10圆其中马式矩阵为100圆A面的,上面是各面到100圆A面的均值点的平均马式距离。第35页/共163
17、页现金识别例子100圆A面的传感器1到其它各面传感器1的街坊距离第36页/共163页372.2 模式相似性测度二、相似测度测度基础:以两矢量的方向是否相近作为考虑的基础,矢量长度并不不重要。设1.角度相似系数(夹角余弦)(2-2-11)注意:坐标系的旋转和尺度的缩放是不变的,但对一般的线形变换和坐标系的平移不具有不变性。第37页/共163页38现金识别例子100圆A面传感器1与其它各面的相似系数第38页/共163页392.2 模式相似性测度二、相似测度2.相关系数它实际上是数据中心化后的矢量夹角余弦。(2-2-12)第39页/共163页40现金识别例子100圆A面传感器1与其它各面的相关系数第
18、40页/共163页412.2 模式相似性测度二、相似测度3.指数相似系数 (2-2-13)式中 为相应分量的协方差,为矢量维数。它不受量纲变化的影响。第41页/共163页42现金识别例子100圆A面传感器1与其它各面的相关系数第42页/共163页432.2 模式相似性测度当特征只有两个状态(0,1)时,常用匹配测度。0表示无此特征 1表示有此特征。故称之为二值特征。对于给定的x和y中的某两个相应分量xi与yj若xi=1,yj=1,则称 xi与yj是 (1-1)匹配;若xi=1,yj=0,则称 xi与yj是 (1-0)匹配;若xi=0,yj=1,则称 xi与yj是 (0-1)匹配;若xi=0,y
19、j=0,则称 xi与yj是 (0-0)匹配。二、匹配测度第43页/共163页442.2 模式相似性测度第44页/共163页452.2 模式相似性测度 三、匹配测度(1)Tanimoto测度第45页/共163页46例 可以看出,它等于可以看出,它等于共同具有的特征数目共同具有的特征数目与分与分别具有的特征种类总数之比。这里只考虑别具有的特征种类总数之比。这里只考虑(1-1)(1-1)匹匹配而不考虑配而不考虑(0-0)(0-0)匹配。匹配。设则2.2 模式相似性测度第46页/共163页47现金识别例子100圆A面与其它各面的匹配系数Tanimoto第47页/共163页482.2 模式相似性测度 三
20、、匹配测度(2)Rao测度注:(1-1)匹配特征数目和所选用的特征数目之比。第48页/共163页49现金识别例子100圆A面与其它各面的匹配系数Rao第49页/共163页502.2 模式相似性测度 三、匹配测度(3)简单匹配系数注:上式分子为(1-1)匹配特征数目与(0-0)匹配特征数目之和,分母为所考虑的特征数目。第50页/共163页51现金识别例子100圆A面与其它各面的匹配系数Simple第51页/共163页522.2 模式相似性测度 三、匹配测度(4)Dice系数(5)Kulzinsky系数第52页/共163页53现金识别例子100圆A面与其它各面的匹配系数dice第53页/共163页
21、54现金识别例子100圆A面与其它各面的匹配系数Kulzinsky第54页/共163页55作业P44:2.1,2.3第55页/共163页5623 类的定义与类间距离类的定义定义之1 设集合S中任意元素xi与yj间的距离dij有 dij h其中h为给定的阀值,称S对于阀值h组成一类。类的定义有很多种,类的划分具有人为规定性,这反映在定义的选取及参数的选择上。一个分类结果的优劣最后只能根据实际来评价。书中的其它定义方法请大家自行参考学习第56页/共163页5723 类的定义与类间距离类间距离测度方法 最近距离法 最远距离法 中间距离法 重心距离法 平均距离法 离差平方和法第57页/共163页582
22、3 类的定义与类间距离类间距离测度方法 最近距离法 最远距离法 中间距离法 重心距离法 平均距离法 离差平方和法式中 表示 和 之间的距离。第58页/共163页59现金识别例子100圆A面与其它各面的最小距离第59页/共163页6023 类的定义与类间距离类间距离测度方法 最近距离法 最远距离法 中间距离法 重心距离法 平均距离法 离差平方和法式中 表示 和 之间的距离。第60页/共163页61现金识别例子100圆A面与其它各面的最大距离第61页/共163页6223 类的定义与类间距离类间距离测度方法 最近距离法 最远距离法 中间距离法 重心距离法 平均距离法 离差平方和法pqkpqkpqDk
23、qDklDkpDl第62页/共163页6323 类的定义与类间距离类间距离测度方法 最近距离法 最远距离法 中间距离法 重心距离法 平均距离法 离差平方和法np,nq分别为类p和q的样本个数第63页/共163页6423 类的定义与类间距离类间距离测度方法 最近距离法 最远距离法 中间距离法 重心距离法 平均距离法 离差平方和法第64页/共163页65现金识别例子100圆A面与其它各面的平均距离第65页/共163页6623 类的定义与类间距离类间距离测度方法 最近距离法 最远距离法 中间距离法 重心距离法 平均距离法 离差平方和法分别为对应类的重心类内离差平方和 递推公式为:第66页/共163页
24、67 最近距离法最近距离法 1/2 1/2 0 -1/2 最远距离法最远距离法 1/2 1/2 0 1/2 中间距离法中间距离法 1/2 1/2 -1/4 0 重心距离法重心距离法 0 平均距离法平均距离法 0 0 可变平均法可变平均法 0 可变法可变法 0 离差平方和法离差平方和法 0第67页/共163页6823 类的定义与类间距离聚类的准则函数判别分类结果好坏的一般标准:类内距离小,类间距离大。某些算法需要一个能对分类过程或分类结果的优劣进行评估的准则函数。如果聚类准则函数选择得好,聚类质量就会高。聚类准则往往是和类的定义有关的,是类的定义的某种体现。第68页/共163页69聚类的准则函数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 聚类分析
限制150内