第10章-聚类与集成算法ppt课件.pptx
《第10章-聚类与集成算法ppt课件.pptx》由会员分享,可在线阅读,更多相关《第10章-聚类与集成算法ppt课件.pptx(23页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、10.聚类与集成算法聚类(Clustering)在“无监督学习”任务中研究最多、应用最广目标:将数据样本划分为若干个通常不相交的“簇” (cluster)既可以作为一个单独过程(用于找寻数据内在的分布结构)也可作为分类等其他学习任务的前驱过程性能度量聚类性能度量,亦称聚类“有效性指标” (validity index)外部指标 (external index)将聚类结果与某个“参考模型”(reference model) 进行比较如 Jaccard 系数, FM 指数,Rand 指数内部指标 (internal index)直接考察聚类结果而不用任何参考模型如 DB 指数, Dunn 指数等基
2、本想法: “簇内相似度” (intra-cluster similarity)高,且 “簇间相似度” (inter-cluster similarity)低距离计算距离度量 (distance metric) 需满足的基本性质:常用距离形式:闵可夫斯基距离 (Minkowski distance)p = 2: 欧氏距离(Euclidean distance)p = 1: 曼哈顿距离(Manhattan distance)距离计算 (续) 对 无序 (non-ordinal)属性 ,可使用 VDM(Value Difference Metric)令表示属性 u 上取值为 a 的样本数,表示在第
3、i 个样本簇中在属性 u 上取值为 a 的样本数,k 为样本簇数,则属性 u 上两个离散值 a 与 b 之间的 VDM 距离为 对 混合属性 ,可使用 MinkovDM必须记住聚类的“好坏”不存在绝对标准the goodness of clustering depends onthe opinion of the user故事一则聚类的故事:老师拿来苹果和梨,让小朋友分成两份。小明把大苹果大梨放一起,小个头的放一起,老师点头,恩,体量感。小芳把红苹果挑出来,剩下的放一起,老师点头,颜色感。小武的结果?不明白。小武掏出眼镜:最新款,能看到水果里有几个籽,左边这堆单数,右边双数。老师很高兴:新的聚
4、类算法诞生了聚类也许是机器学习中“新算法”出现最多、最快的领域总能找到一个新的“标准”,使以往算法对它无能为力常见聚类方法 原型聚类亦称“基于原型的聚类”(prototype-based clustering)假设:聚类结构能通过一组原型刻画过程:先对原型初始化,然后对原型进行迭代更新求解代表:k均值聚类,学习向量量化 (LVQ),高斯混合聚类 密度聚类亦称“基于密度的聚类” (density-based clustering)假设:聚类结构能通过样本分布的紧密程度确定过程:从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇代表:DBSCAN, OPTICS, DENCL
5、UE 层次聚类 (hierarchical clustering)假设:能够产生不同粒度的聚类结果过程:在不同层次对数据集进行划分,从而形成树形的聚类结构代表: AGNES (自底向上),DIANA (自顶向下)k-means每个簇以该簇中所有样本点的“均值”表示Step1: 随机选取k个样本点作为簇中心Step2: 将其他样本点根据其与簇中心的距离,划分给最近的簇Step3: 更新各簇的均值向量,将其作为新的簇中心Step4: 若所有簇中心未发生改变,则停止;否则执行 Step 2若不以均值向量为原型,而是以距离它最近的样本点为原型,则得到 k-medoids算法高斯混合聚类(Gausian
6、 Mixture Clustering, GMM) 根据定义的先验分布选择高斯混合成分,其中为选择第 i 个混合成分的概率; 然后,根据被选择的混合成分的概率密度函数进行采样,从而生成相应的样本采用概率模型来表达聚类原型n 维样本空间中的随机向量 x 若服从高斯分布,则其概率密度函数为假设样本由下面这个高斯混合分布生成:生成式模型高斯混合聚类(续)样本 xj 由第 i 个高斯混合成分生成的后验概率为:简记为参数估计可采用极大似然法,考虑最大化对数似然EM 算法: (E步 ) 根据当前参数计算每个样本属于每个高斯成分的后验概率 (M步 ) 更新模型参数集成学习(Ensemble learning
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 10 集成 算法 ppt 课件
限制150内