(5.1)--第五章聚类大数据机器学习.pdf
《(5.1)--第五章聚类大数据机器学习.pdf》由会员分享,可在线阅读,更多相关《(5.1)--第五章聚类大数据机器学习.pdf(30页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据机器学习第五讲:聚类目录1.聚类任务描述2.性能度量3.原型聚类 K均值算法 学习向量算法4.密度聚类5.层次聚类聚类任务 无监督学习unsupervised learning 标记未知 揭示数据的内在性质和规律 应用最广的无监督学习:聚类聚类任务 聚类的形式化描述:样本集:每个样本:划分为k个不相交的簇:簇标记:聚类的结果可用包含m个元素的簇标记向量表示 聚类的重要性:其它学习任务的前驱过程;性能度量 什么样的聚类结果比较好呢?“簇内相似度”(intra-cluster similarity)高“簇间相似度”(inter-cluster similarity)低 性能度量“外部指标”(
2、external index):计数法“内部指标”(internal index):距离法性能度量“外部指标”(external index);计数 四类点对:a+b+c+d=m(m-1)/2,m为数据集的样例数性能度量“外部指标”(external index);计数 四类点对:a+b+c+d=m(m-1)/2,m为数据集的样例数 三个指标:Jaccard系数:FM指数Rand指数性能度量“内部指标”(internal index):距离法性能度量“内部指标”(internal index):距离法DB指标 DBI:Dunn指标 DI:距离计算 距离度量需满足的基本性质:非负性 同一性 对称
3、性 直递性性能度量 闵可夫斯基距离 P=2时,欧氏距离 P=1时,曼哈顿距离橙子(黄色,130g,8cm直径),如何计算距离?性能度量 有序属性 ordinal attribute Minkowski距离可计算 无序属性 non-ordinal attribute VDM(value difference metric)VDM mu,a表示在属性u上取值为a的样本数 mu,a,i表示在第i个样本簇中在属性u上取值为a的样本数 k为样本簇数,则属性u上两个离散值 a 与 b之间的 VDM 距离为性能度量 针对刚才混合属性的例子:橙子(黄色,130g,8cm直径)假设nc个有序属性、n-nc个无序
4、属性,则 样本间MinkoVDM距离为:加权距离:聚类算法 原型聚类 K均值算法 学习向量算法 高斯混合聚类(将在EM算法中详细介绍)密度聚类 层次聚类原型聚类 原型聚类prototype-based clustering 此类算法假设聚类结构能通过一组原型刻画;算法先对原型进行初始化,然后对原型进行迭代更新求解。原型聚类 K均值算法 给定样本集D=x1,x2xm;聚类得到的簇划分C=C1,C2Ck 最小化平方误差:为簇i的均值向量;E值越小则簇内样本相似度越高;问题:最小化E,实际需要样本集 D 所有可能的簇划分,NP难问题;贪心策略的迭代优化方法求解;K均值算法 输入:样本集D=x1,x2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 5.1 第五 章聚类大 数据 机器 学习
限制150内