机器学习中距离与相似度度量ppt课件.ppt
《机器学习中距离与相似度度量ppt课件.ppt》由会员分享,可在线阅读,更多相关《机器学习中距离与相似度度量ppt课件.ppt(21页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用机器学习中距离和相似度计算方法机器学习中距离和相似度计算方法经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距
2、离函数d(x,y),需要满足下面几个基本准则基本准则:1)d(x,x)=0/到自己的距离为02)d(x,y)=0/距离非负3)d(x,y)=d(y,x)/对称性:如果A到B距离是a,那么B到A的距离也应该是a4)d(x,k)+d(k,y)=d(x,y)/三角形法则:(两边之和大于第三边)经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用即:所有点的对应维度之差的平方的求和再开方。欧式距离相似度算法需要保证各个维度指标在相同的刻度级别,比如对身高、体重两个单位不同的指标使用欧氏距离可能使结果失效。欧式距离欧式距离经营
3、者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用曼哈顿距离来源于城市区块距离,是将多个维度上的距离进行求和后的结果曼哈顿距离曼哈顿距离经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用切比雪夫距离(Chebyshevdistance)是向量空间中的一种度量,二个点之间的距离定义为其各坐标数值差的最大值。从一个位置走到其他位置需要的步数恰为二个位置的切比雪夫距离,因此切比雪夫距离也切比雪夫距离也称为棋盘距离称为棋盘距离。切比雪夫距离切比雪夫
4、距离经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用闵可夫斯基距离闵可夫斯基距离(Minkowskidistance)不是一种距离,而是一组距离的定义。该距离最常用的p是2和1,无穷大P=2是欧几里得距离欧几里得距离(Euclideandistance),P=1是曼哈顿距离曼哈顿距离(Manhattandistance)。当p趋近于无穷大时,闵可夫斯基距离转化成切比雪切比雪夫距离夫距离(Chebyshevdistance)闵可夫斯基距离闵可夫斯基距离经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿
5、其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用缺点:缺点:举个栗子举个栗子二维样本(身高,体重),其中身高范围是150190,体重范围是5060,有三个样本:a(180,50),b(190,50),c(180,60)。那么a与b之间的闵氏距离(无论是曼哈顿距离、欧氏距离或切比雪夫距离)等于a与c之间的闵氏距离,但是身高的10cm等价于体重的10kg吗?因此用闵氏距离来衡量这些样本间的相似度有问题。简单说来,闵氏距离的缺点主要有两个:1.将各个分量的量纲(scale),也就是“单位”当作相同的看待了。2.没有考虑各个分量的分布(期望,方差等)可能是不同的。经营者提供商品或者服
6、务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用引入标准化欧式距离的原因是一个数据xi的各个维度之间的尺度不一样。比如v1=(100,10,30),v2=(500,40,10)。对所有维度分别进行处理,使得各个维度分别满足标准正态分布。即如果将方差的倒数看成是一个权重,这个公式可以看成是一种加权欧氏距离(WeightedEuclideandistance)。标准化欧氏距离标准化欧氏距离经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用使不同规格的数据转换
7、到同一规格标准化:标准化:对不同特征维度的伸缩变换的目的是使得不同度量之间的特征具有可比性。同时不改变原始数据的分布。特点:1、保持各个特征维度对目标函数的影响权重2、对目标函数的影响体现在几何分布上3、在已有样本足够多的情况下比较稳定。归一化(区间缩放)归一化(区间缩放):基于边界值(最大值,最小值),将值的区间缩放到某个特点的范围,如0,1特点:1、对不同特征维度进行伸缩变换2、改变原始数据的分布。使各个特征维度对目标函数的影响权重是一致的)3、对目标函数的影响体现在数值上4、把有量纲表达式变为无量纲表达式。列行经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,
8、增加赔偿的金额为消费者购买商品的价款或接受服务的费用马式距离马式距离若协方差矩阵是单位矩阵(各个样本向量之间独立同分布),则公式就成了:则Xi与Xj之间的马氏距离等于他们的欧氏距离。即:若协方差矩阵是对角矩阵,公式变成了标准化欧氏距离。标准化欧氏距离是在假设数据各个维度不相关的情况下,利用数据分布的特性计算出不同的距离。如果维度相互之间数据相关(例如:身高较高的信息很有可能会带来体重较重的信息,因为两者是有关联的),就要用到马氏距马氏距离离经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用相似度度量相似度度量相似度
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 中距离 相似 度量 ppt 课件
限制150内