相似度测度总结汇总(27页).doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《相似度测度总结汇总(27页).doc》由会员分享,可在线阅读,更多相关《相似度测度总结汇总(27页).doc(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-1 相似度测度总结汇总-第 26 页2 相似度文献总结相似度有两种基本类别:(1)客观相似度,即对象之间的相似度是对象的多维特征之间的某种函数关系,比如对象之间的欧氏距离;(2)主观相似度,即相似度是人对研究对象的认知关系,换句话说,相似度是主观认知的结果,它取决于人及其所处的环境,主观相似度符合人眼视觉需求,带有一定的模糊性13。2.1 客观相似度客观相似度可分为距离测度、相似测度、匹配测度。它们都是衡量两对象客观上的相近程度。客观相似度满足下面的公理,假设对象 A与B 的相似度判别为 ,有:(1) 自相似度是一个常量:所有对象的自相似度是一个常数,通常为 1,即(2) 极大性:所有对象的
2、自相似度均大于它与其他对象间的相似度,即(3) 对称性:两个对象间的相似度是对称的,即。(4) 唯一性:,当且仅当 。2.1.1 距离测度这类测度以两个矢量矢端的距离为基础,因此距离测度值是两矢量各相应分量之差的函数。设表示两个矢量,计算二者之间距离测度的具体方式有多种,最常用的有:2.1.1.1 欧氏距离:Euclidean Distance-based Similarity最初用于计算欧几里德空间中两个点的距离,假设 x,y 是 n 维空间的两个点,它们之间的欧几里德距离是:当x,y是两个直方图时,该方法可称为直方图匹配法。可以看出,当 n=2 时,欧几里德距离就是平面上两个点的距离。当用
3、欧几里德距离表示相似度,一般采用以下公式进行转换:距离越小,相似度越大。范围:0,1,值越大,说明d越小,也就是距离越近,则相似度越大。 说明:由于特征分量的量纲不一致,通常需要先对各分量进行标准化,使其与单位无关。欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析。优点:简单,应用广泛缺点:没有考虑分量之间的相关性,体现单一特征的多个分量会干扰结果2.1.1.2 曼哈顿距离,绝对值距离(街坊距离或 Manhattan 距离):原理:曼哈顿距离来源于城市区块距离,是将多个维度上的距离进行求和后的结果。同欧式距离相似,都是用于多维数据空间距离的测度 范围:
4、0,1,同欧式距离一致,值越小,说明距离值越大,相似度越大。 说明:比欧式距离计算量少,性能相对高。2.1.1.3 切氏(Chebyshev)距离(棋盘距离/切比雪夫距离):切比雪夫距离起源于国际象棋中国王的走法,我们知道国际象棋国王每次只能往周围的8格中走一步,那么从棋盘中A格(x1,y1)走到B格(x2,y2)最少需要走几步?2.1.1.4 明氏(Minkowski)距离/闵可夫斯基距离:可以看出,(1.1)、(1.2)、(1.3)式实际上是(1.4)式当的特殊情况。在实际中较多地使用欧氏距离。显然,在观测量的量纲取定的条件下,两个矢量越相似,距离就越小,反之亦然。值得注意的是,在使用上述
5、距离测度描述具体对象时,量纲选取不同会改变某特征的判断依据,即改变该特征对判断贡献的大小,严重的可造成错误分类。这是因为改变特征矢量某分量的量纲,进行比较的两个矢量的相应的两个分量的数值也将改变。若变小,则其相应的特征在距离测度中“影响作用比重”将变小,即根据其判断分类的作用变小,反之将增大,这样便不能很好地反映事实。马氏(Mahalanobis)距离是不受量纲影响的。2.1.1.5 马氏距离(Mahalanobis):马氏距离定义如下:设n维矢量和是矢量集中的两个矢量,它们的马氏距离 d 定义为式中,。V的含义是这个矢量集的协方差矩阵的统计量。适用场合:1) 度量两个服从同一分布并且协方差矩
6、阵为C的随机变量的差异程度2) 度量与某一类的均值向量的差异程度,判别样本的归属,此时为类均值向量。优点:1) 独立于分量量纲2) 排除了样本之间的相关性影响缺点:不同的特征不能差别对待,可能夸大弱特征2.1.1.6 汉明距离(Hamming Distance)在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。换句话说,它就是将一个字符串变换成另一个字符串所需要替换的字符个数。例如:1011101与1001001之间的汉明距离是2。2143896与2233796之间的汉明距离是3。“toned”与“roses” 之间的汉明距离是3。2.1.1.7 巴氏距离(Bhat
7、tacharyya)巴氏距离常用于计算直方图间相似度,定义如下: (1.6)其中,x、y为归一化数据向量。Bhattacharyya系数取值在01之间,越靠近1,表示两个模型之间相似度越高。如果,x、y向量未归一化,则巴氏系数的计算定义为:2.1.1.8 Hausdorff距离:Hausdorff距离(Hausdorff distance ,HD)是一种定义于两个点集上的最大最小距离,是描述两组点集之间的相似程度的一种量度,x、y之间的Hausdorff距离定义为:式中,为x到y的有向Hausdorff距离;为y到x的有向Hausdorff距离;为某种定义在点集x、y上的距离范数。常用的是欧几
8、里得范数。如果定义(表示空间中的任意点)则Hausdorff距离可定义为,这里称分别为点集y和点集x在空间中的变化距离。由于Hausdorff距离是度量两个点集之间最不匹配点的距离,因此它对远离中心的噪声、漏检点都非常敏感,而这一点,在提取图像特征点集特征时使不可避免的。为了克服这个缺点,需要对Hausdorff距离的定义进行扩展。2.1.1.9 改进的部分Hausdorff距离:为获得准确的匹配结果,Sim提出了改进的部分Hausdorff距离(LTS-HD),它是用距离序列的线性组合来定义的:式中,p为x内点的个数,为一个属于0,1的百分数。把点集x中的所有点到点集y的距离按由小到大的顺序
9、排列,将序号为1k的k个距离求和,再求平均。所以,该匹配方法不仅能消除远离中心的错误匹配点的影响,而且对零均值高斯噪声的消除能力明显。因袭,采用LTS-HD用于图像特征点集的匹配,力求在所有可能的变换空间中寻找图像特征点集之间的最优变换,以便通过使LTS-HD最小化来获得最优匹配结果。设g为变换空间T(通常由旋转矩阵R、平移变换向量t、尺度c等变换组成)中的一个变换,则最优匹配变换g0满足 (1.10)2.1.1.10 相关度距离常用于计算直方图间相似度,定义如下:2.1.1.11 卡方系数常用于计算直方图间相似度,定义如下:(备注:引自基于混合图结构的图像相似度的研究_庄小芳,2013年福建
10、师范大学硕士学位论文第一章,节)2.1.1.12 (未命名)常用于计算直方图间相似度,定义如下:其中,N表示图像颜色样点空间,比起前面几个计算公式,该式在给出图像相似度的计算中更为直接,操作也更加简便。(备注:引自基于混合图结构的图像相似度的研究_庄小芳,2013年福建师范大学硕士学位论文第一章,节)2.1.1.13 直方图相交距离直方图相交距离是常用于颜色特征相似性度量的一种方法,常用于计算直方图间相似度。如果有两幅图像,则它们的相交距离定义式如下:2.1.2 相似测度这类测度是以两矢量的方向是否相近作为考虑的基础,矢量长度并不重要,同样设。2.1.2.1 角度相似系数(夹角余弦) 原理:多
11、维空间两点与所设定的点形成夹角的余弦值。 范围:-1,1,值越大,说明夹角越大,两点相距就越远,相似度就越小。 说明:在数学表达中,如果对两个项的属性进行了数据中心化,计算出来的余弦相似度和皮尔森相似度是一样的,所以皮尔森相似度值也是数据中心化后的余弦相似度。定义:矢量之间的相似度可用它们的夹角余弦来度量。两个矢量x和 y 的夹角余弦定义如下:与欧几里德距离类似,基于余弦相似度的计算方法也是把特征点作为n-维坐标系中的一个点,通过连接这个点与坐标系的原点构成一条直线(向量),两个特征点之间的相似度值就是两条直线(向量)间夹角的余弦值。因为连接代表特征点与原点的直线都会相交于原点,夹角越小代表两
12、个特征越相似,夹角越大代表两个特征的相似度越小。同时在三角系数中,角的余弦值是在-1, 1之间的,0度角的余弦值是1,180角的余弦值是-1。借助三维坐标系来看下欧氏距离和余弦相似度的区别:从图上可以看出距离度量衡量的是空间各点间的绝对距离,跟各个点所在的位置坐标(即个体特征维度的数值)直接相关;而余弦相似度衡量的是空间向量的夹角,更加的是体现在方向上的差异,而不是位置。如果保持A点的位置不变,B点朝原方向远离坐标轴原点,那么这个时候余弦相似度cos是保持不变的,因为夹角不变,而A、B两点的距离显然在发生改变,这就是欧氏距离和余弦相似度的不同之处。应用:Cosine 相似度被广泛应用于计算文档
13、数据的相似度及数据挖掘类工作:特点:余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。它对于坐标系的旋转和尺度的缩放是不变的(因矢量的长度已规格化),但对一般的线性变换和坐标系的平移不具有不变性。2.1.2.2 调整余弦相似度 Adjusted Cosine Similarity在余弦相似度的介绍中说到:余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感。因此没法衡量每个维数值的差异,会导致这样一个情况:比如用户对内容评分,5分制,X和Y两个用户对两个内容的评分分别为(1,2)和(4,5),使
14、用余弦相似度得出的结果是,两者极为相似,但从评分上看X似乎不喜欢这两个内容,而Y比较喜欢,余弦相似度对数值的不敏感导致了结果的误差,需要修正这种不合理性,就出现了调整余弦相似度,即所有维度上的数值都减去一个均值,比如X和Y的评分均值都是3,那么调整后为(-2,-1)和(1,2),再用余弦相似度计算,得到,相似度为负值并且差异不小,但显然更加符合现实。应用:调整余弦相似度和弦相似度,皮尔逊相关系数在推荐系统中应用较多。在基于项目的推荐中GroupLens有篇论文结果表明调整余弦相似度性能要由于余弦相似度和皮尔逊相关系数。2.1.2.3 相关系数 它实际上是数据中心化后的矢量夹角余弦。此处将 ,
15、视作两个数据集的样本,和 分别是这两个数据集的平均矢量。相关系数对于坐标系的平移、旋转和尺度缩放是不变的。(备注:该节引自 项德良【SAR 图像相似度评估技术研究】,2012年国防科大硕士论文节。)2.1.2.4 指数相似系数 指数相似系数定义如下:式中, 为相应分量的方差,n为矢量维数。它不受量纲变化的影响。从函数的构造上看属于距离方式(类似于马氏距离),但从测度值和相似关系看属于相似测度。(备注:该节引自 项德良【SAR 图像相似度评估技术研究】,2012年国防科大硕士论文节。)2.1.2.5 对数似然相似度Ted Dunning在1993年提出一种对数似然比的概念,主要应用于自然文本语言
16、库中两个词的搭配关系问题。它是基于这样一种思想,即统计假设可以确定一个空间的很多子空间,而这个空间是被统计模型的位置参数所描述。似然比检验假设模型是已知的,但是模型的参数是未知的。二项分布的对数似然比对于二项分布的情况,似然函数为 (1.1)式中:的统计模型,试验结果的参数。给定模型的参数。假设二项分布有相同的基本参数集合,那么对数似然比就是 (1.2)式中:当取得某值时,统计模型的最大值。当时,分母取得最大值。当时,分子取得最大值。所以对数似然比简化为 (1.3)式中:二项分布,实验重复的次数,某事发生的概率,该事件发生的次数,。两边取对数可以将对数似然比的公式变形为:由于二项分布的对数似然
17、比能够合理的描述两个事物的相似模型,所以常用对数似然比来计算两个事物(用户或物品)的相似度。对数似然相似度基于两个用户共同评估过的物品数目,但在给定物品总数和每个用户评价的情况下,其最终结果衡量的是两个用户有这么多共同物品的“不可能性”,它是一种不考虑具体偏好值的方法。比如在用户物品偏好的二维矩阵中,我们可以将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度,或者将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度。备注:引自张明敏,张功萱对数似然相似度算法的MapReduce并行化实现计算机工程与设计2015,36卷,第5期。2.1.2.6 Levenshtein 距离,又
18、称编辑距离两个字符串(链)的相似度可以用Levenshtein距离(Levenshtein distance)表示,该距离定义为将一个串变为另一个串所需的最小操作步数,可能的操作有删除、插入、替换Schlesinger and Hlavac ,2002。还可以给字符串元素变换赋一个变换代价,从而使计算得到的相似度(距离)更灵活,更敏感。同样的原理也可以用在图相似度的计算上。下定义可能的结点和弧的变换(删除、插入、替换、重新标注)集合,再给每种变换赋一个变换代价。任一变换序列的代价用单个步骤代价的组合表示(类似代价步骤的和)。将一个图变为另一个图的所有变换集合中具有最小代价值的那个集合就定义了这
19、两幅图间的距离Niemann,1990。用途:常用于字符串距离,类似可用于计算图的距离备注:引用于图像处理、分析与机器视觉(第三版)Milan Sonka ,Vaclav Hlavac, Roger Boyle著,艾海舟,苏延超译P298,9.5.2 图的相似度2.1.2.7 统计相关系数-皮尔逊相关系数(Pearson Correlation Coefficient)皮尔逊相关也称积差相关(积矩相关),即相关分析中的相关系数,分别对基于自身总体标准化后计算余弦向量的标准夹角。是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法。皮尔逊相关系数一般用来反映两个变量线性相关程度,它的取值在
20、 -1,+1 之间。相关系数的绝对值越大,相关性越强。假设有两个变量,那么;两个变量间的皮尔逊相关系数可以通过以下公式计算:公式一:公式二:公式三:公式四:以上列出四个公式等价,其中E是数学期望,cov表示方差,N表示变量取值的个数。适用范围:当两个变量对的标准差都不为0时,相关系数才有定义,皮尔逊系数适用于:(1) 两个变量之间是线性关系,都是连续数据(2) 两个变量的总体是正态分布,或接近正态的单峰分布(3) 两个变量的观测值是成对的,每对观测值之间互相独立特点:(1)当两个变量的线性关系增强时,相关系数趋于1或-1;(2)当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系
21、数大于0;(3)如果一个变量增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于0;(4)如果相关系数等于0,表明它们之间不存在线性相关关系。2.1.2.8 统计相关系数-斯皮尔曼相关(Spearman秩相关)系数-Spearman Correlation(1) 简介在统计学中,斯皮尔曼等级相关系数以Charles Spearman命名,并经常用希腊字母表示其值。斯皮尔曼等级相关系数用来估计两个变量之间的相关性,其中变量间的相关性可以用单调函数来描述。如果两个变量取值的两个集合中均不存在相同的两个元素,那么,当其中一个变量可以表示为另一个变量的很好的单调函数时(即两个变量的变化趋势相同
22、),两个变量之间的可以达到+1或-1。假设两个随机变量分别为(也可以看做是两个集合),它们的元素个数均为N,两个随机变量取的第个值分别用表示。对进行排序(同为升序或降序),得到两个元素排行集合,其中元素分别为在中的排行以及在中的排行。将集合中的元素对应相减得到一个排行差分集合d,其中,。随机变量之间的斯皮尔曼等级相关系数可由或d计算得到,其计算方式如下:公式一:由排行差分集合d计算而得():公式二:由排行集合计算而得(斯皮尔曼等级相关系数同时也被认为是经过排行的两个随机变量的皮尔逊相关系数,以下实际是计算的皮尔逊相关系数):以下是一个计算集合中元素排行的例子(仅适用于斯皮尔曼等级相关系数的计算
23、)变量元素的位置(依降序排列)变量的排行()154453(2+3)2(2+3)1011这里需要注意:当变量的两个值相同时,它们的排行是通过对它们的位置进行平均得到的。(2) 适用范围斯皮尔曼等级相关系数对数据条件的要求没有皮尔逊相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的整体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关系数来进行研究。原理:Spearman秩相关系数通常被认为是排列后的变量之间的Pearson线性相关系数。 (3)取值范围:-1.0,1.0,当一致时为1.0,不一致时为-1.0。 (4)说明:计算非
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 相似 测度 总结 汇总 27
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内