2022年多特征融合的相似度计算 .pdf
《2022年多特征融合的相似度计算 .pdf》由会员分享,可在线阅读,更多相关《2022年多特征融合的相似度计算 .pdf(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于多特征融合的句子相似度计算1赵妍妍1,2秦兵1,2刘挺1,2张俐2,3苏中2,3(1哈尔滨工业大学计算机学院信息检索研究室哈尔滨 150001;2哈尔滨工业大学-IBM 中国研究实验室哈尔滨 150001;3 IBM 中国研究中心北京 100085)摘要:句子相似度计算在中文自然语言处理领域有着非常广泛的应用背景。本文通过对句子的深入分析,在分别对基于句子的词特征,词义特征以及句法特征的句子相似度计算的基础上,提出一种基于多特征融合的句子相似度的计算方法。该方法通过对不同的特征加不同的权值来调节各个特征对相似度计算的贡献,从而使计算结果达到最优。该方法与其他方法相比,描述句子的信息更加全面
2、,从而使句子相似度计算更加准确。关键词:句子相似度计算;多特征融合;权值Sentence Similarity Computing Based on Multi-Features Combination Yanyan Zhao1,2 Bing Qin1,2 Ting Liu1,2 Li Zhang2,3 Zhong Su2,3(1.Information Retrieval Laboratory School of Computer Science and Technology Harbin Institute of Technology Harbin 150001;2.Harbin Inst
3、itute of Technology IBM China Research Laboratory Harbin 150001;3.IBM China Research Lab Beijing 100085)Abstract:Sentence similarity computing has been widely used in the field of natural language processing.Through the in-depth analysis of sentence and the sentence similarity computing method based
4、 on the keywords feature,the semantic feature and the syntactic feature,we propose a new method based on the multi-features combination.Using the weight to describe the contribution of each feature of the sentence,then we can get a better experiment result.Comparing to other sentence similarity comp
5、uting methods,our method can fully describe the features of the sentence,and then we can get the more accurate result.KeyWords:sentence similarity computing;multi-features combination;weight 1基金资助:本文得到国家自然科学基金重点项目(60435020)资助。作者简介:赵妍妍(1983),女,本科四年级学生,研究方向为多文档自动文摘。秦兵(1968),女,副教授,硕士生导师。刘挺(1972),男,教授,硕
6、士生导师。名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 8 页 -0 引言在自然语言处理研究领域,句子相似度计算是一项应用非常广泛的技术,并且发挥着重要的作用。例如:在信息检索中通过句子相似度计算找到与用户需求相似的句子;在基于实例机器翻译中通过句子相似度计算匹配相似的句子,得到需要的译文;在问答系统中通过句子相似度计算找到与问题相匹配的答案;在自动文摘系统中通过句子相似度计算去处冗余信息,抽取文摘句等等。随着这些领域的迅速发展,句子相似度的计算也诞生了许多方法。不同方法很大程度上依赖于汉语句子的不同表示形式1。目前研究句子相似度的方法有基于关键词的方法,使用语义词典的方法2,
7、3,使用语义依存的方法4,11,计算编辑距离的方法5,6,基于语境框架的方法7,基于属性论的方法8以及基于统计的方法9等等。但归结起来可概括为三类方法:基于词特征的句子相似度计算,基于词义特征的句子相似度计算以及基于句法分析特征的句子相似度计算。同时,这三类方法也反映出了句子的三个重要特征:词特征、词义特征、以及句法特征。但是,这三类方法也都存在着自身的缺点,比如:基于词特征的方法没有考虑词的深层含义;词义特征的方法由于词典的不全面和一些未登录词的语义代码的缺失,也给计算带来了一定的误差;而句法分析的方法由于没有考虑全面所有的句法特征而带来了一些误差,因此我们考虑到将其特征信息进行融合,可以扬
8、长避短,更加全面、准确地衡量句子之间的相似度。本文提出的多特征融合的方法进行句子相似度计算,使这三种特征在表达句子信息时各有侧重,互为补充,取得了较好的实验结果。本文的第一部分分析并提出句子的描述模型,第二部分具体介绍基于各个特征的相似度计算方法,第三部分提出多特征融合的具体算法思想,第四部分给出评价方法和测试结果,第五部分给出结论。1 句子的描述模型完整的表达一个句子的信息,不但依赖于组成句子的词汇的信息,而且还包含词汇之间的关系。本论文将从句子结构信息和组成句子的词汇信息进行研究,力求将句子的内部信息尽可能准确的刻画出来,以便更精确的进行句子相似度计算。一个对象可以从线性,平面和立体三个角
9、度来描述,对应于空间描述即为一维,二维,三维。当然维数越高,对象的描述信息越全面准确。如果按照词序列表示句子,是一维线性空间;如果句子中的每个向量按照义元来表达,相当于二维空间;如果再加上句法分析的过程,就已不是单纯看物理位置,而是从空间位置考虑,相当于三维空间。三种形式相比较,从三维的角度描述句子类似于全息照片,可以使句子包含的信息更准确,更全面的表示出来。如图 1 所示:Y(词义信息特征)句子Z(句法信息特征)X(词特征)名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 8 页 -其中,X 轴表示词序列,Y 轴表示每个词的词义信息(即用有限的义元表示每个词的深层信息),Z 轴表
10、示每个词句法上的依存关系。2 基于句子不同特征的相似度计算通过对句子的深入分析,本文将句子的特征概括为三个侧面:词特征向量、词义特征信息和句法特征信息。下面我们分别对基于这三个特征的句子相似度的计算方法进行具体描述。2.1 基于关键词特征的句子相似度计算基于关键词特征的句子相似度计算,就是通过利用两个句子中所有有效词(去掉停用词)来构成向量空间,然后计算两个句子的向量,利用这两个向量夹角的余弦值作为句子相似度。任给两个句子S1和 S2,它们的所有有效词构成的向量空间为V=X1,X2,X3,Xn,其中Xi为有效词。句子S1的向量 V1=1,2,3,,n,其中 i为有效词Xi在句子 S1中出现的次
11、数。句子S2的向量 V2=1,2,3,n,其中 i为有效词Xi在句子 S2中出现的次数。则两个句子的相似度为:=?=?=?=niiniiniiiVVSSSimilarity1212121)2,1(?10(1)这种方法只是简单的利用了词表面信息,对于一些内容相关性较小的语料效果较好。但是这种方法没有考虑词本身的词义信息以及句子的句法信息。比如:“我爱吃土豆”和“我喜欢吃马铃薯”,就不能被识别为相同的句义,因此具有一定的局限性。2.2 基于词义距离的句子相似度计算基于词义距离的句子相似度计算,需要一定的词义知识资源作为基础。本文采用了哈尔滨工业大学信息检索实验室的同义词词林扩展版作为系统的词义知识
12、资源。计算句子之间的词义相似度,要确定句子中的词在这个句子中所表达的词义。本文中把词义距离定义为两个词对应的义元在义元树中的最短距离。因此首先采用了词义消歧,然后进行词义距离的计算。具体方法如下:设 2 个句子 A 和 B,A 包含的词为1A、2A、mA,B包含的词为1B、2B、nB,则词()miAi1和()njBj1之间的相似度可用()jiBAs,来表示,这样就得到两个句子中任意 2 个词的相似度,A,B 句子之间的语义相似度),(BAs为 图 1 句子的全信息分析图名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 8 页 -=),(BAs2/)(11nbmaniimii=+(2
13、)式中:),(),.,(),(max(21niiiiBAsBAsBAsa=),(),.,(),(max(21niiiiABsABsABsb=在相似度计算时,该种方法充分考虑了句子中每个词的深层信息,使表面不同,深层意义相同的词被挖掘出来。例如:在问答系统中,对问题“西红柿是什么颜色的?”的答案查找过程中,有一个句子为“番茄是红色的。”,就可以根据词义信息匹配上,而基于关键词特征的相似度计算就不可识别。但由于词典的不全面和一些未登录词的词义代码的缺失,也给计算带来了一定的误差。2.3 基于依存对的句子相似度计算一个完整的汉语句子是由句子的主干成分和修饰成分所构成,而人们往往从主干成分就可以了解一
14、个句子的大概意思,所以我们在利用依存结构进行相似度计算时,只考虑那些有效搭配对之间的相似程度。所谓有效搭配对是指全句核心词和直接依存于它的有效词组成的搭配对,这里有效词定义为动词、名词以及形容词,它是由分词后的词性标注决定的。全句核心词即为依存树的根结点。例如以下两个句子间的比较:例句 1 事发后,伤员被及时送往就近医院救治。例句 2 晚上 7 时左右,所有伤员被送到了医院。从上图可以看出,图 2 和图 3 中标记为斜体的词就可以代表各自句子的主要意思,所以句子 1 的有效搭配对为:送往 _伤员、送往 _医院、送往 _救治。句子2 的有效搭配对为:送到_伤员、送到 _医院。我们只要比较它们之间
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年多特征融合的相似度计算 2022 特征 融合 相似 计算
限制150内