【技术干货】自然语言语义相似度计算方法.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《【技术干货】自然语言语义相似度计算方法.docx》由会员分享,可在线阅读,更多相关《【技术干货】自然语言语义相似度计算方法.docx(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【技术干货】自然语言语义相似度计算方法 网络转载 导语:总体来看,文本相似度的计算方法主要分为两大类:一类是基于统计学的计算方法,此种方法需要大规模的语料库,并且在计算时没有考虑文本的句子构造信息和语义信息,计算的结果有时会与人对自然语言的理解不相符合;另一类是基于语义理解的计算方法,这种方法不需要大规模的语料库,但需要依赖于具有层次构造关系的语义词典,计算结果相对准确,与人对自然语言的理解较为符合。 计算机对主观题的自动评阅准确与否,主要取决于其对文本相似度的是否准确。由于文本相似度计算在文档复制检查、信息检索和机器翻译等领域都有特别广泛的应用,所以,近年来有越来越多的学者致力于文本相似度算
2、法的研究。总体来看,文本相似度的计算方法主要分为两大类:一类是基于统计学的计算方法,此种方法需要大规模的语料库,并且在计算时没有考虑文本的句子构造信息和语义信息,计算的结果有时会与人对自然语言的理解不相符合;另一类是基于语义理解的计算方法,这种方法不需要大规模的语料库,但需要依赖于具有层次构造关系的语义词典,计算结果相对准确,与人对自然语言的理解较为符合。下面介绍几种经典的文本相似度计算方法,并对他们各自的性能进展扼要的分析。 1、基于向量空间模型的方法 向量空间模型简称VSM,是VectorSpaceModel的缩写,是近些年使用效果较好、且应用较为广泛的一种信息检索模型。在此模型中,文本被
3、看作是由一系列互相独立的词语组成的,假设文档D中包含词语t1,t2,tN,那么文档表示为Dt1,t2,tN。由于文档中词语对文档的重要程度不同,并且词语的重要程度对文本相似度的有很大的影响,因此可对文档中的每个词语赋以一个权值w,以表示该词的权重,其表示如下:Dt1,w1;t2,w2;,tN,wN,可简记为Dw1,w2,wN,此时的wk即为词语tk的权重,1kN。这样,就把文本表示成了向量的形式,同时两文本的相似度问题也就可以通过两向量之间的夹角大小来计算了,夹角越大,两文本的相似度就越低。 基于向量空间模型的方法假设文本中的词语是互相独立的,因此可以用向量的形式来表示,这种表示方法简化了文本
4、中词语之间的复杂关系,也使得文本的相似程度变得可以计算了。向量表示方法中词语的权值应该可以显示出该词语对整个文本的重要程度,一般用经过统计得到的词频来表示;向量的所有分量组合在一起,应该可以将此文本与其他文本区分开。 大量统计结果说明,文本中出现次数最多的词语往往是反映句子语法构造的虚词和文本作者想要阐述某个问题时所用的核心词,假如是围绕同一核心问题的文本,其核心词汇应该是类似的,所以这两类词对文本相似度的都是没有用的。因此,最高频词和低频词都不适宜做文本的特征词,只有词频介于最高频和低频之间的这局部词汇才合适做特征词。 在文本中出现频率较高的词语应该具有较高的权值,因此,在计算词语对文本的权
5、重时,应考虑词语在文本中的出现频率,记为tf。仅考虑这一项为哪一项不够的,假如某一词语不仅在一个文本中出现,而是在文本集中的很多个文本中都有出现,例如“的字在中文文本中的出现频率应该是相当高的,但它对于我们区分各个文本是没有帮助的,也就是讲,这样的词语是不具备鉴别才能的。因此,在计算词语权重时还应考虑词语的文档频率df,即含有该词的文档数量。由于词语的权重与文档频率成反比,又引出与文档频率成反比关系的倒置文档频率idf,其计算公式为idf=logN/n其中N为文档集中全部文档的数量,n为包含某词语的文档数。由此得出特征词t在文档D中的权重weight(t,D)=tf(t,D)*idf(t)。用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 技术干货 技术 干货 自然语言 语义 相似 计算方法
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内