第17章 潜在语义分析.pptx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《第17章 潜在语义分析.pptx》由会员分享,可在线阅读,更多相关《第17章 潜在语义分析.pptx(49页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、,第十七章潜在语义分析,潜在语义分析,潜在语义分析((latent semantic analysis, LSA)是一种无监督学习方法,主要用于文本的话题分析 通过矩阵分解发现文本与单词之间的基于话题的语义关系 文本信息处理中,传统的方法以单词向量表示文本的语义内容,以单词向量空间的度量表示文本之间的语义相似度。 潜在语义分析旨在解决这种方法不能准确表示语义的问题,试图从大量的文本数据中发现潜在的话题,以话题向量表示文本的语义内容,以话题向量空间的度量更准确地表示文本之间的语义相似度。这也是话题分析(topic modeling)的基本想法。,潜在语义分析,潜在语义分析使用的是非概率的话题分析
2、模型。 具体地,将文本集合表示为单词-文本矩阵,对单词-文本矩阵进行奇异值分解,从而得到话题向量空间,以及文 在话题向量空间的表示。 奇异值分解特点是分解的矩阵正交 非负矩阵分解(non-negative matrix factorization, NMF)是另一种矩阵的因子分解方法,其特点是分解的矩阵非负 非负矩阵分解也可以用于话题分析,单词向量空间,文本信息处理,比如文本信息检索、文本数据挖掘的一个核心问题是对文本的语义内容进行表示,并进行文本之间的语义相似度计算。 最简单的方法是利用向量空间模型(vector space model, VSM),也就是单词向量空间模型(word vect
3、or space model)。 向量空间模型的基本想法是,给定一个文本,用一个向量表示该文本的“语义” 向量的每一维对应一个单词,其数值为该单词在该文本中出现的频数或权值 基 本假设是文本中所有单词的出现情况表示了文本的语义内容 文本集合中的每个文本都表示为一个向量,存在于一个向量空间 向量空间的度量,如内积或标准化内积表示文本之间的“语义相似度”。,单词向量空间,给定一个含有n个文本的集合 ,以及在所有文本中出现的m个单词的集合 。 将单词在文本中出现的 数据用一个单词-文本矩阵(word-document matrix)表示,记作X,单词向量空间,这是一个 m x n 矩阵,元素 xij
4、 表示单词 wi 在文本.dj 内中出现的频数或权值。 由于单 词的种类很多,而每个文本中出现单词的种类通常较少,所以单词-文本矩阵是一个稀疏矩阵。,单词向量空间,权值通常用单词频率-逆文本频率(term frequency-inverse document frequency, TF-IDF)表示,其定义是 tfij:单词 wi 出现在文本 dj 中的频数 :是文本 dj 中出现的所有单词的频 数之和 dfi:含有单词 wi 的文本数 df: 是文本集合D的全部文本数,单词向量空间,直观上,一个 单词在一个文本中出现的频数越高,这个单词在这个文本中的重要度就越高 一个单 词在整个文本集合中出
5、现的文本数越少,这个单词就越能表示其所在文本的特点,重要度就越高 一个单词在一个文本的TF-IDF是两种重要度的积,表示综合重要度,单词向量空间,单词向量空间模型直接使用单词-文本矩阵的信息。单词-文本矩阵的第j列向量 xj 表示文本 dj xij :单词 wi 在文本 dj 的权值 权值越大,该单词在该文本中的重要度就越高,单词向量空间,两个单词向量的内积或标准化内积(余弦)表示对应的文本之间的语义相似度 因此,文本 di 与 dj 之间的相似度为 直观上,在两个文本中共同出现的单词越多,其语义内容就越相近,对应的单词向量同不为零的维度就越多,内积就越大(单词向量元素的值都是非负的),表示两
6、个文本在语义内容上越相似,单词向量空间,单词向量空间模型 模型简单 计算效率高 有局限性,内积相似度未必能够准确表达两个文本的语义相似度 一词多义性(polysemy) 多词一义性(synonymy),例,单词向量空间模型中,文本 d1 与 d2 相似度并不高,尽管两个文本的内容相似, 这是因为同义词“airplane”与“aircraft” 被当作了两个独立的单词,单词向量空间模型 不考虑单 的同义性,在此情况下无法进行 准确的相似度计算。,例,文本 d3 与 d4 有一定的相似度,尽管两个 文本的内容并不相似,这是因为单词 “apple”具有多义,可以表示 “apple computer”
7、和“fruit, 单词向量空间模型不考虑单词的多义性, 在此情况下也无法进行准确的相似度计算。,话题向量空间,两个文本的语义相似度可以体现在两者的话题相似度上 一个文本一般含有若干个话题。 如果两个文本的话题相似,那么两者的语义应该也相似 话题可以由若干个语义相关的单词表示,同义词(如“airplane”与“aircraft)可以表示同一个话题,而多义词(如“apple)可以表示不同的话题。 这样,基于话题的模型就可以解决上述基于单 词的模型存在的问题。,话题向量空间,设想定义一种话题向量空间模型(topic vector space model) 给定一个文本,用话题空间的一个向量表示该文本
8、,该向量的每一分量对应一个话题,其数值为该话题在该文本中出现的权值 用两个向量的内积或标准化内积表示对应的两个文本的语义相似度 注:单词向量空间模型与话题向量空间模型可以互为补充,现实中,两者可以同时使用。,话题向量空间,给定一个文本集合和一个相应的单词集合 。可以获得其单词-文本矩阵X,X构成原始的单词向量空间,每一列是一个文本 在单词向量空间中的表示 矩阵X也可以写作,话题向量空间,假设所有文本共含有k个话题。假设每个话题由一个定义在单词集合W上的m维向量表示,称为话题向量,即 til:单词 wi 在话题 tl 的权值,权值越大,该单词在该话题中的重要度就越高 k个话题向量张成一个话题向量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第17章 潜在语义分析 17 潜在 语义 分析
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内