基于PLSA模型的文本分割.doc
《基于PLSA模型的文本分割.doc》由会员分享,可在线阅读,更多相关《基于PLSA模型的文本分割.doc(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、本文受到国家“九七三”重点基础研究发展规划项目基金(2002CB), 国家自然科学基金(), 中国科学院软件研究所创新工程重大项目资助基于LDA模型的文本分割石晶1 ,胡明1, 戴国忠21(长春工业大学 计算机科学与工程学院,长春 )2(中国科学院 软件研究所 人机交互技术与智能信息处理实验室,北京 )Text Segmentation Based on Model LDASHI Jing and DAI Guozhong(Computer Human Interaction and Intelligent Information Processing Laboratory, Institut
2、e of Software , The Chinese Academy of Sciences ,Beijing ,China)Abstract Text segmentation is very important for many fields including information retrieval, summarization, language modeling, anaphora resolution and so on .Text segmentation based on LDA models corpora and texts with LDA. Parameters
3、are estimated with Gibbs sampling of MCMC and the word probability is represented. Different latent topics are associated with observable words. In the experiments, Chinese whole sentences are taken as elementary blocks. Variety of similarity metrics and several approaches of discovering boundaries
4、are tried. The best results show the right combination of them can make the error rate far lower than other algorithms of text segmentation.Key words text segmentation; Model Latent Dirichlet Allocation(LDA); similarity metric; boundaries discovering摘要 文本分割在信息提取、文摘自动生成、语言建模、首语消解等诸多领域都有极为重要的应用。基于LDA模
5、型的文本分割以LDA为语料库及文本建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,获取词汇的概率分布,使隐藏于片段内的不同主题与文本表面的字词建立联系。实验以汉语的整句作为基本块,尝试多种相似性度量手段及边界估计策略,其最佳结果表明二者的恰当结合可以使片段边界的识别错误率远远低于其他同类算法。关键词 文本分割;LDA模型;相似性度量;边界识别中图法分类号TP301文本分割是指在一个书面文档或语音序列中自动识别具有独立意义的单元(片段)之间的边界,其分割对象可以是语音流,网络动态数据,或者书面静态文本。这种预处理在很多领域都有极为重要的应用,比如信息提取、文摘自动生成、文本解析、
6、语言建模、文本导航以及首语消解等。目前常用的分割方法大致基于如下几种思想:假定相同、相似或语义相关的词汇倾向于出现在同一片段内1,2;认为特定的语言现象,比如提示短语、停顿标记、韵律特征、指代、句法及词汇的形态同化等与片段首尾隐含某种必然联系3,4;相信合适的概率统计模型能够为片段边界的估计提供可靠依据5,6。对于第三种方法,选择合适的模型是保证分割效果的关键。文献6采用PLSA模型,但模型中的文档概率值与特定文档相关,因此缺乏处理新文档的自然方法。同时待估参数的数量随着文档数量的增多线性增长,说明模型易于过度拟合。与PLSA模型相比,LDA(Latent Dirichlet Allocati
7、on)7称得上是完全的生成模型。由于该模型将主题混合权重视为k维参数的潜在随机变量,而非与训练数据直接联系的个体参数集合,推理上采用Laplace近似,变分近似,MCMC(Markov chain Monte Carlo)8以及期望-扩散(expectation-propagation)9等方法获取待估参数值,所以克服了PLSA的不足。本文介绍的分割方法即以LDA为语料库及文本建模,利用MCMC中的Gibbs抽样近似估算模型参数,获取词汇的概率分布。以汉语的整句作为分割的基本块,除了尝试多种相似性度量手段,还尝试不同的边界识别策略。实验表明,最佳结果(不考虑常数法识别边界的情况)的错误率远远低
8、于其他同类算法。近几年,LDA模型、LDA的扩展模型以及它们在自然语言和智能信息处理中的应用得到充分的重视和深入的研究,扩展模型包括空间LDA模型10,作者-角色-主题模型11等;应用涉及词义排歧12,词性标注13,主题分解14,信息抽取15等,但还没有人基于LDA实现文本的主题分割,本文恰恰进行了这一方面的尝试。 本文的结构安排如下,第一节介绍LDA模型;第二节详述本文的分割策略;第三节给出测试手段及实验结果,并就实验结果进行讨论;第四节对比、分析最新相关研究及工作;最后总结全文。1 LDA模型目前的概率主题模型一般基于同样的思想文本是若干主题的随机混合。不同的模型会进一步作不同的统计假设,
9、以不同的方式获取模型参数。1.1 模型介绍一个文本通常需要讨论若干主题,而文本中的特定词汇体现出所讨论的特定主题。在统计自然语言处理中,为文本主题建模的方法是视主题为词汇的概率分布,文本为这些主题的随机混合。假设有T个主题,则所给文本中的第个词汇可以表示如下:其中,是潜在变量,表明第个词汇记号取自该主题,是词汇记号属于主题的概率,给出主题属于当前文本的概率。假定T个主题形成D个文本以W个唯一性词汇表示,为记号方便,令表示对于主题j,W个词汇上的多项分布,其中w是W个唯一性词汇表中的词汇;令表示对于文本d,T个主题上的多项分布,于是文本d中词汇w的概率为:LDA模型6在上作的先验概率假设,使得模
10、型易于处理训练语料之外的新文本。为了便于模型参数的推理,本文除了在上作对称的的先验概率假设外,在上亦作对称的的先验概率假设9,如下:这里的可以理解为,在见到语料库的任何词汇之前,从主题抽样获得的词汇出现频数,而可以理解为,在见到任何文档文字之前,主题被抽样的频数。尽管和的具体取值会影响到主题及词汇被利用的程度,但不同的主题被利用的方式几乎没有变化,不同的词汇被利用的方式也基本相同,因此可以假定对称的dirichlet分布,即所有的取相同的值,所有的取相同的值。1.2 Gibbs抽样 为了获取词汇的概率分布,本文没有将和作为参数直接计算,而是考虑词汇对于主题的后验概率,利用Gibbs抽样间接求得
11、和的值。MCMC系一套从复杂的概率分布抽取样本值的近似迭代方法,Gibbs抽样作为MCMC的一种简单实现形式,其目的是构造收敛于某目标概率分布的Markov链,并从链中抽取被认为接近该概率分布值的样本。于是目标概率分布函数的给出便成为使用Gibbs抽样的关键。对于本文的LDA模型,仅仅需要对主题的词汇分配,也就是变量进行抽样。记后验概率为,计算公式如下(详见附录):其中,表示将词汇记号分配给主题,这里被称为词汇记号是因为其不仅代表词汇,而且与该词所在的文本位置相关,表示所有的分配。是分配给主题与相同的词汇个数; 是分配给主题的所有词汇个数; 是文本中分配给主题的词汇个数; 是中所有被分配了主题
12、的词汇个数;所有的词汇个数均不包括这次的分配。 Gibbs抽样算法详述如下:(1). 被初始化为1到T之间的某个随机整数。从1循环到N,N是语料库中所有出现于文本中的词汇记号个数。此为Markov链的初始状态。(2)从1循环到N,根据公式(3)将词汇分配给主题,获取Markov链的下一个状态。(3)迭代第(2)步足够次数以后,认为Markov链接近目标分布,遂取 (从1循环到N )的当前值作为样本记录下来。为了保证自相关较小,每迭代一定次数,记录其他的样本。舍弃词汇记号,以w表示唯一性词,对于每一个单一样本,可以按下式估算和的值:其中,表示词汇w被分配给主题j的频数;表示分配给主题j的所有词数
13、;表示文本d中分配给主题j的词数;表示文本d所有被分配了主题的词数。2 分割策略待分割文本是语料库训练时没有处理过的新文本,如果对于每一个未知文本,都将其加入语料库后重新训练,则异常浪费时间,亦没有必要,本文的作法是只对新加入的词汇记号运行Gibbs抽样算法,且只迭代较少的次数。预处理的基本块采用汉语的整句s,分割的大致步骤如下:(1) 对于语料库文本的词汇记号运行Gibbs抽样算法,迭代足够次;(2) 以整句s作为公式(3)中的文本d,遍历待分割文本的所有词汇记号,运行Gibbs抽样算法,迭代少数几次;(3) 按照公式(4)分别计算和的值;(4) 根据公式求取待分割文本词汇的概率分布;(5)
14、 基于,利用不同的度量手段计算句间的相似值;(6) 结合局部最小值的边界估计策略,通过句间相似值识别片段边界。2.2 相似性度量 基于计算句间的相似值,需要选择合适的度量手段,本文尝试如下5种方法:(1) 余弦度量(2)L1距离度量16(3) Hellinger距离度量(4) Clarity度量17其中,GC代表词汇在训练语料库的出现频率,即,被称为相对熵:(5) Jensen-Shannon发散度量2.3 边界识别 利用不同的边界估计策略进行文本分割的结果显见不会相同,本文对比如下4种方法,以求探究最佳策略:(1) 阈值法 设定常数,若句间相似值,则认为分属于不同的片段。该方法极易实现,如果
15、所给合适,可以获得较低的错误率。(2) 动态常数法 阈值法虽然简单,但需要人为设定,很难给出最佳值,因此可以考虑根据相邻句间的相似值表动态改变。假设待分割文本有个整句,则相邻句间的相似值表为,其中,令, ,若,则认为分属于不同的片段。(3) 局部最小值法6 在相邻句间的相似值表中选择局部最小值;从每一个局部最小值出发向左、向右分别寻找距离最近的较大值以及,利用公式计算相对深度;令为一常数,若相对深度,则分属于不同的片段。(4) 动态规划法18 将某文本分割为个片段,片段由首尾句子决定,或者,于是的平均相似值。类似于文献15定义如下分割代价: 其中,和是片段长度的数学期望及均方差,可以通过训练语
16、料库统计获得,和试探给值,本实验取,。利用动态规划算法求解使得代价公式(14)取最小值的分割。3实验结果及讨论 本文所有实验以1998年人民日报手工标注的语料库为背景库及建模对象(共3157个文本),并以知网词典(去除其中的虚词、形容词、副词等意义不大的词,再删掉语料库出现频数小于5的词,剩余18049个词汇)作为选择词汇的词典。 为了有效利用Gibbs抽样算法,先通过实验确定主题数目T的最佳值,以及burn-in间距和thinning间距的取值,然后对文本分割进行测试。3.1 主题数目的确定 针对同样的语料库及同样的词典(W=18049, D=3157,N=,W为词汇数目,D为文本数目,N为
17、词汇记号数目,也就是每次抽样依据公式(3)对z赋值的次数),可变量包括超参数,以及主题数目T。本实验目的在于了解主题数目对于Gibbs抽样算法的影响,为此先确定,的值,然后为T选择合适的值。这实际上是一个模型选择的问题,本文采用贝叶斯统计中的标准方法予以解决。令,(此为经验值,多次实验表明,这种取值在本实验的语料库上有较好表现), T取不同的值分别运行Gibbs抽样算法,检测logP(w|T)值的变化。由本文建模的模型知,,是多项分布和上的Dirichlet先验概率假设,其自然共轭的特点说明通过对和积分可以求取联合概率的值。,并且和分别单独出现于第一项和第二项,对积分获第一项值如下: 其中,是
18、标准的gamma函数,表示词汇w分配给主题j的频数,表示分配给主题j的所有词数。因为可以近似为一系列的调和平均值,所以按下式求取其值:实验结果如下: Fig 1 The log-likelihood of the data for different settings of the number of topics T.图1 logP(w|T)与主题数目的关系由图可以看出,当主题数目T为80时,logP(w|T)的值最小,随后开始急遽增大,说明主题数目为80时,模型对于语料库数据中有效信息的拟合最佳,因此,后续实验的主题数目取为80。3.2 Burn-in 及Thinning间距的选择 Gib
19、bs抽样算法从初始值开始运行,迭代足够次b后认为样本接近目标概率分布,然后每隔一定次数c抽取样本,b称为burn-in间距,c称为thinning间距。b和c的取值比较难于确定,一般与特定的语料库相关。如果所构造Markov链的相邻状态间关联较小,b,c以较小的值可满足需要,但如果相邻状态间的关联较大,就必须增大b,c的取值,方可降低自相关。 本实验取,以4次不同的初始值运行Gibbs算法,若b,c的取值合适,则抽样结果(log的值)随初始值的变化很小,也可以说独立于初始值。实验结果如下: Fig 2 The log-likelihood stabilizes after a few hund
20、red iterations图2迭代数百次后logP(w|z)趋于稳定 从图中可以看出,logP(w|z)的值在迭代数百次后稳定,因此本文实验取burn-in间距为1000,thinning间距为100。3.3 测试集及度量标准 文本分割算法的评测标准比较主观,人们对于片段边界的位置以及文本分割的粒度往往没有一致的看法和观点,这就为分割结果的判断增加很大的难度。为了解决这个问题,一部分研究将不同内容的文本连接起来,人为决定片段边界。另外一部分研究则按人的判断估价,采用大多数人的意见作为标准。为了获得客观的评测结果,本文采用第一种策略。本实验利用1997年3月份人民日报手工标注的语料库构建4个测
21、试集T3-11,T3-5,T6-8,T9-11,Tx-y表示所含主题片段的句数在x和y之间。每一个测试集包括若干伪文本,即由不同类的文本连接而成的形式上的文本,要求相邻段落务必来自不同的类。其所含的主题数平均为7,具体如表1。Table 1 Test Sets used in the experiments表1 实验中的测试集T3-11T3-5T6-8T9-11Sentences3-113-56-89-11Pseudo Texts10912711598伪文本中每个主题片段的句数 伪文本数 为了便于同类算法的对比,本文采取两种度量标准,错误率19和WindowDiff20。 是指距离为k的两个句
22、子分属不同主题片段的概率,而就是指距离为k的两个句子属于同一主题片段的概率,本实验将两个先验概率取等值,即,是算法分割结果缺少一个片段的概率,是算法分割结果添加一个片段的概率。 其中,表示整句和整句间的边界数量,表示文本中的整句数量,取真实片段平均长度的一半,代表真实分割,代表算法分割。3.4 实验结果及讨论 首先在表2列出实验叙述中所涉及的记号含义:Table 2 List of symbols 表2记号含义SymbolMeaningsSymbolMeaningsCosCosine distanceConConstantHelHellinger distanceDyConDynamic co
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 PLSA 模型 文本 分割
限制150内