基于PLSA模型的文本分割.doc

资源ID：78994029 资源大小：654.50KB 全文页数：13页
资源格式： DOC 下载积分：20金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要20金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

基于PLSA模型的文本分割.doc

本文受到国家“九七三”重点基础研究发展规划项目基金（2002CB）, 国家自然科学基金（）, 中国科学院软件研究所创新工程重大项目资助基于LDA模型的文本分割石晶1 ，胡明1，戴国忠21（长春工业大学计算机科学与工程学院，长春）2（中国科学院软件研究所人机交互技术与智能信息处理实验室，北京）Text Segmentation Based on Model LDASHI Jing and DAI Guozhong(Computer Human Interaction and Intelligent Information Processing Laboratory, Institute of Software , The Chinese Academy of Sciences ,Beijing ,China)Abstract Text segmentation is very important for many fields including information retrieval, summarization, language modeling, anaphora resolution and so on .Text segmentation based on LDA models corpora and texts with LDA. Parameters are estimated with Gibbs sampling of MCMC and the word probability is represented. Different latent topics are associated with observable words. In the experiments, Chinese whole sentences are taken as elementary blocks. Variety of similarity metrics and several approaches of discovering boundaries are tried. The best results show the right combination of them can make the error rate far lower than other algorithms of text segmentation.Key words text segmentation; Model Latent Dirichlet Allocation(LDA); similarity metric; boundaries discovering摘要文本分割在信息提取、文摘自动生成、语言建模、首语消解等诸多领域都有极为重要的应用。基于LDA模型的文本分割以LDA为语料库及文本建模，利用MCMC中的Gibbs抽样进行推理，间接计算模型参数，获取词汇的概率分布，使隐藏于片段内的不同主题与文本表面的字词建立联系。实验以汉语的整句作为基本块，尝试多种相似性度量手段及边界估计策略，其最佳结果表明二者的恰当结合可以使片段边界的识别错误率远远低于其他同类算法。关键词文本分割；LDA模型；相似性度量；边界识别中图法分类号TP301文本分割是指在一个书面文档或语音序列中自动识别具有独立意义的单元(片段)之间的边界，其分割对象可以是语音流，网络动态数据，或者书面静态文本。这种预处理在很多领域都有极为重要的应用，比如信息提取、文摘自动生成、文本解析、语言建模、文本导航以及首语消解等。目前常用的分割方法大致基于如下几种思想：假定相同、相似或语义相关的词汇倾向于出现在同一片段内1,2；认为特定的语言现象，比如提示短语、停顿标记、韵律特征、指代、句法及词汇的形态同化等与片段首尾隐含某种必然联系3,4；相信合适的概率统计模型能够为片段边界的估计提供可靠依据5,6。对于第三种方法，选择合适的模型是保证分割效果的关键。文献6采用PLSA模型，但模型中的文档概率值与特定文档相关，因此缺乏处理新文档的自然方法。同时待估参数的数量随着文档数量的增多线性增长，说明模型易于过度拟合。与PLSA模型相比，LDA(Latent Dirichlet Allocation)7称得上是完全的生成模型。由于该模型将主题混合权重视为k维参数的潜在随机变量，而非与训练数据直接联系的个体参数集合，推理上采用Laplace近似,变分近似，MCMC(Markov chain Monte Carlo)8以及期望-扩散(expectation-propagation)9等方法获取待估参数值，所以克服了PLSA的不足。本文介绍的分割方法即以LDA为语料库及文本建模，利用MCMC中的Gibbs抽样近似估算模型参数，获取词汇的概率分布。以汉语的整句作为分割的基本块，除了尝试多种相似性度量手段，还尝试不同的边界识别策略。实验表明，最佳结果(不考虑常数法识别边界的情况)的错误率远远低于其他同类算法。近几年，LDA模型、LDA的扩展模型以及它们在自然语言和智能信息处理中的应用得到充分的重视和深入的研究，扩展模型包括空间LDA模型10，作者-角色-主题模型11等；应用涉及词义排歧12，词性标注13，主题分解14，信息抽取15等，但还没有人基于LDA实现文本的主题分割，本文恰恰进行了这一方面的尝试。本文的结构安排如下，第一节介绍LDA模型；第二节详述本文的分割策略；第三节给出测试手段及实验结果，并就实验结果进行讨论；第四节对比、分析最新相关研究及工作；最后总结全文。1 LDA模型目前的概率主题模型一般基于同样的思想文本是若干主题的随机混合。不同的模型会进一步作不同的统计假设，以不同的方式获取模型参数。1.1 模型介绍一个文本通常需要讨论若干主题，而文本中的特定词汇体现出所讨论的特定主题。在统计自然语言处理中，为文本主题建模的方法是视主题为词汇的概率分布，文本为这些主题的随机混合。假设有T个主题，则所给文本中的第个词汇可以表示如下：其中，是潜在变量，表明第个词汇记号取自该主题，是词汇记号属于主题的概率，给出主题属于当前文本的概率。假定T个主题形成D个文本以W个唯一性词汇表示，为记号方便，令表示对于主题j，W个词汇上的多项分布，其中w是W个唯一性词汇表中的词汇；令表示对于文本d，T个主题上的多项分布，于是文本d中词汇w的概率为：LDA模型6在上作的先验概率假设，使得模型易于处理训练语料之外的新文本。为了便于模型参数的推理，本文除了在上作对称的的先验概率假设外，在上亦作对称的的先验概率假设9，如下：这里的可以理解为，在见到语料库的任何词汇之前，从主题抽样获得的词汇出现频数，而可以理解为，在见到任何文档文字之前，主题被抽样的频数。尽管和的具体取值会影响到主题及词汇被利用的程度，但不同的主题被利用的方式几乎没有变化，不同的词汇被利用的方式也基本相同，因此可以假定对称的dirichlet分布，即所有的取相同的值，所有的取相同的值。1.2 Gibbs抽样为了获取词汇的概率分布，本文没有将和作为参数直接计算，而是考虑词汇对于主题的后验概率,利用Gibbs抽样间接求得和的值。MCMC系一套从复杂的概率分布抽取样本值的近似迭代方法，Gibbs抽样作为MCMC的一种简单实现形式，其目的是构造收敛于某目标概率分布的Markov链，并从链中抽取被认为接近该概率分布值的样本。于是目标概率分布函数的给出便成为使用Gibbs抽样的关键。对于本文的LDA模型，仅仅需要对主题的词汇分配，也就是变量进行抽样。记后验概率为，计算公式如下(详见附录)：其中，表示将词汇记号分配给主题,这里被称为词汇记号是因为其不仅代表词汇，而且与该词所在的文本位置相关，表示所有的分配。是分配给主题与相同的词汇个数；是分配给主题的所有词汇个数；是文本中分配给主题的词汇个数；是中所有被分配了主题的词汇个数；所有的词汇个数均不包括这次的分配。 Gibbs抽样算法详述如下：(1). 被初始化为1到T之间的某个随机整数。从1循环到N，N是语料库中所有出现于文本中的词汇记号个数。此为Markov链的初始状态。(2)从1循环到N，根据公式(3)将词汇分配给主题，获取Markov链的下一个状态。(3)迭代第(2)步足够次数以后，认为Markov链接近目标分布，遂取 (从1循环到N )的当前值作为样本记录下来。为了保证自相关较小，每迭代一定次数，记录其他的样本。舍弃词汇记号，以w表示唯一性词，对于每一个单一样本，可以按下式估算和的值：其中，表示词汇w被分配给主题j的频数；表示分配给主题j的所有词数；表示文本d中分配给主题j的词数；表示文本d所有被分配了主题的词数。2 分割策略待分割文本是语料库训练时没有处理过的新文本，如果对于每一个未知文本，都将其加入语料库后重新训练，则异常浪费时间，亦没有必要，本文的作法是只对新加入的词汇记号运行Gibbs抽样算法，且只迭代较少的次数。预处理的基本块采用汉语的整句s，分割的大致步骤如下：(1) 对于语料库文本的词汇记号运行Gibbs抽样算法，迭代足够次；(2) 以整句s作为公式(3)中的文本d，遍历待分割文本的所有词汇记号，运行Gibbs抽样算法，迭代少数几次；(3) 按照公式(4)分别计算和的值；(4) 根据公式求取待分割文本词汇的概率分布；(5) 基于，利用不同的度量手段计算句间的相似值；(6) 结合局部最小值的边界估计策略，通过句间相似值识别片段边界。2.2 相似性度量基于计算句间的相似值，需要选择合适的度量手段，本文尝试如下5种方法：(1) 余弦度量(2)L1距离度量16(3) Hellinger距离度量(4) Clarity度量17其中，GC代表词汇在训练语料库的出现频率，即，被称为相对熵：(5) Jensen-Shannon发散度量2.3 边界识别利用不同的边界估计策略进行文本分割的结果显见不会相同，本文对比如下4种方法，以求探究最佳策略：(1) 阈值法设定常数，若句间相似值，则认为分属于不同的片段。该方法极易实现，如果所给合适，可以获得较低的错误率。(2) 动态常数法阈值法虽然简单，但需要人为设定，很难给出最佳值，因此可以考虑根据相邻句间的相似值表动态改变。假设待分割文本有个整句，则相邻句间的相似值表为，其中，令，，若，则认为分属于不同的片段。(3) 局部最小值法6 在相邻句间的相似值表中选择局部最小值；从每一个局部最小值出发向左、向右分别寻找距离最近的较大值以及，利用公式计算相对深度；令为一常数，若相对深度，则分属于不同的片段。(4) 动态规划法18 将某文本分割为个片段，片段由首尾句子决定，或者，于是的平均相似值。类似于文献15定义如下分割代价：其中，和是片段长度的数学期望及均方差，可以通过训练语料库统计获得，和试探给值，本实验取，。利用动态规划算法求解使得代价公式(14)取最小值的分割。3实验结果及讨论本文所有实验以1998年人民日报手工标注的语料库为背景库及建模对象（共3157个文本），并以知网词典（去除其中的虚词、形容词、副词等意义不大的词，再删掉语料库出现频数小于5的词，剩余18049个词汇）作为选择词汇的词典。为了有效利用Gibbs抽样算法，先通过实验确定主题数目T的最佳值，以及burn-in间距和thinning间距的取值，然后对文本分割进行测试。3.1 主题数目的确定针对同样的语料库及同样的词典(W=18049, D=3157,N=，W为词汇数目，D为文本数目，N为词汇记号数目，也就是每次抽样依据公式(3)对z赋值的次数)，可变量包括超参数,以及主题数目T。本实验目的在于了解主题数目对于Gibbs抽样算法的影响，为此先确定,的值，然后为T选择合适的值。这实际上是一个模型选择的问题，本文采用贝叶斯统计中的标准方法予以解决。令，（此为经验值，多次实验表明，这种取值在本实验的语料库上有较好表现）， T取不同的值分别运行Gibbs抽样算法，检测logP(w|T)值的变化。由本文建模的模型知，,是多项分布和上的Dirichlet先验概率假设，其自然共轭的特点说明通过对和积分可以求取联合概率的值。，并且和分别单独出现于第一项和第二项，对积分获第一项值如下：其中，是标准的gamma函数，表示词汇w分配给主题j的频数，表示分配给主题j的所有词数。因为可以近似为一系列的调和平均值，所以按下式求取其值：实验结果如下： Fig 1 The log-likelihood of the data for different settings of the number of topics T.图1 logP(w|T)与主题数目的关系由图可以看出，当主题数目T为80时，logP(w|T)的值最小，随后开始急遽增大，说明主题数目为80时，模型对于语料库数据中有效信息的拟合最佳，因此，后续实验的主题数目取为80。3.2 Burn-in 及Thinning间距的选择 Gibbs抽样算法从初始值开始运行，迭代足够次b后认为样本接近目标概率分布，然后每隔一定次数c抽取样本，b称为burn-in间距，c称为thinning间距。b和c的取值比较难于确定，一般与特定的语料库相关。如果所构造Markov链的相邻状态间关联较小，b,c以较小的值可满足需要，但如果相邻状态间的关联较大，就必须增大b,c的取值，方可降低自相关。本实验取，以4次不同的初始值运行Gibbs算法，若b,c的取值合适，则抽样结果（log的值）随初始值的变化很小，也可以说独立于初始值。实验结果如下： Fig 2 The log-likelihood stabilizes after a few hundred iterations图2迭代数百次后logP(w|z)趋于稳定从图中可以看出，logP(w|z)的值在迭代数百次后稳定，因此本文实验取burn-in间距为1000，thinning间距为100。3.3 测试集及度量标准文本分割算法的评测标准比较主观，人们对于片段边界的位置以及文本分割的粒度往往没有一致的看法和观点，这就为分割结果的判断增加很大的难度。为了解决这个问题，一部分研究将不同内容的文本连接起来，人为决定片段边界。另外一部分研究则按人的判断估价，采用大多数人的意见作为标准。为了获得客观的评测结果，本文采用第一种策略。本实验利用1997年3月份人民日报手工标注的语料库构建4个测试集T3-11,T3-5,T6-8,T9-11，Tx-y表示所含主题片段的句数在x和y之间。每一个测试集包括若干伪文本，即由不同类的文本连接而成的形式上的文本，要求相邻段落务必来自不同的类。其所含的主题数平均为7，具体如表1。Table 1 Test Sets used in the experiments表1 实验中的测试集T3-11T3-5T6-8T9-11Sentences3-113-56-89-11Pseudo Texts10912711598伪文本中每个主题片段的句数伪文本数为了便于同类算法的对比，本文采取两种度量标准，错误率19和WindowDiff20。是指距离为k的两个句子分属不同主题片段的概率，而就是指距离为k的两个句子属于同一主题片段的概率，本实验将两个先验概率取等值，即，是算法分割结果缺少一个片段的概率，是算法分割结果添加一个片段的概率。其中，表示整句和整句间的边界数量，表示文本中的整句数量，取真实片段平均长度的一半，代表真实分割，代表算法分割。3.4 实验结果及讨论首先在表2列出实验叙述中所涉及的记号含义：Table 2 List of symbols 表2记号含义SymbolMeaningsSymbolMeaningsCosCosine distanceConConstantHelHellinger distanceDyConDynamic constantClrClarity metricLocLocal minimumJSJensen-Shannon divergenceDyProDynamic programmingL1L1 distanceWDPkWindowDiffError rate3.4.1不同测试集上的实验结果 Gibbs抽样的主题数目T=80，超参数，。取10个不同的初始值运行算法，每个初始值迭代1000次，然后每隔100次取一次样本，共取10次样本。加入训练语料的测试文本被初始化，继续迭代10次，开始计算结果。每个文本的测试结果取100个样本的平均值，测试集的实验结果取所有文本测试结果的平均值。其实验结果如表3，其中Modx,y表示相似性度量采用x方式，边界识别采用y策略，二者的不同组合形成种模型。表中阈值法的常数值依次取0. 018,0.29,2.46,0.099,1.24。Table 3 Error rates of different test sets表3 不同测试集的错误率ModelsT3-11T3-5T6-8T9-11Pk(%)WD(%)Pk(%)WD(%)Pk(%)WD(%)Pk(%)WD(%)ModCos,Con7.1418.577.9415.875.2611.057.2918.18ModCos,DyCon6.0024.008.7317.469.2123.966.3729.09ModCos,Loc11.4320.2810.3120.637.5528.3010.9125.45ModCos,DyPro10.0024.289.5219.048.4924.5310.9330.91ModHel,Con7.0415.529.5219.056.6024.535.4521.82ModHel,DyCon12.8621.739.4029.707.4617.7713.2832.73ModHel,Loc11.4825.468.8318.419.9419.609.0921.81ModHel,DyPro7.5422.3611.9023.8011.3826.815.4529.09ModClr,Con9.7428.3610.3120.637.3027.684.6414.55ModClr,DyCon8.6616.149.3837.5011.1220.9215.6331.25ModClr,Loc7.5516.1212.2927.035.7218.1810.6724.32ModClr,DyPro11.4732.788.9025.610.8026.6012.7334.55ModJS,Con8.4428.756.8913.799.9022.0012.5031.25ModJS,DyCon7.5029.379.9021.608.1427.369.3825.00ModJS,Loc11.8821.1110.3124.148.9022.006.3620.00ModJS,DyPro9.6219.8711.9023.819.9016.606.3729.09ModL1,Con8.0716.149.6422.2210.1829.927.2814.55ModL1,DyCon7.4514.9111.9324.6212.0031.528.1825.45ModL1,Loc10.2420.4910.3220.637.2626.7214.5536.36ModL1,DyPro11.8023.6015.6233.758.7420.1814.0628.13从表中数据可以看出，不同模型的错误率相对较接近，基本集中在5%到12%之间。为了更清楚不同相似性度量及边界识别策略在四种测试集上的表现，将其关系分别汇于图3，图4（错误率取最小值） Fig 3 Error rates of the different similarity metrics on T3-11,T3-5,T6-8,T9-11图3 不同相似性度量手段在T3-11,T3-5,T6-8,T9-11的错误率(pk) 对于T3-11和T6-8，Cos度量可以取得最小值， JS度量适合T3-5，而Clr度量在T9-11上有好的表现。 Fig 4 Error rates of the different approaches of boundaries discovering on T3-11,T3-5,T6-8,T9-11图4 不同边界识别策略在T3-11,T3-5,T6-8,T9-11的错误率(pk)图中可见，常数法可以为所有的测试集提供令人满意的边界识别，但该方法有太大的随机性，不易控制。剔除常数法不考虑，动态常数法在T3-11上的错误率最低；T3-5由于片段内句数少，反映主题的信息少，所以没有特别好的边界估计策略；局部最小值法适合T6-8；而动态规划法在T9-11上有最佳表现。3.4.2与其他分割算法的比较作为与本文方法的对比，取PLSA6，LSA7，MDA 21三种算法在T3-11,T3-5,T6-8,T9-11上进行测试，错误率Pk如表4。Table 4 Segmentation results compared to PLSA, LSA and MDA表4 与PLSA，LSA以及MDA的对比结果T3-11(%)T3-5(%)T6-8(%)T9-11(%)LDA6.008.735.725.45PLSA16.7913.8113.2611.94LSA13.1215.2110.0212.17MDA 11.6111.3811.9411.00本文算法(取常数法之外的最佳结果) PLSA LSA 多元判别可见，基于LDA模型，可以使分割的错误率远远低于其他模型及方法，而且，实验表明测试结果比较稳定，不同样本间的差别较小。本文作者曾对基于PLSA模型的文本分割进行仔细研究22，发现基于PLSA模型的分割，其结果的随机性较大，随迭代次数及主题数目的变化难于确定。4相关研究对比本文探讨适合文本主题分割的模型和方法，与本文研究相关的近期工作包括STM11 ，MDA21 以及FBS23等。STM(Statistical Topic Model)是一种有限混合模型，原则上讲，这种模型假定一个文档仅仅呈现一个主题，往往无法准确描述语料库及文档建模所需的数据信息，同时，由于没有对主题概率及词汇概率作任何假设，导致局部极大值、过度拟合以及收敛速度过慢等问题。本文作者在实验中发现，基于该模型的主题分割错误率较高，基本在50%左右。分析原因，除了上述模型自身存在的问题外，还由于对模型参数的估算基于单一文档的部分信息（包括h句的块），而非语料库丰富的知识，但毕竟一个块内提供的信息过于有限，所以无法准确估算参数值。MDA(Multiple Discriminant Analysis)方法定义了4种全局评价函数，寻找满足分割单元内距离最小化和分割单元间距离最大化条件的最好分割方式,实现对文本分割模式的全局评价。其优点在于通用性强，无需语料库，缺点是片段边界的确定仅仅依赖本文档的内部信息，难于实现更好的分割。表4的实验结果同样说明，采用MDA方法，其分割错误率(Pk)极为集中（11%左右）。而本文方法更多地依赖于语料库的训练，因此当语料库信息充分，测试文档与训练语料结构类似时就会呈现更好的分割效果(Pk 5.72%)。 FBS(Feature-based segmentation)方法首先选择合适的特征，然后基于某种学习策略，将文本分割看作分类问题予以解决，其思想具有独特性，但该方法的分割结果完全依赖于所选特征，而特征的选择与确定是一个有待解决的问题，尤其对于汉语。同时该方法基于有效命名实体的判别，且需要诸如wordnet的同义词辞典，而汉语的类似资源极为匮乏，尝试基于FBS的汉语文本分割目前还有困难。5结语基本块设置、相似性度量以及边界识别是文本分割系统的三个组成部分。本文以LDA为语料库及文本建模，将汉语的整句作为基本块，尝试不同相似性度量手段与边界估计策略。由于LDA是完全的生成模型，从理论上讲，具有其他模型无可比拟的建模优点。实验结果表明，基于LDA模型的文本分割无论采用何种相似性度量及边界识别方法，均获较低的错误率，基本集中在5%到12%之间，确有很好的分割效果。文本分割除了需要直接测试，如本文实验所示，更需要间接测试，即将其置入应用系统中考查。本文研究的目的是为文本推理提供预处理，所以下一步的工作将是对该方法更有效的测试。致谢本文在研究中用到一些基础性的工作，包括电子常识知识库知网，汉语词法分析系统ICTCLAS，人民日报手工标注语料库以及文本分类语料库。所有这些资源可以网上下载，限于研究使用。知网是董振东先生设计和开发的，其2000版以及2005微型版均可在互联网上下载。ICTCLAS是中国科学院计算技术研究所经过多年研究开发出来的，在参考文献1 Igor A. Bolshakov and A. Gelbukh. Text segmentation into paragraphs based on Local text cohesion. In: Text, Speech and Dialogue (TSD-2001). Lecture Notes in Artificial Intelligence, N 2166, Springer-Verlag.2001. 158166.2 Ath. Kehagias, A. Nicolaou, P. Fragkou and V. Petridis. "Text Segmentation by Product Partition Models and Dynamic Programming". Mathematical and Computer Modelling, 2004.vol.39.209217. 3 G. Tur, D. Hakkani-Tur, A. Stolcke, and E. Shriberg. Integrating prosodic and lexical cues for automatic topic segmentation. Computational Linguistics, 2001,27(1):3157. 4 Gina-Anne Levow. Prosody-based topic segmentation for mandarin broadcast news. In Proceedings of HLT-NAACL 2004, Volume 2. 2004.5 D. Blei and P. Moreno. Topic segmentation with an aspect hidden Markov model. In Proceedings of the 24th annual international ACM SIGIR Conference on Research and development in information retrieval, ACM Press,2001.343348.6 Thorsten Brants, Francine Chen, Ioannis Tsochantaridis. Topic-based document segmentation with probabilistic latent semantic analysis. Proceedings of the eleventh international Conference on Information and knowledge management McLean, Virginia, USA.2002.211218. 7 D.M. Blei, A.Y. Ng, and M.I. Jordan. Latent Dirichlet allocation. Journal of Machine Learning Research, 2003(3):9931022,.8 Steyvers, M. Griffiths, T. Probabilistic topic models. In T. Landauer, D McNamara, S. Dennis, and W. Kintsch (eds), Latent Semantic Analysis: A Road to Meaning, 2006.9 Thomas Minka and John Lafferty. Expectation-Propagation for the Generative Aspect Model. Uncertainty in Artificial Intelligence (UAI), 2002.10 Xiaogang Wang, Eric Grimson. Spatial Latent Dirichlet Allocation. Proceedings of Neural Information Processing Systems（NIPS2007）.2007.Http:/books.nips.cc/papers/files/nips20/NIPS2007_0964.pdf.11 McCallum,A.,Corrada-Emmanuel,A.,Wang, X.,Topic and role discovery in social networks. Proceedings of 19th Joint conference on artificial intelligence.2005.12 J. Boyd-Graber, D. Blei, and X. Zhu. A topic model for word sense disambiguation. In Empirical Methods in Natural Language Processing, 2007. http:/www.cs.princeton.edu/blei/papers/Boyd-GraberBleiZhu2007.pdf13 Kristina Toutanova, Mark Johnson. A Bayesian LDA-based model for semi-supervised part-of-speech tagging. Proceedings of Neural Information Processing Systems（NIPS2007）.2007. Http:/books.nips.cc/papers/files/nips20/NIPS2007_0964.pdf14 Newman,D,J.,Block,S., Probabilistic topic decomposition of an eighteenth century newspaper. Journal American society for information science and technology.2006.15 Xing Wei and Bruce Croft. LDA-based document models for ad-hoc retrieval. In Proceedings of the Twenty-Ninth Annual International SIGIR Conference. 2006.16 Hang Li and Kenji Yamanishi, Topic Analysis Using a Finite Mixture Model, Information Processing & Management, 2003. 39(4), 521541.17 W. B. Croft, S. Cronen-Townsend, and V. Larvrenko. Relevance feedback and personalization: A language modeling perspective. In DELOS Workshop: Personalization and Recommender Systems in Digital Libraries, 2001.18 Kehagias, A , Fragkou, P. & Petridis, V. Linear Text Segmentation using a Dynamic Programming Algorithm. In Proceedings of the European Association of Computational Linguistics, Budapest, Hungary, 2003. 171178.19 D. Beeferman, A. Berger, J.

注意事项

本文（基于PLSA模型的文本分割.doc）为本站会员（飞****2）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。