跨领域分类 (2)优秀PPT.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《跨领域分类 (2)优秀PPT.ppt》由会员分享,可在线阅读,更多相关《跨领域分类 (2)优秀PPT.ppt(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、跨领域分类现在学习的是第1页,共29页介绍问题提出一个例子谱的特征队列实验结论现在学习的是第2页,共29页1.介绍随着web2.0服务的发展,越来越多的关于用户观点或意见的数据在web上共享。观点分类旨在把观点分类到二级范畴内。(P or N)由于许多用户没有明确地 表明他们的二级观点,所以需要从文本中去推测。在文献中,有监督的学习在观点分类中被广泛应用,结果依赖于人工标签训练集。在某些情况,通过标记来建准确的分类器可能是费时的,原因是用户可能用领域特殊词来表达用户观点。现在学习的是第3页,共29页Table1列出了电子和视频游戏两个领域的观点句集。在电子领域,可能用精密的、灵敏的来表达正向的
2、观点;用模糊的来表达反向观点。在视频游戏领域用入迷的、逼真的来表达正向观点;用无聊的来表示反向观点。由于领域特殊词的混配,一个领域的分类器不能直接应用于其他领域,用跨领域的分类算法很需要来减少领域独立性和人工标记代价。现在学习的是第4页,共29页现在学习的是第5页,共29页假设我们有源领域的标记词,为了训练一个到目标领域的分类器。本文提出SFA算法来找到对跨领域观点数据的一种新的表达,跨领域间的距离能够减少。SFA用一些领域独立词(即不受领域约束的词)作为桥梁来建造一个双向的图来表示领域特殊词和领域独立词共同出现的关系。现在学习的是第6页,共29页基本思想是如果两个领域特殊词在图中与领域独立词
3、联系多,那么他们有更高的可能性分配到一起,反之亦然。我们改写一个基于谱图论的聚簇算法,用双向图来联合分配领域特殊词和领域独立词到特征簇的集合中,然后我们用这些簇对所有的数据重新表达,基于新的表达来训练目标分类器。现在学习的是第7页,共29页2.问题提出 Sentiment:对于领域D,观点数据是包含领域中用户对领域实体的观点。Labeled/Unlabeled Sentiment data:对于数据Xi,Yi表示Xi的极性,所有Xi表达是正观点(Yi=+1)。有Xi,Yi的被称作label data,如果没有分配极性则称作unlabeled data.现在学习的是第8页,共29页 Cross_
4、domain sentiment classification 给定两个领域Dsrc(源领域)Dtar(目标领域)。假设在Dsrc中有一系列标记数据集,在Dtar中有一些无标记的数据集。跨领域分类的任务是预测Dtar中数据的极性。(1)识别领域独立特征 (2)分配领域特殊特征 第一个子任务旨在学习一个领域特征选择函数,用来选择不受领域约束的特征,经常出现的和在Dsrc和Dtar中表现相似的,这些不受领域约束的词被看作是桥梁使知识跨领域传递作为一种可能。现在学习的是第9页,共29页第二个任务旨在学习一个函数 分配两个领域特征到定义好的特征簇中z1、z2zk.用Wdi表示不受领域约束特征词,用Wd
5、s表示领域特殊特征词。现在学习的是第10页,共29页3.一个例子 首先,假设分类器是一个线性函数,w是分类器的权重,能通过训练集学习。在Table2中我们看到导致两个领域不同的原因是领域特殊词的出现。现在学习的是第11页,共29页 在领域E中,compact、sharp和blurry没有在V中出现,同样,在领域V中,hooked、realistic、boring在领域E中也没有出现。我们的目的是利用领域E中的标记向量训练一个权重向量W*,然后利用它来预测V领域中观点的极性。基于E领域中的三个句子,compact和sharp的权值应该为正,而blurry的权值应该为负。现在学习的是第12页,共2
6、9页改写一种表示方式如Table3 Table3展示了一种理想的表示。eg sharp_hooked表示包含sharp和hooked的簇。现在学习的是第13页,共29页我们可以初始化不受领域约束词作为桥梁,在table1中,sharp、hooked、compact和realistic总和good和exciting一同出现。Table4显示了领域独立词和领域特殊词同时出现的矩阵。根据Table4就能构建Table3了。现在学习的是第14页,共29页4.领域特征队列4.1 领域独立特征选择 策略1:基于在两个领域出现的频率,假设要抽取l个特征词,我们选择在源领域和目标领域中出现超过K次的特征,K被
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 跨领域分类 2优秀PPT 领域 分类 优秀 PPT
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内