跨领域分类 (2)优秀课件.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《跨领域分类 (2)优秀课件.ppt》由会员分享,可在线阅读,更多相关《跨领域分类 (2)优秀课件.ppt(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、跨领域分类第1页,本讲稿共29页介绍问题提出一个例子谱的特征队列实验结论第2页,本讲稿共29页1.介绍随着web2.0服务的发展,越来越多的关于用户观点或意见的数据在web上共享。观点分类旨在把观点分类到二级范畴内。(P or N)由于许多用户没有明确地 表明他们的二级观点,所以需要从文本中去推测。在文献中,有监督的学习在观点分类中被广泛应用,结果依赖于人工标签训练集。在某些情况,通过标记来建准确的分类器可能是费时的,原因是用户可能用领域特殊词来表达用户观点。第3页,本讲稿共29页Table1列出了电子和视频游戏两个领域的观点句集。在电子领域,可能用精密的、灵敏的来表达正向的观点;用模糊的来表
2、达反向观点。在视频游戏领域用入迷的、逼真的来表达正向观点;用无聊的来表示反向观点。由于领域特殊词的混配,一个领域的分类器不能直接应用于其他领域,用跨领域的分类算法很需要来减少领域独立性和人工标记代价。第4页,本讲稿共29页第5页,本讲稿共29页假设我们有源领域的标记词,为了训练一个到目标领域的分类器。本文提出SFA算法来找到对跨领域观点数据的一种新的表达,跨领域间的距离能够减少。SFA用一些领域独立词(即不受领域约束的词)作为桥梁来建造一个双向的图来表示领域特殊词和领域独立词共同出现的关系。第6页,本讲稿共29页基本思想是如果两个领域特殊词在图中与领域独立词联系多,那么他们有更高的可能性分配到
3、一起,反之亦然。我们改写一个基于谱图论的聚簇算法,用双向图来联合分配领域特殊词和领域独立词到特征簇的集合中,然后我们用这些簇对所有的数据重新表达,基于新的表达来训练目标分类器。第7页,本讲稿共29页2.问题提出 Sentiment:对于领域D,观点数据是包含领域中用户对领域实体的观点。Labeled/Unlabeled Sentiment data:对于数据Xi,Yi表示Xi的极性,所有Xi表达是正观点(Yi=+1)。有Xi,Yi的被称作label data,如果没有分配极性则称作unlabeled data.第8页,本讲稿共29页 Cross_domain sentiment classif
4、ication 给定两个领域Dsrc(源领域)Dtar(目标领域)。假设在Dsrc中有一系列标记数据集,在Dtar中有一些无标记的数据集。跨领域分类的任务是预测Dtar中数据的极性。(1)识别领域独立特征 (2)分配领域特殊特征 第一个子任务旨在学习一个领域特征选择函数,用来选择不受领域约束的特征,经常出现的和在Dsrc和Dtar中表现相似的,这些不受领域约束的词被看作是桥梁使知识跨领域传递作为一种可能。第9页,本讲稿共29页第二个任务旨在学习一个函数 分配两个领域特征到定义好的特征簇中z1、z2zk.用Wdi表示不受领域约束特征词,用Wds表示领域特殊特征词。第10页,本讲稿共29页3.一个
5、例子 首先,假设分类器是一个线性函数,w是分类器的权重,能通过训练集学习。在Table2中我们看到导致两个领域不同的原因是领域特殊词的出现。第11页,本讲稿共29页 在领域E中,compact、sharp和blurry没有在V中出现,同样,在领域V中,hooked、realistic、boring在领域E中也没有出现。我们的目的是利用领域E中的标记向量训练一个权重向量W*,然后利用它来预测V领域中观点的极性。基于E领域中的三个句子,compact和sharp的权值应该为正,而blurry的权值应该为负。第12页,本讲稿共29页改写一种表示方式如Table3 Table3展示了一种理想的表示。e
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 跨领域分类 2优秀课件 领域 分类 优秀 课件
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内