欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    跨领域分类 (2)优秀PPT.ppt

    • 资源ID:82700898       资源大小:4.56MB        全文页数:29页
    • 资源格式: PPT        下载积分:18金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要18金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    跨领域分类 (2)优秀PPT.ppt

    跨领域分类现在学习的是第1页,共29页介绍问题提出一个例子谱的特征队列实验结论现在学习的是第2页,共29页1.介绍随着web2.0服务的发展,越来越多的关于用户观点或意见的数据在web上共享。观点分类旨在把观点分类到二级范畴内。(P or N)由于许多用户没有明确地 表明他们的二级观点,所以需要从文本中去推测。在文献中,有监督的学习在观点分类中被广泛应用,结果依赖于人工标签训练集。在某些情况,通过标记来建准确的分类器可能是费时的,原因是用户可能用领域特殊词来表达用户观点。现在学习的是第3页,共29页Table1列出了电子和视频游戏两个领域的观点句集。在电子领域,可能用精密的、灵敏的来表达正向的观点;用模糊的来表达反向观点。在视频游戏领域用入迷的、逼真的来表达正向观点;用无聊的来表示反向观点。由于领域特殊词的混配,一个领域的分类器不能直接应用于其他领域,用跨领域的分类算法很需要来减少领域独立性和人工标记代价。现在学习的是第4页,共29页现在学习的是第5页,共29页假设我们有源领域的标记词,为了训练一个到目标领域的分类器。本文提出SFA算法来找到对跨领域观点数据的一种新的表达,跨领域间的距离能够减少。SFA用一些领域独立词(即不受领域约束的词)作为桥梁来建造一个双向的图来表示领域特殊词和领域独立词共同出现的关系。现在学习的是第6页,共29页基本思想是如果两个领域特殊词在图中与领域独立词联系多,那么他们有更高的可能性分配到一起,反之亦然。我们改写一个基于谱图论的聚簇算法,用双向图来联合分配领域特殊词和领域独立词到特征簇的集合中,然后我们用这些簇对所有的数据重新表达,基于新的表达来训练目标分类器。现在学习的是第7页,共29页2.问题提出 Sentiment:对于领域D,观点数据是包含领域中用户对领域实体的观点。Labeled/Unlabeled Sentiment data:对于数据Xi,Yi表示Xi的极性,所有Xi表达是正观点(Yi=+1)。有Xi,Yi的被称作label data,如果没有分配极性则称作unlabeled data.现在学习的是第8页,共29页 Cross_domain sentiment classification 给定两个领域Dsrc(源领域)Dtar(目标领域)。假设在Dsrc中有一系列标记数据集,在Dtar中有一些无标记的数据集。跨领域分类的任务是预测Dtar中数据的极性。(1)识别领域独立特征 (2)分配领域特殊特征 第一个子任务旨在学习一个领域特征选择函数,用来选择不受领域约束的特征,经常出现的和在Dsrc和Dtar中表现相似的,这些不受领域约束的词被看作是桥梁使知识跨领域传递作为一种可能。现在学习的是第9页,共29页第二个任务旨在学习一个函数 分配两个领域特征到定义好的特征簇中z1、z2zk.用Wdi表示不受领域约束特征词,用Wds表示领域特殊特征词。现在学习的是第10页,共29页3.一个例子 首先,假设分类器是一个线性函数,w是分类器的权重,能通过训练集学习。在Table2中我们看到导致两个领域不同的原因是领域特殊词的出现。现在学习的是第11页,共29页 在领域E中,compact、sharp和blurry没有在V中出现,同样,在领域V中,hooked、realistic、boring在领域E中也没有出现。我们的目的是利用领域E中的标记向量训练一个权重向量W*,然后利用它来预测V领域中观点的极性。基于E领域中的三个句子,compact和sharp的权值应该为正,而blurry的权值应该为负。现在学习的是第12页,共29页改写一种表示方式如Table3 Table3展示了一种理想的表示。eg sharp_hooked表示包含sharp和hooked的簇。现在学习的是第13页,共29页我们可以初始化不受领域约束词作为桥梁,在table1中,sharp、hooked、compact和realistic总和good和exciting一同出现。Table4显示了领域独立词和领域特殊词同时出现的矩阵。根据Table4就能构建Table3了。现在学习的是第14页,共29页4.领域特征队列4.1 领域独立特征选择 策略1:基于在两个领域出现的频率,假设要抽取l个特征词,我们选择在源领域和目标领域中出现超过K次的特征,K被设置为能找出l个特征的最大值。策略2:基于在源领域数据中相互独立的特征和标签。策略3:基于监督特征选择标准,用相互信息来衡量特征和领域间的独立性。如果一个特征有很高的相互信息,那么它是领域特殊的,否则是领域独立的。现在学习的是第15页,共29页4.2 双向图的构建 基于以上策略能够选择出领域独立特征,能辨别出哪个特征是领域独立的哪个特征是领域特殊的。构建一个双向图 。在G中,E中的每个边连接 和 。另外,每个边 带有一个非负的权值。现在学习的是第16页,共29页现在学习的是第17页,共29页4.3 谱的特征聚簇 在谱图的理论中,有两个主要的假设。(1)如果一个图的两个节点连接许多公共的节点,那么这两个节点相似。(2)有低维度的潜在空间构成的图,如果它们在之前的图相似那么之后也相似。那么在本文中:(1)如果两个领域特殊特征联系很多领域独立特征,那么他们有很大的可能被分配到同一个簇中。(2)如果两个领域独立特征和相同的领域特殊特征联系,那么他们可能被分到一个簇。(3)为领域特殊特征找到更有意义的表述形式,能减少领域间的差异性。现在学习的是第18页,共29页首先给出标准的谱特征聚簇算法:给一个顶点集V=V1,V2Vn和他们之间的相关权重图,目标是聚簇到K个簇中,K是一个输入参数。现在学习的是第19页,共29页改进后,给图G,我们的目标是找到特征队列映射函数,m是所有特征数,l领域独立特征数,m-l是领域特殊特征数。现在学习的是第20页,共29页4.4特征扩充 如果很好的选择了一个领域独立特征,那么我们可以通过算法学习的特征加入到领域独立特征中。然而,在现实应用中,我们不能正确的判断出领域独立特征。一个平衡参数r用于特征扩充来平衡初始特征和新的特征。所以,对于每一个数据X:新的特征被表示为 下面给出跨领域观点分类的算法框架:算法输入:标记的源领域数据和未标记的目标领域数据。K值和特征数M。现在学习的是第21页,共29页现在学习的是第22页,共29页5.实验5.1数据集 第一个数据集来自Blitzer。它包含来自亚马逊的产品观点集。意见关于4种产品领域。Books(B)、dvds(D)、electronics(E)和kitchen appliances(K)。每个观点分配一个观点标签。-1或+1.在每个领域有1000个+1观点和1000个-1观点。在这个数据集中,能构建12个跨领域分类任务。D-B箭头前为源数据集,箭头后为目标数据集。我们用RevDat来表示这个数据集,观点分类的任务是文档级别的分类。现在学习的是第23页,共29页 另一个数据集是为了实验目的收集的,来自亚马逊的3个产品领域。Video game(V)electronics(E)和software(S).来自Yelp的hotel(H)。与第一组不同的是为每个观点分配一个label。在每个领域,随机选择1500个正句子和1500个负句子。相似地,我们也建12个跨领域任务:V-H.我们用sentDat来表示这个数据集。这些数据集是句子级别的。数据集的总结在Table5中。现在学习的是第24页,共29页现在学习的是第25页,共29页5.2 总览比较结果 对于LSA、FALSA和SFA,我们用在4.1中提到的公式来识别领域独立特征和领域特殊特征,我们修改以下设置l=500、k=100、r=0.6。Figure2展示了RevDat中不同方法的比较结果。现在学习的是第26页,共29页现在学习的是第27页,共29页 通过第一个数据集的比较结果看,本文提出的SFA算法不仅能利用领域独立词和领域特殊词之间的关系来减小领域间的差异性,而且还能利用谱图论的聚簇机制来联系各类别之间的特征来发现有意义的簇。第二个数据集的结果不如第一个数据集理想,原因是第二个数据集是句子级别的,数据之间的联系比较稀疏。现在学习的是第28页,共29页6 结论 本文,我们提出来一个笼统的框架用于跨领域观点分类,首先在领域特殊词和领域独立词之间建了一个双向图,然后我们提出SFA算法来从源到目标领域分配领域特殊词到有意义的簇中。这些簇可用于减少领域特殊词之间的差距,帮助训练一个准确的分类器。在未来的工作里,我们计划编些语义知识,如果我们得到词的极性知识,我们能改写 半监督技术更好的方法来选择领域独立特征。现在学习的是第29页,共29页

    注意事项

    本文(跨领域分类 (2)优秀PPT.ppt)为本站会员(石***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开