欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    SEWM2006中文网页分类评测.ppt

    • 资源ID:67256865       资源大小:178KB        全文页数:20页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    SEWM2006中文网页分类评测.ppt

    SEWM2006 中文网页分类评测SEWM2006中文网页分类评测清华大学参赛队报告清华大学计算机科学与技术系智能技术与系统国家重点实验室徐舒SEWM2006 中文网页分类评测内容提纲pCWT200G数据预处理p网页分类策略p未来工作及建议p参考文献SEWM2006 中文网页分类评测数据预处理总体设计lzlib压缩存储l处理全部200G数据l保留原始网页的页面信息和链接关系l中间数据可用于对网页分类的进一步的研究SEWM2006 中文网页分类评测数据预处理HTML解析(1)l网页分类需要注意的几个问题:p直接应用纯文本分类策略效果很差p通常包含具有丰富语义信息的Tagp通常含有大量噪声p可能包含多媒体信息而无确切的文本内容l提取HTML中如下标签和属性:pp(keywords,description,etc),p(Surrounding text)p页面正文信息l实现方法:p基于Python的HTMLParser类,重载其中部分接口SEWM2006 中文网页分类评测数据预处理HTML解析(2)l编码转换:p常用网页编码格式:GBK/GB18030/GB2312(简体)BIG-5(繁体)UTF8/UTF16(通用)p只处理BIG5,GBK和UTF-8三种编码p统一转码成为GBK编码(编码转换库Libiconv)p05年训练集中的编码数量统计:BIG5:53,UTF-8:6,GBK:15457SEWM2006 中文网页分类评测数据预处理信息抽取和去噪(1)l在解析HTML的基础上进行l表征同一网页的不同形式l页面内部信息p标题pMETA信息p页面正文p页面链接文本lWeb结构信息p 链入文本聚合SEWM2006 中文网页分类评测l过滤广告噪声(基于规则)p无链接文字(AnchorText)p链接文字周围没有非链接的文字p链接文字中出现了给定的过滤关键词,例如“下一页”,“图铃”等l缺乏可靠的抑制噪声的措施l不直接删除广告信息,而是给出标记,由后续程序进一步判断数据预处理信息抽取和去噪(2)SEWM2006 中文网页分类评测数据预处理并行化l海量数据,无进程间通信,易于并行处理l申请使用清华大学计算机集群系统p128台rx2600服务器作为计算节点,256 安腾CPUp RedHat Linux操作系统p 每秒13300亿次的峰值浮点运算能力 p 实际使用:12节点,预处理用时:28小时SEWM2006 中文网页分类评测数据预处理中间数据格式.IDCWT200G-DFHR23224.URLhttp:/ anchortext:北大未明 surroundingtext:点击进入北大为名网站 Use:Y.LINKSOUTlink:http:/ anchortext:关于我们surroundingtext:Use:Y.CONTENT欢迎来到北大未明网站.CLASSIDSEWM2006 中文网页分类评测内容提纲pCWT200G数据预处理p网页分类策略p未来工作及建议p参考文献SEWM2006 中文网页分类评测分类策略综述l基于纯文本分类策略p向量空间模型l采用SVM(libSVM)作为试验中统一使用的分类器p特征的选择远比分类器本身重要p良好的泛化能力p由于训练后模型只需考虑支持向量,分类速度快l特征和权重p二元串(Bigram)作为特征pTF*IDF权重pCHI-square进行特征选择,70000维SEWM2006 中文网页分类评测分类策略多特征融合l多个来源,独立表征网页的信息的融合l采用线性加权的方法融合l使用插值法贪婪搜索确定各个特征的权重l最终采用的融合策略(向量级特征融合):contenttitleLink textAnchor TextSurrounding Textdescriptionkeywords12.30.782.72.150.26SEWM2006 中文网页分类评测分类策略链接分析(1)l网页间存在链接:主题存在一定关联l分类完成基础上,简单的标签传播算法进行refine(20G)Step1:给出20G目标网页集合中所有的网页分类标签,并给出分类的置信度。Step2:对于那些进行了归一化之后分类置信度很低的网页,我们认为这些网页的分类结果是不可靠的,Step3:对于上述所有置信度很低的网页,观察指向该网页的所有网页的分类结果,如果这些网页均为分类置信度很高的网页,并且在分类结果上有很强的内聚性,则将当前页面的分类标签更换为指向其的那些网页的分类结果。SEWM2006 中文网页分类评测分类策略链接分析(2)8类上的传播效果11类上的传播效果SEWM2006 中文网页分类评测内容提纲pCWT200G数据预处理p网页分类策略p未来工作及建议p参考文献SEWM2006 中文网页分类评测未来工作l更加有效的页面去噪方法(VIPS,摘要等)l更大规模的数据集上进行链接分析l改进标签传播的算法SEWM2006 中文网页分类评测一些感想和建议l8类的分类体系有些过于重叠:如娱乐和时尚l用户调查(User Study)的结果:p在05年的1100篇测试集上进行标注p比较8类分类器的机器分类结果和用户标注p存在用户和机器标注不一致但都合理的情况p上述情形在分类置信度存在双峰时尤为突出:(73/1100)l层次分类(Google Directory)?多标签?SEWM2006 中文网页分类评测内容提纲pCWT200G数据预处理p网页分类策略p未来工作及建议p参考文献SEWM2006 中文网页分类评测参考文献l1 G.R.Xue,Q,Yang H.J Zeng,Y,Yu and Z.Chen.Exploiting the Hierarchical Structure for Link Analysis The 28th Annual International ACM SIGIR conference on Research and Development in Information Retrieval(SIGIR2005),July 2005.l2 D.Cai,X.F.He,J.R.Wen and W.Y.Ma.Block-level Link Analysis.The 27th Annual International ACM SIGIR conference on Research and Development in Information Retrieval(SIGIR2004),July 2004.l3 Y.H.Hu and G.M.Xin.Title Extraction from Bodies of HTML Documents and its application to Web Page Retrievall4.J.Glover.Using Web Structure for Classifying and Describing Web Pages,www2002.l5 J.Furnkranz.Exploiting structural information for text classification on the WWW.In Intelligent Data Analysis,pages 487498,1999.l6 S.Chakrabarti,B.Dom,and P.Indyk.Enhanced hypertext categorization using hyperlinks.SIGMOD Record(ACM Special Interest Group on Management of Data),27(2):307318,June 1998.l7 A.Blum and T.Mitchell.Combining labeled and unlabeled data with co-training.In COLT:Proceedings of the Workshop on Computational Learning Theory,MorganKaufmann Publishers,1998.l8 Y.Yang,S.Slattery,and R.Ghani.A study of approaches to hypertext categorization.Journal of Intelligent Information Systems.Kluwer Academic Press,(accepted),2001.SEWM2006 中文网页分类评测

    注意事项

    本文(SEWM2006中文网页分类评测.ppt)为本站会员(s****8)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开