基于Web的比较式挖掘研究 - 中国计算机学会中文信息技术.ppt
《基于Web的比较式挖掘研究 - 中国计算机学会中文信息技术.ppt》由会员分享,可在线阅读,更多相关《基于Web的比较式挖掘研究 - 中国计算机学会中文信息技术.ppt(25页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于协同图排序的对比新闻自动摘要,黄小江 万小军 肖建国北京大学计算机科学技术研究所,研究背景,比较是一种重要的认知方式优劣、趋势、规律互联网媒体的迅速发展新闻分析技术的快速进步主题检测、相关推荐,2,任务定义,比较语义两个或多个对象在某个维度上的相同/不同形式相对描述智利比海地贫困绝对描述智利是一个富裕国家海地是一个极度贫困的国家,3,任务定义,新闻话题一个种子事件或活动所有直接相关的事件和活动例:地震发生救援重建,4,任务定义,新闻话题对比相关话题奥巴马竞选活动罗姆尼竞选活动相关新闻要素筹款能力经济主张外交主张,5,任务定义,对比新闻摘要内容概括两个可比话题之间的共同点和不同点形式两部分文
2、本每部分描述一个话题两部分讨论话题中可比较的特性要求对比性、代表性、全面性、可读性,6,任务定义,对比新闻摘要,北京时间5月12日14时28分,位于北纬31度、东经103.4度的四川省汶川县发生里氏7.8级地震,造成重大人员伤亡和重大财产损失。截至13日7时,四川汶川县地震已造成四川、甘肃、陕西、重庆、云南、山西、贵州、湖北8省市共11921人遇难,倒塌房屋50余万间。至15日上午,参与救援行动的解放军和武警官兵、公安民警、干部群众和医务工作者等救援人员已从灾区抢救出伤员6万多人。,4月14日7时49分,青海省玉树藏族自治州玉树县发生7.1级地震,给当地人民群众生命财产造成严重 损失。截至北京
3、时间15日上午9时,发生在中国青海玉树的地震已经造成617人遇难,313人失踪,9110 人受伤,其中,970人伤势严重。截至17日,已调集至玉树震灾现场的各类救援人员达到15000余 人,累计搜救营救被困群众17000人。,7,基于协同图排序的摘要方法,摘要系统框架,新闻话题1,新闻话题2,预处理,句子挑选,对比性,代表性,全面性,句子排序,对比摘要,8,基于协同图排序的摘要方法,句子重要性对比性与对比话题中的其他重要句子具有强对比性,则此句子重要代表性与本话题中的其他重要句子具有强相似性,则此句子重要,9,基于协同图排序的摘要方法,句子重要性,10,基于协同图排序的摘要方法,句子关系图,1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 web 比较 对比 挖掘 发掘 研究 钻研 中国计算机 学会 中文 信息技术
限制150内