基于Web的比较式挖掘研究.ppt
《基于Web的比较式挖掘研究.ppt》由会员分享,可在线阅读,更多相关《基于Web的比较式挖掘研究.ppt(25页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于协同图排序的对比新闻自动摘要黄小江 万小军 肖建国北京大学计算机科学技术研究所北京大学计算机科学技术研究所研究背景n比较是一种重要的认知方式优劣、趋势、规律n互联网媒体的迅速发展n新闻分析技术的快速进步主题检测、相关推荐2 北京大学计算机科学技术研究所任务定义n比较语义n两个或多个对象在某个维度上的相同/不同形式n相对描述智利比海地贫困n绝对描述智利是一个富裕国家海地是一个极度贫困的国家3 北京大学计算机科学技术研究所任务定义n新闻话题一个种子事件或活动所有直接相关的事件和活动例:地震n发生n救援n重建n4 北京大学计算机科学技术研究所任务定义n新闻话题对比相关话题n奥巴马竞选活动n罗姆尼
2、竞选活动相关新闻要素n筹款能力n经济主张n外交主张n5 北京大学计算机科学技术研究所任务定义n对比新闻摘要内容n概括两个可比话题之间的共同点和不同点形式n两部分文本n每部分描述一个话题n两部分讨论话题中可比较的特性要求n对比性、代表性、全面性、可读性6 北京大学计算机科学技术研究所任务定义n对比新闻摘要北京时间5月12日14时28分,位于北纬31度、东经103.4度的四川省汶川县发生里氏7.8级地震,造成重大人员伤亡和重大财产损失。截至13日7时,四川汶川县地震已造成四川、甘肃、陕西、重庆、云南、山西、贵州、湖北8省市共11921人遇难,倒塌房屋50余万间。至15日上午,参与救援行动的解放军和
3、武警官兵、公安民警、干部群众和医务工作者等救援人员已从灾区抢救出伤员6万多人。4月14日7时49分,青海省玉树藏族自治州玉树县发生7.1级地震,给当地人民群众生命财产造成严重 损失。截至北京时间15日上午9时,发生在中国青海玉树的地震已经造成617人遇难,313人失踪,9110 人受伤,其中,970人伤势严重。截至17日,已调集至玉树震灾现场的各类救援人员达到15000余 人,累计搜救营救被困群众17000人。7 北京大学计算机科学技术研究所基于协同图排序的摘要方法n摘要系统框架新新新新闻闻话题话题11新新新新闻闻话题话题22预处理理句子挑句子挑选对比性比性代表性代表性全面性全面性句句子子排排
4、序序对对比比比比摘要摘要摘要摘要8 北京大学计算机科学技术研究所基于协同图排序的摘要方法n句子重要性对比性n与对比话题中的其他重要句子具有强对比性,则此句子重要代表性n与本话题中的其他重要句子具有强相似性,则此句子重要9 北京大学计算机科学技术研究所基于协同图排序的摘要方法n句子重要性对比性代表性10 北京大学计算机科学技术研究所基于协同图排序的摘要方法n句子关系图11 北京大学计算机科学技术研究所基于协同图排序的摘要方法n话题内代表关系基于句子之间的相似度tfisf 模型12 北京大学计算机科学技术研究所基于协同图排序的摘要方法n话题间对比关系对比程度n讨论事件属性的相关性梅西获得了2010
5、 年世界足球先生称号C.罗纳尔多是2009 年世界足球先生n比较点(属性名):名词/动词性n比较结果(属性值):形容词/副词/数词性13 北京大学计算机科学技术研究所基于协同图排序的摘要方法n话题间对比关系保留名词、动词tfisf 模型14 北京大学计算机科学技术研究所基于协同图排序的摘要方法n句子重要性对比性代表性15 北京大学计算机科学技术研究所基于协同图排序的摘要方法n句子选择贪心算法排序值更新n提升不同话题中的可比句子得分(可比性)n惩罚相同话题内的相似句子得分(冗余性)16 北京大学计算机科学技术研究所实验评估n数据集5组英文话题话题话题1话题话题2E1Haiti Earthquak
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Web 比较 挖掘 研究
限制150内