网络中文文本蕴含地理实体关系的无监督抽取方法.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《网络中文文本蕴含地理实体关系的无监督抽取方法.pdf》由会员分享,可在线阅读,更多相关《网络中文文本蕴含地理实体关系的无监督抽取方法.pdf(3页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 网络 中文文本蕴含 地 理实体关系 的 无监督 抽取 方法 An Unsupervised Method for Geospatial Relation Extraction from Web Texts 余丽 Yu Li 中国科学院 地理科学与资源 研究所 资源与环境信息系统国家 重点实验室 中国科学院大学 陆锋 Lu Feng 中国科学院地理科学与资源 研究所 资源与环境信息系统国家 重点实验室 研究员 张恒才 Zhang Hengcai 中国科学院地理科学与资源研究所 资源与环境信息系统国家 重点实验室 摘要 地理实体是国家基础地理信息数据库的基本组成部分,也是地图服务矢量化表达的
2、重要形式,而地理信息则是有关地理实体的一切有用知识。 随着传感器、定位、互联网等技术的不断发展,地理信息已经成为人们生活的必需品,在位置服务(LBS )领域发挥着重要的作用1。新地理信息时代,人们对地理实体的内容描述更加丰富、时空刻画更加精细、更新频率更加迅速。一方面,相比传统的点、线、面表达方式,泛化后的地理信息聚合了多源异构的资源,如音频、视频、图片、评论、问答等。另一方面,相比传统的只关注单个地理实体信息,泛化后的地理信息更加关注地理实体之间复杂的关系,如类别隶属、空间拓扑和语义关系等2。 近年来,移动互联网时代的来临引发了基于位置服务的热潮, O2O( Online to Offlin
3、e)和 SoLoMo(Social Location Mobile)模式也随之兴起,人们对地理信息的需求变得更加迫切。然而,目前国内各大地图数据服务提供商(如四维图新、天地图、百度、高德等)提供的地图数据缺乏地理实体之间的关系描述,千万级的地理实体存储“ 扁平化”3,导致位置服务应用中地理信息检索依赖于关键词,不能有效发挥基于实体关系的地理知识图谱搜索的优势,极大地限制了位置服务的能力。同时,地理信息的采集大多依靠传统的测量手段,地理实体的关系抽取还缺乏行之有效的措施。开放文本(如微博、百科、论坛、博客等)为实现地理实体关系抽取的自动化提供了可能4-5。因此,如何识别并抽取地理实体间的空间和语
4、义关系,构建铰链的地图数据库,改善基于位置服务的用户体验,是地图服务行业面临的共同问题。 关系抽取作为信息抽取技术的重要研究课题和知识图谱的构建基础,国内外研究学者已开展了大量研究,并已服务于人们的日常生活,如微软亚洲研究院的人立方关系系统6、雅虎关系搜索7、腾讯好友关系链等。在地理实体关系抽取方面也取得了初步的研究成果,如 GeoWordNet8、OSM Semanti c Network9、GeoName Semantic Web10等。 目前,实体关系抽取的方法分为三类:基于模式匹配的方法、有监督和无监督的机器学习方法。模式匹配需要对语料库进行深入分析,人工抽取组织关系模式,优点是准确性
5、高,但是需要耗费大量的人力物力,不适用开放文本大范围的关系抽取研究。相比模式匹配的方法,监督学习方法在提取速度及准确率上都有所提升,但是该类方法需要人工标注的且具有一定规模的语料库,由于开放文本涉及的文本繁杂,长文本、短文本、网络用语等增加了语料库构建难度。 针对开放文本的地理实体关系抽取问题,无监督的机器学习方法人工干预少,不需要标注语料,能以独立于数据的方式工作,可直接揭示观测数据的内部结构和规律,因此对无监督的语义关系抽取方法已开展了大量的研究11-12。部分研究者将语义关系抽取看做是语义聚类的过程,通过计算词频、词法或句法特85 征的相似性将实体对分组,进而提取组内的关系名称13-14
6、。如何设计有效的权值计算方法提取出准确的关系名称是其主要难点。无监督的空间关系抽取工作少有报道,现有的方法依赖于英文的空间本体15,因受限于高质量的中文空间本体的可得性,无法移植到中文语 料。目前,中文的空间关系抽取仍停留在监督的学习方法上16,高成本的语料标注工作难以满足海量多元的网络文本关系抽取的要求。 针对中文的语义和空间关系抽取问题,本文将实体关系抽取转换成关键词提取的问题,实现了一种无监督地理实体关系抽取方法:对于句中的每一对地理实体,首先提取该句中的所有名词、动词和介词作为关系的候选关键词;然后基于向量空间模型,使用候选关键词构建词语- 语境矩阵;并在基于词频统计的关键词提取方法中
7、引入词语的位置、长度和词性的重要性,计算每个词语在当前语境中的权值,选择当前语境中权值最大的词语作为关键词;接着,借助词性识别出句中的空间词,同时根据关键词和空间词在句中的位置,按照句子原始的逻辑,调整各元素的顺序,自适应地构建关系元组;最后使用新浪旅游景点名称和百度百科简介进行了中文的地理实体关系抽取的实验,分析了 Frequency、 TF-IDF 和 PPMI 三种权值计算方法在引入新特征前后关系抽取的性能差异。 结果显示:在解决中文的语义和空间关系抽取问题时,引入词语的位置、词长和词性重要性有利于提升基于词频统计的关键词提取方法的正确率(增长 20%)。此外,关系元组的重构保证了实体关
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 中文 文本 蕴含 地理 实体 关系 监督 抽取 方法
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内