空间数据集成与自动更新关键技术.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《空间数据集成与自动更新关键技术.ppt》由会员分享,可在线阅读,更多相关《空间数据集成与自动更新关键技术.ppt(56页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、程 钢2015年6月19日主 要 内 容立项背景1模式匹配2属性匹配3更新方法5实体匹配4地理空间数据库的建设与更新,是国家空间数据基础设施建设的重要组成部分,其质量和现势性直接影响一切应用系统分析和决策的结果。数据更新仍然存在许多不足:数据源存在不一致、不完整和不准确性的问题;更新的智能化程度不高;更新过程对多种数据源整合、利用程度不高;整个更新过程缺乏系统科学的过程控制。一、研究背景数据库更新的基本过程:(1)更新数据库和目标数据库之间执行模式匹配操作,发现其间语义相同或相互的模式元素要素类,并显式地声明彼此之间的映射关系以确定哪些类型的数据可以用于目标数据库的更新。(2)确定对应要素属性
2、之间的关系。(3)实例关系匹配。(4)利用更新实体的信息更新目标实体。一、研究背景模式匹配:在两个或者多个数据间,确定语义相关的要素类,建立映射关系。属性匹配:在建立了映射关系的要素类之间,确定属性关系,建立属性的对应关系。空间数据自动更新关键技术一、研究背景实体匹配:在建立了模型映射关系的要素类之间,通过语义、几何关系确定实体映射关系。更新方法:基利用数据于传感网的井下最佳逃生线路选择、灾点地上下快速对照定位、透水演进动态仿真与决策支持模式匹配指从两个数据库模式中确定语义相关的模式要素类,并声明其具体映射关系的过程。模式匹配是更新传播的基础性操作,它所取得的匹配结果可被用于指导和简化其他处理
3、操作,保证基础地理数据库中的变化信息被充分准确地提取和集成。二、模式匹配(1)基于实例的模式匹配方法如果两个要数类中存在共同的实体,这两个要素类就可以认为是相关的,然后通过对比分析共同实体的属性值,可进一步确定相关的属性。为了提高执行效率,本文采用抽样统计方式发现两个要素类之间的共同实体。二、模式匹配二、模式匹配(1)基于实例的模式匹配方法共同实体的识别在目标数据库要素类中随机抽取一个空间实体(ecn),并生成其缓冲区(brn);在更新数据库要素类中查询完全被brn包含的候选实体集合(EM)。根据一定规则,判断EM 中是否存在一个实体(emi)与ecn是同一实体。如此循环,直到超过预定的采用样
4、本总量。二、模式匹配二、模式匹配(1)基于实例的模式匹配方法采用式(1)来定量地计算两个要素类的相似性:SF(F1,F2)=N2/N1F1 为客户数据库中的要素类;F2 为主数据库中的要素类;N1 为进行实体识别时在F1中所选的样本总量;N2为进行实体识别时在F2中能发现的对应实体总数。二、模式匹配(2)基于概念语义的要素类匹配方法概念匹配方法:概念信息量法、语义距离法、基于属性的语义相似度及混合式语义相似度等方法。语义距离法基本假设如下:两概念的语义距离越大,其相似度越低,反之相似度越高。二、模式匹配(2)基于概念语义的要素类匹配方法二、模式匹配地名人文地名自然地名区域地名一级行政区二级行政
5、区居民点地区市盟自治州海域海洋(2)基于概念语义的要素类匹配方法基于语义距离的通名语义相似度算法中,影响语义的主要因子有:概念深度,概念密度,关系类型,关联强度和概念属性等。二、模式匹配(2)基于概念语义的要素类匹配方法1)概念深度指概念节点与根节点的最短路径中包括的边数。以“IS-A”关系建立的本体概念树中,每一概念是其上位概念的细化,越到下层,概念所指的对象越具体,内涵越丰富。同等语义距离下,两个概念节点的深度越大,相似度越高,反之越低;相反,同等语义距离下二者概念层次差越小,二者语义相似度越高,反之相似度越低。二、模式匹配(2)基于概念语义的要素类匹配方法1)概念深度概念深度对语义相似度
6、影响因子的计算如式(5),且满足 。二、模式匹配(2)基于概念语义的要素类匹配方法2)概念密度本体层次中,局部区域概念密度越大,说明该区域概念细化程度越大,该处概念分类越具体,在其他因素相同的条件下,直接概念子节点间的语义相似度就越高。二、模式匹配(2)基于概念语义的要素类匹配方法3)关系强度本体中概念通过各种关系联系在一起,不同关系类型对概念语义相似度的影响也有所不同。如上下位的“同义关系”所表征的语义相似度应大于“整体-部分”关系所表征的语义相似度。二、模式匹配(3)基于概念语义的要素类匹配方法4)改进的语义相似度算法、为调节因子,且满足+=1。由于语义距离在相似度计算中占主导地位,其他因
7、子起辅助作用,所以的权重相对较大,而、的权重相对较小。二、模式匹配属性匹配是数据更新的基础,用于确定更新数据中的哪些字段可以用来目标数据字段更新。为了更全面地识别出相关的属性,将参与匹配的属性概括为数值型和字符型两种基本类型。三、属性匹配(1)数值型属性采用相关分析方法,计算两个数值型属性的统计相关系数,然后取其绝对值作为两个属性的相似值。设有不同数据库的属性项X和Y,其对应的数据实例分别为(x1,x2,.,xn)和(y1,y2,.,yn),两者之间的相似性:X,Y分别为实例(x1,x2,.,xn)和(y1,y2,.,yn)的平均值。如rXY越大,说明两个属性X和Y的相似性越大。三、属性匹配(
8、2)字符型属性相似性采用基于编辑距离的算法来计算字符型属性之间的相似性。编辑距离是指将一个字符串变为另一个字符串所需要的最小编辑操作次数。设有两个来自不同数据库的字符型属性项S和T,其对应的数据实例分别为(s1,s2,.,sn)和(t1,t2,.,tn),则属性相似性:三、属性匹配三、属性匹配(2)字符型属性相似性采用基于编辑距离的算法来计算字符型属性之间的相似性。编辑距离是指将一个字符串变为另一个字符串所需要的最小编辑操作次数。设有两个来自不同数据库的字符型属性项S和T,其对应的数据实例分别为(s1,s2,.,sn)和(t1,t2,.,tn),则属性相似性:三、属性匹配三、属性匹配(1)顾及
9、语义的地名匹配根据规范汉语地名构词特点,依据地名通名与地名类型的关系,建立规范地名通名语义知识库,并将由其提供的地名语义作为地名相似度匹配的重要指标。地名匹配判断指标由专名相似度、通名相似度及复合地名相似度三个指标构成。通名相似性语义距离法专名相似性编辑距离法四、实体匹配(1)顾及语义的地名匹配假设:(1)任何概念与其自身的语义相似度为1。(2)所有地名通名均为同根概念节点,Sim_sem相似度0。(3)若 Sim_sem为无穷小,则Plit接近0,专名可靠性最低,两通名表示完全不同的两种地理实体,认为二者不可能为同一地名。四、实体匹配(1)顾及语义的地名匹配(4)若 Sim_sem=1,则P
10、lit为1,此时两地名通名为同一概念,只需比较专名的相似度。(5)若 Sim_sem=1且 Sim_lit=1,则两地名的复合相似度值为1,二者为同一地名。(6)若 Sim_lit=0,此时表示个体的标志符完全不同,基本可排除同一地名的可能。四、实体匹配(1)顾及语义的地名匹配动态权重设置方法根据sim_sem的大小动态设置专名和通名的权重四、实体匹配(1)顾及语义的地名匹配四、实体匹配(1)顾及语义的地名匹配四、实体匹配地名对地名对概念概念距离距离Dep(con1)Dep(con2)Child(cona)通名通名相似度相似度专名专名相似度相似度复合复合相似度相似度字面字面相似度相似度确山县确
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 空间 数据 集成 自动更新 关键技术
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内