同类网站查询接口的集成系统设计与实现_毕业论文设计(22页).doc
《同类网站查询接口的集成系统设计与实现_毕业论文设计(22页).doc》由会员分享,可在线阅读,更多相关《同类网站查询接口的集成系统设计与实现_毕业论文设计(22页).doc(21页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-同类网站查询接口的集成系统设计与实现_毕业论文设计-第 17 页毕业论文(设计)论文题目:同类网站查询接口的集成系统设计与实现学生姓名:学 号:所在院系:计算机与信息工程系专业名称:计算机科学与技术届 次:指导教师:淮南师范学院本科毕业论文(设计)诚信承诺书1.本人郑重承诺:所呈交的毕业论文(设计),题目同类网站查询接口的集成系统设计与实现是本人在指导教师指导下独立完成的,没有弄虚作假,没有抄袭、剽窃别人的内容; 2.毕业论文(设计)所使用的相关资料、数据、观点等均真实可靠,文中所有引用的他人观点、材料、数据、图表均已注释说明来源; 3. 毕业论文(设计)中无抄袭、剽窃或不正当引用他人学术观
2、点、思想和学术成果,伪造、篡改数据的情况; 4.本人已被告知并清楚:学院对毕业论文(设计)中的抄袭、剽窃、弄虚作假等违反学术规范的行为将严肃处理,并可能导致毕业论文(设计)成绩不合格,无法正常毕业、取消学士学位资格或注销并追回已发放的毕业证书、学士学位证书等严重后果; 5.若在省教育厅、学院组织的毕业论文(设计)检查、评比中,被发现有抄袭、剽窃、弄虚作假等违反学术规范的行为,本人愿意接受学院按有关规定给予的处理,并承担相应责任。 学生(签名): 日期: 年 月 日目 录同类网站查询接口的集成系统设计与实现学生:魏敏(指导老师:陈磊)(淮南师范学院计算机与信息工程系)摘 要:随着Internet
3、与网络技术的飞速发展,网上的信息以海量方式增长,然而我们却不能快速而准确获取有效的信息。海量信息只能通过查询接口访问获得,为了能够同时访问同一领域多个Web数据库,需要对多个Web数据库的查询接口进行集成通过实验分析,基于查询条件的深网查询接口集成方法不仅简化了模式匹配的复杂过程,而且很大程度上提高了模式集成的精度因此,此集成方法是高效可行的研究深度网的最终目的是为获取隐藏于Web应用之后的网络数据库中的数据,通过查询接口在线访问后台数据库,这改变对传统的基于搜索引擎的查询和获取信息的方式带来了巨大的挑战。传统的搜索引擎只能进行静态页面的搜索,现有的接口集成方法主要集成各个网站提供的高级搜索接
4、口,这样建立的集成接口由于包含过多的属性,面在一些属性上可代用户选择的候选值更是繁杂,不便用户使用,于是设计了基于查询条件的集成接口,避免了浏览复杂的查询接口。关键词:查询接口;数据库;接口集成;搜索;属性抽取Congener website query interface integration system design and implementationStudent: Wei Min (Faculty Adviser:Chen lei)(Department of computer and information engineering, Huainan Normal Univers
5、ity)Abstract:With the rapid development of Internet and network technology, the information on the net growth in vast amounts of way, but we cant get effective information for accurate and fast. Can only be acquired through query interface to access vast amounts of information, in order to be able t
6、o access to the same field at the same time multiple Web database, the need for multiple Web database query interface integration. Through the experimental analysis, based on the query conditions of deep Web query interface integration method not only simplifies the complex process of pattern matchi
7、ng, and largely enhances the precision of model integration. Therefore, based on the query conditions of deep Web query interface integration method is efficient and feasible. The ultimate goal of network research depth is for hidden in the Web application after the network data in the database, thr
8、ough online access to background database query interface, which changed the traditional way based on search engine query and access to information brings great challenge. Traditional search engines can only carry on the static page search, the existing interface integration approach mainly integrat
9、ed each site offers advanced search interface, so that establish the integration of the interface due to contain too many attributes, face on some of the properties for the users choice of candidate values is more complex, inconvenient to users, so the integration interface design based on the query
10、 conditions, avoiding the browse complex query interface.Key word:Query interface; Database; The interface integration;Search; Attribute sampling前言论文主要任务是针对当前同一领域的不同站点所提供的各个查询接口进行集成,为用户提供一个统一的查询接口,从而节省用户的查询时间。用户在统一的查询接口上输入查询条件,这个查询条件会被分解并传送到各个站点,并被提交,从而得到站点的部分查询结果,再将各站点得到的查询结果进行整合,最终为用户返回一个完整的查询结果。使
11、用本体(ontology定义为用户浏览和查询处理领域知识)的“桥梁”作用,设置属性之间的映射关系不同的接口模式,准确地识别语义之间的关联不同的界面特性,模型融合,根据模式匹配的结果,合并网站数据库查询接口设置在相同的语义属性,并且尽量保持查询接口领域的结构特点和属性顺序,以取得集成查询界面。互联网包含了大量的可获取信息,它的内容存储在一个真正的在线数据库,但是这个信息获得得通过查询接口来访问。为了提供给用户属于网络特定的区域根据去问的途径需要对网络数据库查询接口集成。因此,同类查询接口集成可以看作是同领域各本地查询接口之上的全局视图。同类查询接口集成主要完成两个方面的工作:模式的集成与模式的匹
12、配。从模式匹配来看,传统的模式匹配方法主要由对比匹配发现属性相关性和统一的全局模型。然而,由于Web数据库的自治性导致查询接口形式和内容的多样性,和最终所有可能的属性组合的搜索空间很难,使模式匹配面临更多的挑战。使属性之间高精度匹配,查询接口模式匹配使用领域本体概念映射方法,遵循本体语义元信息,计算的模式统一,建立属性之间的映射关系不同的接口模式,实施不同的深层网络查询接口属性匹配。在模式融合方面,传统模式融合方法没用充分考虑属性的模式信息,只是针对属性标签,导致集成结果不够完善和精确,因此,查询接口模式融合通过定义模式融合规则对模式匹配结果进行处理,以最终获得源模式集的全局查询接口。目前国内
13、在利用计算机实现集成的网站查询接口集成系统设计和这一领域的研究还有很大可能的研究空间,所以选择了这个主题,力求在这个领域作出贡献。 模式匹配方法模式匹配方法主要包括基于本体、基于统计模型和基于聚类。1.1模式匹配方法基于本体每个源接口形式化为XML架构,并产生相应的XML架构的基础,然后再定义一组规则,形成主体匹配的自定义域本体概念,产生集成接口。然而,由于这种方法的匹配精度依赖于所定义的匹配规则,需要大量的人工定义精确的规则。基于本体的关系数据库模式匹配的方法,先计算输入的单词相似的本体,然后使用聚类方法和定义的概念聚集近似映射功能映射得到的最终结果。然而,在计算的输入字和本体相似时,考虑只
14、有这两个关键词的相似性,没有得到充分利用本体语义级别的功能。基于本体的集成方法,通过建立综合查询接口领域本体,然后定义推理规则消除冲突,使每个查询的界面和集成的查询接口匹配。然而,这第一场比赛后可能使综合查询接口集成方法不能完全与本地查询接口匹配,导致在一个综合的结果是不可靠的,全面,准确。在模式融合方面,提出并实现查询接口集成的原型系统的首要条件是设计一种交互式聚类匹配算法,得到不同查询接口属性之间的对应关系,将获得匹配关系的属性聚集到同一类中,并根据聚类规则选出每一类中的特征属性。由于复杂的映射关系频繁出现,不能完全自动化实现集成的过程,需要通过用户交互方式指导解决映射过程中不确定的问题,
15、最后将每一类的特征属性作为统一查询接口的属性。但是,该方法忽略了查询接口中很多有用的信息,并且需要用户交互来解决问题。由此可见,虽然同类网站查询接口集成取得了一些研究成果,但是,仍然有很多关键问题有待进一步改善。在模式集成,综合查询界面,提出并实施了一个原型系统的首要条件是要设计一个互动的聚类匹配算法,以获得不同的查询接口属性之间的映射关系将被匹配到同一类物业聚集,根据规则选择每个集群在要素属性类。由于复杂的映射经常发生,不能完全实现自动化,从而实现集成的过程,需要通过用户交互指导解决问题的过程中的不确定性映射,最后是每类作为一个统一的查询接口属性的特性。然而,该方法忽略了很多有用的信息的查询
16、接口,需要用户交互来解决问题,并给用户带来不便,有一些关键问题有待进一步改进。1.2模式匹配方法基于统计模型基于统计模型:分析统计模型属性名称同时出现的频率和模式,应用“正关联”和“负关联”双重算法同时处理简单的1:1匹配和复杂的M:N匹配,正相关”往往对应元素之间的“群组关系”,而“负关联”通常对应于“同义关系”,然后把得到的相关知识应用于辅助匹配。使用关联搜索方法获得属性间的复杂匹配,该方法通过应用关联公式计算属性间的关联值,然后定义函数选择、同义属性匹配。然而,这种方法基于统计抽样空间,没有充分考虑属性语义之间的关联。1.3模式匹配方法基于聚类优先选择用于获取相关的属性的匹配方法,首先通
17、过聚类相关的属性的集合,然后用最大的选择策略和贪婪策略和设计新的选择策略相结合的策略,删除不正确的属性关联。然而,该方法只考虑查询接口的属性标记,并忽略其它有用的信息,在同时,不识别匹配的复杂性。然而,这种方法不考虑之间的语义关联的属性和属性忽略了其他有用的信息。基于集群的模式匹配方法,先在小组赛使用的相关属性,那么相似的概念来计算通过聚类的代名词属性终于可以用贪心算法来匹配选择。然而,这种方法将查询接口一组平图案的属性作为一个实体,忽略了丰富的结构信息查询接口。2 深网查询接口集成分析属性分析是查询接口集成的最主要途径,利用查询接口的模式信息和语义信息识别不同查询接口属性之间的匹配关系,从而
18、获得一个集成的查询接口,其框架如图所示:图 深网查询接口集成框架2.1 模式匹配数据库的自治性使得不同查询接口语义相似或相同的属性具有不同的标签、不同的数据格式与组织结构。为了获得统一的查询接口,对不同的语义查询接口要匹配的属性相同。因此,模式匹配是网络的异构信息集成的关键问题。定义1:模式匹配(schema matching)。可以形式化定义为函数schema matching(I1,I2,),其中I1,I2为输入信息,A为辅助信息,满足如下条件:)I1S1,D1S1为输入模式信息,D1为满足模式S1的数据实例。)I2S2,D2S2为输入模式信息,D2为满足模式S2的数据实例。)A表示所有可
19、利用的帮助更好理解模式语义并协助完成匹配任务的所有辅助信息,如字典、本体等。)匹配函数schema matching(I1,I2,)在执行过程中先产生模式元素间候选对应关系集,经辅助工具判断最终生成模式元素间确定的对应关系集作为输出。候选对应关系集(candidate correspondence set,CSS)的 形 式 化 描 述 为CSS S1i,S2j,similarysimilary,0,1,其中S1i表示模式S1中第i个元素按语义规则书写的表达式。S1表示模式元素的个数,如果S1m,那么0,m。S2j与S1i类似,表示S2中第j个元素按语义规则书写的表达式,S2表示模式元素的个数
20、,如果S2n,那么j0,n。similary表示S1i与S2j的相似度,表示相似度阈值,如果S1i与S2j的相似度大于(等于)阈值,那么意味着S1i与S2j相似,将相似关系记录于确定的匹配对应关系集 (matching correspondence set,MCS)中,最后,将作为匹配函数的输出。通过模式匹配模式定义,根据现有的资料,发现语义对应模式成员之间正确的映射,它包含2种类型匹配:简单的和复杂的匹配。简单的匹配是指以1:1的语义属性之间的映射。不同于简单的1:1匹配,复杂匹配的是属性频繁1:M匹配或M:n匹配,即M模式属性匹配另一个模式的N个属性。目前的研究重点是1:1匹配,简化了复杂
21、的匹配,主要由于在搜索空间的属性的所有可能组合的消耗是非常困难的。2.2 模式融合匹配关系模型之间的融合性能,通过建立统一的全局查询接口,集成查询接口。定义2 模式融合可以看作一个三元组(DS,IS,IS*):)DSdS1,dS2,DSn,DS表示在线数据库集合,DSi(1in)为一个在线数据库;)ISIS1,IS2,ISM,IS表示查询接口模式集合,IS(1jm)为一个数据库的查询接口模式;)IS*IS1IS2ISM,IS*表示在模式IS1,IS2,ISM匹配基础上,合并了网站查询接口集合中表示同一语义的属性,同时尽可能地保持该领域查询接口的属性顺序和结构特征,产生的集成查询接口页面。一个设
22、计良好的集成查询接口应具备以下3个特点:)完备性(conciseness):在同一领域的深网查询接口中,如果其他查询接口中的任何属性与之都不相似,那么这个属性应该出现在集成查询接口中。)一致性(coherence):源自不同查询接口语义相似的属性以统一的通用属性显示在集成查询接口中,集成查询接口中的属性标签具有一定的共性,能够传递不同查询接口中同义属性的含义。)用户友好性(friendly):集成查询接口的属性标签应该是该领域中最常用的词汇,且属性间的结构合理,布局恰当,为用户提供较好的可视化效果。3 基于本体的深网查询接口集成3.1 本体构建和本体概念模型为了提高本体的构建效率,并在一定程度
23、上能够保证领域本体的质量,提出了一种半自动构建本体的算法。Step1、通过本体构建工具构建核心本体:1)领域术语抽取。确定领域类型,从特定领域深网查询接口表单中对领域术语进行抽取。2)领域概念抽取。领域核心本体要求领域概念必须是语义明确的,所以需要用领域内最通用的语义来描述该类术语。3)概念间层次关系获取。捕获术语间的语义关系,例如同义(Synonymy)关系、继承(ISA)关系、包含(part-of)关系等。4)领域本体精炼。本体工程师以本体工程学标准对已获取的领域本体概念及概念间的语义关系进行修正。5)领域本体描述。采用本体描述语言(如RDF,XML,OWL等)描述领域本体,本体描述语言提
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 同类 网站 查询 接口 集成 系统 设计 实现 毕业论文 22
限制150内