一种支持Web信息资源服务化的标记语言及其软件工具23532.docx
《一种支持Web信息资源服务化的标记语言及其软件工具23532.docx》由会员分享,可在线阅读,更多相关《一种支持Web信息资源服务化的标记语言及其软件工具23532.docx(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、一种支持持Webb信息资资源服务务化的标标记语言言及其软软件工具具杨少华11,2张张利永11,2韩韩燕波111 (中中国科学学院计算算技术研研究所网网格与服服务计算算研究中中心,北北京 11000080)2 (中中国科学学院研究究生院,北北京10000339)(yanngshhaohhuan)摘要互联联网上聚集了了大量基基于万维维网技术术的信息息资源,随随着SOOA的流流行,如如何将信信息资源源封装成成Webb服务以以便于自自动聚合合和广泛泛重用成成为倍受受关注的的问题。文中提出一种Web信息资源服务化标记语言,并基于该语言实现了一个可视化、半自动的服务化工具Web2WS。Web2WS提供友好
2、的操作界面辅助用户定义Web信息资源的访问规则、数据抽取规则,以及到目标Web服务的映射规则,可方便有效地将基于Web的信息资源封装成Web服务。关键词WWeb服服务;资源封装装器;Webb信息集集成;Webb资源服服务化中图法分分类号 TP3311A Maarkuup LLangguagge ffor Genneraatinng WWeb Serrvicces outt off Weeb-bbaseed IInfoormaatioon RResoourcces andd Sooftwwaree Suuppoort TheereoofYangg Shhaohhua11, 22, Zhaang
3、Liyyongg1, 2, Haan YYanbbo11(Reeseaarchh Ceentrre ffor Griid aand Serrvicce CCompputiing, Innstiitutte oof CCompputiing Tecchnoologgy,CChinnesee Accadeemy of Sciiencces, Beeijiing 10000800)2 (GGradduatteUnniveersiity of ChiinesseAccadeemy of Sciiencces,Beiijinng, 10000399)AbsttracctThheree exxistt n
4、uumerrouss Weeb-bbaseed rresoourcces on thee Innterrnett. AAs sservvicee-orreieenteed cconcceptts aand arcchittectturee prroliiferratee, mmoree annd mmoree atttenntioon iis ppaidd onn enncappsullatiing Web-bassed infformmatiion ressourrcess innto Webb Seerviicess foorcoompoosittionn annd rreusse. A
5、maarkuup llangguagge ffor thiis kkindd off enncappsullatiion is proopossed andd a vissuall, ssemii-auutommatiic ttooll caalleed WWeb22WS is impplemmentted.It prooviddes a useer-ffrieendlly iinteerfaace thaatalllowws uuserrs tto ddefiine acccesss ruuless annd ddataa exxtraactiion rulles of thee weeb-
6、bbasee innforrmattionn reesouurcee annd sspeccifyy maappiingss frrom thee innforrmattionn reesouurcee toothee taargeet WWeb Servvicee.Webb2WSS caan hhelpp too geenerratee Weeb SServvicees ffromm web sittes efffecttiveely andd coonveenieentlly.Keywwordds Webb Seerviice; Wrrappper;Webb Innforrmattionn
7、 Innteggrattionn; Seerviice Enccapssulaatioon今天的互互联网聚聚集了大大量基于于万维网网技术的的信息资资源,如新闻闻、天气气、股票票、交通通等等。我我们通常常使用浏浏览器访访问这些些信息,而在应应用程序序中集成成这些信信息资源源并不容容易,具具体表现现在:11)万维维网使用用HTTTP作为为客户端端与服务务器的通通讯协议议,处理理HTTTP协议议过于复复杂;22)信息息嵌入在在HTMML标记记的网页页中,标标签和数数据交织织在一起起,难以以分割,而而且HTTML的的格式比比较松散散,甚至至不要求求标签的的配对,应应用程序序很难从从中抽取取数据以以及数
8、据据的结构构关系。以XMLL、SOOAP、WWSDLL和UDDDI等等标准规规范和协协议为核核心的WWeb服服务具有有良好的的封装性性、开放放性、松松散耦合合性、平台台独立性性等优点点。如果果以Weeb服务务的形式式对基于于HTTTP和HHTMLL的Weeb信息息资源进进行封装装,应用用程序便便可方便便地集成成此类信信息服务务。同时,以服务务作为基基本组成成元素的的服务组组合语言言(如BBPELL等)及及相关工工具也已已成熟,信息资源的服务化也会给应用集成带来极大的方便。本文借鉴鉴数据库库领域WWeb信信息抽取取和集成成方面的的工作,提提出一种种基于XMML语法法的Weeb信息息服务化化标记语
9、语言,并并基于该该语言实实现了一个可可视化、半半自动的的服务化化工具Weeb2WWS(WWebSSitee tooWeb Servvicee)。利用WWeb22WS,开开发者只只需简单单的操作作便可实实现如下下功能:1) 通过浏览览网页的的方式定定义网页页数据抽抽取规则则;2) 提供可视视化界面面定义服服务规约约说明并并建立服服务操作作接口与与Webb页面元元素的映映射规则则;3) 自动生成成Webb服务代代码、相相关部署署文件以以及客户户端调用用代码,发发布与测测试服务务。本文首先先对相关关工作进进行比较较分析;第二节节阐述WWeb信信息资源源服务化化的原理理,详细细介绍服服务化标标记语言言
10、;第三三节介绍绍服务化化工具的的设计与与实现;第四节节进行试试验和评评价;最最后是结结论和下下一步工工作。1. 相相关工作作数据库领领域对WWeb信信息抽取取和集成成研究进进行了大大量的工工作,出现了了一些成成熟的技技术,典典型的有有封装器器(Wrrappper)技技术等。封封装器特特指能从从Webb站点中中自动抽抽取信息息并转化化为结构构化数据据的一类类程序1。许许多封装装器生成成工具通通过学习习样本网网页的结结构以及及用户的的选择生生成封装装器。文文献2233对此此类工具具进行了了较全面面的分析析和总结结,网站站4中维护护了三十十多个封封装器开开发工具具的列表表,并进进行了一一些简要要的分
11、析析和比较较,其中中许多工工具能够够抽取HHTMLL网页中中的数据据并按一一定的格格式封装装成XMML文档档。本文文实现的的服务化化工具本本质上属属于封装装器生成成工具,但但与传统统封装器器生成工工具不同同的是本本工具生生成的封封装器是是Webb服务。生成封装装器的关关键技术术之一是是数据抽抽取与映映射规则则的定义义。许多多生成工工具提供供图形化化的交互互界面辅辅助用户户定义这这些规则则,其方方式一般般有两种种:1)基基于标记记树方式式,样本本网页以以HTMML标记记树呈现现,用户户通过选选择感兴兴趣的树树结点定定义规则则,如XXWRAAP55;22)基于于浏览器器方式,样样本网页页直接在在浏
12、览器器中显示示,如LLixtto66、SSG-WWRAPP7。浏览览器方式式对用户户屏蔽了了HTMML代码码,更加加方便易易用。在在数据抽抽取规则则的表达达上,有有的使用用W3CC推荐的的XMLL定位和和查询语语言XPPathh/XQQuerry88,9,如SSG-WWRAPP;有的的则使用用自定义义的数据据抽取脚脚本程序序,如LLixtto使用用一种自自定义的的基于逻逻辑的脚脚本语言言Eloog。生成封装装器的另另一关键键技术是是网页的的获取。获获取一个个简单的的静态网网页只需需知道网网页的UURL,而而访问动动态网页页或HTTML表表单背后后的网页页需要了了解更多多的访问问细节,如如请求方
13、方法(GGET或或POSST等)、参参数传递递及取值值方法等等。传统统的封装装器生成成工具更更多的关关注数据据的抽取取,对于于网页获获取的支支持较弱弱,用户户如果封封装HTTML表表单背后后的网页页需要查查看样本本网页的的HTMML原始始代码,增增加了对对用户背背景知识识的要求求。现有的WWeb信信息资源源服务化化方法大大都基于于封装器器技术。PPolllockk系统10对Weeb信息息资源的的服务化化分构造造时和运运行时两两步完成成:1)构构造时使使用现有有的封装装器生成成技术对对Webb信息源源进行封封装,同同时生成成Webb服务的的WSDDL文档档,2)运运行时将将封装器器虚拟成成Web
14、b服务,将将基于SSOAPP的交互互与封装装器特定定的交互互进行转转换。此此方法可可以重用用已有的的封装器器生成工工具,但但是要求求用户同同时熟悉悉两套系系统,而而且已有有的封装装器生成成工具往往往从数数据源角角度而非非服务的的角度考考虑Weeb信息息。Weeb服务务网关11是日本本东芝公公司提出出的另一一个Weeb信息息资源服服务化系系统,该该系统的的特点是是提出一一个支持持多HTTML解解析器的的框架,提提供了可可视化交交互界面面完成WWeb站站点到WWeb服服务的封封装过程程,并可可以对生生成的WWeb服服务进行行基本的的管理。但但是具体体的服务务化过程程比较繁繁琐,例例如用户户需要手手
15、工提供供网页获获取的细细节,虽虽然提供供可视化化的Weeb服务务封装器器描述文文档的编编辑器,但但是相对对于边浏浏览边定定义的方方式仍较较为复杂杂。2. WWeb信信息资源源服务化化原理及及标记语语言2.1服服务化基基本原理理Web信信息资源源服务化化的目标标是把网网站提供供的信息息服务封封装成WWeb服服务。以以列车车车次查询询为例,用用户首先先访问网网站(如如m),然然后填写写车次,提提交后转转入车次次详细信信息页面面。这个个简单实实际的例例子揭示示了获取WWeb信信息的基基本过程程:访问问网页、提提交请求求、查看看结果。将将上述过过程进行行服务化化,生成成列车车车次查询询Webb服务,它
16、它提供一一个geetTiickeetInnfo操操作,该该操作返返回请求求车次ttickketnno的详详细信息息TicckettInffo,接接口如:TickketIInfoo geetTiickeetInnfo(Strringg tiickeetnoo)。目标Weeb服务务需要关关心以下下几个问问题:1)如何何获取网网页的HHTMLL文档?Webb服务需需要了解解目标文文档地址址(URRL)、获获取方法法(GEET或PPOSTT)、请请求参数数、编码码信息等等细节。2)如何何在网页页中抽取取有用数数据?数数据抽取取依赖于于预定义义的数据据抽取规规则,包包括数据据的定位位和文本本的抽取取,此
17、过过程需要要对HTTML文文档进行行解析。3)如何何封装抽抽取的数数据作为为服务的的输出结结果?抽抽取数据据的封装装依赖于于预定义义的数据据映射规规则,它它定义了了Webb信息源源的请求求参数和和抽取的的结果数数据与WWeb服服务规约约说明中中的操作作的输入入输出消消息的对对应关系系。图1揭示示了Weeb信息息服务化化的基本本原理:目标WWeb服服务的输输入与输输入页面面的HTTML表表单元素素建立映映射,服服务的输输出与结结果页面面中的数数据通过过XPaath表表达式建建立映射射,服务务首先使使用输入入参数“填写”HTMML表单单或链接接参数,提提交服务务器取得得结果页页面,然然后对页页面进
18、行行分析,抽抽取数据据并按预预定义的的数据映映射规则则进行封封装,最最后返回回结果。XPatth是WW3C推推荐的XXML路路径语言言,HTTML文文档可以以表示为为一棵文文档对象象模型(DDOM)树树,树结结点可以以由类似似下面的的XPaath表表达式进进行定位位:/HTMML11/BBODYY1/TAABLEE1/TRR1/texxt()。结果页面表单输入页面提交HTML解析与错误校正车次查询Web服务服务输入服务输出HTML DOM树Xpath关联图1 WWeb信信息服务务化原理理图2服务务运行逻逻辑图2以车车次查询询为例详详细说明明目标WWeb服服务的运运行逻辑辑:第一一步服务务调用客
19、客户端以以车次编编号TiickeetNoo为参数数调用服服务操作作gettTicckettInffo(11);第第二步服服务通过过HTTTP客户户端与远远程服务务器建立立连接,以以车次编编号为参参数发送送HTTTP请求求,取得得包含车车次信息息的原始始HTMML文档档(2,33,4,55);第第三步使使用HTTML解解析器将将HTMML格式式化为符符合XMML语法法的Xmml-HHTMLL文档(66,7),格格式化的的过程是是将HTTML转转换成符符合W33C的DDOM规规范的文文档,为为下一步步使用XXML定定位语言言XPaath抽抽取数据据作准备备;第四四步使用用XPaath引引擎从XXm
20、l-HTMML文档档中抽取取信息并并把结果果封装成成TicckettInffo对象象(8,99)。2.2服服务化标标记语言言为了将基基于万维维网技术术的信息息服务封封装成WWeb服服务,我我们提出出一种基基于XMML语法法的Weeb信息息服务化化标记语语言Weeb2WWS MML(MMarkkup Lannguaage),利用用该语言言可以表表达数据据抽取和和映射规规则,以以及生成成Webb服务的的一些细细节。使使用该语语言编写写的XMML文档档称为服服务化文文档。本本节将给给出Weeb信息息服务化化标记语语言核心心元素的的定义和和语法,为为了方便便表达,这这里使用用BNFF文法说说明语言言的
21、语法法结构。服务化文文档包括括六部分分:Weeb2WWS=(IInpuutPaage,OOutpputPPagee,XppathhTabble,OOperratiion SoaapSeerveer,CConffig),语法结构如图3所示,下面对各元素进行详细介绍:1)InnputtPagge 样样本表单单输入页页面,结结构由WWebPPagee定义,其其中Url 为为页面地地址,LLinkkValluePPairr和ForrmVaalueePaiir是请请求网页页的链接接变量和和表单变变量,当当typpe属性性为COONSTT时,直直接使用用exppresssioon的值值,为IINPUUT类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 支持 Web 信息资源 服务 标记 语言 及其 软件 工具 23532
限制150内