一种支持Web信息资源服务化的标记语言及其软件工具23532.docx
一种支持持Webb信息资资源服务务化的标标记语言言及其软软件工具具杨少华11,2张张利永11,2韩韩燕波111 (中中国科学学院计算算技术研研究所网网格与服服务计算算研究中中心,北北京 11000080)2 (中中国科学学院研究究生院,北北京10000339)(yanngshhaohhuan)摘要互联联网上聚集了了大量基基于万维维网技术术的信息息资源,随随着SOOA的流流行,如如何将信信息资源源封装成成Webb服务以以便于自自动聚合合和广泛泛重用成成为倍受受关注的的问题。文中提出一种Web信息资源服务化标记语言,并基于该语言实现了一个可视化、半自动的服务化工具Web2WS。Web2WS提供友好的操作界面辅助用户定义Web信息资源的访问规则、数据抽取规则,以及到目标Web服务的映射规则,可方便有效地将基于Web的信息资源封装成Web服务。关键词WWeb服服务;资源封装装器;Webb信息集集成;Webb资源服服务化中图法分分类号 TP3311A Maarkuup LLangguagge ffor Genneraatinng WWeb Serrvicces outt off Weeb-bbaseed IInfoormaatioon RResoourcces andd Sooftwwaree Suuppoort TheereoofYangg Shhaohhua11, 22, Zhaang Liyyongg1, 2, Haan YYanbbo11(Reeseaarchh Ceentrre ffor Griid aand Serrvicce CCompputiing, Innstiitutte oof CCompputiing Tecchnoologgy,CChinnesee Accadeemy of Sciiencces, Beeijiing 10000800)2 (GGradduatteUnniveersiity of ChiinesseAccadeemy of Sciiencces,Beiijinng, 10000399)AbsttracctThheree exxistt nuumerrouss Weeb-bbaseed rresoourcces on thee Innterrnett. AAs sservvicee-orreieenteed cconcceptts aand arcchittectturee prroliiferratee, mmoree annd mmoree atttenntioon iis ppaidd onn enncappsullatiing Web-bassed infformmatiion ressourrcess innto Webb Seerviicess foorcoompoosittionn annd rreusse. A maarkuup llangguagge ffor thiis kkindd off enncappsullatiion is proopossed andd a vissuall, ssemii-auutommatiic ttooll caalleed WWeb22WS is impplemmentted.It prooviddes a useer-ffrieendlly iinteerfaace thaatalllowws uuserrs tto ddefiine acccesss ruuless annd ddataa exxtraactiion rulles of thee weeb-bbasee innforrmattionn reesouurcee annd sspeccifyy maappiingss frrom thee innforrmattionn reesouurcee toothee taargeet WWeb Servvicee.Webb2WSS caan hhelpp too geenerratee Weeb SServvicees ffromm web sittes efffecttiveely andd coonveenieentlly.Keywwordds Webb Seerviice; Wrrappper;Webb Innforrmattionn Innteggrattionn; Seerviice Enccapssulaatioon今天的互互联网聚聚集了大大量基于于万维网网技术的的信息资资源,如新闻闻、天气气、股票票、交通通等等。我我们通常常使用浏浏览器访访问这些些信息,而在应应用程序序中集成成这些信信息资源源并不容容易,具具体表现现在:11)万维维网使用用HTTTP作为为客户端端与服务务器的通通讯协议议,处理理HTTTP协议议过于复复杂;22)信息息嵌入在在HTMML标记记的网页页中,标标签和数数据交织织在一起起,难以以分割,而而且HTTML的的格式比比较松散散,甚至至不要求求标签的的配对,应应用程序序很难从从中抽取取数据以以及数据据的结构构关系。以XMLL、SOOAP、WWSDLL和UDDDI等等标准规规范和协协议为核核心的WWeb服服务具有有良好的的封装性性、开放放性、松松散耦合合性、平台台独立性性等优点点。如果果以Weeb服务务的形式式对基于于HTTTP和HHTMLL的Weeb信息息资源进进行封装装,应用用程序便便可方便便地集成成此类信信息服务务。同时,以服务务作为基基本组成成元素的的服务组组合语言言(如BBPELL等)及及相关工工具也已已成熟,信息资源的服务化也会给应用集成带来极大的方便。本文借鉴鉴数据库库领域WWeb信信息抽取取和集成成方面的的工作,提提出一种种基于XMML语法法的Weeb信息息服务化化标记语语言,并并基于该该语言实实现了一个可可视化、半半自动的的服务化化工具Weeb2WWS(WWebSSitee tooWeb Servvicee)。利用WWeb22WS,开开发者只只需简单单的操作作便可实实现如下下功能:1) 通过浏览览网页的的方式定定义网页页数据抽抽取规则则;2) 提供可视视化界面面定义服服务规约约说明并并建立服服务操作作接口与与Webb页面元元素的映映射规则则;3) 自动生成成Webb服务代代码、相相关部署署文件以以及客户户端调用用代码,发发布与测测试服务务。本文首先先对相关关工作进进行比较较分析;第二节节阐述WWeb信信息资源源服务化化的原理理,详细细介绍服服务化标标记语言言;第三三节介绍绍服务化化工具的的设计与与实现;第四节节进行试试验和评评价;最最后是结结论和下下一步工工作。1. 相相关工作作数据库领领域对WWeb信信息抽取取和集成成研究进进行了大大量的工工作,出现了了一些成成熟的技技术,典典型的有有封装器器(Wrrappper)技技术等。封封装器特特指能从从Webb站点中中自动抽抽取信息息并转化化为结构构化数据据的一类类程序1。许许多封装装器生成成工具通通过学习习样本网网页的结结构以及及用户的的选择生生成封装装器。文文献2233对此此类工具具进行了了较全面面的分析析和总结结,网站站4中维护护了三十十多个封封装器开开发工具具的列表表,并进进行了一一些简要要的分析析和比较较,其中中许多工工具能够够抽取HHTMLL网页中中的数据据并按一一定的格格式封装装成XMML文档档。本文文实现的的服务化化工具本本质上属属于封装装器生成成工具,但但与传统统封装器器生成工工具不同同的是本本工具生生成的封封装器是是Webb服务。生成封装装器的关关键技术术之一是是数据抽抽取与映映射规则则的定义义。许多多生成工工具提供供图形化化的交互互界面辅辅助用户户定义这这些规则则,其方方式一般般有两种种:1)基基于标记记树方式式,样本本网页以以HTMML标记记树呈现现,用户户通过选选择感兴兴趣的树树结点定定义规则则,如XXWRAAP55;22)基于于浏览器器方式,样样本网页页直接在在浏览器器中显示示,如LLixtto66、SSG-WWRAPP7。浏览览器方式式对用户户屏蔽了了HTMML代码码,更加加方便易易用。在在数据抽抽取规则则的表达达上,有有的使用用W3CC推荐的的XMLL定位和和查询语语言XPPathh/XQQuerry88,9,如SSG-WWRAPP;有的的则使用用自定义义的数据据抽取脚脚本程序序,如LLixtto使用用一种自自定义的的基于逻逻辑的脚脚本语言言Eloog。生成封装装器的另另一关键键技术是是网页的的获取。获获取一个个简单的的静态网网页只需需知道网网页的UURL,而而访问动动态网页页或HTTML表表单背后后的网页页需要了了解更多多的访问问细节,如如请求方方法(GGET或或POSST等)、参参数传递递及取值值方法等等。传统统的封装装器生成成工具更更多的关关注数据据的抽取取,对于于网页获获取的支支持较弱弱,用户户如果封封装HTTML表表单背后后的网页页需要查查看样本本网页的的HTMML原始始代码,增增加了对对用户背背景知识识的要求求。现有的WWeb信信息资源源服务化化方法大大都基于于封装器器技术。PPolllockk系统10对Weeb信息息资源的的服务化化分构造造时和运运行时两两步完成成:1)构构造时使使用现有有的封装装器生成成技术对对Webb信息源源进行封封装,同同时生成成Webb服务的的WSDDL文档档,2)运运行时将将封装器器虚拟成成Webb服务,将将基于SSOAPP的交互互与封装装器特定定的交互互进行转转换。此此方法可可以重用用已有的的封装器器生成工工具,但但是要求求用户同同时熟悉悉两套系系统,而而且已有有的封装装器生成成工具往往往从数数据源角角度而非非服务的的角度考考虑Weeb信息息。Weeb服务务网关11是日本本东芝公公司提出出的另一一个Weeb信息息资源服服务化系系统,该该系统的的特点是是提出一一个支持持多HTTML解解析器的的框架,提提供了可可视化交交互界面面完成WWeb站站点到WWeb服服务的封封装过程程,并可可以对生生成的WWeb服服务进行行基本的的管理。但但是具体体的服务务化过程程比较繁繁琐,例例如用户户需要手手工提供供网页获获取的细细节,虽虽然提供供可视化化的Weeb服务务封装器器描述文文档的编编辑器,但但是相对对于边浏浏览边定定义的方方式仍较较为复杂杂。2. WWeb信信息资源源服务化化原理及及标记语语言2.1服服务化基基本原理理Web信信息资源源服务化化的目标标是把网网站提供供的信息息服务封封装成WWeb服服务。以以列车车车次查询询为例,用用户首先先访问网网站(如如m),然然后填写写车次,提提交后转转入车次次详细信信息页面面。这个个简单实实际的例例子揭示示了获取WWeb信信息的基基本过程程:访问问网页、提提交请求求、查看看结果。将将上述过过程进行行服务化化,生成成列车车车次查询询Webb服务,它它提供一一个geetTiickeetInnfo操操作,该该操作返返回请求求车次ttickketnno的详详细信息息TicckettInffo,接接口如:TickketIInfoo geetTiickeetInnfo(Strringg tiickeetnoo)。目标Weeb服务务需要关关心以下下几个问问题:1)如何何获取网网页的HHTMLL文档?Webb服务需需要了解解目标文文档地址址(URRL)、获获取方法法(GEET或PPOSTT)、请请求参数数、编码码信息等等细节。2)如何何在网页页中抽取取有用数数据?数数据抽取取依赖于于预定义义的数据据抽取规规则,包包括数据据的定位位和文本本的抽取取,此过过程需要要对HTTML文文档进行行解析。3)如何何封装抽抽取的数数据作为为服务的的输出结结果?抽抽取数据据的封装装依赖于于预定义义的数据据映射规规则,它它定义了了Webb信息源源的请求求参数和和抽取的的结果数数据与WWeb服服务规约约说明中中的操作作的输入入输出消消息的对对应关系系。图1揭示示了Weeb信息息服务化化的基本本原理:目标WWeb服服务的输输入与输输入页面面的HTTML表表单元素素建立映映射,服服务的输输出与结结果页面面中的数数据通过过XPaath表表达式建建立映射射,服务务首先使使用输入入参数“填写”HTMML表单单或链接接参数,提提交服务务器取得得结果页页面,然然后对页页面进行行分析,抽抽取数据据并按预预定义的的数据映映射规则则进行封封装,最最后返回回结果。XPatth是WW3C推推荐的XXML路路径语言言,HTTML文文档可以以表示为为一棵文文档对象象模型(DDOM)树树,树结结点可以以由类似似下面的的XPaath表表达式进进行定位位:/HTMML11/BBODYY1/TAABLEE1/TRR1/texxt()。结果页面表单输入页面提交HTML解析与错误校正车次查询Web服务服务输入服务输出HTML DOM树Xpath关联图1 WWeb信信息服务务化原理理图2服务务运行逻逻辑图2以车车次查询询为例详详细说明明目标WWeb服服务的运运行逻辑辑:第一一步服务务调用客客户端以以车次编编号TiickeetNoo为参数数调用服服务操作作gettTicckettInffo(11);第第二步服服务通过过HTTTP客户户端与远远程服务务器建立立连接,以以车次编编号为参参数发送送HTTTP请求求,取得得包含车车次信息息的原始始HTMML文档档(2,33,4,55);第第三步使使用HTTML解解析器将将HTMML格式式化为符符合XMML语法法的Xmml-HHTMLL文档(66,7),格格式化的的过程是是将HTTML转转换成符符合W33C的DDOM规规范的文文档,为为下一步步使用XXML定定位语言言XPaath抽抽取数据据作准备备;第四四步使用用XPaath引引擎从XXml-HTMML文档档中抽取取信息并并把结果果封装成成TicckettInffo对象象(8,99)。2.2服服务化标标记语言言为了将基基于万维维网技术术的信息息服务封封装成WWeb服服务,我我们提出出一种基基于XMML语法法的Weeb信息息服务化化标记语语言Weeb2WWS MML(MMarkkup Lannguaage),利用用该语言言可以表表达数据据抽取和和映射规规则,以以及生成成Webb服务的的一些细细节。使使用该语语言编写写的XMML文档档称为服服务化文文档。本本节将给给出Weeb信息息服务化化标记语语言核心心元素的的定义和和语法,为为了方便便表达,这这里使用用BNFF文法说说明语言言的语法法结构。服务化文文档包括括六部分分:Weeb2WWS=(IInpuutPaage,OOutpputPPagee,XppathhTabble,OOperratiion SoaapSeerveer,CConffig),语法结构如图3所示,下面对各元素进行详细介绍:1)InnputtPagge 样样本表单单输入页页面,结结构由WWebPPagee定义,其其中Url 为为页面地地址,LLinkkValluePPairr和ForrmVaalueePaiir是请请求网页页的链接接变量和和表单变变量,当当typpe属性性为COONSTT时,直直接使用用exppresssioon的值值,为IINPUUT类型型时,eexprresssionn必须是是Webb服务的的某个操操作的输输入参数数,表示示取值来来源于服服务的输输入。2)OuutpuutPaage 样本输输出页面面,结构构与InnputtPagge同。3)XppathhTabble Xpaath变变量表,每每个Xppathh变量的的patth属性性对应一一个XPPathh表达式式,tyype属属性说明明XPaath表表达式返返回的结结果类型型,TEEXT表表示返回回文本,CCOUNNT表示示计算元元素的个个数,常常用于计计算<ttablle>中中的<ttr>标标记个数数。Xppathh变量表表定义了了数据抽抽取规则则,paatteern值值为正则则表达式式,用于于匹配抽抽取的文文本。4)Opperaatioon WWeb服服务操作作,在服服务化标标记语言言中直接接使用对对象定义义服务的的输入和和输出,一一个操作作的输入入由零个个或多个个InpuutPaaramm组成,服服务的返返回结果果可以是是Prooperrty、Beann、Arrray中中的一种种,分别别对应JJavaa语言中中的简单单类型、复复合类型型以及数数组类型型,其中中Prooperrty作作为定义义服务输输出的原原子类型型,Beean通通过Prropeertyy、Arrray复复合或自自身嵌套套定义,Array定义为Property或Bean的数组。Property的type属性说明值的计算方式,例如type等于XPATH时,expression为某个已定义的Xpath变量,从而实现服务输出与网页HTML元素的关联。服务操作定义了数据的映射规则和目标Web服务的详细信息。5)SooapSServver 定义了了发布目目标Weeb服务务的SOOAP服服务器信信息,包包含主机机地址和和端口等等信息,用用于服务务发布。6)Coonfiig 定定义了服服务代码码生成相相关信息息,控制制代码生生成。Web22WS:=<<Web22ws sservviceenamme=""ncnnamee"targgetnnameespaace="urri">>InpuutPaageOutpputPPageeXpatthTaableeOperratiion *SoappSerrverr Connfigg</WWeb22ws >>InpuutPaage:=WWebPageeOutpputPPagee:=WebPageeWebPPagee:=<Webppageenamme=""ncnnamee"metthodd="GGET|POSST"eencoode="Striing"" tyype="InnputtPagge| OuutpuutPaage""><Urll exxpreessiion="Striing"" tyype="COONSTT|INNPUTT"/>><LiinkVValuuePaair namme=""ncnnamee" eexprresssionn="SStriing""typee="CCONSST|IINPUUT"/> *<FoormVValuuePaair namme=""ncnnamee" eexprresssionn="SStriing""typee="CCONSST|IINPUUT"/> *</WWebppagee>XpatthTaablee:=<XpaathTTablle><Xpaath namme=""ncnnamee" ttypee="TTEXTT|COOUNTT"paath="Sttrinng"pattternn="reggx eexprresssionn"/>>*</XpaathTTablle>Operratiion :=<opperaatioon nnamee="nncnaame "> <IInpuut> <InpuutPaaramm naame="nccnamme" vallue="Striing""valuuetyype="strringg|innt|ffloaat|ddoubble|boooleaan|ddoubble""/> * </Inpuut> <OOutpput>>OutpputOObj </Outpput>> <</opperaatioons>>OutpputOObj := Prooperrty | BBeann | AArraayProppertty:=<PProppertty naame="nccnamme" exppresssioon=""Striing""vallue="annyTyype""typee="CCONSST|IINPUUT|XXPATTH"valuuetyype="strringg|innt|ffloaat|ddoubble|boooleaan |douublee"/>>Beann:=<Beann naame="nccnamme" claassnnamee="nncnaame"">Proppertty *Beann *Arraay *</BBeann>Arraay:=<AArraay nnamee="nncnaame"">LooppVarrProppertty |Beann</AArraay>图3Weeb2WWS语法法结构从编程语语言角度度上看,服服务化文文档可以以看作是是Webb信息服服务化的的程序脚脚本,编编程人员员可以手手工编写写,亦可可通过第第4节的的服务化化工具自自动或辅辅助生成成。3. 服服务化工工具设计计与实现现基于服务务化标记记语言,我我们实现现了一个个可视化化、半自自动的WWeb信信息服务务化工具具Weeb2WWS。工工具以插插件形式式运行于于Ecllipsse112和EMMF开发发平台,很很好的重重用了EEcliipsee的强大大集成开开发环境境。在工具具的开发发实现中中,我们们尽量使使用一些些成熟的的开源模模块,一一方面加加快开发发的速度度,把精精力聚焦焦到需要要解决的的核心问问题上;另一方方面也增增强了工工具的稳稳定性。3.1 系统架架构图4给出出了服务务化工具具Webb2WSS的系统统架构,由由Webb2WSS文档图图形化编编辑器、WWeb代代理、内内置网页页浏览器器、代码码生成器器、服务务辅助工工具五部部分构成成。.Java/.wsdd文件Web2WS文档图形化编辑器内置网页浏览器Web代理互联网代码生成器服务辅助工具Soap服务器原始 html格式化 html抽取规则web2ws文档http交互细节Web服务图4 WWeb22WS系系统架构构Web22WS文文档图形形化编辑辑器是基基于服务务化标记记语言的的集成开开发环境境。编辑辑器以树树的方式式呈现,负负责Weeb2WWS文档档的新建建、读入入和编辑辑,并可可验证文文档是否否符合语语言的定定义。编编辑器从从Webb代理中中获取输输入输出出网页的的HTTTP交互互细节,对对用户屏屏蔽繁杂杂又琐碎碎的HTTTP协协议,自自动生成成Webb2WSS文档的的InpputPPagee和OuttputtPagge元素素。编辑辑器与内内置的网网页浏览览器协作作完成数数据抽取取和映射射规则的的定义。Web代代理作为为内置网网页浏览览器的网网络代理理,接受受浏览器器请求,访访问互联联网获取取网页的的原始HHTMLL文档。我我们使用用Apaachee的HtttpCClieent 3.00作为HHTTPP客户端端,HtttpCClieent提提供了高高效、健健壮的HHTTPP访问能能力。在在返回HHTMLL需要对对HTMML进行行如下处处理:1)XMML格式式化,使使用开放放源代码码的CyyberrNekko HHTMLL分析器器对HTTML进进行分析析和错误误校正,输输出符合合XMLL语法的的HTMML文档档。2)嵌入入交互控控制代码码,在不不改造浏浏览器的的前提下下为了实实现基于于浏览器器的动态态交互,WWeb代代理在返返回的HHTMLL文档中中嵌入JJavaaScrriptt交互控控制代码码,辅助助用户完完成数据据抽取和和映射规规则的定定义。其其中大量量使用一一种胖客客户端技技术AJJAX(异异步JaavaSScriipt+XMLL)。Web代代理同时时自动记记录用户户访问页页面的HHTTPP交互细细节,如如请求网网页的UURL、请请求方法法、参数数以及返返回HTTML文文本的字字符编码码等信息息。内置网页页浏览器器作为用用户定义义数据抽抽取和映映射规则则的交互互界面。用用户在浏浏览样本本网页时时使用鼠鼠标选择择感兴趣趣的数据据,配置置数据抽抽取规则则。浏览览器通过过Webb代理获获取远程程网页,其其HTMML文档档是经过过Webb代理处处理过的的Xmll-HTTML文文档,并并且嵌入入了交互互控制代代码使得得页面具具有更多多的动态态交互功功能。代码生成成器负责责生成基基于jaava语语言的WWeb服服务。它它以服务务化文档档为输入入,根据据文档中中的网页页访问细细节、数数据抽取取和映射射规则以以及生成成目标WWeb服服务的详详细信息息,产生生Webb服务、单单元测试试用例及及Webb服务调调用客户户端的程程序代码码,以及及相关服服务部署署文件和和WSDDL文档档。由于于Ecllipsse本身身是优秀秀的Jaava集集成开发发环境,用用户可以以即时对对Webb服务进进行编译译和测试试。服务辅助助工具集集成了服服务发布布、测试试等功能能,可以以直接将将服务部部署到SSOAPP服务器器并进行行测试。3.2 运行界界面图5是WWeb22WS运运行界面面的一个个截图,其中主主工作区区域是服服务化文文档图形形化编辑辑器,服服务化文文档和生生成的目目标Weeb服务务的源代代码文件件保存于于Ecllipsse工程程项目中中。Webb浏览器器用于显显示服务务化的网网页,同同时也是是定义数数据抽取取规则的的交互界界面。服务化文档图形化编辑器Web浏览器服务化文档目标Web服务代码图5Weeb2WWS用户户界面4. 试试验与评评价4.1服服务化工工具好用用性评价价从定性的的角度分分析,WWeb22WS好好用性体体现在以以下几点点:1) 对服务开开发者屏屏蔽获取取目标网网页的HHTTPP交互细细节。开开发者只只需提供供输入表表单所在在网页的的地址,在在浏览网网页的过过程中由由工具自自动获取取详细的的HTTTP交互互细节。2) 基于Weeb浏览览器的数数据抽取取和映射射规则定定义界面面。相对对于大多多数以HHTMLL标记树树为操作作界面的的方式,基基于浏览览器的界界面更加加直观、易易用。3) 降低了服服务开发发者的背背景知识识要求。工工具仅要要求服务务开发者者懂得JJavaa语言和和Webb服务的的基本概概念,对对于某些些复杂的的网页可可能需要要一些正正则表达达式的知知识。4) 集成的开开发环境境。工具具以Ecclippse插插件的形形式运行行,代码码生成器器的目标标语言为为Javva,可可以利用用Ecllipsse平台台强大的的Javva开发发和测试试环境,方方便的测测试服务务代码和和调用客客户端。从定量的的角度分分析,工工具的好好用性体体现在缩缩短开发发者构建建服务的的时间,我我们以互互联网上上五个典典型的信信息服务务作为案案例统计计服务的的构建时时间,服服务的开开发者为为熟悉WWeb22WS的的使用者者(同实实验室的的研究生生)。统统计信息息如表11所示,可可见对于于熟练的的工具使使用人员员,大约约十分钟钟左右即即可构造造一个WWeb服服务。构构建Weeb的服服务的主主要时间间花在数数据抽取取和映射射规则的的定义上上,而且且随规则则数目的的增加而而增加,而而其余时时间相对对较为稳稳定。表1服务务构建时时间统计计Web服服务服务提供供网站总时间(分钟)数据抽取取与映射射定义(分钟)数据抽取取规则数数量(条条)天气预报报新浪网958车次查询询火车票网网151120股票查询询和讯股票票955书价查询询互动出版版网967在线词典典Dictt.CNN8424.2 Webb服务执执行性能能试验我们从执执行时间间角度对自自动生成成的Weeb服务务进行了了实验。由图2的服务运行逻辑可以看出,Web服务的执行主要包括以下几个阶段:1)网络访问时间,指的是从发出页面请求到取得HTML文档的时间,它与网络带宽和服务器处理请求的时间相关;2)文档解析时间,指使用HTML解析器将取得的HTML文档格式化为符合XML语法和W3C DOM规范的Xml-HTML文档所用的时间;3)数据抽取与组装时间,指根据数据抽取规则从Xml-HTML文档提取数据并按服务的输出格式进行组装所用的时间。我们通过统计Web服务在各阶段的花费时间对Web服务的执行性能进行评价。测试环境为一台内存1G、CPU为1.8GHz的AMD机器,操作系统为Windows XP,服务运行容器使用Tomcat+Axis。同一时刻只测试一个服务,每个服务使用十组输入数据进行测试,并统计平均值,测试结果列于表2。从表2中中可以分分析得出出服务执执行的性性能瓶颈颈主要受受以下因因素影响响:1)HHTMLL文档的的大小,文文档越大大,文档档解析的的时间越越长,而而且数据据抽取与与组装的的时间急急剧增加加,图66显示了了文档大大小对服服务执行行的性能能的影响响;2)网网络的访访问时间间,包括括网络传传输延迟迟以及服服务器处处理请求求的时间间,与服服务功能能、网络络状况、服服务器的的处理能能力等因因素相关关。其中中用时最最长的书书价和股股票查询询为两秒秒多,其其余的用用时在几几十到几几百毫秒秒之间,基基本可以以满足对对时间限限制不是是很严格格的应用用。表2Weeb服务务执行性性能统计计Web服服务HTMLL文档大大小(字字节)文档解析析时间(毫秒)数据抽取取与组装装时间(毫秒)网络访问问时间(毫毫秒)总共用时时(毫秒秒)天气预报报182773392367129车次查询询1407723056141227股票查询询11077542651610032421999书价查询询6243321341831938822555在线词典典13166627323594图6 HHTMLL文档大大小对服服务执行行性能的的影响5. 结结论和下下一步工工作本文探讨讨了Weeb信息息资源的的服务化化问题,提提出一种种针对WWeb信信息资源源的服务务化标记记语言,同同时以该该语言为为核心实实现一个个可视化化、半自自动的服服务化工工具:WWeb22WS。该工具提供友好的交互界面辅助用户定义HTML网页数据抽取与映射规则,有效的辅助开发人员构建、发布,和测试Web服务。与传统的封装器生成工具相比,Web2WS生成的Web服务相对于其他软件构件具有更好的松耦合性、平台独立性、互操作性等优点,而且在易用性上做了一些改进。下一步工工作将在在完善现现有功能能的同时时进行如如下的一一些改进进:1)服服务执行行性能的的提高,许许多网站站的信息息具有时时效性,采采用缓存存技术减减少网络络的访问问时间和和次数,可可以改善善服务的的执行性性能。22)对网网页脚本本语言的的支持,使使目标WWeb服服务能够够处理网网页中的的脚本语语言。33)Weeb服务务的维护护,由于于生成的的Webb服务与与网页结结构相绑绑定,需需要提供供一个机机制用于于发现和和适应网页页结构的的变化。参 考 文 献献1J. Hammmerr, HH. GGarccia-Mollinaa, eet aal. Exttracctinng SSemiistrructtureed IInfoormaatioon ffromm thhe WWeb.In: Prroc. off thhe WWorkkshoop oon MManaagemmentt foor ssemiistrructtureed ddataa (SSIGMMOD''97), 119977. 11825, 2A.HH.F. Laaendder, B.A. Ribbeirro-NNetoo, eet aal. A bbrieef ssurvvey of Webb daata exttracctioon ttoolls, SIGGMODD, 220022. 311( 2): 84493,3S. Kuhhlinns aand R. Treedweell. Tooolkkitss foor GGeneerattingg Wrrappperss. NeetObbjecctDaays, 20002, 25591: 188419884R. Treedweell andd S. Kuuhliins. Wrrappper Devveloopmeent Toools. htttp:/wwww.wiffo.uuni-mannnheeim.de/kuuhliins/wraappeertooolss/inndexx.httml.en. 20004-065L. Liuu, PP.u. Caaltoon, et al. XWWRAPP: AAn XXML-Enaableed WWrappperr Coonsttrucctioon SSysttem forr Weeb IInfoormaatioon SSourrcess, IIn PProcc. oof IInteernaatioonall Coonfeerennce on Datta EEngiineeerinng, 20000.661162116R. Bauumgaartnner, S. Fllescca, et al. Viisuaal WWeb Infformmatiion Exttracctioon wwithh Liixtoo, TThe VLDDB JJourrnall, 220011: 111912887X. Menng, H. Lu, H. Waang, ett all. SSG-WWRAPP: AA Scchemma-GGuidded Wraappeer GGeneerattor,In Prooc. of Intternnatiionaal CConffereencee onn Daata Enggineeeriing, IIEEEE Prresss, 220022.333133228Berrgluund, S. Booag, D. Chhambberllin andd M.F. Ferrnánndezz. XMML PPathh Laanguuagee (XXPatth) 2.00, hhttpp:/wwww.w33.orrg/TTR/xxqueery/, 200059S. Boaag aand D. Chaambeerliin