基于BIRT技术的轻量级可视化统计分析方案.pdf
http:/ -1-基于基于 BIRT 技术的轻量级可视化统计分析方案技术的轻量级可视化统计分析方案 马松,迟忠先(大连理工大学计算机科学与工程系,辽宁大连 116024)E-mail:, 摘摘 要:要:现有的网上统计分析系统往往缺乏良好的可视化描述,使用的技术主要是由 Excel生成图片粘切到网页或者使用专业统计软件。本文给出了一种基于 JSP 和 BIRT 技术的轻量级可视化统计分析的方案,具有适用性广、可扩展性高、可视化结果良好、图表形式多种多样的优点,并成功运用在网上投票系统的结果可视化描述之中。关键词:关键词:可视化;统计分析;JSP;BIRT 中图分类号:中图分类号:TP 311 1引言引言 随着计算机互联网的迅速发展,网上统计分析已经应用在人们生活中的方方面面,从简单的在线投票系统,到复杂的网上投票系统,从简单的 Excel 生成统计图,到复杂的使用专用统计分析软件生成统计图等等。但这些系统要么过于简单,只是由 Excel 生成图片粘切到网页中的;要么过于庞大,例如专业统计软件SPSS(Statistical Package for the Social Sciences)等,功能虽然强大,却过于复杂、庞大,不适合轻量级的统计分析。为此,我们利用成熟的 JSP 网页技术,以及基于 Eclipse 插件开发的开源报表工具Eclipse BIRT 技术,给出一种轻量级可视化统计分析方案,并应用在网上投票系统的结果可视化描述之中。我们将用户在线填写的投票数据存储在后台 SQL Server 数据库中,并实时的读取数据库中的数据,以良好的可视化的结果形式展示给用户,同时支持即时程序实现,在一个系统中可以完成投票、结果可视化呈现。2JSP和和BIRT技术技术 2.1 JSP 技术技术 太阳微系统公司(Sun Microsystems Inc.)在 Web 服务器、应用服务器、交易系统以及开发工具供应商间广泛支持与合作下,整合并平衡了已经存在的对Java编程环境(例如Java Servlets 和 JavaBeans)进行支持的技术和工具后产生了一种新的、开发基于 Web 应用程序的方法JavaServer Pages 技术(JSP)1,2。JSP 技术很容易整合到多种应用体系结构中,以利用现存的工具和技巧,并且能扩展到支持企业级的分布式应用中。作为采用 Java 技术家族的一部分,以及 Java 2(企业版体系结构)的一个组成部分,JSP 技术能够支持高度复杂的基于 Web 的应用。利用 JSP 技术,动态信息由 JSP 页面来表现,JSP 页面由安装在 Web 服务器或者使用 JSP的应用服务器上的 JSP 引擎执行。JSP 引擎接受客户端对 JSP 页面的请求,并且生成 JSP 页面作为对客户端的响应。2.2 BIRT 技术技术 BIRT(Business Intelligence and Reporting Tools)3,4是一个 Eclipse-based 开放源代码报表系统,是 2004 年著名的报表厂商 Actuate 以战略开发者的角色加入 eclipse 开http:/ -2-源基金组织,并与相关的技术专家、报表专家计划开发的一个 java 报表项目,即基于eclipse 的设计器的一整套报表工具。BIRT 具有报表系统的核心功能特征,如报表版面设计、支持数据库访问和简单控制脚本等,其功能集中在从数据源提取数据、处理数据并显示数据。它主要是用在基于 Java 与J2EE 的 Web 应用程序上,它可以给 J2EE 的 WEB 应用程序创建漂亮醒目的 PDF 或者 HTML 格式的报表插件。BIRT 的最初目标是使用 Eclipse 提供一个框架,用以在某组织内设计、布置和查看报表,并包含查询等工具。使用 BIRT,用户可以在应用中增加多种形式的报表:列表(Lists)、图表(charts)、交叉表(Crosstabs)、文档(Letters&Documets)、组合报告(Compound Reports)。BIRT 的报表有四个组成部分:数据(Data)、数据转换(Data Transforms)、业务逻辑(Business Logic)、展示(Presentation)。BIRT 架构主要由两部分组成:一个是基于 Eclipse 的报表设计引擎和一个可以加到应用服务的运行期组件,分别对应如图 1 中的和部分。其中,部分主要由嵌入在 Eclipse框架中的可视化报表设计器,以及可以创建和修改报表设计的报表设计引擎组成,这部分可以生成基于 XML 格式的报表设计文件。这样做的最大好处是,如果你理解了此类 XML 文件的组成部分,你可以抛开 Eclipse 环境,手动创建或修改报表设计文件,这是设计上的巨大优势。部分主要是由利用报表文件产生和绘制报表的报表引擎、设计和产生图表的图表引擎,以及可以在 Eclipse 中预览报表的报表浏览器组成。我们主要使用部分和部分的报表引擎和图表引擎。利用这个图形报表制作引擎,可以绘制饼图、条形图、线图、区域图、散点图、股票图以及仪表盘等多种类型的图表,并且可以直接输出为 HTML 和 PDF 格式的图表。图 1 BIRT 架构 Fig.1.Framework of BIRT 其中,报表引擎中的 API(The Report Engine API)提供了方便的接口调用,可以方便操作 JSP 页面中的 response 对象,并根据 setOutputFormat()方法的参数输出为不同格式的报表。例如,如下代码将报表对象的显示格式设置为 HTML 格式,然后就可以方便的嵌入到 JSP 页面中。/set output options HTMLRenderOption options=new HTMLRenderOption();options.setOutputFormat(HTMLRenderOption.OUTPUT_FORMAT_HTML);options.setOutputStream(response.getOutputStream();task.setRenderOption(options);http:/ -3-3JSP和和BIRT技术在可视化网上投票系统的应用技术在可视化网上投票系统的应用 3.1 网上投票系统介绍网上投票系统介绍 随着计算机互联网的普及和发展,网上投票系统已经非常普及,常见的如新浪网对某一个问题征集网民的投票,某全国范围内的歌手比赛征集对选手们的投票,某电影在线网站收集用户对电影的投票等等。但是,纵观现有的网上投票系统,不管是门户网站上简单的投票系统,还是网上发布的通用投票/程序,都缺乏良好的结果可视化描述。网上常见的投票系统往往是将投票结果以百分比的形式,显示给用户,用户往往无法得到更多更重要的信息。还有些投票系统虽然也提供柱状图、饼状图等不同形式的图例,却大部分是由 Excel 生成图片粘切到网页中的。比如,新浪网关于“萨达姆被判绞刑”的调查结果页面如下图 2 所示:图 2 网上常见的推荐结果显示 Fig.2.Recommender results display often seen on the internet 因此,我们基于 JSP 网页技术以及 Eclipse BIRT 技术给出的轻量级可视化统计分析方案,运用在网上投票系统的结果可视化之中,产生一种新的网上投票系统。3.2 系统流程及特点系统流程及特点 用户使用本系统产生可视化统计结果的一般流程如图 3 所示:图 3 用户使用流程图 Fig.3.Flow-chart of users usage 本系统使用 JSP 做前台页面的开发,并在系统中加入 Eclipse BIRT 技术,通过程序实http:/ -4-时绘制出各种不同类型的图表,提供给用户分析数据源。系统中的数据源是多个用户对电影的评分数据,稍作修改,即可使用到对商品,诸如书籍、音乐、光碟等物品的推荐系统中,并且仅需对数据源做修改,其他接口可基本保持沿用。因此,本系统的适用性比较广,并且可以稍微修改运用在中小型电子商务网站中,为用户产生合适的推荐。而通过嵌入在 Eclipse 框架中的可视化报表设计器,可以方便的修改已有的报表文件,或者创建新的报表文件,这样,用户不仅可以查看基于给定统计类型的分析图表,也可以提出新的需求,并据此创建新的统计类型的图表文件。因此,系统为用户留下了可更新的接口,系统的可扩展性提高。并且,系统提供了饼图、条形图、线图、区域图、散点图、股票图以及仪表盘等多种类型的图表,可视化结果良好,图表形式多样。3.3 测试数据集的选择测试数据集的选择 我们选择网上流行的投票系统 MovieLens5作为测试数据集,考虑到了它的应用比较广,数据也比较齐全、规范。MovieLens 是一个基于 Web 的研究型投票和推荐系统,用于接收用户对电影的评分并提供相应的电影推荐列表。目前,该 Web 站点的用户已经超过 43 000 人,用户评分的电影超过 3 500 部。MovieLens 所提供的数据包含两种数据集(dataset),第一个数据集包含 10 万条评分数据,其中 943 位 MovieLens 用户对 1,682 部电影进行了评价,每个用户至少评价 20 部电影以上;第二个数据集包含 100 万条评分数据,其中 6,040 位 MovieLens 用户对大约 3,900部电影进行了评价,每个用户至少评价 20 部电影以上。我们采用第一个数据集作为实验数据集。MovieLens 数据集包含 movies.dat,users.dat和 rating.dat 三个的文件。movies.dat 中包含了 1682 部电影的详细描述信息(电影编号、电影名称、发布日期、连接地址和所属类别,所属类别由 19 位二进制编码字符串组成,分别代表不确定类型和 18 类电影类型的标志位),users.dat 中包含了 943 位用户的详细信息(用户编号、年龄、性别、从事的职业和邮政区号),rating.dat 中包含 943 位用户对 1,682部电影的 100,000 条评分记录(用户编号、电影编号、评分值和时间戳),评分值为从 1 到5 的整数,数值越高,表明用户对该电影的喜爱程度就越高。我们预先将这三个文本数据对应到数据库中,形成三个表,随后的可视化结果显示均是基于这三个数据表的,表的字段定义如表 1 所示:表 1 源数据表结构 Tab.1.Structure of data source tables Table name Columns movies item id,movie title,release date,IMDb URL,genre users user id,age,gender,occupation rating user id,item id,rating,timestamp http:/ -5-3.4 性能评价性能评价 每个用户可能对多个电影发出投票,给出评分,因此我们可以计算出用户投票的平均值,并给出不同评分区间的人数统计图,我们舍弃了人数统计小于等于 2 的评分区间,如图 4所示:图 4 用户投票平均值分布图 Fig.4.Average voting values distributing chart of users 图 4 中,评分区间在 2.0-2.5 的有 10 人,在 2.5-3.0 的有 71 人,在 3.0-3.5 的有 282人,在 3.5-4.0 的有 416 人,在 4.0-4.5 的有 127 人,在 4.5-5.0 的有 14 人。进一步的,对每位用户来说,他对一部分电影进行了投票,每一部电影有可能属于多个电影类别,因此我们可以计算出每位用户在各个电影类别上的评分度,评分度越高,用户就越喜爱此类电影,以反映出用户对某电影类别的喜爱程度,如图 5 所示:图 5 用户在各电影类别上的评分度 Fig.5.Voting degrees on each kinds of films of users 不同的用户,有各自的年龄、性别和职业信息。我们可以统计不同年龄段、性别,职http:/ -6-业的用户对不同电影类别的评分度,而其发现更多的规律。比如,我们计算出不同职业的用户在 Comedy 类电影的评分度如图 6 所示,可以看出职业为 engineer 和 lawyer 的用户评分度较高,反映出这个群体的用户更倾向于观看 Comedy 类的电影,而职业为 marketing 的用户相反。图 6 不同职业的用户对 Comedy 类电影的评分度 Fig.6.Voting degrees on Comedy kind of films for various occupations of users 4总结总结 这种基于 JSP 和 BIRT 技术的轻量级可视化统计分析方案,具有即时程序实现、适用性广、可扩展性高、可视化结果良好、图表形式多种多样的优点。它为网上投票系统的统计分析提供了基于 J2EE 网页技术和 BIRT 图表技术的解决办法,可以给用户提供多种不同的视图和视角理解投票数据,结构清晰,使用简单,具有良好的发展前途。参考文献参考文献 1 鲁夫创意工作室,何雄等JSP 网络程序设计M北京:人民邮电出版社,2000 2 吴其庆JSP 编程思想与实践M北京:冶金工业出版社,2003 3 BIRT WebEB/OL:http:/www.eclipse.org/birt/phoenix/.4 胡键.BIRT:基于 Eclipse 的报表EB/OL:IBM developerWorks 5 Minnesota University.MovieLens Dataset:http:/movielens.umn.edu/EB/OL http:/ -7-A Light Weight Solution of Visualized Statistic Analysis Based on BIRT Technology Ma Song,Chi Zhongxian(Department of Computer Science&Engineering,DaLian University of Technology,DaLian,116024)Abstract There always are not well visualized description of the existing Statistic Analysis systems.The main technology is using Excel to generate images and then copying to the web sites,or using specialistic statistic softwares.So a light weight solution of visualized Statistic Analysis based on JSP and BIRT technology is provided in this paper.The solution presents wide applicability,high extensibility,excellent Visualization,and variable styles of charts.And it is used in visualized description for the results of the online voting systems successfully.Keywords:Visualized,Statistic,Analysis,JSP,BIRT 作者简介:作者简介:马松(1983-),男(回族),河南邓州人,硕士研究生,主要研究方向为数据仓库、数据挖掘和个性化推荐。迟忠先(1939-),男,山东牟平人,教授,博士生导师,主要研究方向为数据挖掘和数据仓库,地理信息系统。