基于lucene的信息检索系统.doc
第三章 信息检索系统及其关键技术3.1 信息检索系统简介信息检索系统是利用信息检索技术(如全文检索等)帮助用户查找特定信息的一种工具。它能够对信息进行正确的表示、存储和组织,同时还提供对于信息的访问方式。在这里,信息的概念很宽泛,它可以是一篇文章,一段文本,一个网页,一封邮件,一张照片,甚至是一些虚拟信息的集合。3.2 信息检索的过程检索的整个过程包括:构建文本库,建立索引,进行检索。1. 构建文本库在开发检索功能前,一个信息检索系统需要做些准备工作。首先,必须构建一个文本数据库。这个文本数据库用来保存所有用户可能检索的信息。在这些信息的基础上,确定检索系统中的文本模型。文本模型是被系统所认可的一种信息格式,这种格式应当具有可识别、冗余度低等特点。当然,在系统的运作过程中,文本数据库的信息可能会不断地发生变化。2. 建立索引有了文本模型后,就应该根据数据库内的文本建立索引。索引可以大大提高信息检索的速度。目前有多种索引的建立方式,采用哪种方式取决于信息检索系统的规模。大型信息检索系统(如百度、Google这样的搜索引擎)均采用倒排的方式来建立索引。3. 进行搜索在为文本建立索引之后,就可以开始对其进行搜索。通常由用户提交一个检索请求,该请求被分析,然后在索引中检索并返回结果。3.3 LuceneLucene是一个开源全文检索工具包,它是apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。3.3.1 Lucene结构分析Lucene作为一个优秀的全文检索引擎,其结构具有强烈的面向对象特征。首先是定义了一个与平台无关的索引文件格式,其次通过抽象将其核心组成部分设计为抽象类,具体的平台实现部分设计为抽象类的实现,此外与具体平台相关的部分比如文件存储也封装为类,经过层层的面向对象式的处理,最终达成了一个低耦合高效率,容易二次开发的检索引擎。Lucene的结构和源码组织结构如图3.1所示:图3.1 Lucene结构和源码组织结构从图中可以看出,Lucene由基础结构封装、索引核心、对外接口三大部分组成。其中直接操作索引文件的索引核心又是系统的重点。Lucene的将所有源码分为了7个模块(在java语言中以包即package来表示),各个模块所属的部分也如图3.1所示。3.3.2 Lucene索引的建立索引是信息检索引擎工作的第一步,只有建立了索引才能进行信息检索。Lucene用Document逻辑文件和Field域来组织各种数据源。Document向Lucene提供原始的要索引的文本内容,Lucene从Document中取出相关的数据源,并根据属性配置进行相应的处理,建立索引。索引过程如下:(1) 创建一个IndexWriter用来写索引文件,它有几个参数,INDEX_DIR就是索引文件所存放的位置,Analyzer便是用来对文档进行词法分析和语言处理的。(2) 创建一个Document代表我们要索引的文档。(3) 将不同的Field加入到文档中。我们知道,一篇文档有多种信息,如题目,作者,修改时间,内容等,不同类型的信息用不同的Field来表示。(4) IndexWriter调用函数addDocument将索引写到索引文件夹中。3.3.3 Lucene的搜索Lucene建立了功能强大的索引机制为搜索服务,这是因为在检索系统的使用中,用户体验最深的还是搜索部分。如果这一部分的性能无法达到用户要求,那么软件就没有太大的意义。搜索过程如下:(1) IndexReader将磁盘上的索引信息读入到内存,INDEX_DIR就是索引文件存放的位置。(2) 创建IndexSearcher准备进行搜索。(3) 创建Analyer用来对查询语句进行词法分析和语言处理。(4) 创建QueryParser用来对查询语句进行语法分析。(5) QueryParser调用parser进行语法分析,形成查询语法树,放到Query中。(6) IndexSearcher调用search对查询语法树Query进行搜索,得到查询结果存放在TopScoreDocCollector。3.3.4 中文分词中文分词是处理中文信息的基础与关键。由于Lucene自带的分词器对英文的分词效果较好,但对中文的分词效果并不如意。为了使检索系统能更好的处理中文信息,本文采用了IKAnalyzer作为分词器。IK Analyzer是一个开源的,基于java 语言开发的轻量级的中文分词工具包。从2006年12月推出1.0 版开始, IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer 3.X 则发展为面向Java 的公用分词组件,独立于Lucene 项目,同时提供了对Lucene 的默认优化实现。IKAnalyzer的特性:l 采用了特有的“正向迭代最细粒度切分算法“,具有60 万字/秒的高速处理能力。l 采用了多子处理器分析模式,支持:英文字母(IP 地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。l 优化的词典存储,更小的内存占用。支持用户词典扩展定义l 针对Lucene 全文检索优化的查询分析器IKQueryParser;采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Lucene 检索的命中率。第四章 信息检索系统的分析与设计4.1 系统功能需求随着科技的发展,电脑的应用越来越普遍,人们的学习工作几乎都不能离开电脑。而笔记本电脑由于其轻便和时尚性,受到人们普遍的喜爱。但是,在购买笔记本时,我们需要详细地了解所买型号笔记本的外表及各种功能,为此我们往往要去各个商家挑选。为了方便,需要提供一个专门的笔记本电脑信息查询系统,能让用户轻松的获取各种型号笔记本的详细参数与外观。该系统提供一个良好的用户界面,用户查询时,系统能根据用户查询语句精确地给出查询信息,能够较好地理解用户的查询语句。4.2 系统开发平台设计本系统采用的是Eclipse6.5+MySQL5.1+Tomcat5.5的开发环境。l Eclipse是一个开放源代码的、基于Java的可扩展开发平台。在开发时搭配使用MyEclipse进行开发。MyEclipse企业级工作平台是对Eclipse IDE的扩展,利用它可以在数据库和J2EE的开发、发布,以及应用程序服务器的整合方面极大地提高工作效率。它是功能丰富的J2EE集成开发环境,包括了完备的编码、调试、测试和发布功能,完整支持HTML CSS、Javascript、Struts、Spring、SQL、Hibernate和JSF。l MySQL是最受欢迎的开源SQL数据库管理系统,它由MySQL AB开发、发布和支持。MySQL服务器支持关键任务、重负载生产系统的使用,也可以将它嵌入到一个大配置的软件中。本文采用的是当前的稳定版本5.1。l Tomcat是一个免费的、开放源码的、支持JSP和Servlet的web服务器。Tomcat是一个小型的轻量级应用服务器,在中、小型系统和并发访问用户不是很多的场合下被普遍使用,是开发和调试JSP程序的首选。它运行时占用的系统资源小,扩展性好,支持负载平衡与邮件服务等开发应用系统常用的功能。目前Tomcat5.5是较稳定的版本,而且Eclipse也很好的支持该版本的集成,所以本文采用Tomcat5.5进行开发。此外,本系统所应用到的其它开源工具为:Struts1.2、Spring2.5、Hibernate3.1,网络爬虫Heritrix1.14.3,网页解析工具HtmlParser2.0,全文检索工具包Lucene3.0,中文分词软件IKAnalyzer3.0。4.3 系统的组成结构整个系统由三个部分组成:网页采集分析模块、索引与数据库模块、web搜索界面模块。其中网页采集与分析分别由开源工具网络爬虫Heritrix和网页解析器HtmlParser完成;由Lucene完成索引系统,并将索引与数据库关联;web查询界面基于SSH框架设计完成。模块组成结构如图4.1所示。图4.1 系统模块结构图4.4 网页抓取分析模块设计4.4.1 站点选择从技术角度看,选择网站的主要依据有:(1) 网站能够被Heritrix爬虫抓取。因为有的网站使用了反爬虫技术,防止未经授权的爬虫对面页进行抓取。(2) 网站的信息不是用javaScript动态生成的。这种动态生成的内容需要在浏览器中运行生成,是爬虫无法获取到的。(3) 网站的面页结构不应该经常变化,最好是使用一种模版动态生成的。这样有利于在分析面页时,使用较为简单的方式从网页中解析数据。除了上述3点技术方面的因素,在选择网站时,也应当尽量选择那些访问量较大、产品信息比较齐全的网站。这样,有利于数据完整性。基于上述各因素的考虑,本文选择太平洋电脑网()作为主要抓取目标。系统将通过人工分析和爬虫软件抓取太平洋网站的所有笔记本的页面信息和图片,对抓取的网页和图片经过处理后,供建立搜索索引使用。4.4.2 扩展和定制Heritrix分析太平洋网站笔记本网页URL特点可知:笔记本面页URL已笔记本品牌面页URL的正则表达式为: $例如苹果为:具体某型号产品面页URL的正则表达式为:例如苹果Macbook Pro 15(MC373CH/A):产品详细参数面页URL的正则表达式为:例如苹果Macbook Pro 15(MC373CH/A)详细参数:产品页的产品图片URL都是以.jpg结尾。通过对网站URL分析,可以总结出我们要抓取的面页URL的规律,只要抓取产品面页和产品详细信息面页及产品图片即可。因此,要扩展Heritrix来实现上述抓取策略。Heritrix有多个扩展点,本文选择扩展FrontierScheduler来抓取特定的内容。FrontierScheduler是Heritrix的一个PostProcessor,它的作用是将Extractor中分析得出的链接加入到Frontier中,以待继续处理。扩展代码如下:protected void schedule(CandidateURI caURI)/取得URI字符串String url = caURI.toString();try/URI选择策略/匹配 具体型号urlPattern pattern_model = Ppile(MODEL_URL);Matcher matcher_model = pattern_model.matcher(url);/匹配 型号详细参数urlPattern pattern_detail = Ppile(DETAIL_URL);Matcher matcher_detail = pattern_detail.matcher(url);/URL是产品面页/详细参数面页/jpg图片/DNSif(/matcher_detail.find()|matcher_model.find()|url.endsWith(".jpg")|url.indexOf("dns:")!=-1)getController().getFrontier().schedule(caURI);elsereturn;catch(Exception e)e.printStackTrace();finally4.4.3 网页解析工具HtmlParser对于抓取到的网页,需要经过解析,提取出需要的信息以便更好的建立索引和创建数据库。本文Html解析器是HtmlParser,HtmlParser是一个开源的Java库,它提供接口,支持线程和嵌套的解析Html文本。HtmlParser提供了两种访问Html结点的方法:Visitor模式和Filter模式,本文采用了Filter模式。Filter模式通过设置一定的过滤条件,对每个结点进行过滤,返回一个符合规则的节点列表。Org.htmlparser.filters包含所有已经实现的Filter类型,定义了16种Filter。例如要解析一个网页中所有包含图片的链接,分析可得该节点中具有链接标签名”a”,并且它的字节点中还必须包含图片标签名”img”,则过滤器的定义为:NodeFilter filter = new AndFilter(new TagNameFilter("A"),New HasChildFilter(new TagNameFilter("IMG")4.4.4 网页信息结构化在抓取到笔记本产品各种信息的Html文本后,需要用HtmlParser对Html文本解析,得到建立索引所需的各种信息。处理后的的文件如图4.2所示。图4.2 处理后产品的信息格式从图中可以看出文件的格式如下:第一行是笔记本品牌(包括中文和英文名称);第二行是笔记本具体型号;最后一行则是该笔记本的对应图片文件名,图片名是经过Hash后的字符串;其余部分则是该笔记本的详细参数。将所有笔记本产品的信息按上述格式存储,以便建立索引。4.5 数据库与索引设计4.5.1 数据库设计本文数据库结构简单,只有一个数据表来存储笔记本产品的各种信息,数据库各字段含义如表4.1所示。表4.1 数据库字段含义字段名字段含义Id主键name品牌名称,如”苹果”type型号,如” ibook G4 M9627CH/A”content笔记本产品的详细信息abstractcontent详细参数的摘要,供建立索引时使用创建数据库的SQL语句如下:create database searchdb;use searchdb;create table product ( id int AUTO_INCREMENT, name varchar(128), type varchar(128), content varchar(20000), abstractcontent varchar(512),);4.5.2 索引设计在使用Lucene建立索引时,需要定义Lucene的Document格式。索引中的信息应当尽量少,只要能够满足用户检索要求就可以了。本文中,为Document构建了4个Field:/当前产品在数据库中的idField indentifier = new Field("id",id + "",Field.Store.YES,Field.Index.NOT_ANALYZED);/产品的品牌Field name = new Field("name",product.getName(),Field.Store.YES,Field.Index.ANALYZED);/产品型号Field type = new Field("type",product.getType(),Field.Store.YES,Field.Index.ANALYZED);/将笔记本产品的name、type、abstractcontent信息综合起来,默认的检索域Field all = new Field("all",text,Field.Store.YES,Field.Index.ANALYZED);上述4中Filed中,前3个与数据库的内容有直接的对应关系,而最后一个Filed则是将name、type这两个Filed拼接起来并添加了abstractcontent来进行保存,为用户提供一个检索时的默认Filed。这种方式占用了索引空间,但却避免了使用多域搜索带来的性能损失,还可提高检索的全面性。4.6 web检索模块设计web检索模块基于SSH设计实现,由Struts作为控制器,Spring作为业务层,Hibernate作为数据持久层,结构如图4.3所示。图4.3 基于SSH的web检索模块结构图从图中可以看出,用户的请求会发送给ActionServlet,用户数据通过ActionForm Bean传递给Action,由Action类来通过Spring的IoC容器访问Hibernate的DAO,DAO负责数据库的交互,然后再返回JSP面页将查询结果进行显示。 第五章 信息检索系统的实现5.1 网页抓取的实现在抓取任务开始前,需要对抓取的内容进行详细地分析,确定种子,即开始抓取的网页。本文中为了能尽量获取全部的产品信息,直接将需要抓取的面页(包括产品面页、详细参数面页、图片)的URL作为抓取的种子,这就需要找出所有产品的具体URL。在太平洋电脑网上提供了站内搜索功能,当输入查询某品牌的笔记本就能得到站内所有该品牌标记本的信息的面页,当然面页中也包含这些笔记本的产品面页的URL,这就提供了抓取的种子。依次查询各个品牌的笔记本,将查询结果面页保存到本地,然后用HtmlParser解析得到其中产品面页的URl,写入种子文件。图5.1 查询结果面页源代码从网页源代码中可以发现解析网页时可以得到该品牌所有笔记本产品的产品面页和详细参数面页的URL。其中产品详细参数面页URL的节点形如:<div class="line2"><a href=" target="_blank" class="orange">全部参数</a></div>在解析时的过滤器为:NodeFilter filter = new AndFilter(new TagNameFilter("a"),new AndFilter(new HasAttributeFilter("target","_blank"),new HasParentFilter(new AndFilter(new TagNameFilter("div"),new HasAttributeFilter("class","line2");在用HtmlParser解析得到过滤的节点后,只需得到该LinkTag的href属性值即为某一型号笔记本的详细参数面页URL,而由于产品面页与详细参数面页的URL只相差”_detail”,所以只需将详细参数的URL去掉_detail就可得到产品面页的URL。这样就可得到该品牌所有笔记本信息面页的URL,也即得到了该品牌的抓取URL种子。按照上述方法获取所有品牌的抓取种子。在获取抓取种子后,就可以创建Heritrix抓取任务。以WebUI方式启动Heritrix任务时的主要配置如下。Extractor,它主要用是于解析当前获取到的服务器返回内容,这些内容通常是以字符串形式缓存的。在这个队列中,包括了一系列的工具,如解析HTML、CSS等。在解析完毕,取出页面中的URL后,将它们放入队列中,等待下次继续抓取。在本文中,使用两种Extractor,即ExtractorHTTP和ExtractorHTML。如图所示。图5.2 Extractor配置Writer,主要是用于将所抓取到的信息写入磁盘。通常写入磁盘时有两种形式,一种是采用压缩的方式写入,在这里被称为Arc方式,另一种则采用镜象方式写入。当然处理起来,镜象方式要更为容易一些,因此,在本文中用镜象Mirror方式。如图所示。图5.3 Writer配置PostProcessor,在整个抓取解析过程结束后,进行一些扫尾的工作,比如将前面Extractor解析出来的URL有条件的加入到待处理队列中去。如图所示。图5.4 PostProcessor配置5.2 建立Lucene索引和数据库在抓取网页后,就可以用解析得到的笔记本产品信息文件目录中的文件来填充数据库和建立索引。为了提高性能和简化数据库操作,本文使用了Hibernate来进行数据库处理。Hibernate对应数据库的POJO类为Product类。向数据库中插入记录的代码如下:public int addProduct(Product product) throws HibernateExceptionSession session = null;Transaction tx = null;trysession = HibernateSessionFactory.getSession();tx = session.beginTransaction();session.save(product);mit();catch(HibernateException e)if(tx != null)tx.rollback();throw e;finallyHibernateSessionFactory.closeSession();return(product.getId();建立索引时,遍历产品信息文件目录中的每个文件,通过文件内容建立一个Product类,用Hibernate将Product对象插入数据库。再使用该Product 创建定制好的Lucene的Document,然后调用Lucene的IndexWriter的addDocument方法,把生成的产品Document加入到索引中去。演示代码如下:BufferedReader reader = new BufferedReader(new FileReader(productfile);String url = reader.readLine();String name = reader.readLine(); /获取品牌名String type = reader.readLine().replaceAll("-", " ");type = type.replaceAll("_", " "); /获取型号String imageURI = ""String updatedtime = fname.substring(fname.lastIndexOf("-")+1, fname.lastIndexOf(".");StringBuffer content = new StringBuffer();String line = reader.readLine();while(line != null && !line.equals(Extractor.SEPARATOR)content.append(line).append("rn");line = reader.readLine();imageURI = PropertyConfiguration.getProductImageDir() + reader.readLine();/生成一个Product对象Product p = new Product(); p.setName(name.trim(); p.setType(type);p.setImageurl(imageURI);p.setUrl(url);p.setUpdatedtime(updatedtime);String content_str = content.toString(); /制作产品的信息摘要 p.setContent(content_str);if(content_str.length() > SUMMARY_LENGTH)p.setAbstractcontent(content_str.substring(0, SUMMARY_LENGTH-1);elsep.setAbstractcontent(content_str);/存入数据库,并返回IDint id = insertDB(p);/向索引中加入Product对象buildIndex(p,id);5.3 web查询功能的实现在建立索引和完善数据库后,还不能直接给用户使用,一个真正的信息检索系统还需要一个良好用户界面。所以,还要在数据库和Lucene索引的基础上搭建一个合理的web平台,构建一个真正的web信息检索系统。5.3.1 数据持久层的实现数据持久层的开发中,要创建Hibernate的持久化类和映射文件,并在Spring的applicationContent.xml中进行配置,然后开发配置Hibernate DAO层ProductDAO.java。典型代码如下:public class ProductDAO extends HibernateDaoSupport implements IProductDAO /向数据库中加入对象public int addProduct(Product product) throws HibernateExceptionSession session = null;Transaction tx = null;trysession = HibernateSessionFactory.getSession();tx = session.beginTransaction();session.save(product);mit();catch(HibernateException e)if(tx != null)tx.rollback();throw e;finallyHibernateSessionFactory.closeSession();return(product.getId();/从数据库中取出数据 public Product findById(String id) return (Product)getHibernateTemplate().get(Product.class, new Integer(id); public Product findById(int id) return (Product)getHibernateTemplate().get(Product.class, id); 在中applicationContent.xml对Hibernate的配置:<!- 配置Hibernate SessionFactory -><bean id="sessionFactory"class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"><property name="configLocation" value="classpath:/hibernate.cfg.xml"></property></bean><!- 配置事务 -><bean id="transactionManager"class="org.springframework.orm.hibernate3.HibernateTransactionManager"><property name="sessionFactory"><ref local="sessionFactory"/></property></bean><!- 定义DAO -><bean id="ProductDAO" class="com.luceneheritrix.Hibernate.dao.ProductDAO"><property name="sessionFactory"><ref local="sessionFactory" /></property></bean><!- 定义DAO代理 -><bean id="ProductDAOProxy"class="org.springframework.transaction.interceptor.TransactionProxyFactoryBean"><property name="transactionManager"><ref bean="transactionManager" /></property><property name="target"><ref local="ProductDAO" /></property><property name="transactionAttributes"><props><prop key="insert*">PROPAGATION_REQUIRED</prop><prop key="*">PROPAGATION_REQUIRED,readOnly</prop></props></property></bean>5.3.2 Struts开发在Struts的开发中,包括新建并配置表单类SearchForm.java:配置<form-bean>元素;在struts-config.xml中添加请求配置:配置<action>元素,并委托给Spring进行管理;在applicationContent.xml中添加请求代理:配置与<action>相匹配的<bean>元素,接收Struts的委托;开发Action类searchAction.java:在该类中通过Spring调用ProductDAO处理各种请求。searchAction的处理函数有三个:search(处理用户搜索请求),detail(处理用户查看产品详细信息请求),pager(处理分页请求) 。struts-config.xml中Action元素的配置:<action-mappings><action path="/search" parameter="method" name="searchForm" scope="request" type="org.springframework.web.struts.DelegatingActionProxy" input="/search.jsp"> <forward name="result" path="/search.jsp"></forward></action></action-mappings>在applicationContent.xml中添加请求代理的配置:<bean name="/search"class="com.luceneheritrix.struts.actions.searchAction"><property name="productDAO"><ref local="ProductDAO"/></property></bean>5.3.3 web面页开发系统的web面页较简单主要有search.jsp和detail.jsp两个面页。最终的界面如下图所示。图5.5 搜索界面图图5.6 详细参数界面图第六章 总结与展望本文介绍SSH集成框架原理和信息检索的关键技术,设计和实现了笔记本信息检索系统。这为以后研究和实现信息检索技术提供了研究基础和参考。通过对信息检索系统的研究和学习,让我对信息检索的原理以及相关技术有了一个更深层次的理解。在现实系统中,用到了一些开源项目,如Lucene、Heritrix、Struts、Spring、Hibernate等,在学习和应用这些技术的过程,使得自己无论在理论研究能力还是实际动手能力上都得到了很大的进步。懂得如何对一个新的学科进行研究和学习这个问题上有了更新的认识,掌握了如何去学习、接受新理论和新知识的方法,为我以后的工作和学习打下了坚实的基础。本文实现的信息检索系统应用到了多个开源项目,使得系统具有较好的扩展性,但由于种种原因存在着一些不足有待改进。例如系统不能自动的实现网页的抓取,在抓取网页时需要较多的人工干预,在下一步工作中应该为系统设计一个自动化程度更高的抓取软件。中文分词是一个处理中文信息的大难题,需要寻求一种更适合本系统的分词解决方案,使得系统的检索性能更高。