本科毕设论文-—互联网信息检索系统的研究与实现.doc
《本科毕设论文-—互联网信息检索系统的研究与实现.doc》由会员分享,可在线阅读,更多相关《本科毕设论文-—互联网信息检索系统的研究与实现.doc(59页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、毕业论文互联网信息检索系统的研究与实现摘 要互联网信息检索系统(搜索引擎)是专门提供信息检索服务的平台,它将互联网上大量的网页数据采集到服务器,经过处理形成的信息数据库和索引数据库,实现对用户提出的各种信息检索作出响应。本系统使用Microsoft Visual Studio 2005为主要开发工具,以Windows Server 2003操作系统为运行环境,主要实现了网页数据的抓取,网页数据存储,数据的索引,数据的检索,日志管理等功能。本文对互联网信息检索统中几个关键技术的设计和实现进行了研究。从理论上对这些关键技术进行了详细的讨论,并完成了基于L互联网信息检索系统的实现。文章从下面几个方面
2、进行了讨论:首先,本文介绍搜索引擎的市场需求和研究状态。这一部分阐述了搜索引擎丰富的历史背景和客观的用户需求,自身的特点,以及人们对搜索引擎的关注程度。其次,本文讨论了搜索引擎中基本结构、实现的理论基础和实现方法。这一部分研究了搜索引擎的关键技术,将中文分词技术、数据采集技术和数据索引技术有机的结合起来,并对全文检索引擎L进行分析和研究。最后,详细描述了一个基于L的互联网信息检索系统的设计与实现。关键词 搜索引擎;L;数据存储;信息检索IABSTRACTInternet information retrieval system (search engine) is designed to pr
3、ovide a platform for information retrieval services.It will collect a lot of pages data on the Internet to the server,and processed form of the information database and index database.Made to achieve the user to respond to the various information retrieval. The system uses Microsoft Visual Studio 20
4、05 as the main development tool, to run Windows Server 2003 operating system environment, the main achievement of the web crawl data, web data storage, data indexing, data retrieval, logging management and other functions.In this paper, several Internet information retrieval system design and implem
5、entation of key technologies were studied. Theory on these key technologies are discussed in detail, and completed the Internet information retrieval system based on L realization. The article discussed the following aspects:First of all, the article describes the search engine market demand and res
6、earch status.This part discusses the search engine rich historical background and objective of the user requirements, its own characteristics, as well as people paid more attention to search engine.Secondly, the article discusses the basic structure of search engines, to achieve the theoretical basi
7、s and implementation methods. This part of the search engines key technology, Chinese word segmentation, data acquisition and data indexing technology combine organic, and full-text search engine L on analysis and research.Finally, a detailed description of an Internet-based L Information Retrieval
8、System Design and Implementation.Keywords Search Engine;L;Data Storage;Information Retrieval52毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得 及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。作 者 签 名: 日 期: 指导教师
9、签名: 日期: 使用授权说明本人完全了解 大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。作者签名: 日 期: 目 录1 绪论11.1 互联网信息检索系统的市场需求11.2 搜索引擎技术现状及发展动向21.2.1 搜索引擎技术现状21.2.2 搜索引擎技术发展方向41.3 研究目的和研究内容61.4 文章内容安排62 搜索引擎技术82.1 搜索引擎体系结构8
10、2.1.1 Crawler82.1.2 Indexer102.1.3 Searcher112.2 搜索引擎的性能指标122.3 中文分词算法132.3.1 基于字符串匹配的分词方法132.3.2 基于理解的分词方法162.3.3 基于统计的分词方法162.4 实际系统研究172.4.1 Google的整体结构172.4.2 Google的工作过程173 L的分析研究203.1 L介绍203.2 L系统结构分析213.2.1 系统结构组织213.2.2 索引文件分析233.2.3 数据流分析253.3 基于L的应用开发274 系统设计304.1 系统特点304.2 系统总体结构设计304.2.1
11、 配置管理模块304.2.2 数据抓取模块314.2.3 数据索引模块314.2.4 数据检索模块314.2.5 日志管理模块314.3 系统处理流程设计324.3.1 数据抓取处理流程324.3.2 数据索引处理流程334.3.3 数据检索处理流程345 系统实现365.1 多线程网页数据抓取365.1.1 数据抓取主界面设计365.1.2 多线程的实现375.1.3 网页文件下载395.2 HTML文档的扫描与分析415.3 数据的索引425.3.1 数据索引主界面设计425.3.2 索引网页数据435.4 数据的检索455.4.1 数据检索主界面设计455.3.2 检索索引数据456 系
12、统测试476.1 测试基础476.2 测试内容476.2.1 模块测试476.2.2 集成测试48结束语50致 谢51参考文献52互联网信息检索系统的设计与实现1 绪论随着互联网(Internet)的出现和普及,人们的信息来源得到了极大的丰富,互联网成为了人们获取信息的主要来源之一。在Internet信息不断增长的情况下,如何快速准确的获取所需信息成为研究热点之一。搜索引擎技术(Search Engine)就是在这种需求背景下发展起来的。传统的信息检索技术是从一定规模的文档库中获取用户需求的信息,其核心是重要文本信息的索引和检索。在信息量不大的情况下,传统的信息检索能够满足需求。当面对Inte
13、rnet上分散存储,动态变化的海量数据时,传统的信息检索技术就无法让用户快速找到所需要的信息了。搜索引擎技术作为传统IR(Information Retrieval)技术在Internet上的扩展,涉及到Web数据的采集,中文分词技术,倒排索引,海量数据存储,用户行为分析等关键技术。从功能上讲,搜索引擎重要由信息的采集,索引和查询三部分组成。搜索引擎首先通过信息采集器(Crawler,又名网络蜘蛛)从Internet中采集网页数据,然后通过索引器(Indexer)对采集的数据进行分析,并创建索引。检索器(Searcher)负责接受用户查询的请求,一般采用Web形式,通过索引找到相关信息的网页数
14、据,返回给用户。为了满足系统的稳定性、可靠性及缩短系统开发周期,本系统采用Microsoft Studio Visual 2005作为开发平台,以PC机和Windows Server 2003为测试环境,借助L实现了互联网信息检索的基本功能。1.1 互联网信息检索系统的市场需求随着信息技术的快速发展,互联网得到了飞速的发展,成为人们学习、工作、生活中的最重要的知识和信息来源。关于网页的数目没有具体的统计数据,但根据CNNIC第23次报道,中国当前拥有的网页数己经超过160亿。Internet上的信息资源随着Internet的发展而呈现出以下特点:(1) 信息量大而且分散(2) 自治性强(3)
15、信息资源多种多样(4) 不一致和不完整性为了获取所需的信息,用户需要借助一定的工具,他们通常使用以下两类网站:第一类是目录系统,其典型代表是Yahoo!。它通过有专业知识的网页编辑人员对网上的网页进行精选,建立一个索引目录,来给用户提供服务。这类通过手工维护得很好的系统的优点是提供的网页准确率高,可以有效的覆盖热门的主题,但它们的缺点是过于主观,而且需要高昂的代价来建立和维护,更新改进的慢,同时不可能覆盖所有的主题。第二类是搜索引擎,搜索引擎通过程序自动地从网上搜集和分析网页,建立索引,为用户提供服务。这类自动更新的搜索引擎优点是涵盖的网页数量巨大,同时拥有基于关键字的全文索引,它为所有网上冲
16、浪的用户提供了一个入口,用户可以从搜索引擎出发到达自己想去的网上任何一个地方。搜索引擎对用户是这样的重要,自然成为了用户上网的常用服务,根据中国互联网络发展状况统计报告,用户经常使用的网络服务是:电子邮箱(92.6%)、搜索引擎(68.3%)、软件上传或下载服务(45.3%)、信息查询(42.2%)。1.2 搜索引擎技术现状及发展动向1.2.1 搜索引擎技术现状由于搜索引擎巨大的商业价值和学术研究价值,各大公司都在投巨资进行搜索引擎的研制开发,不断地涌现出新的具有不同特色的搜索引擎产品。同时,各大科研机构和大学纷纷展开对搜索引擎技术相关领域的学术研究。作为IR领域中最重要的会议之一,TREC(
17、Text REtrieval Conference)从1999年11月的第8届开始增加Web Track竞赛项目,考察Web文档与其它类型文档在性质上的不同之处,测试在大规模的Web文档集上进行信息检索的算法性能。在IEEE主办的国际万维网会议(International World Wide Web Conference)和ACM主办的人机交互会议(Computer Human Interaction,CHI)等重要学术会议上,发表了越来越多的关于搜索引擎技术研究的文章。搜索引擎己经成为信息检索领域中最活跃的研究方向。Stanford大学在其DLI项目中开发了Google搜索引擎,在Web高
18、效搜索、大规模索引、文档的相关度评价等方面作了深入的研究,提出了一种基于链接的网页排名算法(PageRank算法)来计算网页的排名,并同时利用锚文本(Anchors)信息进行网页相关度评价。IBM Almaden研究中心研制了Clever系统,提出了类似于PageRank的HITS算法,主要不同是将网页分为Authority和Hub两类,并就HITS算法在相关度评价、网页分类、主题搜索等方面的作用进行了研究。NEC美国研究所开发了一个专门用于搜索学术文章的Research Index。其目的是建立一个网上图书馆,只收集科技人员广泛使用的PDF和Postscript文件,用“PDF”,“ Pos
19、tscript”等检索项组成查询送往其他著名的搜索引擎,对返回的结果进行信息提取(主题、摘要、作者、引用文献等),组成了一个27万篇文献的索引库,供科技人员查询。现在,NEC开始致力于下一代元搜索引擎Inquirus的开发。国内先后有北京大学、清华大学、华南理工大学、国家智能研究中心等高校和研究单位对搜索引擎技术进行了研究,开发出了几个实用的系统。清华大学开发的“网络指南针”,利用智能、高效的网络搜索算法收集网页,自动识别和转换常见的中文编码,向用户提供中文、英文、拼音、英汉翻译、BIG5码等多种输入查询服务,并提供普通分类、学科分类、图书分类查询,共计3900多个分类目录,收集的网页超过20
20、万页。北大的“天网”中英文搜索引擎,在系统规模及系统性能方面达到了国外中型搜索引擎系统的技术水平,目前天网搜索引擎维护的文档数量达到 6亿之多,并正在以平均每月一千万页文档的数量扩大着规模。天网搜索的中文文档数量超过4亿,其中包括html、txt、pdf、doc、ps、ppt等多种类型的文档和资源。在功能、性能、查准率、查全率等方面基本达到了实用。华南理工大学的“木棉”搜索引擎,分Web检索和FTP检索两大部分。Web检索支持中英文混合查询、布尔查询、结构属性查询、模糊查询等多种查询方式。FTP检索实现基于文件主要属性的结构查询,以及模糊匹配等。目前系统收集约50万网页。1.2.2 搜索引擎技
21、术发展方向经过了多年的发展,现在的搜索引擎功能越来越强大,提供的服务也越来越全面。据研究统计,目前Internet上搜索引擎已达数千种之多。然而,随着多元化信息的增长,统一的用户入口己经不能满足用户的更深入的查询需求,搜索引擎将向智能化、个性化、精确化、专业化、交叉语言检索、多媒体检索等适应不同用户需求的方向发展。(1) 智能化搜索智能化是搜索引擎未来的发展方向。搜索引擎的智能化体现在两方面:一是对搜索请求的理解,二是对网页内容的分析。通过智能代理技术对用户的查询计划、意图、兴趣方向进行推理,自动进行信息搜集过滤,将用户感兴趣的信息返回给用户。这其中也包含了对服务多项化、个性化,结果精确化,交
22、叉语言检索等方面的功能。(2) 个性化搜索个性化搜索引擎的核心是通过跟踪分析用户的搜索行为,充分地利用这些信息来提高用户的搜索效率。这种搜索行为分析技术是一种正在发展中的很有前途的搜索引擎人机界面技术。(3) 提高检索的有效性解决查询结果过多的现象目前有以下几种方法:a)构建基于内容的搜索引擎。基于内容的搜索不是根据字形,而是试图理解用户的请求,同时根据文档的内容选出符合用户要求的文档。即通过各种方法获得用户没有在查询语句中表达出来的真正用途,实现自然语言的智能查询功能。中文搜索引擎中当前比较成熟的解决方案是依靠语义网络、汉语分词、句法分析、处理同义词等中文信息处理技术最大程度地了解用户需求。
23、b)将用户提问转化为系统己知的问题,然后对已知问题进行解答,以求降低对自然语言理解技术的依赖性。c)用正文分类技术将结果分类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。d)进行站点类聚或内容类聚,减少信息的总量。e)让用户对返回结果进行选择,进行二次查询是一种非常有效的手段。(4) 实现交叉语言的检索搜索引擎对多种语言的数据库进行交叉语言信息检索,返回能够回答用户问题的所有语言的文档。若配上机器翻译,就可使返回结果以用户熟悉的语言显示。虽然该技术日前还处于初步研究阶段,其难点在于语言之间在表达方式和语义对应上的不确定性,但也是一种发展方向。(5) 提供对自然语言检索的支持为了
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 本科 论文 互联网 信息 检索系统 研究 实现
限制150内