全文搜索引擎技术研究与实现.docx

资源ID：19017767 资源大小：42.27KB 全文页数：18页
资源格式： DOCX 下载积分：10.88金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要10.88金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

全文搜索引擎技术研究与实现.docx

全文搜索引擎技术研究与实现当前位置：文档视界全文搜索引擎技术研究与实现全文搜索引擎技术研究与实现目录摘要.IAbstract.II1绪论(1)1.1搜索引擎的出现背景及意义(1)1.2现阶段搜索引擎的研究现状(1)1.3本文主要工作(4)2搜索引擎工作原理分析(5)2.1搜索引擎基本原理(5)2.1网页搜集(6)2.2索引建立(6)2.3提供检索服务(7)2.4搜索引擎的分类(7)3系统关键技术问题及解决方案(9)3.1网页访问问题及解决方案(9)3.2网页解析问题及解决方案(10)3.3倒排索引存储问题及解决方案(11)3.4检索系统评分问题及解决方案(11)4系统需求分析(14)4.1系统的功能需求(14)4.2系统的非功能性需求(15)4.3可行性分析(15)5系统设计(18)5.1系统总体构造(18)5.2网络爬虫模块设计(18)5.3索引系统模块设计(19)5.4检索系统模块设计(20)5.5数据库表设计(20)6系统实现(23)6.1系统界面实现(23)6.2爬虫程序模块实现(25)6.3索引系统模块实现(26)6.4信息检索系统模块实现(28)7系统测试(30)7.1系统测试的目的(30)7.2系统测试的原则(31)7.3测试环境(31)7.4测试记录(31)8结论(40)致谢(41)参考文献(42)上一页下一页摘要随着互联网的不断发展和日益普及，网络成为信息极其重要的来源地，越来越多的人从网络上获取本人所需要的信息，网上的信息量在爆炸式增长，怎样在最短时间内找到我们所需要的资料就成了一个非常关键的问题。为了解决这个问题，Web搜索引擎就随之出现了，并得到了飞速发展，使得像Google，百度这样的通用搜索引擎变成了人们寻找信息必不可少的工具，搜索引擎如今也已经成为互联网上仅次于电子邮件的第二大网络服务。本文阐述了搜索引擎的开发背景以及搜索引擎的历史和发展趋势，分析了搜索引擎的开发需求，在深化研究了通用搜索引擎基本原理、架构设计和核心技术的基础上，结合搜索引擎的需求，构建了一个运行稳定，性能良好而且可扩大的搜索引擎系统，本文不仅仅完成了对整个系统的设计，对系统开发中的一些关键技术问题，都给出了解决方案包括网络爬虫、倒排索引、信息检索及结果排序等，这些技术将被应用到文中提出的系统设计方案中，并且完成了所有的编码实现工作。关键词：搜索引擎，网络爬虫，倒排索引，信息检索上一页下一页AbstractAlongwiththecontinuousdevelopmentoftheInternetandgrowingpopularity,networkbecomesanextremelyimportantsourceofinformation,moreandmorepeoplefromthenetworktoobtaintheinformationtheyneed,andtheamountofinformationonlineintheexplosivegrowth,Howtofindtheshortestpossibletimetheinformationweneedtobecomeaverycriticalissue.Tosolvethisproblem,Websearchenginesappearedonthesubsequent,andhasbeentherapiddevelopmentof,makelikeGoogle,Baidu,intoageneralsearchengineindispensabletoolforpeopletofindinformation,searchenginesarenowsecondonlytoe-mailontheInternethasbecomethesecondlargestInternetservice.Thisarticlediscussesthebackgroundanddevelopmentofsearchenginesearchenginehistoryandtrends,analysisofthesearchengine'sdevelopmentneeds,indepthstudyofthebasicprinciplesofgeneralsearchengines,architecturedesignandcoretechnologyonthebasisof,withtheneedsofsearchengine,constructastable,goodperformanceandscalablesearchenginesystem.Thispapernotonlycompletedthedesignofthewholesystem,forsystemdevelopment,somekeytechnicalissueshavegivensolutions(includingwebcrawl,invertedindex,informationretrieval,andresultranking,thesetechnologieswillbeappliedtothesystemproposedinthispaperthedesignproject),andcompletedallthecodingandimplementationwork.Keywords:searchengine,webcrawl,invertedindex,informationretrieve上一页下一页1绪论1.1搜索引擎的出现背景及意义随着计算机技术和网络技术的飞速发展，十分是Web技术的刺激和Internet的商业化，网络所能提供应人们的信息量越来越大，网上的信息几乎是呈指数级增长。当前，万维网上约有875万个网站，25亿网页，190亿字节以上的网页数据。同时，网页数量正以天天750万的速度净增长。然而由于信息资源组织的杂乱性和信息资源的动态性，使得用户要在信息海洋里查找信息，就像大海捞针一样，在没有搜索引擎的时代，用户希望寻找某方面的信息，就必须通过各种途径或者是网站之间的连接寻找，能够这样讲，脱离的搜索引擎的网站，就像是信息海洋中的一个一个的孤岛，用户必将面临宏大的搜索成本，同时必须付出大量的时间和精神。搜索引擎恰好解决了这一难题。搜索引擎SearchEngine通常指的是基于因特网的搜索引擎，它通过网络机器人程序以一定的策略在互联网中搜集、发现信息，采集上千万到几亿个网页，对信息进行理解、提取、组织和处理，每一个词都会被搜索引擎索引，也就是我们讲的全文检索，并为用户提供检索服务，进而起到信息导航的目的。它将这些信息孤岛联络起来，构成了一张宏大的信息网，并且运用分布式计算的宏大气力，能够让用户从海量数据中摒除垃圾信息，获取想要的知识。搜索引擎不仅仅是节省了用户的时间，通过挖掉搜索成本这座墙，它让许很多多的不可能成为可能。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务，目前国内的Web信息资源数量已经相当可观，搜索引擎的发展也是非常迅猛，国内外的调查结果都表明，当前互联网上仅次于收发电子邮件的第二大应用就是在网上搜索信息，因而，搜索引擎已经成为软件业研究的热门之一，本文所研究的搜索引擎便是基于因特网的搜索引擎。1.2现阶段搜索引擎的研究现状搜索引擎SearchEngine，是一个对互联网信息资源进行搜索整理和分类，并上一页下一页储存在网络数据库中供用户查询的系统。搜索引擎根据检索规则和从其他信息服务器上得到数据并对数据进行加工处理，能够自动对万维网WorldWideWeb资源建立索引或进行主题分类，并通过检索接口为用户提供信息查询服务，即通过查询语法为用户返回匹配资源的系统。搜索引擎主要是由Crawler、Spider、Robot等程序自动在因特网上遨游，不断搜集各类新网页，然后根据网页相关性原理在每一个关键词和所有相关的网页之间建立一个对应关系，储存在其网络服务器的数据库中，用户只要输入关键词就能够找到符合该关键词特征的所有被索引的网页。搜索引擎通过收集诸多网络站点信息，将万维网WorldWideWeb中所有信息资源整理和分类后作为一个完好的集合，以此来提供全局性网络资源检索服务，方便用户查找所需信息的网络检索软件。搜索引擎SearchEngine经历了三代的更新和发展：第一代搜索引擎出现于1994年。这类搜索引擎一般都索引少于1,000,000个网页，极少重新搜集网页并去刷新索引。而且其检索速度非常慢，一般都要等待10秒甚至更长的时间。第二代搜索引擎出现于1996年。第二代搜索引擎系统大多采用分布式方案来提高数据规模、响应速度和用户数量，它们一般都保持一个大约50,000,000网页的索引数据库，天天能够响应10,000,000次用户检索请求。1998年，以Google为代表的第二代搜索引擎出如今互联网上，这些引擎的主要特点是提高了查准率，能够用“求精来描绘。Google搜索引擎采用新的搜索方式，通过一种复杂的数学分析，通过估算反应网页质量及相关程度来决定排名次序。传统的搜索引擎如Hotbot和Lycos等当前使用的是元素搜索技术，即便用网页中的关键词进行搜索，而Google则使用一种包含对整个网络的链接构造进行分析和大规模资料挖掘的技术，Google不仅扫描搜索关键词，还阅读页面全文，考虑到图像和所有链接，然后把该页面与类似页面区分开来。要想在Google获得好的排名，对网站推广推广提出了更高的要求，仅仅依靠对网页的优化也是不够的，而是根据网站的综合推广水平来决定在搜索结果中的排名次序。第三代搜索引擎年代的划分和主要特性至今没有统一的认识，不过至少能够肯定的是：第三代搜索引擎是对第二代搜索引擎在搜索技术上的改良，主要增加了互动性和个性化等高级的技术，为用户使用搜索引擎获取信息获得更好的体验。至于互动性的评价标准是什么，以及第三代搜索引擎到底比第二代搜索引擎增加了多少价值，尤上一页下一页其是为企业利用搜索引擎开展网络营销增加了哪些价值，目前并没有非常令人信服的研究结论。这也就是目前所谓的第三代搜索引擎并没有表现出过多优势的原因之一。搜索引擎在将来的发展趋势大概有下面几个方面：1提高对用户输入的理解为了提高搜索引擎对用户检索提问的理解，就必须有一个好的检索提问语言，为了克制关键词检索和目录查询的缺点，如今已经出现了自然语言智能答询。用户能够输入简单的疑问句，比方“howcankillvirusofcomputer?。搜索引擎在对提问进行构造和内容的分析之后，或直接给出提问的答案，或引导用户从几个可选择的问题中进行再选择。自然语言的优势在于，一是使网络沟通愈加人性化，二是使查询变得愈加方便、直接、有效。就以上面的例子来讲，假如用关键词查询，多半人会用“virus这个词来检索，结果中必然会包括各类病毒的介绍、病毒是如何产生的等等很多无效信息，而用“howcankillvirusofcomputer?，搜索引擎会将如何杀病毒的信息提供应用户，提高了检索效率。2对检索的结果进行处理对检索的结果处理，有下面几个方向：其一，使用链接评价，就是将网页的链接数量算作网页评分因素之一，这样搜索的结果就愈加的能够知足用户的要求，在这个方面google3确定搜集返回，提高针对性在这个方面如今的发展的方向是：其一，垂直主题搜索。垂直主题的搜索引擎以其高度的目的化和专业化在各类搜索引擎中占据了一系席之地，比方象股票、天气、新闻等类的搜索引擎，具有很高的针对性，用户对查询结果的满意度较高。我以为，垂直主题有着极大的发展空间。其二，非www信息的搜索。搜索引擎提供了例如ftp等非www信息的搜索。其三，多媒体搜索。搜索引擎还提供了例如包括声音、图像等等多媒体信息的检索。4提供更优化的检索结果上一页下一页在这个方面有两个主要的发展方向：其一，纯净搜索引擎。这类搜索引擎没有本人的信息收集系统，利用别人现有的索引数据库，主要关注检索的理念、技术和机制等。其二，元搜索引擎。元搜索引擎(metasearchengining)是将用户提交的检索请求到多个独立的搜索引擎上去搜索，并将检索结果集中统一处理，以统一的格式提供应用户，因而有搜索引擎之上的搜索引擎之称。它的主要精神放在提高搜索速度、智能化处理搜索结果、个性搜索功能的设置和用户检索界面的友好性上，查全率和查准率都比拟高。1.3本文主要工作本文在深化分析通用搜索引擎基本原理、架构设计和核心技术的基础上，设计并实现了一个可扩展，可复用的小型搜索引擎系统。详细工作有下面几方面：1具体阐述了系统的设计需求以及关键技术，明确系统的功能，并设计出具体的系统流程图。2具体分析网络爬虫技术原理，设计并实现网络爬虫。3理解分析索引建立的原理，设计了具体流程图，并实现了倒排索引。4根据检索系统的查询处理技术和评估原理，分析并具体设计了此部分，完成了具体流程图，实现了检索系统。上一页下一页2搜索引擎工作原理分析2.1搜索引擎基本原理搜索引擎的基本原理是通过网络爬虫定期自动在Web网页上按某种策略进行远程数据的搜索与获取，从初始网站页面开场，读取网页内容，并找到在网站中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环，直到抓取完所有网页信息。当抓取完这些网页后，由分析索引系统程序对采集回来的网页进行分析，将其中的辅助部分(如各种HTML标签、脚本程序)去掉，提取相关网页信息包括网页所在URL、编码类型、页面内容、包含的所有关键词、关键词位置、生成时间、大小等，再根据一定的算法计算每一个关键词针对每一个网页的权重，然后用这些相关信息建立网页索引数据库，构成本地查询数据库。建立网页索引数据库后，当用户输入关键词搜索时，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页，再根据算法计算用户查询的关键词与这些网页的相关度，根据相关度的数值排序，相关度越高，即相关度数值越大，排名越靠前。最后，检索系统将搜索结果的链接地址和页面内容摘要等内容组织起来，返回给用户。当代大规模的搜索引擎一般采用如图2-1式工作流程：上一页下一页图2-1搜索引擎工作流程2.1网页搜集搜索引擎首先利用的是一种俗称蜘蛛Spider)或爬虫Crawler)的软件。搜索引擎蜘蛛访问到一个页面，读取它，然后跟随这个页面链接到这个站点的其他页面，这就是人们所讲的站点被套住了或者被爬过了。蜘蛛会根据固定的时间不断的回来访问这个站点，如每月或每两个月，以便查看页面的变化。由于互联网中超链接的应用很普遍，理论上，从一定范围的网页出发，就能搜集到绝大多数的网页。2.2索引建立搜索引擎抓到网页后，还要做大量的预处理工作，才能提供检索服务。其中，最重要的就是提取关键词，建立索引文件。其他还包括去除重复网页、分词、判定网页类型、分析超链接、计算网页的重要度/丰富度等。由分析索引系统程序对采集回来的网页进行分析，提取相关网页信息包括网页所在URL、编码类型、关键词、关键词位置、生成时间、大小等，根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度，然后用这些相关信息建立网页索引数据库。上一页下一页2.3提供检索服务用户输入关键词进行检索，搜索引擎从索引数据库中找到匹配该关键词的网页，为了用户便于判定，除了网页标题和URL外，还会提供一段来自网页的摘要以及其他信息，这个程序具体审查记录在索引中的成百上亿的Web页，找出与搜索要求相匹配的那些，并按他以为最适宜的相关性排列出列表，呈如今冲浪者的面前。搜索引擎常用检索方法主要包括：1)简单搜索：指输入一个单词(关键词)，提交搜索引擎检索后反应结果，也叫单词搜索，这是最基本的检索方法。2)词组搜索：指输入两个单词以上的词组(短语)，提交搜索引擎检索并反应结果，也叫短语搜索。现有搜索引擎一般都约定把词组或短语放在引号“内。假如查找的是一个词组或多个汉字，最好的办法就是将它们用双引号括起来，这样得到的结果最准确，这就叫使用双引号进行准确查找。一般讲来在网页搜索引擎中，用词组搜索来缩小范围进而找到搜索结果是最好的办法。但是，运用词组搜索涉及到怎样选择一个词组来表达检索问题。有时简单搜索就能奏效，有时则需要输入一个词组才能奏效，故选择适宜的词组对提高搜索效率是很重要的。3)高级搜索：指用布尔逻辑组配方式检索，也叫定制搜索。常用的逻辑运算为AND(和)、OR(或)、NOT(非)，对A、B两词而言，AANDB是指取A和B的公共部分(交集)，AORB是指取A和B的全部(并集)，ANOTB是指取A中排除B后的部分。有的搜索引擎还支持下面检索方法：1)语句搜索：指输入任意自然语言问句，提交搜索引擎检索并反应结果，这种方式也叫任意检索，实际上就是自然语言检索。并非所有的搜索引擎都支持这样的检索，而且不同搜索引擎对语句中词与词之间的关系的处理方式也不同。2)目录搜索：指按搜索引擎提供的分类目录逐级检索，用户一般不需要输入检索词，而是根据检索系统所给的几种分类项目，选择类别进行搜索，也叫分类搜索(ClassifiedSearch)。2.4搜索引擎的分类搜索引擎根据信息搜集方法和服务提供方式的不同大致可分为下面四类：上一页下一页

注意事项

本文（全文搜索引擎技术研究与实现.docx）为本站会员（安***）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。