欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    搜索引擎技术分析与研究.docx

    • 资源ID:19017677       资源大小:23.65KB        全文页数:14页
    • 资源格式: DOCX        下载积分:10.88金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要10.88金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    搜索引擎技术分析与研究.docx

    搜索引擎技术分析与研究搜索引擎技术分析与研究1引言互联网发展之初,互联网网站相对较少,信息检索比拟容易。但伴随着计算机和互联网技术的飞速发展,网络上的信息量急剧增长,已经成为了人类有史以来资源数量最多、资源种类最全、资源规模最大的一个综合信息库。用户要在信息海洋里查找信息,就像大海探针一样。怎样准确有效地从互联网上获取信息就成了一项艰巨的任务,利用搜索引擎是最有效的解决方法。搜索引擎是在互联网产生后伴随着网络用户快速查询信息的需要而产生的提供信息检索服务的计算机系统。搜索引擎是检索因特网信息资源的重要工具。面对海量的网络信息资源,利用搜索引擎是准确、迅速、全面地进行信息检索的有效途径。假如没有搜索引擎,互联网上的信息资源就不能被有效利用。这里对搜索引擎的工作流程和关键技术进行简单介绍。2搜索引擎的研究背景互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护,优选互联网上的优秀网站,并扼要描绘,分类放置到不同目录下。用户查询时,通过一层层的点击来查找本人想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。1990年,加拿大麦吉尔大学UniversityofMcGill计算机学院的师生开发出Archie。当时,万维网WorldWideWeb还没有出现,人们通过FTP来分享沟通资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入准确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。固然Archie搜集的信息资源不是网页HTML文件,但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公以为当代搜索引擎的鼻祖。当代搜索引擎的思路来源于Wanderer。不少人在MatthewGray工作的基础上对他的蜘蛛程序做了改良。1994年7月,MichaeMauldin将JohnLeavitt的蜘蛛程序引入到其索引程序中,创立了Lvc0s。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制。Jvcos第一个在搜索结果中使用了网页自动摘要。最早当代意义上的搜索引擎出现于1994年7月。当时MichaelMauldin将JohnLeavitt的蜘蛛程序接入到其索引程序中,创立了大家如今熟知的Lycos。同年4月,斯坦福大学的两名博士生,DavidFilo和美籍华人杨致远共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深化人心。从此搜索引擎进入了高速发展时期。1995年12月DEC正式发布的AltaV上一页下一页ista是第一个支持自然语言搜索的搜索引擎,也是第一个实现高级搜索语法的搜索引擎1997年8月NorthernLightGroup正式发布的Northernlight搜索引擎是第一个支持对搜索结果进行简单自动分类的搜索引擎。1998年Google在PageRank、动态摘要、网页快照、DailyRfresh、多文档格式支持、地图、股票、词典、寻人等集成搜索、多语言支持、用户界面等功能上的革新,像AtaVista一样,再一次彻底地改变了搜索引擎的定义。目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。比方近期风头正劲的Google,其数据库中存放的网页已达30亿之巨。在国内,对搜索引擎的研究起源于“中国教育科研网(CERNET)期工程的子项目。1997年10月北京大学计算机系在CERNET上推出了天网搜索1版本。2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇加州伯克利分校博士后在北京中关村创立了百度Baidu公司。2001年8月发布百度搜索引擎Beta版此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎,2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。Baidu搜索引擎的其它特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划BlitzenProject开场后,技术升级明显加快。后推出贴吧、知道、地图、国学、百科、文档、视频、博客等一系列产品,深受网民欢迎。2005年8月5日在纳斯达克上市,发行价为USD27.00,代号为BIDU。开盘价USD66.00,以USD122.54收盘,涨幅353.85%,创下了5年以来美国股市上市新股当日涨幅最高纪录。3.搜索引擎概述3.1搜索引擎的定义中文名称:搜索引擎,英文名称:searchengine定义:万维网环境中的信息检索系统(包括目录服务和关键字检索两种服务方式)。搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎技术来源于历史悠久的全文检索技术从字面上可拆分为“搜、“索、“引擎3个含义。“搜就是大量信息的抓取。对抓取回来后的信息进行智能提取、排重、质量分析等处理。“索就是大量处理后信息的存储、信息排序、快速查询。“引擎就是指系统不但能存储亿级的数据。而且还能有宏大的并发处理能力。3.2搜索引擎的分类搜索引擎根据检索方式可分为全文搜索引擎、目录搜索引擎和元搜索引擎三大类。第一类全文搜索引擎,又叫机器人搜索引擎。第二类目录搜索引擎上一页下一页。是利用各网站向“搜索引擎提交网站信息时填写的关键词和网站描绘等资料。通过人工的方式采集整理网站资料构成数据库,其典型代表有Yahoo(雅虎)、Sohu(搜狐)、新浪、网易等网站的分类目录。第三类元搜索引擎、接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。该类搜索引擎的优点是能够在短时间内提供相对全面和准确的信息。缺点是不能够充分使用所使用的搜索引擎的功能,用户需要做更多的挑选。此外,还有其他的分类方式,例如按查询方式可分为阅读式搜索引擎、关键词搜索引擎、全文搜索引擎、智能搜索引擎;案语种又分为单语种搜索引擎、多语种搜索引擎和跨语言搜索引擎等。4.搜索引擎的工作原理4.1搜索引擎的工作框架搜索引擎的整体框架:能够看作四步:从互联网上抓取网页建立索引数据库在索引数据库中搜索对搜索结果进行处理和排序。1、从互联网上抓取网页利用能够从互联网上自动采集网页的网络蜘蛛程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这经过,并把爬过的所有网页采集到服务器中。2、建立索引数据库由索引系统程序对采集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。3、在索引数据库中搜索当用户输入关键词搜索后,分解搜索请求,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。4、对搜索结果进行处理排序所有相关网页针对该关键词的相关信息在索引库中都有记录,只需综合相关信息和网页级别构成相关度数值,然后进行排序,相关度越高,排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。4.2与全文检索技术的主要区别搜索引擎的技术基础是全文检索技术,从20世纪60年代,国外对全文检索技术就开场有研究。全文检索通常指文本全文检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索,一般用于企事业单位。随着互联网信息的发展,搜索引擎在全文检索技术上逐步发展起来,并得到广泛的应用,但搜索引擎还是不同于全文检索。搜索引擎和常规意义上上一页下一页的全文检索主要区别有下面几点:1、数据量传统全文检索系统面向的是企业本身的数据或者和企业相关的数据,一般索引库规模多在GB级,数据量大的也只要几百万条;但互联网网页搜索需要处理几十亿的网页,搜索引擎的策略都是采用服务器群集和分布式计算技术。2、内容相关性信息过多,查准和排序就十分重要,Google等搜索引擎采用网页链接分析技术,根据互联网上网页被链接次数作为重要性评判的根据;但全文检索的数据源中互相链接的程度并不高,不能作为判别重要性的根据,只能基于内容的相关性排序。3、安全性互联网搜索引擎的数据来源都是互联网上公开的信息,而且除了文本正文以外,其它信息都不太重要;但企业全文检索的数据源都是企业内部的信息,有等级、权限等限制,对查询方式也有更严格的要求,因而其数据一般会安全和集中地存放在数据仓库中以保证数据安全和管理的要求。4、个性化和智能化搜索引擎面向的是互联网访问者,由于其数据量和客户数量的限制,自然语言处理技术、知识检索、知识挖掘等计算密集的智能计算技术很难应用,这也是目前搜索引擎技术努力的方向;而全文检索数据量小,检索需求明确,客户量少,在智能化和个性可走得更远。5搜索引擎存在的影响搜索引擎给网吧行业带来的影响走进网吧,不难发现各个网吧内的电脑阅读器首页或工具条上都会有google或百度的标志。百度甚至还推出了网吧联盟,可见搜索引擎们对网吧行业都格外的青睐。如今我们常用的搜索引擎无非就是百度和google两种。从百度方面来看,百度联盟能够算是目前唯逐一个能够覆盖所有网吧并和几乎所有主流网吧软件缔结合作关系的媒体运营平台。而google方面也不甘示弱,谷歌已经注意到了网吧市场,网吧已经成为了谷歌的新型合作伙伴。网吧的首页和工具条上都会出现谷歌的标志,相应地会给谷歌带去流量。搜索引擎对网站的影响一个网站的命脉就是流量,而网站的流量能够分为两类。一类是自然流量,一类就是通过搜索引擎而来的流量。假如搜索引擎能够能多能有效的抓取网站内容,那么对于网站的好处是不言而喻的。提高搜索引擎对用户检索提问的理解6搜索引擎的技术发展趋势为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言,为了克制关键词检索和目录查询的缺点,如今已经出现了自然语言智能答询对检索结果进行处理1、基于链接评价的搜索引擎上一页下一页基于链接评价的搜索引擎的优秀代表是Google,它独创的“链接评价体系是基于这样一种认识,一个网页的重要性取决于它被其它网页链接的数量,十分是一些已经被认定是“重要的网页的链接数量。这种评价体制与(科技引文索引)的思路非常类似,但是由于互联网是在一个商业化的环境中发展起来的,一个网站的被链接数量还与它的商业推广有着密切的联络,因而这种评价体制在某种程度上缺乏客观性。2、基于访问群众性的搜索引擎基于访问群众性的搜索引擎的代表是directhit,它的基本理念是多数人选择访问的网站就是最重要的网站。根据以前成千上万的网络用户在检索结果中实际所挑选并访问的网站和他们在这些网站上花费的时间来统计确定有关网站的重要性排名,并以此来确定哪些网站最符合用户的检索要求。因而具有典型的趋众性特点。这种评价体制与基于链接评价的搜索引擎有着同样的缺点。3、去掉检索结果中附加的多余信息有调查指出,太多的附加信息加重了用户的信息负担,为了去掉这些太多的附加信息,能够采用用户定制、内容过滤等检索技术。确定搜索引擎信息搜集范围1、垂直主题搜索引擎网上的信息浩如烟海,网络资源以十倍速的增长,一个搜索引擎很难采集全所有主题的网络信息,即便信息主题采集得比拟全面,由于主题范围太宽,很难将各主题都做得准确而又专业,使得检索结果垃圾过多。这样以来,垂直主题的搜索引擎以其高度的目的化和专业化在各类搜索引擎中占据了一系席之地,比方象股票、天气、新闻等类的搜索引擎,具有很高的针对性,用户对查询结果的满意度较高。作者以为,垂直主题有着极大的发展空间。2、非www信息的搜索提供FTP等类信息的检索3、多媒体搜索引擎多媒体检索主要包括声音、图像、视频的检索。关于图片搜索引擎的原理,(浅谈图片搜索引擎的实现)中提出了具有跨时代意义设计思路。提供更优化的检索结果1、纯净搜索引擎这类搜索引擎没有本人的信息收集系统,利用别人现有的索引数据库,主要关注检索的理念、技术和机制等。2、元搜索引擎如今出现了很多的搜索引擎,其采集信息的范围、搜索机制、算法等都不同,用户不得不去学习多个搜索引3、集成搜索引擎集成搜索引擎AllinOneSearchPage,亦称为“多引擎同步检索系统如百度是在一个WWW页面上链接若干种独立的搜索引擎,检索时需点选或指定搜索引擎,一次检索输入,多引擎同时搜索,用起来相当方便。上一页下一页4、垂直搜索引擎垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务形式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深,且具有行业色彩,相比拟通用搜索引擎的海量信息无序化,垂直搜索引擎则显得愈加专注、详细和深化。7结束语从整个搜索引擎来看,将来的大型搜索引擎是个更复杂的系统,还有很多事情要做。高质量搜索是当今搜索引擎用户所面临的最大问题是搜索结果的质量。除了搜索质量,可升级的体系构造是建立一个能跟上Web发展步伐的和当今web规模相适应的搜索引擎途经之一。参考文献1刘志军搜索引擎介绍2张聪慧搜索引擎的使用技巧3李晓明搜索引擎技术及趋势J武汉理工大学硕士论文2004,64刘建国Google搜索引擎原理5贾红英网络搜索引擎探析J山东省广播电视大学论文2002,5致谢搜索引擎是一个比拟大的系统,由于如今比拟先进的搜索引擎技术被一些商业化的搜索引擎所隐藏,但是在xxx教师的指导帮助下,还是困难的完成了论文。在本论文的写作经过中,我从指导教师xxx教师身上学到了很多东西,不仅把握了很多搜索引擎方面知识,还有x教师认真负责的工作态度,都让我受益匪浅。他都给予我很大的支持和帮助,使我从各各方面得到很大的提高,相信对我以后的工作和学习都会有很大的帮助,感谢他细心而耐心的辅导。上一页下一页

    注意事项

    本文(搜索引擎技术分析与研究.docx)为本站会员(安***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开