搜索引擎排序算法的分析与研究论文.doc
《搜索引擎排序算法的分析与研究论文.doc》由会员分享,可在线阅读,更多相关《搜索引擎排序算法的分析与研究论文.doc(100页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 .学校代码:10254密级:论文编号:海事大学SHANGHAI MARITIME UNIVERSITY硕士学位论文MASTER DISSERTATION论文题目:搜索引擎排序算法的分析与研究学科专业:计算机应用技术指导教师:完成日期:81 / 100毕业设计(论文)原创性声明和使用授权说明原创性声明本人重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作与取得的成果。尽我所知,除文中特别加以标注和致的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得与其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明
2、确的说明并表示了意。作 者 签 名:日 期:指导教师签名: 日期:使用授权说明本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部容。作者签名: 日 期:学位论文原创性声明本人重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献
3、的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名: 日期: 年 月 日学位论文使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名:日期: 年 月 日导师签名: 日期: 年 月 日指导教师评阅书指导教师评价:一、撰写(设计)过程1、学生在论文(设计)过程中的治学态度、工作精神 优 良 中 与格 不与格2、学
4、生掌握专业知识、技能的扎实程度 优 良 中 与格 不与格3、学生综合运用所学知识和专业技能分析和解决问题的能力 优 良 中 与格 不与格4、研究方法的科学性;技术线路的可行性;设计方案的合理性 优 良 中 与格 不与格5、完成毕业论文(设计)期间的出勤情况 优 良 中 与格 不与格二、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规? 优 良 中 与格 不与格2、是否完成指定的论文(设计)任务(包括装订与附件)? 优 良 中 与格 不与格三、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 与格 不与格2、论文的观念是否有新意?设计是否有创意? 优 良
5、中 与格 不与格3、论文(设计说明书)所体现的整体水平 优 良 中 与格 不与格建议成绩:优 良 中 与格 不与格(在所选等级前的画“”)指导教师: (签名) 单位: (盖章)年 月 日评阅教师评阅书评阅教师评价:一、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规? 优 良 中 与格 不与格2、是否完成指定的论文(设计)任务(包括装订与附件)? 优 良 中 与格 不与格二、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 与格 不与格2、论文的观念是否有新意?设计是否有创意? 优 良 中 与格 不与格3、论文(设计说明书)所体现的整体水平 优 良 中
6、与格 不与格建议成绩:优 良 中 与格 不与格(在所选等级前的画“”)评阅教师: (签名) 单位: (盖章)年 月 日教研室(或答辩小组)与教学系意见教研室(或答辩小组)评价:一、答辩过程1、毕业论文(设计)的基本要点和见解的叙述情况 优 良 中 与格 不与格2、对答辩问题的反应、理解、表达情况 优 良 中 与格 不与格3、学生答辩过程中的精神状态 优 良 中 与格 不与格二、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规? 优 良 中 与格 不与格2、是否完成指定的论文(设计)任务(包括装订与附件)? 优 良 中 与格 不与格三、论文(设计)水平1、论文(设计)的理论意义或对解决实
7、际问题的指导意义 优 良 中 与格 不与格2、论文的观念是否有新意?设计是否有创意? 优 良 中 与格 不与格3、论文(设计说明书)所体现的整体水平 优 良 中 与格 不与格评定成绩:优 良 中 与格 不与格(在所选等级前的画“”)教研室主任(或答辩小组组长): (签名)年 月 日教学系意见:系主任: (签名)年 月 日论文独创性声明本论文是我个人在导师指导下进行的研究工作与取得的研究成果。论文中除了特别加以标注和致的地方外,不包含其他人或其他机构已经发表或撰写过的研究成果。其他同志对本研究的启发和所做的贡献均已在论文中作了明确的声明并表示了意。作者签名: 日期:论文使用授权声明本人同意海事大
8、学有关保留、使用学位论文的规定,即:学校有权保留送交论文复印件,允许论文被查阅和借阅;学校可以上网公布论文的全部或部分容,也可以采用影印、缩印或者其他复印手段保留论文。的论文在解密后遵守此规定。作者签名: 导师签名: 日期:摘 要随着现代科技的进步,互联网得到了飞速的发展,逐渐成为人们日常学习、生活、工作中最重要的获取知识和信息的工具。进入21世纪以来,网络信息成几何级数的增长,快速精确查找需要的信息变得越来越难,这使得发展搜索引擎技术成为一种必要,它能帮助人们快速有效地获取信息。本文介绍了搜索引擎的概念与其发展历史、搜索引擎的分类、结构与工作原理、搜索引擎的评价标准、常用的中英文搜索引擎,以
9、与搜索引擎排序算法作了简单的介绍。如何使广大网民快速找到所要的知识和信息资源,成为搜索引擎技术研究的重点。本文针对一些已有算法:PageRank算法、HillTop算法、Direct Hit算法等存在的不足,即PageRank算法平均分配权威值;Hilltop中利用“专家页面”不合理,容易产生Spam;Direct Hit算法处理重复点击、与新页面不理想的问题,提出改进算法的思路。针对PageRank算法权威值的计算,引入非均衡分配的思想,改进PageRank算法平均分配权威值的问题;引入社区发现技术来改进算法,该算法利用社区作为“专家页面”,不仅可以改善Hilltop算法找“专家页面”不合理
10、的现象,而且对于Direct Hit算法处理新页面不理想、用户重复点击等问题也能起到一定的效果。关键词:搜索引擎,排序算法,社区发现技术,PageRank,HillTop,Direct HitABSTRACTWith the progress of the information technology, Internet develops fast and becomes an important means of obtained the knowledge and information which may be usedin peoples study, daily life and w
11、ork. Since we enter into 21th century, the information of internet increased at a geometric progression. Querying information become more and more difficult, it becomes a need of developing the search engine technologies. It can help people acquire information quickly and effectively.This paper intr
12、oduce the conception and the developing history, classify, structure and operating principles of the search engine. At the same time, it describes the common Chinese and English, the evaluation standard of the search engine and introduces the common algorithm step by step.How to make the searching b
13、e quick is the main point of the search engine researching.This paper according to some existing algorithm and puts forward improving ways to solve the shortcomings of the existing algorithms. Such as the PageRank algorithms PR values which is equal division, HillTop algorithm easily generate the sp
14、am because of utilizing the expert pages illegitimacy and non-ideal processing methods for repeat spot bowling of the Direct Hit algorithm. We induct the unbalance idea for PageRank algorithmsproblems of not equal division, and the discovery technology of community to settle the standing problems of
15、 HillTop algorithm utilize the expert pages illegitimacy and non-ideal processing methods for repeat spot bowling of the Direct Hit algorithm. This algorithm could be help for reducing the adverse effects caused by these algorithms.At last, we summarize the work of this paper and predict the future
16、development of the search engine algorithm. Maozhong Fu (Computer Application) Directed by Prof. Maoting GaoKeyword: Search Engine, sorting algorithm, the technology of the community discovery, PageRank, HillTop, Direct Hit目 录第一章 绪论11.1 研究背景和意义11.2 搜索引擎的发展历史21.2.1 搜索引擎的起源21.2.2 搜索引擎的现状31.2.3 搜索引擎的未来
17、41.3 搜索引擎排序算法的演进61.3.1 搜索引擎排序算法的起源和现状61.3.2 搜索引擎排序算法存在的问题71.4本文的组织框架与所做工作7第二章 搜索引擎概述92.1搜索引擎的分类92.1.1按所覆盖容92.1.2按是否有人参与92.1.3按检索层次102.2搜索引擎的结构与工作原理122.2.1搜索引擎组成结构122.2.2搜索引擎工作原理142.3常用搜索引擎152.3.1常用中文搜索引擎152.3.2常用英文搜索引擎172.4搜索引擎的评价标准192.5本章小节20第三章 搜索引擎常用排序算法与相关技术213.1搜索引擎常用的排序算法213.1.1词频位置加权排序算法213.1
18、.2 PageRank 算法223.1.3Direct hit 算法243.1.4Bayesian算法253.1.5 Web Query算法263.1.6Hilltop算法263.1.7 HITS算法273.1.8竞价排名273.2 搜索引擎的相关技术283.2.1SEO技术283.2.2 Spam作弊技术313.3 本章小结34第四章 利用社区发现技术改进排序算法354.1PageRank算法与其改进分析354.1.1 PageRank算法优缺点分析354.1.2 PageRank算法改进思路364.2另两种常用算法与其改进思路384.2.1HillTop算法384.2.2Direct Hi
19、t算法404.3利用社区发现技术改进排序算法414.3.1什么是社区发现技术414.3.2利用社区发现技术改进排序算法的过程424.3.3算法总结444.4实验过程454.3.1实验环境454.3.2过程描述464.3.3实验结果464.3.4实验评价484.5结果分析504.6本章小结50第五章 工作总结与展望515.1 工作总结515.2 展望51致53参考文献54攻读硕士期间发表论文和参加科研情况58一、发表的论文58二、参加的科研项目58第一章 绪论本章首先介绍了本课题的研究背景和意义,其次论述了搜索引擎的发展与其未来,以与搜索引擎排序算法发展过程以与存在的问题,最后对本文的工作安排和
20、论文结构做了详细的说明。1.1 研究背景和意义随着信息技术的进步,互联网作为信息的载体得到了飞速的发展,成为人们学习、工作、生活中获取知识和信息的主要来源。根据美国因特网监测公司“网器 ( Netcraft ) ”28日宣布1,截止2月底,全球互联网数量超过1.6亿,较一个月前增加了450万,达162662053。据国外权威通讯社报道,数量在2005年增加了1700万,在2006年增加了2740万。美国、德国、中国、国和日本的发展速度最快。过去两年间,博客与网上购物的兴起和创建操作的简单化等因素结合在一起,使得数量猛增。现有搜索引擎给人们带来了很多方便的同时,也逐渐暴露了自身的一些问题,这些弊
21、端主要表现在以下方面:1) 网络信息量过于庞大,网络错综复杂,没有特定的网络模型,描述不便。2) 检索结果信息过多,有用信息不全。3) 检索结果缺乏个性化,不能满足不同用户的需求。4) 不同国家的搜索引擎差别较大,对不同语言的适应性较差。5) 多媒体信息检索还不完善。6) 网页的更新速度远远快于索引数据库的更新。7) 垃圾网页过多,许多虚假广告、不健康信息、错误信息充斥互联网。8) 广告的比例较大,干扰正常的浏览。如何快速准确的查找用户所需的信息成为互联网急需解决的问题,这就为搜索引擎技术的发展提供了土壤。现有的排序算法有很多,如PageRank算法2、HillTop算法3、Direct Hi
22、t算法4等,但是没有一个是完美无缺的。本文在介绍搜索引擎与其相关技术的基础上,结合已有的排序算法,提出了自己的解决思路,以改善搜索引擎排序算法的质量,使用户能够快速准确的找到所需信息,同时也为以后排序算法的研究提供一个有价值的参考。本文是在市教委科研项目“基于统计学习的数据挖掘技术研究”(项目编号:06FZ007)的支持下,开展搜索引擎排序算法的分析与研究。1.2 搜索引擎的发展历史搜索引擎是用于帮助互联网用户查询信息的搜索工具,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的作用。下面将介绍搜索引擎的发展历程。1.2.1 搜索
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 搜索引擎 排序 算法 分析 研究 论文
限制150内