3901130721-谭淇蔚-电子商务实验3ova.docx
《3901130721-谭淇蔚-电子商务实验3ova.docx》由会员分享,可在线阅读,更多相关《3901130721-谭淇蔚-电子商务实验3ova.docx(40页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Evaluation Warning: The document was created with Spire.Doc for .NET.电子商务应用实验报告项目名称 搜索引擎及SEO实验 专业班级 软件工程1307班 学 号 3901130721 姓 名 谭淇蔚 实验成绩:批阅教师:2015年 11 月 24 日实验3搜搜索引擎及及SEO实验验实验学时: 2 实验地点: X2004 实验日期期: 20155年11月24日星期期二 一、实验目目的研究并学习习几种常见见的搜索引引擎算法,包包括网络蜘蜘蛛爬行策策略、中文文分词算法法、网页正正文提取算算法、网页页去重算法法、PaggeRannk和M
2、apRReducce算法,了了解它们的的基本实现现原理;运运用所学SSEO技术术对网页进进行优化。二、实验内内容和方法法1. 研究究常用的网网络蜘蛛爬爬行策略,如如深度优先先策略、广广度优先策策略、网页页选择策略略、重访策策略和并行行策略等,了了解其实现现原理;2. 研究究至少两种种中文分词词算法,了了解其实现现原理;3. 研究究至少两种种网页正文文提取算法法,了解其其实现原理理;4. 研究究至少两种种网页去重重算法,了了解其实现现原理;5. 研究究Googgle的PageeRankk和MapRReducce算法,了了解它们的的实现原理理;6. 使用用所学的SSEO技术术,对实验验二所设计计的
3、网站静静态首页实实施SEOO,在实施施过程中需需采用如下下技术:(1) 网网页标题(titlle)的优优化;(2) 选选取合适的的关键词并并对关键词词进行优化化;(3) 元元标签的优优化;(4) 网网站结构和和URL的优优化;(5) 创创建robbots.txt文文件,禁止止蜘蛛抓取取网站后台台页面;(6) 网网页内部链链接的优化化;(7) HHeadiing标签签的优化;(8) 图图片优化;(9) 网网页减肥技技术。7. 使用用C+、C#和Javaa等任意一一种编程语语言,设计计并实现一一个简单的的网络蜘蛛蛛爬行程序序,要求在在输入关键键词、设置置爬行深度度和初始网网页URLL之后能够够实现
4、网页页搜索,输输出包含关关键词的网网页的URRL和网页页标题。【注注:实验77为补充实实验,不要要求每个同同学都完成成,感兴趣趣者可自行行实现该程程序,不计计入实验报报告评分。】三、实验要要求1. 研究究几种常用用的网络蜘蜘蛛爬行策策略,填写写相应的表表格,表格格必须填写写完整;2. 研究究两种中文文分词算法法,填写相相应的表格格,表格必必须填写完完整;3. 研究究两种网页页正文提取取算法,填填写相应的的表格,表表格必须填填写完整;4. 研究究两种网页页去重算法法,填写相相应的表格格,表格必必须填写完完整;5. 研究究PageeRankk算法和MaapRedduce算算法,填写写相应的表表格,
5、表格格必须填写写完整;6. 提供供实施SEEO之后的的网站静态态首页界面面和HTMML代码,尽尽量多地使使用所学SSEO技术术;7. 严禁禁大面积拷拷贝互联网网上已有文文字资料,尽尽量用自己己的理解来来阐述算法法原理,必必要时可以以通过图形形来描述算算法;8. 使用用任意一种种编程语言言实现一个个简单的网网络蜘蛛程程序,需提提供网络蜘蜘蛛程序完完整源代码码及实际运运行结果。四、实验步步骤1. 通过过使用搜索索引擎并查查阅相关资资料,研究究并整理几几种常用的的网络蜘蛛蛛爬行策略略相关资料料,填写相相应的表格格;2. 通过过使用搜索索引擎并查查阅相关资资料,研究究并整理两两种中文分分词算法的的基本
6、原理理,填写相相应的表格格;3. 通过过使用搜索索引擎并查查阅相关资资料,研究究并整理两两种网页正正文提取算算法的基本本原理,填填写相应的的表格;4. 通过过使用搜索索引擎并查查阅相关资资料,研究究并整理两两种网页去去重算法的的基本原理理,填写相相应的表格格;5. 通过过使用搜索索引擎并查查阅相关资资料,研究究并整理PPageRRank算算法和MaapRedduce算算法的基本本原理,填填写相应的的表格;6. 对实实验二所设设计的网站站静态首页页实施SEEO;7. 使用用任意一种种编程语言言,设计并并实现一个个简单的网网络蜘蛛爬爬行程序。五、实验结结果1. 研究究几种常用用的网络蜘蜘蛛爬行策策
7、略并填写写如下表格格:策略名称基本原理参考资料深度优先策略广度优先策略网页选择策略重访策略并行策略注:参考资资料格式如如下:1 ddevelloperrWorkks中国:Javaa 设计模模式. hhttp:/wwww.ibbm.coom/deevelooperwworkss/cn/javaa/dessign/.2 阎阎宏. JJava与与模式. 北京: 电子工工业出版社社, 20004.3 于于满泉, 陈铁睿, 许洪波. 基于分块块的网页信信息解析器器的研究与与设计. 计算机应应用, 22005, 25(4).解:策略名称基本原理参考资料深度优先策略在深度优先搜索中,针对最新发现的网页源顶点
8、P,如果它还有以此为起点而尚未搜索到的路径,则沿此路径继续搜素下去。反之,如果当顶点P的所有路径均已经被搜索过,则回溯到初始点。这一搜索过程将一直持续到已发现的从源顶点P可达到的所有顶点为止。但是如果仍然存在未被发现的等等P,则继续选择其中一个作为源顶点并重复以上过程,最终实现所有顶点都被遍历。 1李耀华,杨海燕. 论网络爬虫搜索策略J. 山西广播电视大学学报,2013,02:48-50.广度优先策略广度优先遍历策略,可理解为一种基于网络层次分析的遍历策略,是将网络划分成若干层次,其中,种子站点是处于结构的最顶层。在遍历时, 需要处理Web 页之间的抓取优先级的问题,一般规定层次结构中层次越高
9、,优先级也就越高; 同一层次中, 从左到右优先级依次降低。因此, 如果只用一个网络爬虫进行遍历操作, 那么就按不同层次之间先高后低的次序, 以及同层次之间先左后右的次序进行。当然, 也可以将多个网络爬虫设计成分布式的结构, 它们分别负责其中一层或几层Web 站点的遍历, 这样不但技术实现的难度不高, 而且可以较好地避免重复遍历Web 页的现象。1李志义. 网络爬虫的优化策略探略J. 现代情报,2011,10:31-35.网页选择策略由于很大的搜索引擎也只能获取网络上可得到资源的一小部分。所以,在爬取网页需要要求一个公共标准来区分网页的重要程度。一个页面的重要程度与它自身的质量有关,与按照链接数
10、、访问数得出的受欢迎程度有关,甚至与他本身的网址(后来出现的把搜索放在一个顶级域名或者一个固定页面上的垂直搜索)有关。1在线文档 link?url=VnMDg0YItek-rNIyF_Ys-bTu0lUFHGa5OhLZ0u9rzV1G3IPYfNytfpUkl63OThzrJpynIL8uxcGIfoXB9AcFvK#3重访策略重访抓取策略,是最后一个,搜索引擎蜘蛛在抓取完这个网页之后,然后根据这个页面的权重、包括它的更新频率、更新质量、外链的数量等等来判定,那么对于权重高的页面,蜘蛛会在相隔较短的时间段在回来重新抓取,比如新浪网,权重很高,搜索引擎蜘蛛都是按照秒来重新抓取的。而对于一些权重
11、较低的页面,比如长期不更新的页面,那么蜘蛛会隔好长时间再来抓取一次,比如我们常常搜索的百度大更新,蜘蛛就是对于一些网页权重较低的页面进行一次全部的抓取,一般情况,百度大更新,一个月一次。1在线文档og_8960352901017yos.html并行策略一个并行爬虫是并行运行多个进程的爬虫。它的目标是最大化下载的速度,同时尽量减少并行的开销和下载重复的页面。为了避免下载一个页面两次,爬虫系统需要策略来处理爬虫运行时新发现的URL,因为同一个URL地址,可能被不同的爬虫进程抓到。1在线文档url=VnMDg0YItek-rNIyF_Ys-bTu0lUFHGa5OhLZ0u9rzV1G3IPYfNy
12、tfpUkl63OThzrJpynIL8uxcGIfoXB9AcFvK#32. 研究究两种中文文分词算法法并填写如如下表格:算法名称基本原理参考资料算法一算法二解:算法名称基本原理参考资料基于字符串匹配算法又叫做机械分词方法。它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个字符串,则匹配成功(识别出一个词)。该方法有三个要素,即分词词典、文本扫描顺序和匹配原则。文本的扫描顺序有正向扫描、逆向扫描和双向扫描。匹配原则主要有最大匹配、最小匹配、逐词匹配和最佳匹配。 1龙树全,赵正文,唐华. 中文分词算法概述J. 电脑知识与技术,2009,10:260
13、5-2607.基于理解的分词方法在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统和总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。1龙树全,赵正文,唐华. 中文分词算法概述J. 电脑知识与技术,2009,10:2605-2607.3. 研究究两种网页页正文提取取算法并填填写如下表表格:算法名称基本原理参考资料算法一算法二解:算法名称基本原理参考资料基于权值优化的网页正文内容提取算法提取出描述网页内容的文本
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 3901130721 谭淇蔚 电子商务 实验 ova
限制150内