中南大学电子商务实验.doc





《中南大学电子商务实验.doc》由会员分享,可在线阅读,更多相关《中南大学电子商务实验.doc(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、实验3搜索引擎及SEO实验实验学时: 2 每组人数: 1 实验类型: 2 (1:基础性 2:综合性 3:设计性 4:研究性)实验要求: 1 (1:必修 2:选修 3:其它)实验类别: 3 (1:基础 2:专业基础 3:专业 4:其它)一、实验目的1研究并学习几种常见的搜索引擎算法,包括网络蜘蛛爬行策略、中文分词算法、网页正文提取算法、网页去重算法、PageRank和MapReduce算法,了解它们的基本实现原理; 2运用所学SEO技术对网页进行优化。二、实验内容1. 研究常用的网络蜘蛛爬行策略,如深度优先策略、广度优先策略、网页选择策略、重访策略和并行策略等,了解其实现原理;2. 研究至少两种
2、中文分词算法,了解其实现原理;3. 研究至少两种网页正文提取算法,了解其实现原理;4. 研究至少两种网页去重算法,了解其实现原理;5. 研究Google的PageRank和MapReduce算法,了解它们的实现原理;6. 使用所学的SEO技术,对实验二所设计的网站静态首页实施SEO,在实施过程中需采用如下技术:(1) 网页标题(title)的优化;(2) 选取合适的关键词并对关键词进行优化;(3) 元标签的优化;(4) 网站结构和URL的优化;(5) 创建robots.txt文件,禁止蜘蛛抓取网站后台页面;(6) 网页内部链接的优化;(7) Heading标签的优化;(8) 图片优化;(9)
3、网页减肥技术。7. 使用C+、C#和Java等任意一种编程语言,设计并实现一个简单的网络蜘蛛爬行程序,要求在输入关键词、设置爬行深度和初始网页URL之后能够实现网页搜索,输出包含关键词的网页的URL和网页标题。【注:实验7为补充实验,不要求每个同学都完成,感兴趣者可自行实现该程序,不计入实验报告评分。】三、实验要求1. 研究几种常用的网络蜘蛛爬行策略,填写相应的表格,表格必须填写完整;2. 研究两种中文分词算法,填写相应的表格,表格必须填写完整;3. 研究两种网页正文提取算法,填写相应的表格,表格必须填写完整;4. 研究两种网页去重算法,填写相应的表格,表格必须填写完整;5. 研究PageRa
4、nk算法和MapReduce算法,填写相应的表格,表格必须填写完整;6. 提供实施SEO之后的网站静态首页界面和HTML代码,尽量多地使用所学SEO技术;7. 严禁大面积拷贝互联网上已有文字资料,尽量用自己的理解来阐述算法原理,必要时可以通过图形来描述算法;8. 使用任意一种编程语言实现一个简单的网络蜘蛛程序,需提供网络蜘蛛程序完整源代码及实际运行结果。四、实验步骤1. 通过使用搜索引擎并查阅相关资料,研究并整理几种常用的网络蜘蛛爬行策略相关资料,填写相应的表格;2. 通过使用搜索引擎并查阅相关资料,研究并整理两种中文分词算法的基本原理,填写相应的表格;3. 通过使用搜索引擎并查阅相关资料,研
5、究并整理两种网页正文提取算法的基本原理,填写相应的表格;4. 通过使用搜索引擎并查阅相关资料,研究并整理两种网页去重算法的基本原理,填写相应的表格;5. 通过使用搜索引擎并查阅相关资料,研究并整理PageRank算法和MapReduce算法的基本原理,填写相应的表格;6. 对实验二所设计的网站静态首页实施SEO;7. 使用任意一种编程语言,设计并实现一个简单的网络蜘蛛爬行程序。五、实验报告1完成本项目实验后,学生应提交实验报告。2实验报告格式与要求见附件。电子商务应用实验报告项目名称 电子商务第三次试验 专业班级 1206 学 号 姓 名 金初阳 实验成绩:批阅教师:年 月 日实验3搜索引擎及
6、SEO实验实验学时: 2 实验地点: 二综 实验日期: 2014/12/26 一、实验目的研究并学习几种常见的搜索引擎算法,包括网络蜘蛛爬行策略、中文分词算法、网页正文提取算法、网页去重算法、PageRank和MapReduce算法,了解它们的基本实现原理;运用所学SEO技术对网页进行优化。二、实验内容和方法1. 研究常用的网络蜘蛛爬行策略,如深度优先策略、广度优先策略、网页选择策略、重访策略和并行策略等,了解其实现原理;2. 研究至少两种中文分词算法,了解其实现原理;3. 研究至少两种网页正文提取算法,了解其实现原理;4. 研究至少两种网页去重算法,了解其实现原理;5. 研究Google的P
7、ageRank和MapReduce算法,了解它们的实现原理;6. 使用所学的SEO技术,对实验二所设计的网站静态首页实施SEO,在实施过程中需采用如下技术:(1) 网页标题(title)的优化;(2) 选取合适的关键词并对关键词进行优化;(3) 元标签的优化;(4) 网站结构和URL的优化;(5) 创建robots.txt文件,禁止蜘蛛抓取网站后台页面;(6) 网页内部链接的优化;(7) Heading标签的优化;(8) 图片优化;(9) 网页减肥技术。7. 使用C+、C#和Java等任意一种编程语言,设计并实现一个简单的网络蜘蛛爬行程序,要求在输入关键词、设置爬行深度和初始网页URL之后能够
8、实现网页搜索,输出包含关键词的网页的URL和网页标题。【注:实验7为补充实验,不要求每个同学都完成,感兴趣者可自行实现该程序,不计入实验报告评分。】三、实验要求1. 研究几种常用的网络蜘蛛爬行策略,填写相应的表格,表格必须填写完整;2. 研究两种中文分词算法,填写相应的表格,表格必须填写完整;3. 研究两种网页正文提取算法,填写相应的表格,表格必须填写完整;4. 研究两种网页去重算法,填写相应的表格,表格必须填写完整;5. 研究PageRank算法和MapReduce算法,填写相应的表格,表格必须填写完整;6. 提供实施SEO之后的网站静态首页界面和HTML代码,尽量多地使用所学SEO技术;7
9、. 严禁大面积拷贝互联网上已有文字资料,尽量用自己的理解来阐述算法原理,必要时可以通过图形来描述算法;8. 使用任意一种编程语言实现一个简单的网络蜘蛛程序,需提供网络蜘蛛程序完整源代码及实际运行结果。四、实验步骤1. 通过使用搜索引擎并查阅相关资料,研究并整理几种常用的网络蜘蛛爬行策略相关资料,填写相应的表格;2. 通过使用搜索引擎并查阅相关资料,研究并整理两种中文分词算法的基本原理,填写相应的表格;3. 通过使用搜索引擎并查阅相关资料,研究并整理两种网页正文提取算法的基本原理,填写相应的表格;4. 通过使用搜索引擎并查阅相关资料,研究并整理两种网页去重算法的基本原理,填写相应的表格;5. 通
10、过使用搜索引擎并查阅相关资料,研究并整理PageRank算法和MapReduce算法的基本原理,填写相应的表格;6. 对实验二所设计的网站静态首页实施SEO;7. 使用任意一种编程语言,设计并实现一个简单的网络蜘蛛爬行程序。五、实验结果1. 研究几种常用的网络蜘蛛爬行策略并填写如下表格:策略名称基本原理参考资料深度优先策略深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接此方法在设计的时候比较容易。1搜索引擎蜘蛛爬行网页的广度优先和深度优先解析.广度优先策略网络蜘蛛会先抓取起始网页中链接的所有网页,然后选择其中一个链接网页,继续抓取
11、在此网页中的所有网页。此方式可以让网络蜘蛛并行处理,提高抓取速度。1搜索引擎蜘蛛爬行网页的广度优先和深度优先解析.网页选择策略一个页面的重要程度与其自身的质量有关,与链接数、访问数得出的受欢迎程度有关,甚至与他本身的网址(后来出现的垂直搜索引擎则限制在一级域名或者固定页面上)有关。最重要的页面会有很多主机连接到它们,并且那些链接会较早的发现,而不用考虑从哪一个主机或页面开始的。1 网络爬虫的选择策略.blog_70c0549d0100ppym.html重访策略决定了搜索引擎利用何种更新策略对网页进行重新抓取。具体策略分类:(以网站更新频率为主要参考标准,根据网页类型不同调整更新频率,针对时效性
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中南 大学 电子商务 实验

限制150内