读书笔记范例(共4页).doc
《读书笔记范例(共4页).doc》由会员分享,可在线阅读,更多相关《读书笔记范例(共4页).doc(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上读书笔记姓名:xiaoming学号:班级:15级电子商务1541班前言:我通过查阅图书馆书籍,搜索图书馆数据库资料,查阅有关期刊和查找网页上相关的资料四种方式,为我的论文基于分布式系统的网络爬虫设计与研究寻找相关的信息资料,并从2016年4月1日2016年4月24日根据所收集的资料完成的读书笔记,以下即为我此次的读书笔记。主题网络爬虫的研究与设计之读书笔记索引:南京理工大学, 控制理论与控制工程, 2008, 硕士:主题网络爬虫的研究与设计原文的摘要:随着网络资源的急剧增长,在庞大的网络上,快、准、全地找到相关信息,变得越来越困难。此时,搜索引擎应运而生。搜索引擎是人
2、们从网上查找信息最方便快捷的方式,也因此超过E-mail等常见web服务,成为用户使用量最多的服务。通用搜素引擎,面向所有的web信息检索者,由于庞大的网络信息规模和高速响应要求,使其检索结果的相关性不尽人意。主题搜索引擎,是为进一步提高相关性而发展起来的新一代搜索引擎。本文的研究对象是主题搜索引擎中的主题爬虫。首先概述了搜索引擎的发展概况和网络爬虫研究现状;然后分析了集中式主题网络爬虫的体系结构,将其分成5个组成部分:数据存储、下载模块、网页预处理、网页分类和链接分析,并阐述了各部分的功能。本文的具体工作如下:(1)在搜索策略中,结合内容分析和链接分析,利用URL字符串、锚文本、父页面和兄弟
3、页面等启发信息,设计出一种链接评分方法。(2)网页预处理过程,包括分词、HTML解释和网页消噪。在对树节点进行裁剪的基础上,设计了基于样式的网页消噪方法,进一步提高网页消噪效果。(3)网页分类包括两个阶段:特征提取和权值计算阶段。在特征提取阶段,通过组合文档频率、改进后的CHI特征和互信息,得到新的特征,达到降维和提高分类精度的效果。在权值计算阶段,结合信息增益、传统TFIDF和重要信息标签的权值,得到了更适应网页分类的权值计算方法。(4)最后,在VC6.0和SQL SERVER2000平台上,实现了一个简易的爬虫系统,并简要分析了爬虫的运行结果,达到了令人满意的效果。原文的关键字:搜索引擎;
4、 网络爬虫; 主题爬虫; 网页消噪; 特征提取;作者的观点:为了获得较高的网页覆盖率,通用爬虫通常按照广度或深度优先原则遍历web有向图,在爬行过程中不太在意采集顺序和网页主题,对网页的内容缺乏细致的分析,过多的无关或无意义的页面被采集,严重浪费了系统资源和网络带宽并降低了爬虫的采集效率。为了满足应用的个性化和提高爬虫效率的需求,主题爬虫应运而生。相对于通用网络爬虫的搜索策略,主题网络爬虫是通过结合已知的启发信息而形成的启发式搜索策略。因此主题网络爬虫的研究主要集中在搜索策略的研究上。通常可以利用的启发信息有网页内容和链接结构,因此也就形成了基于内容的搜索策略和基于链接的搜索策略本人的观点:网
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 读书笔记 范例
限制150内