读书笔记范例(共4页).doc

上传人：飞****2

文档编号：13310688

上传时间：2022-04-28

格式：DOC

页数：4

大小：19KB

( 4.5 )

《读书笔记范例(共4页).doc》由会员分享，可在线阅读，更多相关《读书笔记范例(共4页).doc（4页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、精选优质文档-倾情为你奉上读书笔记姓名：xiaoming学号：班级：15级电子商务1541班前言：我通过查阅图书馆书籍，搜索图书馆数据库资料，查阅有关期刊和查找网页上相关的资料四种方式，为我的论文基于分布式系统的网络爬虫设计与研究寻找相关的信息资料，并从2016年4月1日2016年4月24日根据所收集的资料完成的读书笔记，以下即为我此次的读书笔记。主题网络爬虫的研究与设计之读书笔记索引：南京理工大学，控制理论与控制工程， 2008，硕士：主题网络爬虫的研究与设计原文的摘要：随着网络资源的急剧增长,在庞大的网络上,快、准、全地找到相关信息,变得越来越困难。此时,搜索引擎应运而生。搜索引擎是人

2、们从网上查找信息最方便快捷的方式,也因此超过E-mail等常见web服务,成为用户使用量最多的服务。通用搜素引擎,面向所有的web信息检索者,由于庞大的网络信息规模和高速响应要求,使其检索结果的相关性不尽人意。主题搜索引擎,是为进一步提高相关性而发展起来的新一代搜索引擎。本文的研究对象是主题搜索引擎中的主题爬虫。首先概述了搜索引擎的发展概况和网络爬虫研究现状;然后分析了集中式主题网络爬虫的体系结构,将其分成5个组成部分:数据存储、下载模块、网页预处理、网页分类和链接分析,并阐述了各部分的功能。本文的具体工作如下:(1)在搜索策略中,结合内容分析和链接分析,利用URL字符串、锚文本、父页面和兄弟

3、页面等启发信息,设计出一种链接评分方法。(2)网页预处理过程,包括分词、HTML解释和网页消噪。在对树节点进行裁剪的基础上,设计了基于样式的网页消噪方法,进一步提高网页消噪效果。(3)网页分类包括两个阶段:特征提取和权值计算阶段。在特征提取阶段,通过组合文档频率、改进后的CHI特征和互信息,得到新的特征,达到降维和提高分类精度的效果。在权值计算阶段,结合信息增益、传统TFIDF和重要信息标签的权值,得到了更适应网页分类的权值计算方法。(4)最后,在VC6.0和SQL SERVER2000平台上,实现了一个简易的爬虫系统,并简要分析了爬虫的运行结果,达到了令人满意的效果。原文的关键字：搜索引擎；

4、网络爬虫；主题爬虫；网页消噪；特征提取；作者的观点：为了获得较高的网页覆盖率,通用爬虫通常按照广度或深度优先原则遍历web有向图,在爬行过程中不太在意采集顺序和网页主题,对网页的内容缺乏细致的分析,过多的无关或无意义的页面被采集,严重浪费了系统资源和网络带宽并降低了爬虫的采集效率。为了满足应用的个性化和提高爬虫效率的需求,主题爬虫应运而生。相对于通用网络爬虫的搜索策略,主题网络爬虫是通过结合已知的启发信息而形成的启发式搜索策略。因此主题网络爬虫的研究主要集中在搜索策略的研究上。通常可以利用的启发信息有网页内容和链接结构,因此也就形成了基于内容的搜索策略和基于链接的搜索策略本人的观点：网

5、络爬虫是一个功能很强的自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。它遍历Web空间,不断从一个站点移动到另一个站点,自动建立索引,并加入到网页数据库中。网络爬虫分析某个网页时,利用HTML语言的标记结构来获取指向其他网页的URL地址,可以完全不依赖用户干预,实现网络上的自动爬行和搜索。正是这种行为方式,这些程序才被称为爬虫机器人。总结：该篇文章说明的数据爬虫的基本原理，及运用原理，富有借鉴意义。主题网络爬虫的研究与实现之读书笔记索引：南京理工大学，控制理论与控制工程， 2008，硕士：主题网络爬虫的研究与设计原文的摘要：随着Web信息的急速膨胀,各项和We

6、b有关的服务也都逐渐增多,Web信息在很多方面得到了广泛的应用,人们对于Web信息的要求也越来越高,使得专门负责Web信息采集的网络爬虫技术面临了一个巨大的挑战。国内外的一些大公司对这一问题已经有了很成熟的解决方案,并已投入使用,但是这些大型搜索引擎只能给大众用户提供一种普通的不可制定的搜索服务,它不可能考虑到所有用户的各式各样的需求,而单机的网络爬虫在很多情况下又难当重任,中型规模的网络爬虫以其灵活的可定制性和单机网络爬虫无法比拟的信息采集速度和规模,满足了人们日益增长的对Web信息的面向用户的需求,针对这一情况,本文展开了对国内外的网络爬虫技术的研究。网络爬虫研究中最重要的是设计构架和关键

7、技术的解决。在吸取了他人技术和经验的基础上,本文设计描述了一个分布式网络爬虫的结构设计,其中包括硬件的构架,和软件的模块划分。硬件部分由一台PC机做控制节点,N台PC机作爬行节点,在局域网中连接。软件部分又分为控制节点软件设计和爬行节点软件设计。然后本文分析了分布式网络爬虫的关节技术的解决方法,比如分布式的各个结点如何协同工作,任务如何分配,如何保持重要网页的时新性等等,进而提出了一些实用的算法,解决了这些分布式网络爬虫的关键技术,实现了一个具备健壮性,可扩展性,可配置性的分布式网络爬虫系统,并就该分布式网络爬虫系统进行了仔细的剖析。最后在该网络爬虫上作了一些测试,包括了普通爬行测试和该网络爬

8、虫的一个应用,网站爬行的测试。原文的关键字：网络爬虫；并行；搜索引擎；作者的观点：国内外的一些大公司对大型网络爬虫已经有了很成熟的解决方案，并已投入使用，但是这些大型搜索引擎只能给大众用户提供一种普通的不可制定的搜索服务，它不可能考虑到所有用户的各式各样的需求，而单机的网络爬虫在很多情况下又难当重任，中型规模的网络爬虫以其灵活的可定制性和单机网络爬虫无法比拟的信息采集速度和规模，满足了人们日益增长的对 Web 信息的面向用户的需求，因此本文着眼于中等规模，力求实现一个健壮性，可扩展性，效率各方面都很完善的一个高质量的爬虫。在这个爬虫的基础上可以开展很多研究比如：普通搜索引擎，主题搜索，移动搜索等等。本人的观点：随着国际互联网的迅速发展，网上的信息越来越多，全球目前的网页超过 20 亿，每天新增加 730 万网页。要在如此浩瀚的信息海洋里寻找信息，就像“大海捞针”一样困难。搜索引擎正是为了解决这个问题而出现的技术。搜索引擎是通过互联网搜索信息的重要途径。它要用到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术，具有很高的综合性和很强的挑战性。总结：该篇文章分析设计数据爬虫的构建，具备学习意义。专心-专注-专业

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 读书笔记范例

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：读书笔记范例(共4页).doc
链接地址：https://www.taowenge.com/p-13310688.html