2022年网络爬虫设计 .pdf
《2022年网络爬虫设计 .pdf》由会员分享,可在线阅读,更多相关《2022年网络爬虫设计 .pdf(21页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、UindexWeb 使用说明UindexWeb使用说明最新修订:2009-9-2名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 21 页 -UindexWeb 使用说明声明下文所描述UindexWeb具有的特性或功能,并未经过严格测试。因此请不要将此程序用于重要领域,比如金融,取证等对算法失败具有严格要求的场合。作者虽已向更加完善的方向努力,只是考虑到不能穷举所有场合;无法保证在某些环境下计算结果正确。UindexWeb是我在大学时期,大约是2006 年夏季开始编写的,一直以来也都是单独维护代码;因此由此所带来的局限性可想而知。目前通过共享代码的方式提供给大家使用,很少收到反馈,
2、程序中的潜在Bug一定非常之多!最近一段时间我开始着手改善;也加入了错误报告功能;方便普通用户协助我查找问题。实验测试多天连续运行,较少出现Crash,内存占用保持在40M以内,暂停搜索后内存占用约 1.6M,可见也无明显内存泄露。UindexWeb遵守 LGPL 并附加一项条款:即如果您修改了UindexWeb本身的代码,您应将此部分修改的代码开放。名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 21 页 -UindexWeb 使用说明声明.21:读者.42:特性.53:功能简介.63.1 任务菜单.63.2 模式菜单.73.3 设置菜单.73.4 帮助菜单.84:配置 Uin
3、dexWeb.94.1 综合设置.94.2 搜索策略.94.3 消息模式.104.4SQL Server2000.105:高级主题.115.1 编译 UindexWeb.115.2 信息片算法简介.125.3 搜索引擎简介.155.4Lucene.Net简介.176:常见问题.196.1FAQS.196.2 关于作者.20名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 21 页 -UindexWeb 使用说明1:读者本软件的主要目的是协助那些需要在自己的网站,或网站群加入搜索功能的人编写的;作为一个开放源代码的网络爬虫(WebSpider),他目前的性能测试如下:以每周更新一次,
4、一台机器进行爬行算,采集到的数据量大约是100 万页,如果您需要进行更大规模的搜索;比如超过千万网页的网站,像百度谷歌那样的规模,那现在的存储体系需要略加修改,用以支持分布式存储,那个时候存储将是最重要的问题,如果你有这方面的想法,请别犹豫立刻就联系我!名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 21 页 -UindexWeb 使用说明2:特性1:源代码开放,您可以自由的修改以实现想要的特殊功能2:模块化设计,以组件的形式封装算法3:独到的信息片算法,最大限度的排除冗余资讯4:支持站点以XML 格式进行导入导出5:支持全局违禁关键字,指定站点关键字,特殊URL 进行检查,过滤
5、6:多线程设计,即使全速运行,仍不会出现卡的现象7:支持搜索完成后退出,自动关机等自动操作8:内嵌错误报告机制,可以在用户操作过程中生成错误报告9:有内置的测试搜索功能,不需要建立索引即可快速体验搜索功能10:支持 DebugView 等外部调试信息查看工具,方便调试11:有专用网站跟踪错误报告,做到不遗漏每个Bug12:有专用QQ 群,目前2 个群均已满员,正考虑再建立新群名师资料总结-精品资料欢迎下载-名师精心整理-第 5 页,共 21 页 -UindexWeb 使用说明3:功能简介下图就是UindexWeb R4.5 版本的主界面,它一共有4 个主菜单和2 个左边栏菜单;贝贝和京京是作者
6、为搜索线程取的较为友好的名字,他们是配置文件中指定的,细节可以参考UindexWeb.ini 配置文件。再往下则是算法进度指示条,日志记录框,和状态栏,其中状态栏中那个空白的一格是信息片饱和度,它表示了当前网站信息片重复的概率。图 1:UindexWeb 主界面3.1 任务菜单新建任务:用于创建新的搜索任务,即从站点管理器中指定的入口开始一次新的搜索旅程继续上次任务:用于恢复上次被暂停的任务暂停任务:用于打断正在运行的任务名师资料总结-精品资料欢迎下载-名师精心整理-第 6 页,共 21 页 -UindexWeb 使用说明添加新网站:向站点管理器中添加您自己的站点及其入口,这样做的好处是,即使
7、不处于全互联网开放的搜索模式下,您所添加的网站也一定会被搜索到。站点管理器:用于显示目前已收录的所有站点站点导入导出:使用XML 格式的文本文件进行站点的导入导出输出违禁网页:打印含有违禁关键子的网页,需要开启违禁网页标记功能退出搜索:结束应用程序3.2 模式菜单其中的标准,多核和极速分别代表了需要使用的线程数量;针对不同的机器配置选用不同的线程数。减少 CPU 占用:在进行密集计算的过程中插入任务调度语句,避免其他程序因CPU 被 100%占用而导致卡住。自动清理消息:日志记录框的内容,有些可能需要一直保存用于分析问题,反选此项可以避免消息被冲掉。3.3 设置菜单测试 Web 搜索:这项功能
8、的目的是测试一下,收录的网页内容,它不依赖IIS,Apache,会自己提供Web 服务,用于搜索,目前只提供标题搜索功能。数据库清理:该菜单会清除掉数据库中存储的所有待搜索的URL,已搜索到的网页、文件。重设站点状态:该菜单会将所有站点的状态设置为等待搜索。压缩数据库:在使用Access桌面数据库的情况下,该菜单用于压缩数据库。?仅在 R4.5Build4488 之前的版本中有此功能,后续版本将不再针对某特殊数据库增删功能。搜索完成后:目前支持完成后退出,注销登陆用户和关闭计算机。搜索选项:这个菜单牵涉到的内容太多,以至于需要单独的一章来说明,参考第4 章,配置 UindexWeb。名师资料总
9、结-精品资料欢迎下载-名师精心整理-第 7 页,共 21 页 -UindexWeb 使用说明3.4 帮助菜单这个 菜 单 主 要 提 供 相 关 的 更 新,以 及 帮 助 文 件 和 版 权 信 息,网 站 的 地 址http:/ 8 页,共 21 页 -UindexWeb 使用说明4:配置 UindexWeb配置部分一共分为3 页,即综合设置,搜索策略和消息模式。4.1 综合设置如下是综合设置选项卡的内容;图 2:综合设置选项卡搜索类型:指明了在每次搜索之前是否删除前次搜索的结果,默认是不删除的;他的好处是在经过多次搜索以后,已收录而且从未更新的网页将会被保留下来,从而收录到更多的网页。蜘
10、蛛家族:即UserAgent,该项指定访问网页时填写的UA,Uindex 目前的签名版本是4.0,如果您不愿意被收录,可以根据这个标志做特殊处理。默认收录:即一次搜索要尝试的页数,如果选中全互联网搜索,将把新发现的站点也收录进来;如果选中本站子级站点,将在搜索过程中把次级域名也作为站点收录。允许错误:即发生多少次访问错误后,放弃对该站点更加深入的搜索。自定义数据库:目前可以支持Access 和 SQL Server2000 这两种数据库,其余的类型均没有测试。名师资料总结-精品资料欢迎下载-名师精心整理-第 9 页,共 21 页 -UindexWeb 使用说明4.2 搜索策略记录嵌入的脚本和文
11、件:即记录网页上出现的嵌入内容。在结果中标记违禁网页:即如果该网页被收录,并且该网页的内容含有违禁词汇,将在数据库中做出特殊标记。这一标记即UindexWeb_WebPage 数据表中的WPBadWord 字段,如果该字段为1 表示含有违禁内容。不收录含有违禁内容的网页:选中此项后上述违禁标记功能失效,将直接跳过对违禁网页的收录。URL 最大长度:目前规定为255 字符,多于255 字符将不被收录。网页最大处理时间:这个实际上是下载时间,目前默认最多10 秒信息片缓存个数:默认512 片网页最大长度:目前默认最大为300KB4.3 消息模式界面实时刷新:即使在高速运算的过程中,仍照顾用户界面看
12、上去不是很忙,不是那么卡。启用 URL 屏蔽:对在UindexWeb_FobidenUrl 表中指定的所有URL 进行比较,含有禁止部分的 URL 会遭到屏蔽。建议启用输出调试信息:如果想使用DebugView 等后台调试工具,开启此开关用来观察程序的运行流程。显示连接和信息片:打印更加细节的计算步骤,不建议打开。保存参数的同时即生效:即将当前参数立即应用。对网页实施高精度分片:建议开启,可以大幅度降低信息冗余。正在运行时关闭程序不用提示:在运行的过程中,右上角的号是最小化到Icon 栏,在暂停或停止状态下,是关闭程序。这个选项的功能是如果直接点退出而不是点的情况下是否给予提示。当设置为自动关
13、机时不用数秒:即搜索完成后,直接关机,不必再从60 秒数到 0 再关机。名师资料总结-精品资料欢迎下载-名师精心整理-第 10 页,共 21 页 -UindexWeb 使用说明4.4SQL Server2000参考根目录的UindexWeb.sql 脚本用于建立UindexWeb 数据库。名师资料总结-精品资料欢迎下载-名师精心整理-第 11 页,共 21 页 -UindexWeb 使用说明5:高级主题5.1 编译 UindexWebUindexWeb 是用 Delphi7 编写的,编译它除了需要安装Delphi7 之外还需要安装以下组件:1:JEDI Code Library v 1.104
14、网址 http:/ http:/ v6网址 http:/www.overbyte.be4:FlatStyle网址 http:/ UindexWeb 源码附带,网址http:/ Delphi7 打开 UindexWeb.dpr 即可正常编译,需要注意的是,安装JEDI 的时候要选上 Debug Exception Hook 单元,默认是不选的,然后在 Delphi7 的 Project-Property-Linker选项中选中生成Detialed Map,这样调试功能即可使用。名师资料总结-精品资料欢迎下载-名师精心整理-第 12 页,共 21 页 -UindexWeb 使用说明5.2 信息片算
15、法简介在编写网页搜索的过程中,网页冗余和内容冗余是个非常严重的问题,信息片算法就是为了解决这个问题而设计的算法。正文:传统的搜索引擎对网页原代码基本上都是完全保存的,网页的内容块存在很多重复,比如网页的导航条,页脚的版权信息,最新文章10 篇等等,假设有一种算法可以获得每张网页的新信息,抛弃臃余,这样不是很好吗?在描述算法实现之前思考以下问题:1:如何避免同一网站多个域名的问题?比如 完全抄袭 如何避免收录 的内容?2:还以 CSDN 为例,网站的每一频道都有个导航条,第2 书店,人才,外包等,如何避免收录这些内容?好,现在搜索蜘蛛来到CSDN,抓取首页,为首页拆分信息片,注意不是全文一股脑地
16、去除 HTML 标签,而是首先分成信息片,大家都知道在html 中标签大多数是成对的,(不成对的如 跳过),这也为信息片算法提供了可能,比如当标签内的有效信息超过10 字符作为信息片,有效字符的判断完全取决于你的要求,比如为实现搜索,把算为有效信息片,以下是我的测试结果:第 1 片:CSDN.NET-中国最大的开发者网络,为开发人员和相关企业提供全面的信息服务和技术服务 第 2 片:这一行因为每个 的内容均不满10 个,所以取上级标签【登 录】/li>【免费注册】/a>同上第 3 片:首页新闻 社区 文档Blog知识库.NETJava 移动游戏 管 理 人才外 包 搜 索这样顺次对
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年网络爬虫设计 2022 网络 爬虫 设计
限制150内