小猪采集器规则制作(共16页).doc
《小猪采集器规则制作(共16页).doc》由会员分享,可在线阅读,更多相关《小猪采集器规则制作(共16页).doc(16页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上1.何时才需要做小猪采集规则小猪内置了数百种采集规则(内置规则无法修改),方便了用户使用,不过网页(模板)是千变万化的,当Ctrl+b预览不到内容、或者预览到的内容不符合您要求的时候,就需要制作采集规则了。注意点:小猪采集规则主要功能是提取字符、网址; 采集回复数量、关键词SEO、伪原创、图片/附件下载、发布切换用户、发布时间间隔等是通过“采集方案”来控制,并且这些是运行均是自动化的。2.小猪采集规则的作用采集规则,顾名思义,就是采集用的,将网页上的内容提取整理成适合的形式,以便于发布到网站或者存储到CSV数据表格里面。补充: 小猪采集规则实际包含了 采集规则+发布规
2、则 ,这么设计的好处,可以处理交互式的网页,实现自动登录、回复、购买等互动采集,普通采集器很难实现这些互动处理,比如在论坛的帖子页,可以采集这个帖子,也可以对这个帖子进行回复后再采集,当然,大部分情况下是不需要做发布规则的,请按需选择。3.小猪采集规则的兼容性小猪的采集规则处理的对象是“网页模板”,普通的网站一般只用一套模板,这种网页就有规律可循,比如相同模板的列表页只需要制作一条列表采集规则。小结 : 网站的发布内容展示在网页上,通过“网页模板”展示出来,软件则是通过对应的“采集规则”来解密出网页的内容,小猪规则相当于是“钥匙”,不同的钥匙打开不同的“网页模板”。4.小猪采集规则的独立性与调
3、用小猪软件采集规则,是互相独立,又互相配合的,并且规则和任务也是独立的。小猪的各个任务会自动调用“已经打钩”的本地规则、内置规则、云规则等,所以制作好规则后,就可以测试采集了,任务会自动调用,无需手工再次选择。5.采集页面深度小猪理论上支持采集支持无限深度,原理是通过不同的规则识别不同的网页模板,也就是抓取不同的页面深度。对于更复杂的需求,还可以通过p语言来实现,比如通过p语言抓取相关的网页页面字符和当前页面字符进行拼接组合。第四节 实战编写小猪规则有些用户可能比较心急,这一节讲解如何操作,不过我们建议大家有空的话还是看全 五节教程的文字部分,这样能基本掌握小猪规则的制作方法。 (0 Byte
4、s, 下载次数: 862) 2011-12-19 13:03:56 上传下载次数: 862 ,新手可以参考此表来编写小猪规则。建议按顺序看以下视频教程:序号视频教程说明视频下载地址本地下载教程规则下载1编辑规则相关界面介绍2正文采集规则制作方法 (428 Bytes, 下载次数: 641) 2011-12-19 14:44:17 上传下载次数: 641 3列表采集规则制作方法 (481 Bytes, 下载次数: 607) 2011-12-19 14:44:30 上传下载次数: 607 4论坛帖子采集规则制作 5视频采集规则制作(包含采集视频评论) 以下为文字说明和相关注意点:正文规则制作教程正
5、文规则是为了采集到 标题、内容(包括图片、附件网址),以及获取正确的翻页网址,便于实时发布。一、在文章页面,CTRL+B 测试获取内容不正确,就需要做正文规则二、右键点“本地规则库”-制作当前网页采集规则编辑正文规则方法如下:操作顺序配置名操作方法和注意点1全局区设置规则名称和规则类型,一般是选择源代码,正文页类型2标题鼠标框选网页上标题区域,右键菜单-内容采集-此处取标题,其他配置名均可以如此操作3正文注意:只有在要采集回复、评论,才需要设置“首帖区域”“单元区域” 4正文下一页网址如果有翻页,设置翻页地址,便于软件自动采集文章分页注意:如果是论坛帖子的翻页,需要设置为“下一页网址”5识别区
6、回过头来,用正文的 class属性,设置 识别区内容必包含保存规则,打开其他正文页面测试是否获取正常,是否调用到了此正文采集规则。小结: 制作文章类型的正文规则,主要设置“配置名”中的识别区、标题、正文、正文下一页。注意点:识别区务必要设置,识别区的重要性在第二节中有相关说明。列表规则的制作教程列表规则起到导航的作用,便于软件抓取到正文网址,采集正文内容。一、打开版块列表页,CTRL+B 测试获取内容不正确,就需要做列表规则此教程中,内置规则能正常识别到列表,只是演示制作方法二、右键点“本地规则库”-制作当前网页采集规则编辑列表规则方法如下:操作顺序配置名操作方法和注意点1全局区设置规则名称和
7、类型,一般是选择源代码,列表页类型2单元区域单元区域:重复的HTML块,比如列表上的标题一般都有规律可循鼠标框选网页上第一个文章链接区域,右键送入“单元区域”小技巧:列表规则单元区域可以直接输入 “正文网址”的特征,软件会自动抓取这些链接检查标题、正文显示内容是否正确,如果不对需要修改3有效区域可以通过“有效区域”来限定获取内容的范围,比如排除置顶帖4下一页网址找到翻页地址并设置,便于软件自动翻页采集5识别区回过头来,用单元区域的 class属性,设置 识别区内容必包含如果一时找不到,可以将正文规则的class属性,设置到 识别区-内容不包含 里面这样就简单实现2个规则互不干扰注意:要在列表页
8、源代码中搜索一下class属性,检查并确定没有此字段,才可用此方法保存规则,打开其他列表页面测试是否获取正常,是否调用到了此列表采集规则。小结: 制作列表采集规则,主要设置了“配置名”中的单元区域、下一页网址、识别区。注意点:寻找单元区域有一定的技巧,需要耐心,同样,识别区非常重要,务必设置好识别区第二节 小猪浏览器采集规则执行原理小猪浏览器常用的采集规则主要有三类:列表规则、正文规则(根据是否采集回复、评论,还可以分2种)、下载规则。首先理解要做哪些规则:序号网页类型制作规则类型及注意点1版块列表页面列表规则,“单元区域”设置列表网址的特征值,或者正文网址所在重复区块的特征值2文章类页面(不
9、采集回复)正文规则,不需要用到单元区域3帖子类页面(需回复、评论)正文规则,需要用到单元区域对于有些网页评论和回复不在重复区块内,还需要用到首帖区域4跳转的附件下载页面下载规则自编采集规则可以和软件内置采集规则配合使用,比如软件内置规则能识别出列表页面,但是无法识别正文页面,那么我们只需要制作正文采集规则就可以了。为了让这些规则互相不冲突,需要用到“识别区”,识别区的意义,是让规则只识别某一类网址、某一种模板,让规则分工协调。和普通采集器不一样的是,小猪规则是智能调用的,规则打钩即生效,软件通过识别区来自动匹配网页所对应的规则。识别区有4个特征选项序号识别区说明(特征字符是固定的字符,请按行填
10、写,不支持通配符号)1网址必包含只有网址包含了这些特征字符,才调用此规则技巧:新建规则时,软件会自动填入完整域名,有时候可以去掉二级前缀来扩大规则识别范围2网址不包含当网址包含这些特征字符的时候,则不调用此规则3内容必包含当网页代码中带有网页模板特征字符、文字,调用此规则网页代码:制作规则所针对的网页代码来源,如网页源代码技巧:我们常用 标题、正文、或者区域的 class=* 等HTML属性,这些一般是网页模板的特征字符4内容不包含当网页代码中包含了这些特征字符,则不调用此规则根据排列组合原理,小猪识别区理论上可以识别无限个网页(模板),利用好识别区,可以让规则匹配不同的网页生效。相关html
11、代码属性,可以参考下面的第五节学习。采集规则编辑流程图如下,红线示意了规则循环执行原理扩展一下:一级列表规则也可以指向二级列表规则,直至抓到最终的正文页面;类似于蜘蛛爬行原理,而我们需要更精确和可控的内容,所以需要制作对应的小猪采集规则。(蜘蛛爬行是顺着网页链接来抓取对应的内容,有一定“随机性”)2011-12-11 18:48:32 上传 小猪浏览器采集规则流程图 当前在线 在线时间5027 小时最后登录2013-3-21154 活力14464 论坛币2275 注册时间2010-7-7阅读权限200帖子主题精华6积分40199UID7164 TA的每日心情奋斗2013-3-3 13:02:5
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 小猪 采集 规则 制作 16
限制150内