小猪采集器规则制作(共16页).doc

资源ID：14396523 资源大小：507KB 全文页数：16页
资源格式： DOC 下载积分：20金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要20金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

小猪采集器规则制作(共16页).doc

精选优质文档-倾情为你奉上1.何时才需要做小猪采集规则小猪内置了数百种采集规则（内置规则无法修改），方便了用户使用，不过网页（模板）是千变万化的，当Ctrl+b预览不到内容、或者预览到的内容不符合您要求的时候，就需要制作采集规则了。注意点：小猪采集规则主要功能是提取字符、网址；采集回复数量、关键词SEO、伪原创、图片/附件下载、发布切换用户、发布时间间隔等是通过“采集方案”来控制，并且这些是运行均是自动化的。2.小猪采集规则的作用采集规则，顾名思义，就是采集用的，将网页上的内容提取整理成适合的形式，以便于发布到网站或者存储到CSV数据表格里面。补充：小猪采集规则实际包含了采集规则+发布规则，这么设计的好处，可以处理交互式的网页，实现自动登录、回复、购买等互动采集，普通采集器很难实现这些互动处理，比如在论坛的帖子页，可以采集这个帖子，也可以对这个帖子进行回复后再采集，当然，大部分情况下是不需要做发布规则的，请按需选择。3.小猪采集规则的兼容性小猪的采集规则处理的对象是“网页模板”，普通的网站一般只用一套模板，这种网页就有规律可循，比如相同模板的列表页只需要制作一条列表采集规则。小结：网站的发布内容展示在网页上，通过“网页模板”展示出来，软件则是通过对应的“采集规则”来解密出网页的内容，小猪规则相当于是“钥匙”，不同的钥匙打开不同的“网页模板”。4.小猪采集规则的独立性与调用小猪软件采集规则，是互相独立，又互相配合的，并且规则和任务也是独立的。小猪的各个任务会自动调用“已经打钩”的本地规则、内置规则、云规则等，所以制作好规则后，就可以测试采集了，任务会自动调用，无需手工再次选择。5.采集页面深度小猪理论上支持采集支持无限深度，原理是通过不同的规则识别不同的网页模板，也就是抓取不同的页面深度。对于更复杂的需求，还可以通过p语言来实现，比如通过p语言抓取相关的网页页面字符和当前页面字符进行拼接组合。第四节实战编写小猪规则有些用户可能比较心急，这一节讲解如何操作，不过我们建议大家有空的话还是看全五节教程的文字部分，这样能基本掌握小猪规则的制作方法。 (0 Bytes, 下载次数: 862) 2011-12-19 13:03:56 上传下载次数: 862 ，新手可以参考此表来编写小猪规则。建议按顺序看以下视频教程：序号视频教程说明视频下载地址本地下载教程规则下载1编辑规则相关界面介绍2正文采集规则制作方法 (428 Bytes, 下载次数: 641) 2011-12-19 14:44:17 上传下载次数: 641 3列表采集规则制作方法 (481 Bytes, 下载次数: 607) 2011-12-19 14:44:30 上传下载次数: 607 4论坛帖子采集规则制作 5视频采集规则制作（包含采集视频评论) 以下为文字说明和相关注意点：正文规则制作教程正文规则是为了采集到标题、内容（包括图片、附件网址），以及获取正确的翻页网址，便于实时发布。一、在文章页面，CTRL+B 测试获取内容不正确，就需要做正文规则二、右键点“本地规则库”-制作当前网页采集规则编辑正文规则方法如下：操作顺序配置名操作方法和注意点1全局区设置规则名称和规则类型，一般是选择源代码，正文页类型2标题鼠标框选网页上标题区域，右键菜单-内容采集-此处取标题，其他配置名均可以如此操作3正文注意：只有在要采集回复、评论，才需要设置“首帖区域”“单元区域” 4正文下一页网址如果有翻页，设置翻页地址，便于软件自动采集文章分页注意：如果是论坛帖子的翻页，需要设置为“下一页网址”5识别区回过头来，用正文的 class属性，设置识别区内容必包含保存规则，打开其他正文页面测试是否获取正常，是否调用到了此正文采集规则。小结：制作文章类型的正文规则，主要设置“配置名”中的识别区、标题、正文、正文下一页。注意点：识别区务必要设置，识别区的重要性在第二节中有相关说明。列表规则的制作教程列表规则起到导航的作用，便于软件抓取到正文网址，采集正文内容。一、打开版块列表页，CTRL+B 测试获取内容不正确，就需要做列表规则此教程中，内置规则能正常识别到列表，只是演示制作方法二、右键点“本地规则库”-制作当前网页采集规则编辑列表规则方法如下：操作顺序配置名操作方法和注意点1全局区设置规则名称和类型，一般是选择源代码，列表页类型2单元区域单元区域：重复的HTML块，比如列表上的标题一般都有规律可循鼠标框选网页上第一个文章链接区域，右键送入“单元区域”小技巧：列表规则单元区域可以直接输入 “正文网址”的特征，软件会自动抓取这些链接检查标题、正文显示内容是否正确，如果不对需要修改3有效区域可以通过“有效区域”来限定获取内容的范围，比如排除置顶帖4下一页网址找到翻页地址并设置，便于软件自动翻页采集5识别区回过头来，用单元区域的 class属性，设置识别区内容必包含如果一时找不到，可以将正文规则的class属性，设置到识别区-内容不包含里面这样就简单实现2个规则互不干扰注意：要在列表页源代码中搜索一下class属性，检查并确定没有此字段，才可用此方法保存规则，打开其他列表页面测试是否获取正常，是否调用到了此列表采集规则。小结：制作列表采集规则，主要设置了“配置名”中的单元区域、下一页网址、识别区。注意点：寻找单元区域有一定的技巧，需要耐心，同样，识别区非常重要，务必设置好识别区第二节小猪浏览器采集规则执行原理小猪浏览器常用的采集规则主要有三类：列表规则、正文规则（根据是否采集回复、评论，还可以分2种）、下载规则。首先理解要做哪些规则：序号网页类型制作规则类型及注意点1版块列表页面列表规则，“单元区域”设置列表网址的特征值，或者正文网址所在重复区块的特征值2文章类页面（不采集回复）正文规则，不需要用到"单元区域"3帖子类页面（需回复、评论）正文规则，需要用到"单元区域"对于有些网页评论和回复不在重复区块内，还需要用到首帖区域4跳转的附件下载页面下载规则自编采集规则可以和软件内置采集规则配合使用，比如软件内置规则能识别出列表页面，但是无法识别正文页面，那么我们只需要制作正文采集规则就可以了。为了让这些规则互相不冲突，需要用到“识别区”，识别区的意义，是让规则只识别某一类网址、某一种模板，让规则分工协调。和普通采集器不一样的是，小猪规则是智能调用的，规则打钩即生效，软件通过识别区来自动匹配网页所对应的规则。识别区有4个特征选项序号识别区说明（特征字符是固定的字符，请按行填写，不支持通配符号）1网址必包含只有网址包含了这些特征字符，才调用此规则技巧：新建规则时，软件会自动填入完整域名，有时候可以去掉二级前缀来扩大规则识别范围2网址不包含当网址包含这些特征字符的时候，则不调用此规则3内容必包含当网页代码中带有网页模板特征字符、文字，调用此规则网页代码：制作规则所针对的网页代码来源，如网页源代码技巧：我们常用标题、正文、或者区域的 class="*" 等HTML属性，这些一般是网页模板的特征字符4内容不包含当网页代码中包含了这些特征字符，则不调用此规则根据排列组合原理，小猪识别区理论上可以识别无限个网页（模板），利用好识别区，可以让规则匹配不同的网页生效。相关html代码属性，可以参考下面的第五节学习。采集规则编辑流程图如下，红线示意了规则循环执行原理扩展一下：一级列表规则也可以指向二级列表规则，直至抓到最终的正文页面；类似于蜘蛛爬行原理，而我们需要更精确和可控的内容，所以需要制作对应的小猪采集规则。（蜘蛛爬行是顺着网页链接来抓取对应的内容，有一定“随机性”）2011-12-11 18:48:32 上传小猪浏览器采集规则流程图 · ·· 当前在线在线时间5027 小时最后登录2013-3-21154 活力14464 论坛币2275 注册时间2010-7-7阅读权限200帖子主题精华6积分40199UID7164 · TA的每日心情奋斗2013-3-3 13:02:57签到天数: 206 天LV.7常住居民III最后登录2013-3-21154 注册时间2010-7-7积分40199主题帖子· · · · 发表于 2011-12-11 22:22:58 | 第三节规则编辑操作简述一、规则编辑，相关界面介绍：序号功能区名称位置作用及相关功能介绍1规则管理区工具栏-规则标签管理规则的地方，可以执行新建、删除规则等操作（打钩的规则才生效）Misc：自动整理的规则会放到此文件夹Poster：发布子规则文件夹，可以新建和管理发布子规则Recycle：此文件夹内的规则不参与规则冲突检查，可以用此文件夹屏蔽规则2规则编辑器编辑规则窗口编辑、调试具体的规则左边：规则总览区，一览检查规则完成度中间：配置代码编辑区，快速编辑配置名输出：实时显示配置名的测试结果右边：p语言函数说明3代码及抓包工具（快捷键F8）html代码窗口查看网页HTML代码，内置抓包工具，便于调试和测试代码树：根据源代码和浏览器代码生成的树状目录结构源代码：网页服务器端代码，一般针对源代码做规则浏览器代码：经过浏览器解释过的客户端网页代码(效率偏低)浏览包：用户访问网页产生的数据包软件包：软件自动执行相关的数据包小猪规则编辑器新特性：所见即所得，编辑的代码可以在浏览网页中同步高亮显示，便于检查结果。二、编辑规则基本操作方法：1.浏览器中，打开需要制作规则的网页2.右键点击“本地规则库”，新建采集规则3.在浏览器中，鼠标框选内容，通过右键菜单送入相应的“配置名”中（单元区域选第一个重复区域，识别成功率会较高）4.检查“配置名”获取到的内容是否正确分析方法：1.分析代码树，鼠标框选内容，定位到代码树，比如：通过代码树快速分析出重复的“单元区域”；2.在网页上，选择一定的区域，右键菜单查看网页代码，可以快速查看源代码片段，比如分析下一页代码，或者在源代码中搜索，分析相关的源代码。检查结果的方法：1.点击"配置名"，检查浏览器网页上对应高亮显示区域;2.规则编辑器下方“输出”窗口会显示测试内容;3.规则保存后，预览结果（ctrl+b）是最终验证规则是否有效的手段。 · ·· 当前在线在线时间5027 小时最后登录2013-3-21154 活力14464 论坛币2275 注册时间2010-7-7阅读权限200帖子主题精华6积分40199UID7164 · TA的每日心情奋斗2013-3-3 13:02:57签到天数: 206 天LV.7常住居民III最后登录2013-3-21154 注册时间2010-7-7积分40199主题帖子· · · · 发表于 2011-12-11 22:27:30 | 第五节小猪规则编辑器中，获取及处理内容“配置名”的编辑方法这边说的“配置名”，主要侧重预置的“配置名”如 “标题”“正文”等，“自定义标签”对应的配置名请看第六节。小猪规则编辑器的采集 “配置名”，一般有1-4种普通处理方法（普通情况下用不到p语言），并且大部分时候只需通过在网页上取值就可以，这边主要讲解如何手工编辑：注意：类似 id="idwebpig*" 这样的代码，是规则管理器生成代码树用的，并非源代码，做规则的时候一定不能带这样的代码，否则规则会失效。2011-12-19 23:12:27 上传如图红色箭头标出了“总览区”和“配置名编辑”的对应关系，蓝色框子是配置名的处理方法，具体讲解如下：一、获取内容：获取内容是小猪规则里最常用的方法，大部分时候，通过“获取内容”就可以制作出需要的规则代码了。了解一些html代码知识会有帮助（见下面补充说明）。 1. <h1>这是标题 1</h1>2. <p>段落1</p>3. <div class="news">4. <h2>这是标题2</h2>5. <p>段落2</p>6. </div>复制代码如上面源代码，html代码是闭合的，<h1>开始，</h1>闭合，两个代码成对出现，我们一般称之为一个HTML块。在小猪编辑器里面，输入 1. <h1复制代码，就能提取到标题了，不需要写结尾，规则编辑器会自动匹配结尾。精准定位的方法：上例中，有2个段落，需要获得段落2，可以这样写，这样是用 class="news" 属性来进行一次定位，指定获取第二个<p 1. class="news"2. <p复制代码对于不连续的区块，可以通过指定代码的开头和结尾来获取内容。也可以在规则编辑器中获取不同的区块来组合、排序。二、Html块删除：是获取内容的逆反概念，相当于“减法”，针对有时候获取到的内容，中间夹杂了一小段不需要的（比如广告图片、引用语句等），这时候用 HTML块删除就比较方便了。三、标签过滤：过滤掉html格式代码，以及 ubb-html的格式化代码转换。四、正则过滤：有固定词替换、前后缀、正则过滤见。*P语言：p语言为特殊处理方法，针对规则编辑器无法正常获取到的内容，有可能需要p语言来处理。p语言处理后，可以统一用$m_return 变量返回结果给规则编辑器调用。处理过程简述（一般来说获取内容就足够用了，按需使用处理方法，以便处理复杂的网页）： 1. 第一阶段 HTML代码处理：HTML=获取内容->p语言->块删除->p语言->标签过滤=UBB2. 第二阶段 UBB代码处理：UBB=正则过滤->p语言=结果（ubb）3. 第三阶段 UBB代码处理：结果（ubb）=后处理（p语言）=最终结果（ubb）复制代码小猪规则解释器采集过程是将网页内容先进行标准化处理，转换成 UBB代码后，再按发布网站源程序，自动选择对应的编码发布。补充：为了缩小获取内容（不包括标题和下一页）的范围，小猪编辑器引入了有效区域概念，限定采集内容的范围（不包括标题、版块地图、翻页），注意：有效区域设置不当会获取不到内容。有效区域的技巧：只想采集从 “版块主题” 之后正文网址，可以用第3行序号有效区域开始有效区域结束有效区域含义1只写代码开头空表示循环获取此html块为有效区域，针对列表规则获取链接非常有效2<body>版块主题从网页开头到“版块主题”结束的代码区域，<body>是普通网页的开始代码3版块主题</body>从“版块主题”开始直到代码结束的代码区域，</body>是普通网页的结束代码下面表格列出了一些常用的html代码，了解这些代码定义，能极大的提高规则制作效率，主要看序号1-5代码，其中标准属性（常用部分)，是我们经常用到的定位特征代码，如class="*"(因为这个属性通常来说是唯一的，并且常可以作为识别区-内容识别代码）。序号名称/定义HTML代码标准属性（常用部分)链接代码结束1标题<h1-6id, class, title</h1>2文档中的分区或节<divid, class, title</div>3组合文档中的行内元素<spanid, class, title</span>4锚,链接<aid, class, titlehref="链接"</a>5向网页中嵌入一幅图像<imgid, class, titlesrc="图片链接"</img>6段落<p>id, class, title</p>7块引用<blockquote>id, class, title</blockquote>8列表项目<li>id, class, title</li>9定义列表<dl>id, class, title</dl>10列表中的项目（即术语部分）<dt>id, class, title</dt>11无序列表<ul>id, class, title</ul>12表格<table>id, class, title</table>13表格内的表头单元格<th>id, class, title</th>14表格中的标准单元格<td>id, class, title</td>15表格中的行<tr>id, class, title</tr>16规定文本的字体、字体尺寸、字体颜色<font>id, class, title</font>17frameset 中的一个特定的窗口（框架）<frame>id, class, titlesrc="链接"</frame>18客户端脚本，比如 JavaScript<script></script>第六节小猪规则编辑器中，获取及处理内容“自定义标签”的编辑方法上面第五节讲的“配置名”侧重于小猪软件采集规则预置的“标签名”，这一节主要讲解 “自定义标签”。简单来说，发布的时候就是在发布网页上填写字符表单，而这些字符实际上是对应，预置的 “标题”、“正文” 等这些 “标签名”是常用的，所以小猪采集规则编辑器预置常用的，便于快速编辑采集规则。有时候发布网页还有其他的“表单”需要填写，比如分类信息网站常用的“联系人”“联系电话”等信息，这时候就需要用到“自定义标签”。分析发布网页，（表单）配置名，请参考帖子：2012-3-2 20:51:08 上传小猪规则编辑器，可以很方便的添加、修改、或删除 “自定义标签”，并且是不限数量的。2012-3-2 20:57:27 上传 “自定义标签”是属于表单，所以只支持“字符”，而不支持附件、图片的下载上传。补充：“正文”中支持图片和附件自动本地化；如果需要图片本地化，如商品图片，可以通过预置的“头像”“缩略图”标签；如果需要附件、图片本地化，而又要填写到对应的“自定义标签”，那么则需要在采集规则或者发布子规则中进行P语言处理，对表单进行赋值，具体请参考小猪p语言教程。自定义标签的“配置名”和“标签名”，可以直接被p语言调用（小猪软件自动处理成局部变量），这样，可以在“后处理”里面使用p语言，对“正文”进行字段重组。专心-专注-专业

注意事项

本文（小猪采集器规则制作(共16页).doc）为本站会员（飞****2）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。