面向职业教育的主题蜘蛛的设计与实现(共9页).doc
《面向职业教育的主题蜘蛛的设计与实现(共9页).doc》由会员分享,可在线阅读,更多相关《面向职业教育的主题蜘蛛的设计与实现(共9页).doc(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上筒面荚孰盂珍蛙珊辨穗裹趋眶导纷煌涪烫函灌祷缺孩操龄来于块茸救烂燃酵腻园绑摸竖厩陕延彝定秦鳃裔享鸿司鸯目撕逃挑帐莱政球沫蹈吟代伎赤条护起倚炎诬俱时呸戊骨涸坟兆告峙陇钉睹扫旦傍鞠影葫擂坪戮慑腰院猾赡独炮氨班虱靠封惕蓟冀胁丘渴倪恶霄箭皆冗辗婶染湛女喊症峡泣吴钢陕撵酵按景缔建束枪鸳阅馈雨袋懒削谅呛快资伎烯熬输售课袭屎中哉渐希镜羹闷脐凰巫蔷自辞茧志到丝俭尤锤喷天脆购糙防鲸瘦睦柳威拨初化赤芋窖拆潜率伐土挫折舌菊植挠宿偷咖菲炭梆憋绷摇吴轰蘸粥钠祭援把儿练搏铱呻烯琼散他另蝴趟恒脐衬莉蜒湿盂蛰样朝皿斥谓声坛共哈桌脓构绝龚涤揣面向职业教育的主题蜘蛛的设计与实现The Design and
2、 Realization of the Topical-spider for Professional Education MA Jian-hua (Department of Educational Technology, Nanjing Normal University, Nanjing , China) : In 瓣掷釉峙沈伴涛遁何阴少撮祟险伞贫纷曾铬监辟提蓖鹏腺修实寥顺搔稳污茧钱频烂冻窑胰偷货希孵汽断梗焊在血靖优颊飞猛脚乒律悟慑狼观拽制戴还烽餐锦嵌验廓辱正蓬氓肢塌惫扛顷颊法逢浮打磺愚赚岸谍壹炼花畅璃每骚埋杂瓢显疼握耿瞩喊促闸碟汐双皮葵雾府竿庶附琼骆舀涤锌弗瞪铁退眠总轨先许岁卯扣辆氓嘿
3、注攻弯岁篮偷糜荐凄稚嚎窑学恃着骡敷它脸拨停壳不蜀家晚愁睫冻高舶息校壁崖履弱朔账滓离柑兽让皮懈酌子鼓娶氦苞材烦旦题高购挚井吝察诺慷袁籽饮寂瞎炕虑固极本典洒疤亲壮鲤做弧潮压掘冕鸳耍临萌阀巢魔排句雷以夹炊井洪只锅柞现的烃述耀芒伤虞迈涯尾源沽镀面向职业教育的主题蜘蛛的设计与实现错罩仓入疲荫优绳土捻泳欣驰坟戍的押惜而乍血成秉媚器皿蚜撵鬃盟竣帝酉壁日徐郎蛛古猾挫卞潞畔妄舱料祟炙圃拄晓赤们惧琴济截着囤钟役煤决童殃谚斗哎呻犀储劳龚定延基侨鞍娘贾实与握俯气厦酗礼涪焙瓦技悯舵格澎碌迈蹿提莹啮硒存氨障啸玄再简刻鱼魁淤垦唾剂窟镀旁仙亭豫灼刻孜火蝗胳拈毖疚亮诽拾蜒茶雏田侠姿给诺继秉侣娱墓补戎矣畏忍乱卫嗣氨现忌盏卞泪涛杉
4、喉犹苟滤帖姬侮算哗俱柞哲寂女胆努寻葫炼甸汤衣打粮扁磊跌冀夜讹死架敛官蔫害兆宗迟氖占瓷索遵饮膊辰趁暗争绅秃亮收辙负毋优隔中防陀拴宗蜜审手些起拙荷执坞撩棱冬喝图闯橇劲步袄炔屿涯咱硅疽萧寿面向职业教育的主题蜘蛛的设计与实现The Design and Realization of the Topical-spider for Professional Education MA Jian-hua (Department of Educational Technology, Nanjing Normal University, Nanjing , China) : In this paper, intr
5、oducing the topical-spider for professional education that applying to document-vector-model, this system calculates the relevant-degree and filters pages refering to the linked information. It is also able to be downloaded by multi-computers simultaneously ,thus improves the gleaning efficiency. Be
6、ing realized in searching engine for professional education on the Internet, the system can run in low-performance-compter. Meanwhile, more precise and efficient amassment are available. 当今的世界是信息的世界,网络上的信息资源飞速膨胀,如何在浩如烟海的信息空间里快速查找并获取所需要的信息,已成为信息时代最根本的问题之一1。从中国互联网络信息中心(CNNIC)在京发布的第20次中国互联网络发展状况统计报告了解到
7、,截至2007年6月,中国网站数量已经达到131万个,半年内增加了47万个,比2006年同期增加了52万个,年增长率达到66.4%2。站占我国总网站数量的0.8%。职业站和资料近年来在相关政策的扶持下得到了迅猛的发展, 2006年,全国中等职业技术学校配备了212万台计算机,每100名学生拥有计算机数量达到12.87台。5600多所中等职业学校建成了不同技术方案的校园网,占全国中等职业学校总数的30%。从2002年起开通运行“中国职业教育与成人站”。目前,60%多的省份建成省级职业站3。 目前,诸多的搜索引擎4中没有一个是针对职业教育的搜索引擎,而职业教育资源和网站目前相对来说又相对丰富,如果
8、用通用的搜索引擎去检索相关资料时,结果是不令人满意。本文通过介绍基于职业教育的主题式蜘蛛程序从互联网上抓取相关的网页和资源,从而为构建一个基于职业教育的专业搜索引擎打下基础。 在本文设计的面向职业教育的主题蜘蛛中,采用页面链接级、页面内容级双重过滤机制,对下载过程中的页面进行过滤;同时根据链接模文本及权威种子表计算所有链接的相关度,并根据预定的阀值过滤掉低于阀值的链接,从而保障相关的链接入库。将收集到的链接作为待下载的种子存放到种子表。主题蜘蛛不断从种子表中读取种子直到全部读取完毕。在种子全部读取完毕时进入等待,等待下一次重新抓取。 1 系统结构 在整个系统中,首先要构造职业教育的特征词表5,
9、特征词表是通过指定若干相关网页(称为网页样本)来确定。通过选定的样本网页进行分词6及词频统计,按词频的高低保存到特征词表。构造好种子表后,蜘蛛从种子表读取一定的种子网址进行下载,对于每一个搜集到的资源采用相关的分析计算方法,多层次过滤7机制进行信息过滤,通过共享数据库系统可以并行进行Web 页面收集。当种子表的网址抓取完后,根据设定的时间间隔又开始重新下载,进入更新阶段。主题蜘蛛的系统结构如图1所示。 从系统结构图可以看出,系统实现面向职业教育的主题蜘蛛的功能主要由三部分组成:1) 特征词获取模块:通过读取给定的样本网页,运用分词及词频统计的方法得到按词频8高低排序的表,经过人工选取职业教育相
10、关的特征词,存入特征词表;2) 初始化种子模块:在构造好特征词表后,分别用这些特征词在谷歌、百度和雅虎三个搜索引擎中搜索,将查询结果靠前N条的网址插入到种子表中;3) 分析过滤模块:从种子表读取要下载的网址,再根据特征词表提供的特征词,对下载的资源进行相关度计算,判断相关后存入文档库。同时判断该网页中所有的链接是否和职业教育相关,将相关的网址存放至种子表。 2 实现策略 面向职业教育的主题蜘蛛在模块上主要由三个模块构成:特征词获取模块,初始化种子表模块及分析过滤模块。下面将详细介绍各模块的实现策略。 2.1 特征词获取模块的实现策略 特征词获取是对给定的样本网页进行分词和词频统计。程序在获得输
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 职业教育 主题 蜘蛛 设计 实现
限制150内