毕业设计(论文)基于RSS的课程信息采集发布系统研究.doc
《毕业设计(论文)基于RSS的课程信息采集发布系统研究.doc》由会员分享,可在线阅读,更多相关《毕业设计(论文)基于RSS的课程信息采集发布系统研究.doc(20页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、本科毕业论文(设计)题 目基于RSS的课程信息采集发布系统研究目 录内容摘要I关 键 词IAbstractIKey WordsI1.研究背景及其意义12.RSS技术的特点12.1 RSS简介12.2 RSS的系统结构12.3 RSS特点22.4 RSS的标签和语义53.基于RSS的课件信息采集发布系统的设计53.1系统的结构及功能分析53.2系统数据库的设计83.3搜索算法83.4聚类算法83.5 RSS描述84. 系统的实现84.1系统实现使用技术84.2搜索算法的实现94.3 聚类的实现104.4数据采集器104.5数据库134.6 RSS生成器144.7系统测试155.小结16参考文献1
2、7内容摘要:RSS(Really Simple Syndication)是一种日益流行和应用广泛的基于XML的通讯格式,本文介绍了RSS的一些特点和本质,同时将RSS应用与e-learning领域结合探讨,探究了RSS在e-learning领域的一些应用模式和现状以及应用设计的指导思路。在此基础之上,本文介绍了笔者设计开发的课件下载信息采集RSS发布系统的设计和实现过程,该系统的主要功能是对人工筛选的课件资源站点进行课件信息采集,同时以RSS的格式发布,方便用户进行订阅。关 键 词:RSS E-learning Web采集 课件Abstract: RSS(Really Simple Syndi
3、cation)is a kind of widely used communication format which is based on XML and prevalent more and more. The paper presents characteristics and nature of RSS, discusses on exploration of the application of RSS with E-learning at the same time and approaches the application model, application status,
4、the guide of application design about RSS in E-learning. Based on these, the paper introduces the design and implementation of CDIGDS(Courseware Downing Information Gathering-Distributing System) which the author developed . The main function of the system is to gather courseware information of some
5、 website which its url has been got advance manually and distribute it with RSS format at the same time, which helps the consumers to subscribe it.Key Words: RSS E-learning Web-Gathering Courseware I1.研究背景及其意义Internet 上拥有众多的教学资源,例如教研论文、教案、多媒体教学素材和学习对象库等,这些教学资源为教师的教学提供了便利。如果采用搜索引擎检索,必须花大量时间才能获得满意的资源,
6、且无法保证所获得的教学资源是最新的。如何用更加有效率的方式获取这些教学资源,成为一种迫切的需要。如果教师采用RSS技术预定了网站上的某类教学资源,一旦网站上的这些教学资源被更新,就会自动发送到链接源阅读器中。教师只需打开新闻阅读器就可浏览其标题和内容概要,单击链接源就可在链接源阅读器中阅读全文,而不必直接访问该网站。这一方面保证获取的教学资源是最新的,有利于教师将最新的多媒体素材和学习对象直接整合到课堂教学中,为数字化课堂教学提供便利;另一方面,教师不必为查找资源而直接遍历各个教学资源网站,节省了上网查找资源的时间1。RSS的出现给我们提供了一种更加高效获得信息的途径。如果每个教育资源站点都以
7、RSS格式发布教学资源的元信息,那么教师可以收录这些RSS种子(Feed),从而用RSS阅读器自动更新,可是目前大部分的教学资源站点都没有提供这个功能,并且每个有此需求的老师都要去收集这些站点,做的是独立而重复的工作,如果有一个站点,订阅了这上面的种子就可以获得大部分的信息,那么获取资源信息的效率将得到更大的提高。而本系统,就是致力于提供这样一个站点。2.RSS技术的特点2.1 RSS简介RSS(Really Simple Syndication)作为一种新技术,已被广泛应用于新闻站点、weblog和在线学习机构等。所谓RSS,是指采用XML技术在站点之间实现文档标题、摘要及其他类型web内容
8、共享的一种技术。RSS使一对一的交流范式转换为一站式,它赋予用户一种与对特定主题感兴趣的任何用户交流信息的能力。虽然个人网页早已具有同样宽泛的接触,但在动态的内容、有效的传递和有目的的分发方面,RSS具有关键性优势。在网站上,RSS文件都以或标识,它通常包含若干个简单的项目列表,每个项目主要由url 、标题与摘要构成。网络用户可以借助支持RSS的内容聚合工具软件,在不打开网站内容页面的情况下阅读支持RSS输出的网站内容。用户只要在网站上看到RSS标识,单击它就会获得一个通往相关RSS链接源(RSS feed)的指示,即可汇集Web 上发布的链接源,不断获取最新的新闻和资源。2.2 RSS的系统
9、结构RSS 的系统结构如图1 所示。它主要由内容提供者(Content Provider)、RSS 聚合器(RSS Aggregator)和标题浏览器(Headline Viewer)三个主要部件组成。图1 RSS的系统结构(1) 内容提供者。它提供最新的文档和描述这些文档的RSS文件。(2) RSS聚合器。RSS聚合器是周期性地阅读、标引和聚合RSS文件的一种软件2。RSS聚合器阅读来自多个资源的RSS文件,并把它们收集到索引中,提供来自索引的、主题相关的文档标题和可定制的链接源。RSS 聚合器主要有在线(centralized)和桌面(personal)两种类型。在线聚合器旨在被更多人使用
10、,其中比较著名的在线聚合器是“More-over”和“News Is Free”。桌面聚合器是一种运行在用户桌面上的个性化聚合器,它具有标题浏览器的功能。桌面聚合器除了具备访问在线聚合器的功能外,还能直接访问RSS频道。比较著名的桌面聚合器是“Radio Userland”和“Amphetadesk”。(3)标题浏览器。标题浏览器得到用户的请求后,连接到RSS聚合器,获取文档链接源,并显示给读者。读者得到最新文档链接源后,可通过单击文档标题来选择并阅读来自内容提供者的文档。标题浏览器的目的是提供从聚合器中得到的一系列标题。当用户从选择列表中选择时,标题浏览器从源站点检索论文并显示全文。从用户的
11、角度来看,标题浏览器和桌面聚合器可统称为链接源阅读器,但两者是有区别的,其主要区别在于:标题浏览器显示的结果是按主题排序的标题,能得到具体主题的链接源,读者不局限于频道的预定。2.3 RSS特点2.3.1 跨平台性RSS文件就是包含特定语义标签的XML文件。RSS是XML应用的一种,所以RSS天生的具有了XML的特点,其中一点就是XML的跨平台性。各种操作系统都具有获得RSS格式的信息的能力,只要这个平台具有基本的字处理能力,网络联接,字渲染系统就可以运行RSS阅读器,获取RSS信息3。目前已知的各种平台包括各种不同的操作系统的GUI的桌面RSS阅读器,基于浏览器的B/S模式的RSS阅读器,还
12、有可运行于智能手记上的mobile模式的RSS阅读器。将来在嵌入式系统中也有可能有处理RSS的功能,只要这个系统具有处理XML的能力。移动电话上的RSS阅读器如图2所示。图2 移动电话上的RSS阅读器2.3.2 订阅模式传统的网上获取信息的方式是浏览者首先输入一个站点地址或者打开存储在机器上的一个站点地址,然后从这个站点链接到别的站点。查找信息,一种方式是使用搜索引擎,一种是直接输入可以提供相关信息的站点的地址。前一种方式获得有效信息的效率很大程度上取决于搜索引擎。而大多数使用过搜索引擎的人都知道,搜索引擎是很有用的一个东西,但是不是马上就能够理解你的意思直接定位到你所要找的页面上去的。而记住
13、相关网站的网址是获得相关信息的很高效的方法,但是存在两个弊端,首先是必须维护一大堆网站网址,其次是必须每次都要点击这个网站,才知道有没有新的信息。而如果这个网站还没有更新任何新的信息,那么就是一次无效的点击。简而言之,浏览者的时间和精力浪费了,获取有效信息的效率下降了。举一个例子阐述订阅模式,设想一下我们生活中的情景。如果我们要找一个朋友,打电话去后得知他还没有回家,我们有两个途径再和他联系上。一种是我们隔一段时间就打电话去问他回来没有,另一种是转托他的朋友告诉他回来后通知一声。在条件允许的情况下,后一种无疑是更高效的做法。这就是订阅模式的机制-让信息来找你,而不是去找信息。但是在实现层面上,
14、阅读器获取RSS文件的传输基础仍然是HTTP协议,而这是一个询问响应模式的协议。所以,要想让更新了信息的网站发消息给RSS阅读器,依赖于HTTP协议是不可能实现的。但是可以用一种对于用户来说基本和订阅模式等效的方式来实现。这就是用RSS阅读器来取代点击一个又一个网站的过程,让RSS阅读器来做这个论询的工作,从而提高浏览者获取有效信息的效率。只要具有HTTP协议操作的API,XML处理API,网络连接的平台都可以运行RSS浏览器。2.3.3 聚合所谓“聚合”,就是指RSS 将互联网上很多不同源的信息以Feeds 订阅的方式集中到同一点的模式2。因为RSS 是一种被广泛采用的内容包装定义格式, 所
15、以任何内容源都可以采用这种方式来发布信息, 包括专业新闻站点、电子商务站点、企业站点、甚至个人站点等。而在用户端,RSS 阅读器软件的作用就是按照用户的喜好, 有选择性地将用户感兴趣的内容来源“聚合”到该软件的界面中, 为用户提供多来源信息的“一站式”服务 。“聚合”带来的好处是显而易见的, 不需要每天都浏览上百个网站, 并在每个网站上都花费一点时间去寻找自己真正需要的资讯, 只需到自己订阅的聚合门户去就够了, 甚至当这个聚合门户被集成到桌面RSS 阅读器中时, 作为信息获取者的个人用户与信息提供商整体之间的距离已缩短为零。2.3.4 可移植性RSS格式所定义的标记很简单,具有很简单易懂的语义
16、。只有10个左右属于ITEM的标记。而且很多是可选的。因为RSS的简单使得RSS源的内容没有被限定在它创造时所瞄准的新闻领域,使得它可以在别的领域起到同样的作用。以知的RSS在别的领域的成功应用有:u 音乐(pod casting)、广播(NPR)和电视节目(Internet TV)u 电子邮件传输(Gmail)u 产品发布(A,NetFlix)u 照片共享(Flickr)u 社会书签(del.Icio.us):找出其他人正在将什么标为书签,订阅特定个人或类别。u 软件更新(File of the day)u 天气预报()u UPS、FedEx 和 USPS 包裹跟踪(Bloglines)u
17、搜索项提示(GoogleAlert,并非附属于 Google):查看您的站点在什么时间和什么地点被讨论。u 股票市场和金融更新(SmartMoney)而本文则是探索RSS在E-Learning领域的应用。2.4 RSS的标签和语义RSS文档由XML申明、外层的 、中层的和里层的 等元素组成4。元素是根元素,并必须利用其“version”属性声明其版本。 元素包含惟一的子元素,以提供该频道的元数据。一个包括若干个。每个和都可以分别包含若干个子元素,子元素必须成对使用。一下XML标记段是RSS文件的基本格式和必选项。频道名称频道URL频道概要文档标题文档URL文档摘要.3.基于RSS的课件信息采集
18、发布系统的设计3.1系统的结构及功能分析3.1.1系统框架整个基于Web的内容抽取及RSS 发布解决方案的系统框架如图3所示。图3 系统框架3.1.2划分信息源由于互联网上内容的异构性,为了更加行之有效地解决信息内容获取中的问题,避免与搜索引擎遇到同样的尴尬,在整个系统的最初设计过程中定位于为行业提供信息,因此在具体应用中,需要人工筛选划分出所要采集的信息源。目前系统用于采集课件信息,所以选取了一些课件资源大站作为采集对象。3.1.3分析信息源划分后的信息源具有一定的结构,在进行信息源分析的过程中,需要利用的就是信息源的这一特征。一个网站的信息主要是按栏目组织的,而每个栏目有按照标题组织信息内
19、容的标题列表页面,同时还有最终显示信息内容的网页。虽然要表现的信息内容不同,但是最终显示信息内容的页面格式在同一个网站中往往是相同的。需要对信息源的内容进行提取,实际上提取的就是这类页面中关注的那部分内容。这部分内容是通过HTML 进行组织的。HTML 作为标记语言,其标签虽然语义与语法混杂,但是仍旧具有标识的特性。因此在分析信息源的过程中,我们对网页内容基于HTML 标签进行分析,利用HTML 分析器获得该网页的层次结构和节点信息,从而确定以HTML 标签为描述形式的网页内容定位信息。对于同一个网站的一个栏目(很多时候是同一个网站的所有栏目) ,其网页内容定位信息是相同的。3.1.4信息抽取
20、在第二步已获得的配置文件的基础上, 信息抽取器会读取针对不同网站的抽取配置文件,根据配置文件描述的抽取规则完成信息抽取的过程5。抓取网页时利用HTTP 协议,向Web 服务器发送请求,得到HTTP 响应,从相应的内容当中抓取网页,可以很方便地得到网页文档的HTML 代码。抽取的信息被存储起来,目前采用的是数据库。3.1.5以RSS 形式发布对于以上抽取得到的信息,如果仅仅只是以获取作为目的的话,按照有关的HTML格式去组织就可以发布了。但这只是起到了采集聚合的作用,没有发挥订阅模式的好处,用户必须每次都来点击网页来查找信息。如果没有更新就是做了无用功。针对这种情况,在实现信息抽取的同时,在信息
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 毕业设计 论文 基于 RSS 课程 信息 采集 发布 系统 研究
限制150内