基于开源架构的网络期刊论文跟踪与热点推送方法,文献检索论文.docx
《基于开源架构的网络期刊论文跟踪与热点推送方法,文献检索论文.docx》由会员分享,可在线阅读,更多相关《基于开源架构的网络期刊论文跟踪与热点推送方法,文献检索论文.docx(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于开源架构的网络期刊论文跟踪与热点推送方法,文献检索论文当下,各类科技论文每年以两百多万篇的速度递增,对这些海量数据的查找与利用成为科研人员共同关注的问题。在对期刊论文的应用中普遍存在三个问题:一是期刊论文更新延迟,由于版权等原因,大多数期刊在中国知网等数字出版商网站上的出现都有几个月的滞后期,但是这些期刊在自个的官方网站上往往及时更新了最新文章的信息;二是文章查询与推送问题,各大数字出版商在数字出版物的规模上越来越庞大,固然提供了各种便捷的查询,并给出相关查询功能,但是这些功能往往需要用户主动去搜索,缺乏个性化的热门推送功能。三是有的科研单位没有购买数据资源,这就给期刊论文的查询与利用带来
2、了更多的不便。 针对上述现象以及科研人员往往只关注各自研究领域学术信息的基本事实,本文提出并实现了一个基于开源架构的网络期刊论文跟踪与热门推送方式方法,面向科研工作者个性化的需要,有针对性地定期自动跟踪最新期刊,并对这些期刊论文进行热门分析,当发现用户关注的主题有新论文发布时能够自动推送给用户,进而主动为科研人员提供网络期刊服务。科研人员能够借助本文所提方式方法,节省在各大数据库或者期刊官网上进行文章查找与检索的时间。 关键技术 本文提出的网络期刊论文自动跟踪与热门推送系统,主要研究思路是首先确定采集站点,然后有针对性地进行数据采集,生成知识库并进行热门分析,最终发布出分析后的数据供科技工作者
3、参考。实现技术上采用了基于 java的开源架构,这些开源架构技术成熟,调用简单的接口即可完成复杂的数据采集与数据分析,合适科研工作者作为科研辅助工具使用。本文采用的开源框架有 HttpClinet、Parser、IKAnalyzer。 HttpClinet JDK 的 java net 包提供的 HttpURLConnection 技术,早期很多应用系统通过该 jar 包实现数据采集,但是对于大部分应用程序来讲,JDK 库本身提供的功能还不够丰富和灵敏。近年来,科研应用开发人员开场热衷HttpClient 技术实现数据采集。HttpClient 是 ApacheJakarta Common 下
4、的子项目,能够用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并可支持 HTTP 协议最新的版本和建议。 HTTP 协议是 Internet 上使用得最多、最重要的协议,越来越多的 Java 应用程序需要直接通过 HTTP 协议来访问网络资源。HttpClient 已经应用在很多的项目中,比方Apache Jakarta 上很着名的另外两个开源项目 Cactus和 Unit 都使用了 HttpClient。如今 HttpClient 最新版本为 HttpClient 4.2 GA。 Parser Parser 是一个纯 java 的 解析库,它不依靠于其它的 java
5、 库文件,主要用于改造或提取 ,是当前应用得最广泛的 解析和分析的工具,如今parser 最新版本为 2.0。Parser 有信息提取和信息转换两大主要功能。信息提取功能包括五个子功能: 文本信息抽取,例如对 进行有效信息搜索; 链接提取,用于自动给页面的链接文本加上链接的标签;资源提取,例如对一些图片、声音的资源的处理;链接检查,用于检查 中的链接能否有效;页面内容的监控。 信息转换功能包括五个子功能:链接重写,用于修改页面中的所有超链接;网页内容拷贝,用于将网页内容保存到本地;内容检验,能够用来过滤网页上一些字词;信息清洗,把 信息格式化;转成 XML 格式数据。 IKAnalyzer 介
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文化交流
限制150内