基于不同网络数据源的期刊评价研究-张洋.pdf
《基于不同网络数据源的期刊评价研究-张洋.pdf》由会员分享,可在线阅读,更多相关《基于不同网络数据源的期刊评价研究-张洋.pdf(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2017年2月 第28卷第2期基于不同网络数据源的期刊评价研究张 洋 吴娟平 郎林芳中山大学资讯管理学院,广州市广州大学城外环东路132号510006收稿日期:2016-1029修回日期:2017-0107摘要【目的】分析四种网络数据源在期刊影响力评价方面的异同,为期刊综合评价提供理论指导二【方法】以2014年JCR、Pubmed数据库均收录的影响因子排名前50的开放存取期刊为研究对象,通过相关分析、因子分析提取各数据源平台在期刊评价中的主要影响因子,作为期刊评价q-重点考察的代表性数据指标。【结果】JCR的期刊影响力主要来源于被引频次、可引用项目:Google scholar扩大了期刊信息的
2、传播范围;Ahmetricscorn注重网络传播指标、获取指标和利用指标,其主要影响因素来源于网络传播指标二【结论】JCR反映的是期刊在学界的影响力;Google scholar前置了期刊评价:应用搜索引擎获取期刊网站的链接数、IP访问量、PV浏览量等描述了期刊传播阶段的影响力。Altmetricconl将期刊评价延伸到传播、获取和利用的全过程。关键词 网络计量学;替代计量学;期刊评价;相关分析;因子分析DoI:1011946cjstp2016102908871 引言随着在线学术交流的日益频繁,逐渐催生出许多有价值的网络数据。这些数据在近年的期刊评价中逐步得到广泛应用。目前中国知网、万方数据、
3、重庆维普是国内学术研究重要的数据库,国外典型的引文数据库有SCI、Scopus等。基于上述数据库的中国学术期刊引证报告、JCR(JournalCitationReports)等是期刊评价研究数据来源之一。该类数据库中提供了载文量、总被引频次、他引总引比、影响因子、5年影响因子、被引半衰期、web即年下载率、被引期刊数及H指数等指标。在基于传统引文数据库的期刊评价中,主要有三类研究:期刊评价体系构建、期刊评价方法探索、指标改进研究。例如苏新宁旧。构建了人文社会科学期刊评价指标体系;俞立平31教授探索了主成分分析法和因子分析法在期刊评价中的应用。JorgeHirsch提出H指数,后来的学者经过一系
4、列的改进研究,提出了R指数、G指数、Hg指数、M指数、Q2指数、H(2)指数、E指数、A指数H1以及基于这些基本指标经过一系列复杂运算的SNIP、SJR怕。、期刊特征因子(Eigenfactor)等指标。学术搜索引擎中的引用数据更为广泛,除传统数据库提供的期刊与图书之外,也有网页、电子期刊和预印本等,它们能够更准确的反映学术期刊、图书、预印本和电子文献之间的引用关系,更加符合学者多元化渠道进行学术交流与传播的情形1。目前国内外比较成熟的学术搜索引擎有:Googlescholar、微软学术、百度学术、360学术。研究最为广泛是Googlescholar与传统引文数据库的比较分析,研究学者众多如张
5、良辉7 J、郝熠光旧。等。Onyancha归。使用GoogleScholar评价了未被ISI收录期刊的学术影响力,弥补传统数据库收录不足的缺陷;对比Googlescholar和WebofScience的引文分析功能,Kayvan【10发现Googlescholar对论文的引用情况有更高的显示度。搜索引擎涵盖的用户使用行为数据,也是网络计量学研究的数据基础。早在90年代中期Cockburn等人以英文环境为背景,研究了网络用户的浏览行为J。2008年,Vaughan等人利用网络链接指标评价社会科学类OA期刊的学术质量2I。国内,任静。1 3。在进行学术图书评价的过程中也重点提及基于搜索引擎的学术图
6、书数据。周金娉14 o在关于开放期刊学术影响力的研究中也对该类型的数据进行了恰当的分析。基金项目:国家社科基金项目“新型网络环境下学术期刊影响力的计量分析与评价研究”(项目编号:14BTQ067)作者简介:张洋(ORCID:0000一000264423593),博士,教授,Email:zhyan92mailsysueduCII;郎林芳,硕士研究生;通讯作者:吴娟平(ORCID:oooo一000204041614),硕士研究生,Email:18734894580163con。176中国科技期刊研究,2017,28(2):176183 http:wwwcjstpcn万方数据竺兰:墨塑兰:堑兰茎!兰
7、!三望望竺苎塑鲨竺塑型堂竺!垄 !翌塑鬯鲤传统文献计量学时滞长、影响力片面等诸多缺陷以及随着新型科研环境的变革,学界逐渐构建了新的科学交流体系,即替代计量学。邱均平51将替代计量学大致分为3个阶段:(1)萌芽阶段,以PLOS的论文层面计量(Articlelevelmetircs,ALMs)为标志,探索新的非引文数据指标。(2)概念成熟阶段,代表性的事件为Pfiem【1叫同TaraboreUi等人设立网站(http:altmetrics orgmanifesto),“Ahmetrics:A Manifesto”宣言和“Altmetrics”术语的正式提出。(3)深化阶段,许多学者研究了替代计量学
8、与传统计量学之间的关系u7 J,实证了Mendeley、PLOS、PeerEvaluation、CiteULike、Twitter副等网站的数据,并开发了ImpactFactory、Totallmpact、Altmetrics引等应用。目前可以直接获取替代计量学数据的工具有:ImpactStory、PLoSImpactExplorer、PaperCritic、AltmetricCOB、PlumAnalytics等。杨柳与陈铭o通过调研得出这五类平台的数据来源。目前,Altmetriccorn口u平台已经开发了AltmetricExplorer、AltmetricBookmarklet、Altm
9、etricAPI、AhmetricBadges四款应用,为出版商、学术机构、研究者提供服务。可追踪的数据源分为社交媒体旧2|、传统媒体、政策文件、线上文献管理平台。目前期刊评价体系构建过程中,因子分析法是期刊综合评价常用的方法。一方面可以减少信息重叠,另一方面可以降低变量维度,减少计算量。因子分析法结合主成分分析法可以对影响期刊评分的因素进行聚类,提取主要因素。可以看出,目前学界应用不同数据源进行期刊评价研究,主要集中在单源数据的研究,或是集中在网络数据与传统数据用于期刊评价研究的异同比较。除了对网络数据综合应用不足,难以全面反映其在网络环境下的影响力外,也缺乏不同数据源的同时比较。本文通过获
10、取传统期刊数据库JCR、Googlescholar学术、Google搜索引擎以及Ahmetriccon平台上的期刊数据,利用因子分析法筛选不同数据源影响期刊评价的主要因素,通过探讨不同网络数据源的特点,比较其在反映期刊影响力评价方面的异同,分析如何从不同数据层面完善期刊评价研究,以期为期刊综合评价提供理论指导。2数据收集和整理21样本选取JCR统计并计算多种期刊(网络版)之间的弓http:wwwcjstpcn用和被引用数据,报道影响因子、即年指数等,是期刊评价领域颇具影响力的期刊评价工具。本文选取2014年JCR作为期刊数据来源。同时考虑到:(1)期刊评价指标多以文献的引用为基础,生物医学领域
11、的文献利用较一般学科文献迅速,选取快速被引用的学科文献可减少数据稀疏的影响;(2)考虑到网络环境下,开放存取期刊的网络数据比非开放存取期刊的网络数据更接近于网络现实,另一方面只有开放存取期刊才可以使用搜索引擎获取网页数、链接数、流量数等网络数据。故此,本文选择开放存取期刊为研究对象。(3)借助R语言工具包,通过文献的Pubmedid获取Altmetricscom平台上文献阅读管理软件以及社交网络等相关数据,因此要求所有的期刊数据都必须有Pubmedid,故须选择Pubmed数据库收录的期刊。该数据库收录的均为生物医学领域期刊,可排除学科差异。综上,本文最终选择2014年JCR、Pubmed数据
12、库均收录的影响因子排名前50的开放存取期刊为研究对象。22数据获取和整理221基于JCR的期刊数据JCR数据库共提供三种检索方式,ISSN号具有唯一标识性,本文通过该方法进行检索。可以检索到的期刊数据指标包括:总被引数、影响因子、5年影响因子、即年指数、被引半衰期、特征因子值、论文影响值。本次研究中有多种期刊被引半衰期大于10,JCR中对大于10的数值不进行具体表述,为方便后续分析,本次数据收集不计入被引半衰期。222基于Googlescholar的期刊数据Googlescholar获取期刊评价数据的方式有:(1)通过Googlescholar平台使用自动爬虫爬获取所需数据;(2)2012年4
13、月Google推出了Google学术计量(GSM:Googlescholarmetrics)可获取H5、H5中位数等基本数据指标;(3)HazingAW编写的PublishorPerish(POP)旧列软件可快捷方便地获取GooSeScholar提供的期刊数据指标。在获取便利性的条件下,本次研究采用POP软件获取相关数据。利用POP软件中的“journalimpact”搜索功能,通过期刊的ISSN号进行搜索,选定Googlescholar数据库,将检索时间设定为2014年一2014年。最终获取到期刊文献数量、文献被引频次、H指数、G指数和HInorm五项期刊指标。223基于搜索引擎的期刊数据在
14、学术研究中,常用于收集期刊数据的搜索引中国科技期刊研究,2017,28(2)i貔万方数据。i奠豢曩孥卿。 加-7年2月第28卷第2期擎有A|taVista、Alhheweb、Google等,研究利用最多的为AhaVista、Alhheweb。但截止到2013年,这两个搜索引擎均关闭。因此,选取Google搜索引擎通过期刊名进行检索,核对期刊的ISSN、出版方等信息,确定期刊的URL地址。然后使用表1所示的Google高级检索语法,统计期刊网站的网页数、链接数并计算相应的网络影响因子。表1 Google搜索语法(以http:journalsplosorgplosmedicine为例)检索项目 检
15、索式网页数总链接数site:jOUlmasplosorgplosmedicinelink:journasplosorgplosmedicineAlexa网站提供被测网站的访问量(一周平均)、页面浏览量(一周平均)、人均页面浏览量等相关网络数据。应用Alexa网站,获取以上三个网络数据指标。在查询过程中期刊网站可分为独立域名和非独立域名,需要对其进行相应的运算。经文献调研,发现胡德华241教授的方法最为科学,故采用胡教授的方法处理以上两种情况。具体如下:(1)以WWW开头,具有独立域名的期刊通过上述方法直接获取所需数据;(2)非WWW开头的期刊提供主网站的数据指标以及子网站的占比,通过乘法运算处
16、理;(3)不具有独立域名的期刊,其在一个开放平台上出版,Alexa统计主网站的流量数据,采用网页分配比例计算其流量数据。224基于AltmetricCOITI的期刊数据为提高数据获取的效率,本文利用自编的R语言对数据进行获取。首先,通过Pubmed数据库获取样本期刊2014年收录文献的PubmedlD,对其数据进行切割。然后利用R语言提供的rAltmetric25开源包获取期刊文献的Altmetrics相关数据。Altmetrics指标针对的是论文层次的计量,获取的为该本期刊刊载的每篇论文的数据指标。为得到期刊在在线文献管理软件、社交媒体上的数据,本文利用每本期刊Altmetricsscore
17、得分最高的10篇论文的各项指标平均值代表该本期刊在各个平台上的相对数量。采取这种代替方法,是由于网络环境中期刊文献在各平台上的引用数量都会被放大,引用量大的期刊在网络上的影响力成倍增加,引用量低的各项指标几乎为0,期刊的网络影响力绝大部分由这些明星期刊所带来。如果采用各项指标的平均值代表该本期刊的在网络环境中的影响力存在偏颇。为方便后续研究,JCR、Googlescholar、Google178 中国科技期刊研究,2017,28(2)搜索引擎、Altmetriccom分别用J、G、s、A代替。同时对所有获取的数据指标汇总如下:表2数据指标及编码指标 编码 指标 编码总被引频次 J1 文献数量
18、Gl影响因子 J2 文献被引频次 G25年影响因子 J3 H指数 G3即年指数 J4 G指数 G4可引用项目 J5 HInornl 135特征因子值 J6 Goosle+ A1论文影响分值 J7 Facebook A2Papers S1 博客 A3Citations S2 Tweeters A4网页数 s3 Google account A5链接数 S4 RSSfeeds A6WIF S5 Reddit stories 峨日均IP访问量 S6 MSN A8日均PV浏览量 S7 Altmetrie score A9人均页面浏览量 S8 Citeulike A10mendeley A1 1 Rea
19、ders count A123基于单源数据的评价模型构建31基于JCR的期刊评价对基于JCR的期刊数据进行主成分分析,用少数具有代表意义的因子代替原有众多变量。首先利用SPSS中的Pearson分析检验其相关性,其各指标的相关系数矩阵如表3,原有变量之间有较强的相关性。对原始数据样本充足性检验,利用因子分析中的描述性统计选项“KMO和Bartlett检验”进行分析,由表4可知巴特利特球度统计量为363098,相应的概率Sig为0000,相关系数矩阵与单位阵之间有显著差异。同时,KMO值为0751,远大于05,表明样本充足。表5表明提取因子过程中信息损失较少,因此适合进行因子分析。表3基于JCR
20、数据的相关矩阵取样足够度的Kaiser-Meyer-Olkin度量0751http:wwwcjstpcn万方数据竺兰:墨塑兰:塑竺茎:兰三三璺竺竺兰兰塑竺塑型兰竺!兰 _-兰兰!鲤表5基于JCR的因子提取总方差表6基于JCR的成分得分系数矩阵根据表5、表6,可以得出基于JCR数据的期刊评价模型:F=057F1+030F2 (1)F1=一0034J1+0296J2+0299J3+0225J40103J50015J6+0284J7 (2)F2=0357J10063J20061J3+0017J4+0376J5+0354J60054J7 (3)从旋转后的因子负荷矩阵可以看出,第一公因子在期刊影响因子、
21、5年影响因子、即时指数、论文影响值具有较大的负荷,它们反映了期刊在学术界受重视的程度,可以归纳为期刊学术影响力,是期刊评价时需要重点考虑的因素。总被引次数、引用项目及特征因子值在第二因子上具有较大的载荷,这些因素描述了期刊的引用数量及引用情况,可将其定义为期刊因子。表7显示了两个主成分的协方差矩阵,可知2个主成分之间没有线性相关关系,实现了主成分提取的目的。可利用上述主成分计算样本期刊的综合得分。表7基于JCR的成分协方差矩阵提取方法:主成分。旋转法:具有Kaiser标准化的正交旋转法。32基于Googlescholar的期刊评价利用相同方法构建基于Googlescholar的期刊评价模型。各
22、项指标均表明,适合进行因子分析。根据方差贡献率与各成分得分矩阵得到基于Googlescholar的期刊评价综合得分公式:F=086F1+007F2 (4)F1=一0608G1+0124G2+0377 G3+0460G4+0443 G5 (5)F2=1262 G1+0210 G20164 G30287G40274 G5 (6)表8基于Googlescholar因子提取的总方差提取方法:主成分分析表9基于Googlescholar的成分得分系数矩阵提取方法:主成分;旋转法:具有Kaiser标准化的正交旋转法http:wwwcjstpca根据成分得分系数矩阵,可以发现第一公因子载荷较大的指标为H指数
23、、G指数、HInorm指数,可以概括为期刊质量指标。第二公因子中载荷较大指标为载文量与引文数量,可以概括为期刊数量指标。基于上述分析,得到两个主成分的得分函数。且协方差矩阵显示,两个主成分之间没有相关关系,达到了主成分分析的目的。基于上述因子分析结果,可计算基于Googlescholar的期刊综合得分。中国科技期刊研究,2017,28(2)179万方数据2017年2月 第28卷第2期33基于搜索引擎的期刊评价综合表10、表11可得出基于搜索引擎的期刊评价模型如下:F=033F1+025F2+022F3 (7)F1=一0015S10014S2+0322S3+0391S4+0371S50011S6
24、+0005S70099S8 (8)F2=一030S1+0005S2+0051S3005S40079S5+0。469S6+0464S7+0202S8 (9)F3=0506S1+0514 S2+0052S30035S40031S5+0009S6+O02S70158S8 (10)表lO基于搜索引擎的因子提取总方差提取方法:主成分分析表11基于搜索引擎的成分得分系数矩阵提取方法:主成分旋转法:具有Kaiser标准化的正交旋转法8从三个主成分的构成看,解释了所有指标信息的80。第一因子解释了信息的33,主要来自于网页数、链接数及WIF;第二因子解释了原来信息的25,主要来自于Et均IP访问量、日均PV浏
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 不同 网络 数据源 期刊 评价 研究
限制150内