基于百度指数的科技期刊影响力大数据分析——以《中华医学杂志》为例-张凯.pdf
《基于百度指数的科技期刊影响力大数据分析——以《中华医学杂志》为例-张凯.pdf》由会员分享,可在线阅读,更多相关《基于百度指数的科技期刊影响力大数据分析——以《中华医学杂志》为例-张凯.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2016年7月 第27卷第7期基于百度指数的科技期刊影响力大数据分析以中华医学杂志为例张 凯中南财经政法大学,信息与安全工程学院,武汉南湖大道182号430073收稿日期:2016-0222修回日期:20160417摘要【目的】探索大数据环境下期刊的影响力及其研究方法。【方法】拟提出一种如何利用(百度)大型网络计算节点进行大数据研究的方法,以及如何利用计算机网络进行期刊读者大数据调查,并以中华医学杂志为研究对象,借助百度指数平台,进行大数据分析和挖掘。【结果】五年来该杂志的关注度下降了三分之一。关注者以男性为主,主要是医学专业的学者,他们关注期刊等级和投稿。其关注热度由东南沿海向西北内陆逐步减
2、少。建议该杂志上“知网”,以扩大其影响力。【结论】百度指数可以作为科技期刊影响力分析的指标。关键词 百度指数;期刊影响力;大数据;密集型数据处理;中华医学杂志DOI:101 1946cjstp201602220125大数据是新的技术革命,新的社会现象,也是新的冲击,它使期刊研究工作面临前所未有的挑战和机遇。在这一新的历史条件和背景下,期刊的影响力,特别是在大众百姓中的影响力已成为众多期刊和学者都比较关心的新问题。各期刊迫切想了解其影响力有多大?读者人群有哪些人?人群在全国各地区怎样分布?男女比例多少?其影响力是上升还是下降?等等。另外,目前期刊研究工作者也比较关注大数据期刊研究新方法的探索,以
3、及如何利用大数据计算机平台进行其研究。1 国内外现状及问题读者的需求、心态和看法对科技期刊质量的提高有较强的“驱动力”。早年的“读者来信”是编辑了解读者的重要途径。2 J,读者调查是另外一种方式h3j,由此可以了解读者的需求。41和心理活动J,并通过调查建立起作者和读者的关系J,读者问卷是读者调查的重要手段、7 J。“期刊大数据”方面的研究主要包括科技期刊的未来形态旧J、编辑的信息素养一J、期刊出版方式川、期刊评价体系创新1等。“知网”检索尚未发现“大数据期刊影响力”的文献。在“知网”检索“期刊影响力”的文献约12万条,其研究主要有期刊质量与期刊影响力2|、期刊影响力评价指标体系131、国际影
4、响力分析4|、期刊影响力调查分析到等。Tong Hey1引在第四范式:数据密集型科学发现一书中指出,科学研究范式经历了四个阶段:经验科学、理论科学、计算科学和密集型数据科学。Jim Gray【l刊提出:第四范式以数据为基础,结合实验、理论和计算机模拟为一体的数据密集计算。综上,近年期刊读者调查,期刊影响力和期刊大数据方面的研究,均有学者涉足,但大数据期刊影响力方面调查和分析文献相对少见。从样本量大小看,大数据网络调查较传统读者调查和分析得到的结果更有说服力。如果能将第四范式理论框架用于期刊影响力研究,并结合密集数据处理技术和计算机数据处理技术,将有可能提出新的方法并得到新的结论。与传统期刊影响
5、力研究不同,本文试图提出一种如何利用(百度)大型网络计算节点进行大数据研究的方法,以及如何利用计算机网络进行期刊读者大数据调查的方法,并以有百年历史的、有一定代表意义的科技期刊中华医学杂志为例,借助百度指数副平台,通过大数据分析和挖掘,发现其中的规律和结论。基金项目:国家社会科学基金“第四范式下数据新闻业务流程集成框架重构研究”(项目编号:15BXW012)作者简介:张凯(ORCID:0000000174179929),博士,教授,E-mail:zhangkaizn山educn。http:wwwejstpcn 中国科技期刊研究,2016,27(7):779784 779万方数据2016年7月
6、第27卷第7期2研究方法构建与设计21研究方法构建21世纪初的人类基因组计划开创了大数据处理的先河,其流程包括采集、处理、存储、分析和解释。密集型数据处理过程引包括第一步大数据采集;第二步原始数据处理;第三步用软件工具进行数据计算;第四步数据挖掘;第五步数据可视化。根据以上两个流程,笔者提出一种研究期刊大数据的流程,见图1。图1 研究分析期刊大数据的流程第一步,寻找并采集大数据。百度每天响应6亿用户超过60亿次的搜索请求,日处理数据超过100PB,相当于6000多个中国国家图书馆书籍信息总量。它是一个大数据仓库,可作为学术研究的数据源。百度大数据对期刊研究有四个的优势,即没有语言障碍,符合国情
7、,对外开放和有免费工具。第二步,寻找和准备大型计算平台。因体量大,类型多,生产、传输和处理速度快,潜在价值大等特点,大数据处理起来比较困难,因此,需要合适的大型硬件平台支持。大型计算平台有两种,一是网络节点(多台网络设备相连的汇聚点,配刀片服务器,海量存储和万兆交换机等),比如百度网络节点;二是大型超级计算机,比如“天河二号”。其使用有较大难度,需与专业人士合作。第三步,大数据分析和挖掘,就是利用算法和软件从数据中挖掘有用的信息。百度可基本满足这一要求。如其能力不足,可辅助一些其他方法(如分形理论和灰色理论)和工具(如excel软件)。第四步,数据可视化,是利用计算机图形方法直观显示复杂的计算
8、数据。百度提供了一些可视化工具,如曲线、图谱、指数、热图、辐射图、流线图等,可满足要求。对其不足,可利用绘画板和Photoshop进行数字图像处理。第五步,解释结果和撰写论文。22 网络大数据调查与百度指数百度平台不仅提供了一种大数据计算资源,也提供了一种大数据网络调查方法。网络调查,即通过网络信息系统进行某一主题的调查。百度是国内最大的网民搜索系统。在目前大数据源不多的情况下,可以将其作为大数据源780 中国科技期刊研究,2016,27(7)的选项之一。学者可利用这一免费资源。指数是从研究对象中提取出的一种特征指标。百度指数是海量搜索行为在某一方面的特征量统计。“百度指数”是百度的一个子系统
9、,可提供数据采集、存储、挖掘、分析和可视化服务,包括四个模块:趋势研究。进行关键词搜索,提供搜索指数。需求图谱。提供中心词搜索分布。舆情洞察。提供媒体指数和十条顶级热门新闻。人群画像。提供关键词访问人群的各省市分布,性别和年龄分布。其设计原理是:搜索关键词可以反映用户搜索前后的需求。百度用户上亿,每日搜索几十亿次,其大数据统计可从一个侧面反映出用户某个方面的“想法”。百度引擎筛选出的关键词是下一步搜索的来源词,按相关程度排序。搜索的关键词可反映用户搜索指数热度,其排序算法通过计算关键词所有相关词的搜索指数在指定时间窗口内的环比变化率排序得出。本文利用这一原理,研究网民搜索“中华医学杂志”关键词
10、的需求,了解其变化趋势,人群、地域和年龄分布及关联性。百度指数的使用方法是8|:登录其首页,在搜索框内输入关键词,按一下“查看指数”按钮即可。3 中华医学杂志的大数据分析在“百度指数”中输入关键字“中华医学杂志”,可获得相关数据和可视化图形。下面进行“中华医学杂志”的词汇热度变化分析,搜索热度排名分析,搜索区域热图及排名分析,词汇热图及相关性分析,以及关键词热度比较分析。31词汇热度变化分析表1是2011年1月1日至2015年12月20日“中华医学杂志”一词每周的搜索次数,共260周260个数。第一行第一列为第一周的百度搜索次数,第一行第二列为第二周的百度搜索次数,以此类推。图2为该词热度变化
11、的趋势图,它可以由表1产生。为了解“中华医学杂志”一词搜索热度趋势,现运用“均值灰生成方法”进行数据处理。灰色理论是小样本数据处理工具,其灰生成方法可以处理曲线段数据,用于其大致趋势分析。将260个数据分为2组,分别求出其平均值。在此笔者设计了一个计算公式(1):Yi=(Xi)ni=nxi+1http:wwwcjstpcn万方数据张凯基于百度指数的科技期刊影响力大数据分析以中华医学杂志为例其中J=1,2,凡=2602。利用公式(1)计算表1可以得到Y】=34436和Y2=25235。比较发现,Y。),:,且Y。一y2=9201。这说明“中华医学杂志”搜索次数总体呈下降趋势,且下降趋势明显。从百
12、度指数300点(每周网民搜索的次数)下降至200点,这意味五年减少了约三分之一。观察图3发现,曲线有若干个“最低点”,这段时问恰好为春节期间。同时还发现国庆节期间也有类似情况。元旦和劳动节期间有类似的情况,但不明显。为深入了解这种现象,特选取了有代表性的20122015年时期的图形,见图3。矩形标识了春节期间曲线段,椭圆标识了国庆节期间曲线段。表1每周搜索次数(2011年1月1 Et至2015年12月20 Et)289 359 364 363 359 304 356 360 362 387 364 361 368 389 379399 402 407 380 392 401 41l 438 4
13、31 390 410 387 376 402 403398 382 397 373 388 389 382 381 397 385 338 418 407 431 404413 412 414 389 379 392 37l 395 369 389 368 264 416 423 426454 463 449 389 350 363 32l 332 33l 330 338 380 373 373 362362 357 312 347 346 375 348 330 348 326 343 332 328 350 339335 317 228 317 328 317 307 290 281 28
14、5 287 292 272 277 277240 286 276 265 267 212 176 250 27l 279 291 296 268 252 282277 269 236 268 259 272 268 278 231 254 26l 244 259 248 248242 237 253 265 256 248 249 225 247 202 251 259 267 317 307239 249 248 249 250 225 263 237 242 239 217 153 170 242 291291 251 251 252 262 240 260 256 262 254 264
15、 252 260 262 250259 260 255 242 239 243 246 248 238 246 236 238 245 236 252275 195 231 242 279 267 266 268 285 273 263 256 252 275 229299 269 265 269 244 219 143 229 308 295 282 300 279 268 258256 248 235 258 246 269 266 267 245 242 265 231 245 256 245251 259 240 3ll 257 290 294 252 205 220 248 242
16、248 263 245292 24l 237 25l 254指数趋势。 串枷P翰瞎:加ftll01-01至2015-12-20全墨图2词汇热度变化趋势图一 一 一 ”蜓图3词汇热度变化局部分形相似图近五年百度指数呈快速下降趋势,从每周300多点下降到每周200多点。这从一个侧面反映了“大众百姓”对中华医学杂志关注的减少,也反映其社会影响力的下降。春节期间的休假对搜索次数影响最大,国庆节http:wwwejstpcn其次,劳动节和元旦的影响不明显。这说明搜索次数与节假日相关,且节假日越长,影响越大。每年元旦、春节、劳动节和国庆节期间搜索次数下降形成的曲线呈现分形特征,即相似性。其分形相似性表现在
17、两个方面:一是图形的相中国科技期刊研究,2016,27(7)781万方数据2016年7月 第27卷第7期似性,即元旦、春节、劳动节和国庆节期间搜索次数下降形成的曲线形状相似,见图3。二是周期相似性。这里的周期性指“准”周期性,因为每年的春节时间不固定。因此几年的周期曲线不会完全重合,见图3的节假日周期。产生分形相似性的原因是混沌吸引子的作用。这里的吸引子就是节假日人们内心休假放松力的驱动,导致周搜索量下降。当节假结束上班后,其周搜索又恢复正常。于是形成了上下起伏投稿编辑部的网=投稿邮箱或电话谁知道怎么订购投稿的网址足什么?英文版属于sc吗?第二作者有多大用呢?的波形。32搜索热度排名分析图4显
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 百度 指数 科技期刊 影响力 数据 分析 中华 医学杂志
限制150内