《基于主成分分析的科学评价.pdf》由会员分享,可在线阅读,更多相关《基于主成分分析的科学评价.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第 卷 第 期 年 月基于主成分分析的科学评价维度研究 以 为例宋丽萍王建芳刘芮 摘要借助主成分分析,以 的?为数据源对物理学、化学、社会学、免疫学四学科的科学评价主要维度进行解析。分析表明一维空间的科学评价在覆盖 信息的同时将损失其余的 ,个维度才能以 的精度描述论文的学术影响力,进而将科学评价的 个维度分别命名为引用维、共享维与利用维,从而说明以引用为基础的传统科学评价的片面性,并揭示科学评价的多维构成。关键词主成分分析科学评价?分类号 :本文系国家社会科学基金项目“科技政策视角下科学评价指标及方法研究”(项目编号:)与教育部人文社会科学青年基金项目“基于群体智慧的微博客信息可信度评价机制
2、研究”(项目编号:)研究成果之一。作者简介宋丽萍,天津师范大学管理学院教授,博士,?:?;王建芳,中国科学院文献情报中心副研究员,博士;刘芮,天津师范大学历史文化学院馆员,硕士。收稿日期:修回日期:本文起止页码:本文责任编辑:王善军科学评价,是一个探索中的问题。对于什么是科学影响力,目前没有清晰的界定,科学评价方法尚处于争议之中,然而科学评价的多维性是科学共同体的共识 。维度,英文为 ,数学中指独立时空坐标的数目,通常指我们分析目标对象所采用的角度。主成分分析(,),是将高维空间映射到低维空间中,通过舍弃不重要的特征向量缩减维度、消除变量之间相关性,从而从原始变量中筛选最佳变量子集合的多元统计
3、方法 。本文将借助 ,以 为数据源对论文科学评价的主要维度进行解析。相关背景印本环境中,引用成为科学评价的同义语,然而,在线科研环境的兴起打破了引用等同于学术影响力的成规,如何描述数字时代的学术影响力成为新的议题。恰逢此时,美国北卡罗来纳大学博士研究生 提出替代计量学(),从而为科学评价提供了新的视角并将评价重心从期刊转至论文自身,因此论文层面的科学评价成为关注的焦点,而 则成为论文科学评价的先行者。期刊系列是开放获取的“领头羊”。其中 被誉为期刊的航母,该刊创刊于 年 月,因 年间影响因子保持 以上而闻名,因收录范围跨越 多个学科而著称。年 月,为规避期刊影响因子用于评价论文影响力的弊端,并
4、基于论文的重要性体现在发表后被关注与引用情形的出版哲学,在每篇文章后新增?()以探索论文层面的评价方式。采用利用状况()、社会共享状况(包括 和 )、学术性标签标注指标(指 和 )、学术性引用情形(在 、中引用情况)、非学术性引用情况(在 等张贴的情况)描述论文影响力 。所开创的以科学社区为主导的论文评价方式为出版界提供了良好范例,、以及 出版集团竞相效仿 。本文将以 为例,立足于论文层面的科学评价,通过上述指标间关系解析科学评价维度及其构成。数据采集与统计鉴于 具有学科综合性的特点,本文采用 :网站的 ,选取其中物理学、化学、社会学、免疫学用于分析。其中免疫学、物理学、化学作为自然科学的代表
5、,而社会学则作为社会宋丽萍,王建芳,刘芮 基于主成分分析的科学评价维度研究 以 为例科学的典型。回溯年限为 年,以兼顾自然科学和社会科学引用行为的差异,并保证 年的被引统计区间。以免疫学为例,在 :网站高级检索界 面中设 定检索 式 为:。检索结果为:社会学文献 篇、免疫学文献 篇、物理学文献 篇、化学文献 篇,共计 篇。对于上述记录,首先采用计算机编程语言 抓取了文献的篇名,并将其导入 ,利用第三方软件包 实现对于 与 的读写;继而利用篇名链接,点击 获取该文的 指标。数据采集日期为 年 月。由于 、等指标记录过少,不具统计意义,数据前处理过程中将上述指标剔除,最终将每篇论文在 、()、()
6、、系统中的被引量、与 阅读统计、记录等 项数据用于进一步分析。其中将每篇文献视作一条记录,个学科中各有 个样本,每个样本共有 个变量,从而构成 个 阶矩阵。鉴于 维空间的复杂性,下文将以 探索综合变量以提取其中的主成分。个学科的主成分分析 必要性与适用性分析本文将通过相关分析确定变量的相关程度,进而确定 的必要性。相关性分析结果表明(见表 表 ),在 个变量组成的 个不重复的变量对中,以相关系数 为阈值,免疫学为 组,占 ;社会学为 组,占 ;物理学为 组,占 ;化学为 组,占 。由此说明接近 或 以上的变量具有相关性,即这些变量存在信息上的重叠,因此通过 析出其中的主要因素是必要的。表 物理
7、学原始变量相关矩阵相关系数 表 化学原始变量相关矩阵相关系数 表 免疫学原始变量相关矩阵相关系数 第 卷 第 期 年 月表 社会学原始变量相关矩阵相关系数 和 拟合检验表明,物理学 ,化学 ,免疫学 ,社会学 ,即 个学科 均大于 。球度检验给出的相伴概率均为 ,小于显著性水平 ,因此适合作主成分分析。变量主成分分析本文选用相关系数矩阵法对上述变量进行主成分分析,分析结果见表 表 。通过 对相关系数矩阵的特征分解,得出了主成分及其特征值。以物理学为例,即该主成分代表所有变量信息的 ;,此时累计方差贡献率为 ,即提取前 个因子将表征所有变量信息的 ;,累计方差贡献率为 ,即前 个变量反映了 以上
8、的信息。经过前 个主成分与前 个主成分在全部方差中所占比重的比较与权衡,本文确定在首先满足累计贡献率 前提下,同时兼顾相关系数矩阵特征值 的主成分提取原则,因此 个学科均析出 个主成分。公共因子碎石图反映的特征值衰减的突变(从略)也证实了提取 个主成分为最佳之选。表 物理学文献解释的总方差成分初始特征值提取平方和载入旋转平方和载入合计方差的 累积 合计方差的 累积 合计方差的 累积 表 化学文献解释的总方差成分初始特征值提取平方和载入旋转平方和载入合计方差的 累积 合计方差的 累积 合计方差的 累积 宋丽萍,王建芳,刘芮 基于主成分分析的科学评价维度研究 以 为例表 免疫学文献解释的总方差成分
9、初始特征值提取平方和载入旋转平方和载入合计方差的 累积 合计方差的 累积 合计方差的 累积 表 社会学文献解释的总方差成分初始特征值提取平方和载入旋转平方和载入合计方差的 累积 合计方差的 累积 合计方差的 累积 主成分旋转为利于主成分分析得到的新变量的命名解释,并进一步说明科学评价的主要影响因素,本文采用方差极大法将成分载荷矩阵进行正交旋转,表 为 个学科主成分旋转结果汇总,其中成分载荷阈值设定为 。表 主成分旋转结果汇总学科第一主成分第二主成分第三主成分免疫学 、物理学 、化学 、社会学 、结果与讨论基于上述分析,可以得到如下结果:揭示了科学评价乃至学术影响力的多维性分析表明,物理学第一主
10、成分方差贡献率为 ,化学为 ,免疫学为 ,社会学为 ,即 个学科中提取一个主成分仅表达 的信息。表 表 累计方差贡献率进一步表明 个主成分将覆盖 以上的信息,个主成分才能以 的精度解析学术影响力。从 的视角,析出的主成分即等同于描述问题的基本维度。那么上述结果意味着一维空间的科学评价在描述 信息的同时,将损失其余的 ,三维评价方能揭示论文学术影响力的 。因此,以 为来源进行的科学评价指标的解构及其 个主成分的析出说明了引用为主体的传统一维科学评价的片面性以及科学评价的多维构成。刻画了科学评价多维结构的构成基于 个学科原始评价指标的线性组合析出主成分的信息含量,并综合方差极大法正交旋转确定的各个
11、维度的信息内容,将 个主成分代表的三维结构分别命名为:引用维、利用维与共享维。其特征如下:()在科学评价中各个维度具有相对独立的意义。由于主成分分析的过程即等同于寻求互相垂直的新坐标轴的过程,相关分析结果亦证实,、与 、个指标不相关或低度相关,其几何意义为变量在坐标系中的正交,即各维指标表征的信息不具重叠性,第 卷 第 期 年 月因而具有独立的存在意义。其中,第一主成分从即时与延时的视角描述了学术影响力,从而将引用指标与下载、阅读等利用指标区分开来;第二、第三维则将大众的兴趣点与学术声望区别对待。()引用维仍然是科学评价的主要源泉,其方差贡献率在 以上,其中包括在 、中的被引频次,但就分析结果
12、来看,仍旧无法判定 个数据库孰优孰劣。以化学为例(见图 ),旋转空间成分图中 、个指标聚集成紧密的一簇,部分指标甚至出现重合;表 表 相关性分析也证实 个数据库被引指标呈 以上的高度相关,因此说明它们从同一维度描述了论文学术影响力,同时再次说明了 个数据库在科学评价中的互补性。利用维与共享维各占 、,由 、用户 统 计构 成。其中 为个学科中利用维共有指标,因此说明一定意义上该指标已成为利用维的代表,其从使用的视角彰显了论文影响力。图 化学旋转空间成分()引用、利用与共享个维度覆盖了论文发表后不同时间段。众所周知,引用峰值将在论文发表两年后出现,然而研究表明:利用峰值出现在文献发表后的第一个月
13、,从第一个月到第二个月将出现明显的利用衰减 。由于 个维度包含了论文问世 下载 阅读 引用整个生命周期,科学评价因此进入以文章为核心的、全方位、全谱段计量时期。()个维度传递的信息各具特色。其中引用信息相对准确,概由于科学评价系统惯性以及引证行为蕴含着施引作者对于被引论文的定性价值判断所致。正是由于这一点,科学评价实践中经常“以偏概全”。然而相对准确的判断是以牺牲速度为代价的,通常要在 年之后才能看到有意义的引用指标,信息滞后也就成为薄弱环节;相比之下,第二维与第三维基于使用和学术社交网络的学术影响力的计量具有迅速、开放、丰富的特性。然而,替代计量指标并非尽善尽美,以利用统计为例,使用的本质和
14、利用的环境即是带有问号的问题。具体地说,虽然替代计量能够捕捉到论文在更广泛的范围和不同的读者群体中的学术影响力,但是谁在社会网络上利用了这些学术论文,是学生、研究人员还是大众,利用的动机又是什么,都是需要诠释的问题。从这点意义上说,基于 个维度的综合评价才是较为合理的。揭示了 个学科科学评价维度的异同应当指出的是,分类体系是值得信赖的,其学科分类得益于爱可思创新()并符合 标准,因此文中选取了一些学科作为代表 。同时为了获得具有普遍意义的结论,本文在学科选取上兼顾自然科学与社会科学。就结果来看,有两点是共同的:首先,引用维构成相对稳定。其次,无论在自然科学抑或在社会科学中 已然成为表征论文影响
15、力的主要指标。与此同时,也揭示了 个学科评价结构的不同之处,如表 所示,其中物理学和免疫学具有相同的结构;化学和社会学则各具特点,第二维与第三维成员处于变动之中,例如:化学中以 作为交流工具,而社会学中 应用较为普遍。事实上,在学术交流中,社会科学与自然科学恪守着不同的成规。正如普赖斯所言:“自然科学与人文社会科学不同的实质内容确立了不同的信息集合和交换的社会工具”。正是学科交流行为的差异造就了以科学交流作为基本素材的科学评价方法及其结构的不同。替代计量学指标是科学评价体系的必然要素综观上述 结果,特别是以 、为代表的替代计量学指标加入科学评价行列之中,可以强烈地感受到科学评价体系的变化。究其
16、根源,学术研究环境使然。扫描知识研究与扩散过程,发现人们已置身于“开放”的氛围之中,开放期刊论文、开放科研数据、开源科学软件、开源科学、开放实验记录科学、开放共享科学工作流、开放共享科研成果“开放”已经渗透到科学知识的生产、传播、利用各个环节之中。正如 自然 杂志在 计量研究人员所有研究成果 一文中指出的:现今 的研究人员活跃在 上,两百万的研究人员正在使用 等学术社交平台。就此,美国国家科学基金会做出决定,自 年 月 日始,美国国家科学基金会将要求主申请人列出其所有研究成果,其中不仅限于传统出版物,数据集、软件也将被纳入其中 。这就意味着,作为科宋丽萍,王建芳,刘芮 基于主成分分析的科学评价
17、维度研究 以 为例研环境变化的连锁反应,形成于上个世纪 年代前数字时代的评价体系已经落伍,构建更为适宜、更为全面的学术影响力评价体系势在必行。恰逢此时,为替代计量学的出现提供了适宜的土壤,而科学评价与信息筛选内在的需求则成为替代计量学的生长点,科学评价因此呈现多维分布的格局。结论首先,说明了科学评价及其学术影响力的多维性以及以引用为基础的传统科学评价的不完全性。其次,刻画了科学评价的多维构成,其中主要包括引用维、共享维与利用维。引用维从即时与延时的角度描述了学术影响力,而共享维与利用维将社会可见度与学术可见度区别开来。第三,所进行的主成分分析及其维度研究是一种揭示科学评价结构的方法,更是一种有效的认知途径,因而为数字时代的科学评价提供了借鉴。第四,在给出部分问题答案的同时也提出了新的课题,诸如传统的引文指标和其他备选指标所测度的到底是什么?是质量、影响抑或显示度?这些指标之间是否存在等价关系?如果是不等价的,如何建立不同评价指标之间的当量关系?科学评价实践中又如何给予不同的权重?参考文献:,():,:,?,():,:?,():,?,:,():,():,?,?,?
限制150内