CiteSpace展示报告.doc
/*CiteSpace软件展示报告一、 概述CiteSpace是由美国德雷塞尔的陈超美教授开发的一款可视化文献分析软件,能够显示一个学科或知识域在一定时期发展的趋势与动向,形成若干研究前沿领域的演进历程。简单说来,就是找出学术文献中文字(包括:作者,杂志,关键词,被引用词汇等等)的关系,并可视化表示出来。二、 作者简介陈超美(Chaomei Chen),男,1960年9月生于中国北京,英国籍,美国德雷塞尔大学(Drexel University, Philadelphia, PA, USA)信息科学与技术学院副教授(终身教职)。大连理工大学长江学者讲座教授,Drexel DLUT知识可视化与科学发现联合研究所所长。他是当代信息可视化与科学知识图谱学术领域中的国际顶尖学者和领军人物之一信息可视化新领域的最早开拓者之一。陈超美的个人博客http:/blog.sciencenet.cn/u/ChaomeiChe有相关最新内容。CiteSpace的主页http:/cluster.cis.drexel.edu/cchen/CiteSpace/有一部分基础资料可以作为蓝本学习使用软件。陈超美的与他的CiteSpace的发展历程:1999年率先发表了该领域第一部专著2002年创办了该领域第一份该领域的专业期刊Information Visualization2002年独立创办了每年一度的Symposium on Knowledge Domain Visualization(KDViz)系列国际讨论会。2004年开始利用其开发的软件CiteSpace,在该领域写出了不少经典论文,如Searching for intellectual turning points: Progressive Knowledge Domain VisualizationCiteSpace II: Detecting and visualizing emerging trends and transient patterns in scientific literature2005年提出信息可视化领域面对的十大挑战性问题;在信息可视化领域中引入Pathfinder算法,扩展和提高了文献引文共被引网络分析的效率和应用范围。2011年7月发布CiteSpace 2.2 R11版本。最新版本是今年7月份发布,不过它需要64位的大内存的电脑去支持。三、 信息可视化与科学知识图谱的发展历程因为CiteSpace 是一种可视化软件,它与科学知识图谱有密切关系,我们大概讲一讲这个发展过程。科学知识图谱基本概念:1、 传统的科学计量学图谱以简单的二维、三维图形(如:柱形图、线性图、点布图、扇形图、平面图等)表达科学统计结果2、 新时期的科学计量学图谱随计算机处理能力日益提高,文献信息电子化和专利授权,知识图谱等工具在模拟人类数据分析等方面,可帮助人类进行某些领域的判读、搜索、决策、预测例如:文献共被引,一段时间内文献聚类。只要有坐标、有文献的发表出处地点,结合地图就能形成一幅文献地理位置图3、 CiteSpace研究领域(1) CiteSpace II的概念模型在第一代Citespace 中,用户只能通过视觉观察找到网络中连接不同聚类的点,进而确定关键点。而Citespace II有了更好的优化,能用时间切片抓拍(Time-sliced snapshot)来显示研究领域的演变。接下来我们只会着重介绍CitespaceII。(2) CiteSpace工作流程(3) 我们能用CiteSpace做什么? 研究热点和前沿分析聚类图A: 重要学科领域分析(以术语和学科主题作为网络节点)学科领域分布图B: 研究前沿的知识基础分析(以参考文献作为共引分析节点)基于文献共被引的网络知识图谱C: 研究热点分析(关键词作为网络节点)基于关键词共现的网络知识图 研究前沿与发展趋势分析时序图(timeline、timezone) 实现文献计量与地理地图的整合(GoogleEarth) 四、 术语解释1、 Nodes 节点在绘图软件中,节点即曲线中的控制点、交叉点,网络连接的端点。2、 Centrality 节点中心度是指其所在网络中通过该点的任意最短路径的条数,是网络中节点在整体网络中所起连接作用大小的度量。中心度大的节点相对地容易成为网络中的关键节点。3、 Betweenness centrality中间中心性用来进行中心性测度的指标,指网络中经过某点并连接这两点的最短路径占这两点之间最短路径线总数之比。中间中心性高的点往往位于连接两个不同聚类的路径上。4、 Burst terms 突现词通过考察词频,将某段时间内其中频次变化率高的词从大量的主题词中探测出来。5、 Citation tree-rings 引文年环代表着某篇文章的引文历史。引文年轮的颜色代表相应的引文时间。一个年轮厚度和与相应时间分区内引文数量成正比。6、 Citation half-life 引文半衰期半衰期描述引文(文献)老化程度,半衰期越大,显示引文的有效价值越大。7、 Pathfinder network scaling 路径网络简化种网络简化算法。8、 Minimal spanning trees最小生成树种网络简化算法。9、 Pivotal points (Turning points)关键点(转折点网络中中间中心性大于或等于0.1的节点CiteSpace图谱中用紫色的节点表示网络中的关键节点。10、 Thresholds 阈值用户在引文数量、共被引频次和共被引系数三个层次上,按前中后三个时区分别设定阈值,其余的由线性内插值来决定。11、 Time-zone view 时区视图12、 Time slicing 时间分割设定整个时间跨度和单个时间分区长度。13、 Research front 研究前沿定义为一组突现的动态概念和潜在的研究问题,引证文献组成了研究前沿。14、 Intellecture base 知识基础是它在科学文献中 ( 即由引用研究前沿术语的科学文献所形成的演化网络)的引文和共引轨迹,被引文献组成了知识基础。五、 软件安装与简介1、 环境配置CiteSpace是一个以java语言编写的程序,必须依托浏览器进行启动。因而必须首先配置java环境。要CiteSpace能正常运行,系统必须安装6.0以上的JDK(Java Development Kit)才可以,具体只需要登录java官网下载最新版本的JDK并安装即可。目前最新的版本为JDK 7.9版。下载地址:http:/www.oracle.com/technetwork/java/javase/downloads/index.html2、 安装包下载CiteSpace目前最新的版本为 3.1 R3版,但是该版本是基于64位系统开发的,有可能在32位的系统上出现错误,并且需要通过java虚拟机(JVM, Java Virtual Machine)来运行,所以建议使用32位系统的同学选择3.0 R5版进行下载。下载地址:http:/cluster.ischool.drexel.edu/cchen/CiteSpace/download.html而如果是64位系统的同学,就选择3.1 R3版本里最新的链接。JVM需要在内存中运行,所以,需要按照具体电脑的内存容量来选择所运行的JVM。由上至下分别是512M、1GB、2GB和4GB内存的JVM,可适当选择。文件为一个JNLP文件,大小约200K。下载完成后,打开该JNLP文件,会弹出以下一个对话框,勾选“我接受风险并希望运行此应用程序”,并按“运行”,则可自动安装。安装完成后,会弹出以下一个窗口,将其最大化后,点击最下方的Proceed按钮,即可进入CiteSpace。如见到下面的画面,证明安装已成功完成。3、 控制界面简介(1) 数据库选择在CiteSpaceII中,用户可以从web of science中下载数据,然后导入到CiteSpace中进行分析,也可以从PubMed(公共医学数据库)中直接下载数据到CiteSpace,然后进行分析。(2) 数据导入区在web of science数据库下,这一区域主要用于导入已下载的数据,可以通过设置文件的存储路径来读取数据文件。而在PubMed数据库下,则可以直接在Query框内输入关键字、时间跨度等直接下载数据进行分析。(3) 设置时间分隔在这个区域可以设置要读取的文件的时间跨度,并且设置CiteSpace统计的时间片。如果需要以每三年或每五年作为文献的研究时间片,可以在Slice处设置3或5。(4) 图像的端点类型和连线的计算方式这个选项比较关键。上面一个选项主要用于确定生成的图像中的端点代表是什么。有参考文献、作者等等的选项。下面一个选项是用于确定生成的图像中两点间的线的粗细程度,通过计算两个端点(可以是两篇参考文献、两个作者等)的余弦相似度确定两点间连线的粗细,相似度越高,连线越粗。(5) 节点与连线筛选这一区域是生成图形中最关键的一步。这几种方式主要来控制最终生成的网络将由哪些节点组成。这是第一种方法,第一种办法最简单,最适于初学阶段,所以目前版本将其放在首位。其余几种办法逐渐变得复杂,最好等熟悉系统之后再考虑。Top N:系统设定N=30,意为在每个time slice中提取N个被引次数最高的文献。N越大生成的网络将相对更全面一些。Top N%: 将每个time slice中的被引文献按被引次数排序后,保留最高的N%作为节点。Threshold Interpolation:设定三个time slices的值,其余time slices的值由线性插值赋值。三组需要设置的slices为第一个,中间一个,和最后一个slice。每组中的三个值分别为c,cc,和ccv。c为最低被引次数。只有满足这个条件的文献才能参加下面的运算。cc为本slice内的共被引次数。ccv为规范化以后的共被引次数(0100)。Select Citers:与以上方法不同的是这个方法先选施引文献,然后需再用方法1-3之一。先Check TC Distribution然后填写Use TC Filter 后面的两个数字:最低和最高TC值(Time Cited),选定User TC Filter前的选项。按Continue,再设定方法1,2,或3。(6) 修剪图像这一选项主要用于对生成的图像进行路径的寻找、发现最小生成树和修剪产生的网络,留下最主要的枝干。(7) 图像生成选项这一选项主要用于确定产生的图像聚类时是使用动态还是静态的方式进行聚类,同时也可以选择是按时间片来分开不同时间段的图像还是融合到一起来表现。4、 图像界面首先主要介绍工具条上的主要功能:自动聚类和添加聚类标签后可以得到这样的图:然后我们介绍一下图像的控制面板:六、 具体应用1、 关于Terrorism的文献分析这一个例子的分析是基于作者在CiteSpace II Detecting and Visualizing Emerging Trends这篇文章里的详细分析。(1) 背景介绍恐怖主义(1990 2003年):1995年的俄克拉荷马城爆炸和2001年的9.11恐怖主义袭击是最具杀伤力的恐怖主义事件。其每个事件都可能改变研究的进程。科学共同体如何应对这些事件和衍生的结果?这个研究领域的新兴研究前沿是什么?他们同较早的研究前沿是怎样联系的?(2) 使用软件中的demo(3) 设定时间跨度与阈值(4) 图像分析A:Cluster view以下两幅配图是作者在CiteSpace II Detecting and Visualizing Emerging Trends一文中所用到的配图。由此看出,恐怖主义研究视图有三个明显的聚类: 聚类A,恐怖主义爆炸中的身体外伤(左上),前沿术语有body injuries(身体外伤)和terrorist bombing(恐怖爆炸); 聚类B与生化武器威胁相关的卫生保健(右上),前沿术语有health care(卫生保健)和chemical weapons(化学武器); 聚类C,9.11恐怖袭击事件对心理和精神的影响(中下),前沿术语有September 11(9 .11),United States(美国)和post-traumatic stress disorder(创伤后应激障碍)。我们可以选到处于中心点的文章,可以对其展开内容研究,详见下图。以下关于两幅时序图是我们基于demo绘出的图。B:Timelinetimeline是先把整个网络划分为几个聚类,然后按时间顺序排列出各个聚类中的文献。这样可以观察到很多现象。这个状态下的选项主要是显示聚类的标签,节点的特征等等。例如标签#10化学恐怖主义,该专业术语最早于1970年的一篇文献中被检测到,而在1994年的文献至1999年的文献节点年轮急剧放大,凸显了该时段“恐怖主义”中的热门研究主题。还有#2创伤后应激障碍的研究始于1985,而到2000年左右的研究达到高峰,我们都知道美国911事件,该研究应该与当时这个重大事件有关。C:Time-zone文章随着时间的共被引关系。能直观观测地每个时期最热门的话题、文献。(5) 验证关键点在CiteSpace II Detecting and Visualizing Emerging Trends一文中,软件作者认为,关键点的本质可以通过两条途径来确认: 将关键点文章的作者视为该领域的专家,咨询; 对关键点文章的引用和被引用的段落进行内容分析。右键节点google scholar,找到文章。右键节点,看到文献激增过程,该文献的参考文献等细致内容。2、 基于Web of Science数据库的webometrics学科文献分析(1) 数据搜集首先点击下面的网址,登录到中大图书馆,然后从这个入口进入到web of science数据库http:/library.sysu.edu.cn/web/guest/SCI进入到web of science数据库后,设定好关键字,然后选择要检索的文件时间,一般按一年来进行下载,从每年的1月1日开始到12月31日结束。选择完毕以后按“检索”。检索出来结果后,拉到检索结果页面的最下方,有个输出检索结果的选项,依照如下设置,把文献记录以TXT文档的方式下载到本地电脑。按下“保存”按钮后,会弹出一个文件保存的对话框,此时文件名需要按照”download*.txt”命名方式进行命名,如2008年的数据命名到download2008.txt文档中。点击“保存”则一个年份里面的数据就下载完成。而要做出相对较完善的文献分析,则需要从学科的出现历年来的数据一年一年地下载下来。如我需要下载webometrics的文献数据,则需要把1997-2012年的数据每年一个文件这样保存下来。(2) 数据导入把数据下载完成后,我们需要将数据导入到CiteSpace中去,打开CiteSpace后,点击建立一个新的project:然后指定一个地址储存这个project的配置文件,另外将数据目录指向存储下载回来数据的文件夹,需要注意的是该文件夹不要有其他的数据文件,最后就只有下载回来的文件。按下”save”之后,数据的路径就完成配置。(3) 设定时间跨度与阈值配置完数据后,我们需要设定数据的时间跨度,准确点来说是我们需要分析哪段时间内的文献,由于Webometrics这个概念最早是在1997年提出,所以本例子把时间设为1997-2012年。设定完成后,需要设置阈值来控制产生出来图形的节点数目。初学者可以通过设置TOP N来筛选出每年前N位被引次数最高的文献作为节点,而进阶的使用者则可以通过设置阈值,设定具体的被引频次、共被引频次和共被引系数来控制出现的节点数目。设置阈值并不是一次就能设置好,需要多次的观察然后进行调整,对节点数目出现过多的年份可以适当调高各个参数。如本例子中2003年-2008年间出现了大量的引用,所以可以适当调节一下第二时间片的值,控制节点数目。一般设置了TOP N就不需要设置阈值,设置了阈值也就不需要设置其他了。最后,在Visualization中选择animated,这样子CiteSpace可以动态地计算网络,可以更好地看到文献聚类的过程。设置好了之后,按下”GO”就开始导入数据,生成图像了。出现以下的对话框,证明数据导入成功,可以开始生成图像了,按下”Visualize”即可生成图像。(4) 图像分析等到图像基本不再动了,我们就可以按下“停止布局优化过程”按钮,然后我们就基本得到我们的文献聚类图像了。我们通过图像可以看出,网络信息计量学的研究内容相对比较集中但是近年已经开始出现了离群点,证明有几个新的分支学科正在形成当中。而当中我们也可以看到,以Almind在1997年发表的和Ingwersen在1998年为代表的论文所在的圆圈半径最大,颜色最为丰富。这意味着这些文章的被引次数很高,而且在各个时期都有人来引用。圆圈所处的位置都是在整个图形的正中央。这证明这两篇文章都是这个学科最基本最核心的文章,在整个网络信息计量学中起到关键的作用。旁边小的分支意味着新的分支学科正在形成当中,在网络信息计量学的基础上发展出去。然后我们可以按下“标注聚类内容”按钮,看看具体聚类的内容。我们可以通过拖拽来看出具体的聚类内容有什么。由这幅图我们可以看出,新兴的分支学科主要向科学评价、共链分析、社会化媒体分析方向发展。3、 基于CSSCI数据库的网络信息计量学学科文献分析除了使用Web of Science数据库外,我们还可以通过从CSSCI上下载文献,进行中文的学科文献分析。(1) 确定主题词和专业术语主题词为:网络信息计量学、网络计量学。(2) 收集数据登入http:/www.cssci.com.cn/index.html ,以检索式“网络信息计量学or网络计量学”进行搜索。选择年份从19982011年。在检索页出来后,到每一页的末尾,全部选择,然后点击“下载”。保存数据后,由于CSSCI数据格式与citespace所使用的数据格式不同,我们使用刘盛博所制作的“转换格式的程序”,转换数据。转换完毕后,该数据就可供使用了。(3) 导入数据新建一个project需要特别注意的是,Language要选择Chinese在Preference选项中,勾选Chinese coding(4) 时区分割与阈值选择时区切片为2,抓取切片在TOP N per slice中选择5。(5) 显示Cluster view:一共分成七个聚类,但是能感觉得出分类并不成功,好多相同概念在其他聚类中出现。问题的原因:可能是我们所能使够运行的版本比较旧,是2011年7月发布的2.2R11版本,没有很好的支持中文。最新版本是今年7月份发布的,不过它需要64位的大内存的电脑去支持。Timezone:从这幅文献时间分布图,能看出20002004年,我们的几位该领域的大师邱均平、Ingwersen Peter、Thomas Owen、Almind Tomas C已经为webometrics打下了坚实的基础好,他们的文献被广泛的引用、同被引用。(6) 展示功能:实现文献计量与地理地图的整合CiteSpace2GoogleEarth.pdf七、 结语总而言之,CiteSpace是一款功能十分强大的可视化文献分析软件。通过分析文献的引用关系,它能帮助我们有效地找出一个学科发展过程中产生关键影响的文献,并且能够发现该学科目前的发展方向,发现新兴的分支学科。