共词分析方法理论进展.pdf
《共词分析方法理论进展.pdf》由会员分享,可在线阅读,更多相关《共词分析方法理论进展.pdf(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、冯璐冷伏海中国图书馆学报(双月刊)2 0 0 6 年第2 期Z H o N G G U oT U s 姗G U A N X U E B A o共词分析方法理论进展水摘要共词分析方法属于内容分析方法的一种。其原理主要是对一组词两两统计它们在同一篇文献中出现的次数,对这些词进行聚类分析,进而分析这些词所代表的学科和主题的结构变化。有基于包容指数和临近指数的共词分析方法、基于战略坐标的共词分析方法、基于数据库内容结构分析的共词分析方法。公式5。图1。参考文献1 3。关键词文献计量学共词共词分析方法分类号G 2 5 7A B S T R A C TC o w o r da n a l y s i si
2、 sak i n do fc o n t e n ta n a l y s i s I t sm a i np r i n c i p l ei st om a k es t a t i s t i c so fp a i r so fw o r d sa p p e a r i n gi nt h es a l-f l ed o c u m e n t sa n dt h e na n a l y z es t r u c t u r a lc h a n g e so fd i s c i p l e sa n ds u b j e c t st h e yr e p r e s e n
3、t I nt h i sp a p e r t h ea u t h o r si n t r o d u c es o m ek i n d so fC O w o r da n a l y s i sm e t h o d s 5f o r m u l a s 1f i g s 1 3r e f s K E YW o R D sB i b l i o m e t r i c s C o w o r d C o w o r da n a l y s i s C I。A S SM m 佃墨E R(芝5 7l 概述共词分析方法最早被详细描述是在2 0 世纪7 0年代中后期由法国文献计量学家开始的
4、。共词分析经过2 0 多年的发展,方法已经被广泛应用到许多领域。研究者利用共词方法基本原理概述研究领域的研究热点,横向和纵向分析领域学科的发展过程、特点以及领域或学科之间的关系,反映某个专业的科学研究水平及其发展历史的动态和静态结构,拓展信息检索领域以求帮助用户检索信息等等。到目前为止,共词分析方法产生了大量的应用成果。主要集中的领域有人工智能(C o u r t i a l 和L a w,1 9 8 9)、科学计量学(C o u r t i a l,1 9 9 4)、人文学科计算研究(H o r t o n 等,1 9 9 8)、信息科学和信息系统的研究(M o n a r c h,2 0
5、0 0)、信息检索(Y i n gD i n g 等,2 0 0 0)等等。2 共词分析方法内涵共词分析方法属于内容分析方法的一种。它的原理主要是对一组词两两统计它们在同一篇文献中出现的次数,以此为基础对这些词进行聚类分析,从而反映出这些词之间的亲疏关系,进而分析这些词所代表的学科和主题的结构变化。它利用大量文献中共同出现的关键词对有效地反映文本关键词之间的关联强度,减少了关键词的空间,用一套结构图有效地展示了关键词之间的关联。共词分析方法的实施是要在理想化的状态下开展的,因此,学者们在研究过程中不断对共词分析的假设前提产生质疑。最早提出共词分析假设前提的是W h i t t a k e r(
6、1 9 8 9)J。他当时指出,选择文献作为共词分析的假设前提主要是:作者都是很认真地选择他们的技术术语;当在同一篇文章中使用不同的术语时,就意味着它们之间有一些关系并不微不足道,它们一定是被作者认可或要求的;如果有足够的不同作者都对同一种关系认可,那么这种关系可以认为他们所关注的科学领域具有一定的意义。当关键词被用于分析时,第四个论据被提出来,即经过培训的标引者选择出来的用来描述文章内容的关键词,事实上是相关科学概念可以信赖的一个指标。之后,L a w 和W h i t t a k e r(1 9 9 2)再次重申了上面假设中的两个,第一个是标引论文的关键词毫无疑问可以反映科学研究的现状,第
7、二个是其他科学家接受的观点可以影响未来使用类似关键词标引发表的科学论文。共词分析方法就是基于这样的一些假设而成立的。如果这些假设前提都成立的话,那么共词分析方法利用文章中词语对的共现频次来反映包含在文章中的概念结构就会成为可能。+本文得到国家软科学项目“科学发展趋势预测的理论与方法及其实践研究”(2 0 0 3 D G Q I B l 7 0)和国家自然科学基金项目“我国情报学学科发展、建设与前瞻性研究”(7 0 3 7 3 0 3 8)的资助。一8 8 万方数据冯璐冷伏海:共词分析方法理论进展F e n gL u,I J e n gF u h a i:D e v e l o p m e n
8、to fT h e o r e t i c a lS t u d i e so fC o W o r dA n a l y s i s3 共词分析方法演进从共词分析方法发展至今,共词分析方法主要经历了3 个阶段,即第一代基于包容指数和临近指数的共词分析方法,第二代基于战略坐标的共词分析方法以及新一代基于数据库内容结构分析的共词分析方法。3 1 基于包容指数和临近指数的共词分析方法3 1 1包容指数和临近指数1 9 7 9 年和1 9 8 1 年,S e r g eB a u i n 等使用包容指数(i n c l u s i o ni n d e x)和邻近指数(P r o x i m i t
9、 yI n d e x),分别显示了水产研究的动态变化。包容指数和邻近指数主要用于测量款目之间关系的强度J。包容指数主要用来计算主题领域的层次,计算公式如下HJ:I i j=C 0 m i n(C i,c j)1 其中,c i j 代表关键词对M i 和M j 在文献集合中的数量;C i 代表关键词M i 在文献集合中的出现频次;c j 代表关键词M j 在文献集合中的出现频次;m i n(c i,q)代表c i 和q 两个频次的最小值。这个公式可以用来计算那些出现频次相对高的关键词。当存在着一些中间关键词(m e d i a t o rk e y w o r d s),而且这些关键词的相对出
10、现频次比较低,但是仍然在这些非重要的关键词之间存在着一定的关系,于是用临近指数来计算潜在的领域,计算公式如下:P i j=(C i j C i C j)N 2 其中,c i j、C i 和C j 同公式 1 中表示的意思一样,N 代表集合中文献的数量。之后经过T u r n e r、W h i t t a k e r、L a w 和W h i t t a k e r、C o u l t e r、C o u l t e r 等人不断研究,C a l l o n 等提出等价系数(E q u i v a l e n c eC o e f f i c i e n t,简化为E),用来计算关键词之间的关
11、联值。E 0=(C i j C i)(c o q)=(c i j)2(C i c j)3 其中,E i _ j 的值也是在0 1 之间。由于蹦可以同时计算关键词i 和j 出现在对方集合的频次,因此T u r n e r 和他的同事称这个参数为相互包含的系数。3 1 2 包容地图和临近地图以上面3 个指数为基础,把主题词或关键词聚类成组,并以网络地图的方式表现出来。通过比较不同时期的网络地图,就可以表现出科学的结构和动态变化。C a l l o n 等在1 9 8 6 年提出了两个术语:包容地图(I n c l u s i o nM a p)和临近地图(P r o x i m i t yM a
12、p)。它们的创建都是在计算包容指数和临近指数基础上进行的拍】。包容地图用于揭示领域内的中心主题,描述低频次关键词之间的关系,这个图涉及了更多某个主题的信息。建立过程是:在计算包容指数后,选择包容指数值最高的关联,这些关联的节点作为第一个聚类的起始点。其他的关联和相应的节点按照包容指数递减的顺序添加到地图中,直到达到阈值1 0。然后去掉所有这些包含在聚类中的节点,下一个地图再从剩下的关联中找最高的包容指数值。临近地图用于揭示隐藏在中心主题之中的较小领域的关系,这个图更多地涉及了主题之间的关联。建立过程是:计算临近指数建立临近地图。如果阈值P n 达到足够低,关键词之间更多的临近关系将出现在地图中
13、,同时,关键词中间值和热点主题也会在包容地图中出现。这样,就可以研究次要主题与热点主题之间的关系了。还可以采用另外一个聚类的方法,是C a l l o n(1 9 9 1 年)提出的o“。在这个方法中,使用等价系数测量关键词之间的强度。使用阈值1 0 来限制一个聚类的词语数量。首先选择E 最高的关联。当一个聚类已经有1 0 个单词的时候,下一个关联将被拒绝。这个第一个被拒绝的关联值被称为是“饱和阈值”(s a t u r a t i o nt h r e s h d d)。一个聚类产生后,另一个聚类开始了。一个新聚类的第一个关联的E 值被称为是“最高限度阈值”(c e i l i n gt h
14、 r e s h o l d)。在这些值的基础上,产生了3 个不同的聚类:第一个是孤立的聚类(i s o l a t e dc l u s t e r s),它的特点是与其他聚类的关联值为空或较低;第二个是次要聚类(s e c o n d a r yc l u s t e r s),它与其他聚类的外部关联值在最高限度阈值上,有足够的理由认为它们与外部的聚类之间的关系是正常的延伸;第三个是主要聚类(p r i n c i p a lc l u s t e r s),其中一个或更多的聚类是有关联的,它们的关联值达到了饱和阈值。之后,C o u l t e r 等(1 9 9 6)把聚类的过程划分为
15、两个阶段(t w op a s s)坤J。在p a s s 一1,和上面的建立包容地图过程类似,用E 计算两个关键词之间的关联强度。在这一阶段,产生了一些描述符之间的关系,这些描述符被称为是内部节点,这些相应的关联被称为是内部关联。在p a s s 一2,通过添加p a s s 一2 关联来扩展聚类。P a s s 一2 中两个节点的关联必须包含在p a s s一1 聚类中。P a s s 一2 中的节点和关联都被称为是外部的。P a s s 一1 建立用来确认集中研究的领域;p a s s一2 可以确认不只与一个网络有关的描述符指出潜一8 9 万方数据第3 2 卷第1 6 2 期V 0 1
16、3 2 N o 1 6 2中国图书馆学报J O U R N A LO FL I B R A R YS C N C EI NC H I N A2 0 0 6 年3 月M a r,2 0 0 6在的关系。3 2 基于战略坐标的共词分析方法在早期,对采用共词分析方法产生的结果进行分析非常困难,一些专家开始怀疑共词分析结果的可行性。这种情况下,研究者提出建立战略坐标来分析结果一J,这在后来被称为是第二代的共词分析,而把前面提到的利用包容指数和临近指数进行的共词分析称为第一代共词分析。3 2 1 战略坐标战略坐标(s t a t e g i cd i g r a m)是在建立主题词的共词矩阵和聚类的基础
17、上,用可视化的形式来表示产生的结果。目前这个战略坐标已经被用于许多共词分析的研究中,例如T u r n e r 等(1 9 8 8)、C o u r t i a l 和L a w(1 9 8 9)、T u r n e r 和R o j o u a n(1 9 9 1)、C a l l o n 等(1 9 9 1)、C o u l t e r 等(1 9 9 8)。1 9 8 8 年L a w 等提出了用“战略坐标”来描述某一研究领域内部联系情况和领域间相互影响情况。在战略坐标中,X 轴为向心度(C e n t r a l i t y),表示领域间相互影响的强度;Y 轴为密度(D e n s i
18、 t y),表示某一领域内部联系强度。其中:向心度用来测量一个学科领域和其他学科领域的相互影响程度。一个学科领域与其他学科领域联系的数目和强度越大,这个学科领域在整个研究工作中就越趋于中心地位。对于特定的类别,向心度的计算可以通过该类别的所有主题词或关键词与其他类别的主题词之间链接的强度来进行。这些外部链接的总和、平方和的开平方等都可以作为该类别的向心度。密度用来测量组成聚类的词语之间的关联强度,也就是聚类内部的强度。它很好地说明了维持一个聚类的能力以及在领域中发展的过程。某一类别密度的计算可以有多种方式,首先计算本类中每一对主题词或关键词之间的在同一篇文献中同时出现的次数,通过计算这些内部链
19、接的平均值、中位数或者平方和,得出这个类别的密度。以向心度和密度为参数绘制成的二维坐标即为战略坐标,它可以概括地表现一个领域或亚领域的结构。其典型结构是横轴表示向心度,纵轴表示密度,坐标的原点在两个轴的中位数或者平均数。这个地图将每一个二维空间的题目领域划分为4 个象限,可以用来描述各主题的研究发展状况。d e n s i t yQ u a d r a n t3Q u a d r a n t1P e i p h e r a la n dd e v e l o p e dC e n 删a n dd e v e l o p e dP a i p h a r a la n du n d a v a
20、l o p e dC a n t r a la n du n d e v e l o p e doQ u a d r a n t4Q u a d r a n t 2图1 二维空间的题目领域在第一象限,主题领域内部关联,并且处于研究网络的中心。它们的密度和向心度都较高。密度高说明研究主题内部联系紧密,研究趋向成熟。向心度高说明这两个研究热点又与其余各热点有广泛的联系,也就是与其余研究密切相关。在第二象限,主题领域比较集中,研究人员都有兴趣,但是结构不紧密,研究尚不成熟。这个领域的主题有进一步发展的空间,具有潜在的发展趋势。在第三象限,主题领域内部链接紧密,这些领域的研究已经形成了一定的研究规模。
21、有很多外围的社会组织加入研究,但是在整个研究网络中处于边缘。一9 0 一在第四象限,研究主题密度和向心度都较低,是整个领域的边缘主题,内部结构比较松散,研究尚不成熟。3 2 2 网络比较以战略坐标为基础,可以对不同时期的研究网络进行比较和评价。对结果的分析和评价可以从两个方面考虑,即网络稳定性(t h e st a b i l i t yo fn e t w o r k s)和网络比较(n e t w o r kc o m p a r i s o n)“。(1)网络稳定性。在战略坐标的基础上,可以分析聚类网络的稳定性,并预测未来的变化。这个问题在很多研究中都提出来了j 在研究中使用的方法主要有
22、两大类。万方数据冯璐冷伏海:共词分析方法理论进展F e n gL u,L e n gF u h a i:D e v e l o p m e n to fT h e o r e t i c a lS t u d i e so fC o W o r dA n a l y s i s一个是直接基于战略坐标(例如C a l l o n 等1 9 9 1,T u r n e r 和R o j o u a n1 9 9 1)。比如,相对于第一象限而言,位于第二象限和第三象限的研究主题内容可能会发生巨大变化。在第二象限中,没有形成结构的主题需要提高它们的一致性。在第三象限中,主题的范围可能需要扩展,为了更好
23、地表达它们在做什么,而它们变化的最终的目标就是向着第一象限的方向努力。第二种方法是基于向心度和密度的比率(C o u r-t i a l 等1 9 9 3,T u r n e r 等1 9 9 4)。这个比率被认为是许多研究科学和技术的发展阶段有意义的指标。如果比率趋向1,表明这个领域在研究网络中处于主流地位;如果比率远离1,表明主题的支持率在下降甚至是可能在研究网络中消失。(2)网络比较。在共词分析中,几个聚类可以被同时构建。为了研究不同聚类在同一时间的差别或在不同时间的差别,研究者们提出要进行网络比较。C a l l o n 等(1 9 9 1)提出3 个阶段的方法。他的方法的核心思想是先
24、利用公式T=(w i+W j)w i j 比较两个给定的聚类,其中W i 是在聚类c i 中的词语数量,W j 是在聚类C j 中的词语数量,w i j 是在聚类c i 和q 中的词语数量。然后比较它们在战略坐标中的位置,最终建立一个聚类的生命周期曲线。此外,L a w 和W h i t t a k e r1 9 9 2 提出参数影响指数(I n f l u e n c ei n d e x)和出处指数(P r o v e n a n c ei n d e x),用它们来说明在之后的时间内相似主题之间的关系。影响指数表明在一个聚类中某个主题内的词频与另一个聚类中任何给定的主题的关系,公式为:n
25、 j=(2x n i j+L n i j)(2 N i)4 其中,M i j 是出现在主题i 和后来的主题J 中词语的数量;L n i j 是在主题i 和与后来的主题j,但是之后不属于其他主题中词语的数量;N i 是在主题i 中词语的数量。I i j 的值高表示前面的主题对后面主题影响大。出处指数表明来自于任何给定的主题中的之前的那个聚类的第二个聚类中的词频。公式为:P i j=(2 M i j+L a i j)N j 5 其中,n i j 是出现在主题J 和先前的主题i 中词语的数量;L n i j 是在主题j 和与先前的主题i,但是之后不属于其他主题中词语的数量;N j 是在主题J 中词语
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分析 方法 理论 进展
限制150内