基于stanford tmt的国际智库研究内容挖掘分析-董克.pdf
《基于stanford tmt的国际智库研究内容挖掘分析-董克.pdf》由会员分享,可在线阅读,更多相关《基于stanford tmt的国际智库研究内容挖掘分析-董克.pdf(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2016年第 2期1 引言智库(Think Tank)一词主要出现于 19 世纪 50年代,是研究宣传社会、政治和经济等特定主题的政策、战略的一类组织1。智库的建立可以追溯到19世纪早期,如1831年成立的英国皇家联合军种国防研究所2等。 美国宾夕法尼亚大学发布的2014全球智库指数报告指出,截至2014年,全球共有智库6618个,作为一类为政策和决策服务、生产思想和知识的社会组织, 智库已经成为整个社会发展中G80可G81G82的G83G84,G85是G86国“G87G88G89”G8AG8B的G8CG8DG8E3。2015 年 1 G8F,中共中G90、国务G91G92发G93G94于G9
2、5G96中国特G97G8CG98智库建G99的G9AG9B4, G9C国的智库建G99G9DG9EG9FGA0发展GA1GA2, GA3G94的研究G85GA4GA5GA6GA7GA8GA9GAAGABGAC报GADGAEGAFGB0的G86个学GB1的GB2GB3。 GB4GB5G9C国GB6有的智库GAF全球已经GB7有一定的GB8GB9G89, GBA智库研究GBB展GBCGBDGBEGBF,成GC0G85GBEGC1,GC2国GC3GC4的智库研究GC5GC6GC7G93GA3GC8GC9GCA的研究成GC0。 GCBGCCGCDGCEGCFGD0GD1大学GD2GD3GD4GD5GD
3、6GD7GD8组GBB发的 Stanford TMT 主题GD9G98GDAGB7GA8GC8国GC3智库研究GDBGCCG9DGDCGB0GDDGDEGDF研究,GE0GAFGE1GE2国GC3智库研究的主题GE3G84, GE4GE5GE6GB5智库研究的GE7GE8, 以期为G9C国G8CG98智库建G99GE9GEAGA3GEB的GD7信息分析与科学评价基于Stanford TMT的国际智库研究内容挖掘分析*董 克1程 妮2邱均平1,3(1.GECGED大学GEEGEFGF0GD7学G91 GF1GF2GECGED 430072)(2.GF3中GF4GF5大学GF6共GF0GD7学G9
4、1GEEGEFGF0GD7GF7 GF1GF2GECGED 430070)(3.GECGED大学中国GB1学GF8GF9研究中GFA GF1GF2GECGED 430072)摘 要:智库研究是当前各学科领域关注的共同热点。文章通过搜集 WOS 数据库中与智库相关的 727 篇研究论文,利用 Stanford TMT 主题模型工具包对研究论文的文本进行了主题挖掘,分析结果表明,当前国际智库研究主要包括智库建设与发展研究、特定领域和问题解决中的智库研究等两大类10 个主题;通过本研究的主题挖掘结果,也证明利用 Stanford TMT 主题模型工具包能够有效挖掘出文献隐含的语义主题, 主题模型分析
5、能够对共词分析等文献G80G81G82G83进行G84G85的G86G87。关键词:智库研究;研究G88G89;G8AG8B挖掘;主题模型;Stanford TMT中图分类号: G250.25 文献标识码: DOI:10.11968/tsyqb.1003-6938.2016038Mining the Content of International Think Tanks Research Based on Stanford TopicModeling ToolboxAbstract Think tanks research is a hot point in many disciplines
6、. Through an analysis of 727 research articles on thisdomain from Web of Science database by using Stanford Topic Modeling Toolbox (TMT) for content mining, it isfound that the international think tank research are clustered into two groups: construction and development research ofthink tanks, and a
7、pplications of think tanks with 10 subtopics. The Stanford TMT which is used for topic model analysiscan detect latent semantic topics of articles effectively and enhance the bibliometric methods such as co-words analysis.Key words think tanks research; research trends; content mining; topic model;
8、Stanford TMT*本文系中国博士后科学基金项目“科学知识多元计量聚合方法与应用研究”(项目编号:2014M562069)与国家社科基金项目“基于社交媒体的学术信息交流模型及实证研究”(项目编号:15CTQ024)研究成果之一。收稿日期:2016-02-27;责任编辑:魏志鹏93论支持和参考。2 数据来源与分析方法2.1 数据来源本研究的数据来源为WOS(Web of Science)核心合集,包含SCI、SSCI、A&HCI、CPCI-SH和CPCI-SSH等5个数据库,检索字段选择为主题,检索式为“thinktank*” OR “brain box*”, 文献类型为 articles
9、、pro鄄ceedings paper 和review, 检索时间为 2015 年 11 月30日,共获得文献记录727条,进一步抽取记录中的题名、关键词、摘要字段作为主题模型分析对象。从智库研究论文发表的时间分布(见表1)来看,WOS 数据库中最早与智库相关的论文发表于1968年,威斯康辛大学法学家Nieburg5在该文中论述了美国G80G81G82智库G83G84G85研究G86的G87G88G89G8AG8BG8CG8DG8E在智库G8F作G90G91的G92G93。G941968-1998G9530年间发文G96为95G97,G98G99G9AG9BG9C为G9D发文G9EG96的13
10、%G9FGA0。进GA1GA2GA3GA4GA5来,智库在美国、GA6GA7大、GA8国和GA9GAAGAB国的GACGADGAEGAF中GB0G9AGB1来GB1GB2要的作GB31,与GB4相GB5GB6的,从 2000 年G9FGA0GB7G88,国GB8学GB9GBA关于智库研究的论文数G96GBBGB7G88GBCGBDGBEGBF的GC0GC1。2.2 分析方法GC2GC3GC4GC5分析GC6GB9的发GC7, GC8GC9GA2的G90法GCAGCBGCCGB6GB3于学GCD主题的发GBD,LDA(Latent Dirichlet Al鄄location)GCEGCFGD0中
11、一GD1GD2型的GD3GD4GC6GB96。 LDA分析GD5GD6中包GD7GD8GD9GDA心要GDB:词、主题与文本。 LDA模型GDCGDD词GDEGDFGE0GE1GE2在的GE3GE4主题, GE3GE4主题GE5进一步GE0GE1文本;词与GE3GE4主题、GE3GE4主题与文本GB4间GE6GE7从GE8GE9GEAGEB分布; GEC于词和文本GEDGEE, GEFGD5Gibbs抽GF0等G90法对模型GF1GF2,最GF3G92G9A的主题GE6GF4GF5了文献的GC4GC5。 作为一GD1GF6GF7GF8学GF9的文本GC4GC5GD3GD4G90法,LDAGFA
12、GFB要对文本进GFCG9CGFD的GFEGFF,算法的复杂性GBBGFA高,提GBCGF3G92G9A了广泛的认可和GB6GB3。TMT(Topic Modeling Toolbox)GCFGEC斯坦福大学的自然GE3言处理小组专为社会GCD学研究G89员进GFC主题模型GB7发的分析G8F具8。 TMT支持Excel和Csv的数据格式,并且提供了 LDA、Labeled-LDA、PLDA 等GC9GD1主题模型分析算法供GB3户选择。 GB3户GFAGFB要较强的代码能力GCE可GA5GEFGD5TMT GDD定相GB6的运算参数,实GBD对主题模型分析GD5GD6的控GAE, 最终生GE
13、1包GD7丰富信息的分析主题结果, 因此本研究GA5该G8F具进GFC主题GD3GD4。3 智库研究主题分布经GD5GC9次试验,本研究最终选择了10 GD9主题进GFC模型计算。 最终分析G92G9A主题和GAB主题中GBCGBD频次G9C5的词(见表2),GEFGD5G95些词可GA5很GC5易地确定GAB研究主题的GC4GC5。 如主题4和主题5 GE6与医学相关, G94主题4GBCGBD的GC4GC5较泛, 而主题5 中GBCGBD了patients(病患)和 cardiovascular(心血管的)等词,说明该主题4与医学与健康教育相关, 而主题5 则GCF具体的特定病例智库。发文
14、时间(年) 发文数(G97) 发文时间(年) 发文数(G97)1968-1998 95 2007 311999 17 2008 282000 14 2009 442001 13 2010 472002 16 2011 502003 15 2012 672004 17 2013 682005 31 2014 792006 31 2015 64表1 国际智库研究论文的时间分布编号 主题 GBCGBD频率(次) GDA心词汇1专家GEE识与智库建GDD13436influence、expertise、ideas、institutions、policy2信息获取与决GAD支持1595informati
15、on、decision-making、data、groups、recommendations3气候变化与GB6对2833climate、energy、urban、environment、conservative4医学与健康教育智库2259medical、quality、teaching、student、care5 病例智库 5075patients、bladder、treatment、safety、cardiovascular6媒体视角的智库研究1963media、information、technology、internet、news7GAB国智库建GDD3204country、capita
16、l、federal、decision-making、china8 区域发GC7 6209community、results、systems、local、urban9风险管理与GB6对10386risk、assessment、report、current、data10G80G81与G82G83G84G852796security、european、relations、society、war表2 智库研究的10 个主题及其出现频率董 克,程 妮,邱均平.基于 Stanford TMT的国际智库研究内容挖掘分析图书与情报,2016(02):093-100942016年第 2期各主题在文献集中的频率分
17、布,概率越高,说明该主题相关的研究越多。从10个主题的出现频率中可以发现,专家知识与智库建设、智库在风险管理、区域发展中的作用、 医学病例智库等主题是当前研究的重点;各国智库发展状况、智库在外交和安全事务中的作用、智库与全球气候变化应对、医学诊疗智库等方面主题的研究居于其次;与信息获取与决策支G80、智库与G81G82关G83G84相关主题的研究G85G86。 10个主题中,专G87知识与智库建设、信息获取与决策支G80、各国智库建设主G88与智库的建设G89其现状相关;其G8A主题G8B主G88是智库在G8CG8DG8E题和G8F域中应用的研究。 G90于LDA的G91G92G93G94中G
18、95G96G97G98G99G9A文在G98个主题G9B的G9CG9D, G9EG9F可以GA0GA1G9CG9DGA2高的GA3GA4G9A文GA5G92GA6个主题的GA7G82GA8GA9。4 智库研究主题的具体内容4.1 智库建设与发展现状研究(1)专家知识和智库建设研究。专家是GAAGAB智库的重G88GACGAD, 专家知识在智库GAEGAF其GB0GB1的GB2GB3中GA7GB4重G88的作用, 国外GB5于专家知识在智库建设中的作用研究GB6GB7GB8GB9,GBAGBBGBC以GBDGBE是研究的GBFGC0。GC1GC2GC3GC4GC5家GC6GC7GC8GC2学的G
19、C9GCA管理学GCBMarden8GCCGCD,在GC9GCAGCE策的决策GB2GB3中,智库GCFGCFGD0GCCGCD是GA7GB4专G87知识的GD1G82,Marden GD2GB2对智库GBDGD3和发展GD4GD5的GA5G92, GD6GD7G97在GD8GC2GC3GC4GCEGD9GDAGDB中GDC现的GDDGDEGDF主GE0。GE1国GE2GE3GC2学的学GCBNye9GCCGCD专家知识、 学GE4理G9A和GE5GE6GE7作中GE8在的GE9GEA在GCE策的GEBGECGB2GB3中GEDG91明GEE, GBAGEFG9FGF0GF1的GF2GF3GB
20、4GF4GF5GF4GF6的GF7GF8,Nye GF9GFAG97GFBGFC现GFDGFEGFF的原G9E,GCCGCD如何在GCE策研究GB2GB3中搭建理G9A和GE5GE6GF0GF1的桥梁,是智库发展的重G88基础。 英国格拉斯哥GC2学的学GCBSchlesinger10GFAG9AG97G81G82、文化和GC9GCA事务G8F域智库提供的专家意见和专G87知识GABGCDGCE府决策依GA1的GB2GB3,并以英国GCD例,GA5G92G97英国智库在影响国家GC9GCAGCE策GEB定和创GDD经济发展GB2GB3中的作用, GCCGCD从GD4GD5的角度GBD看, 专家
21、的意见和专G87知识在整个智库的发展GB2GB3中起到G97至关重G88的作用11。 芝加哥GC2学全国民意研究中GA4的研究人员 Struyk G8412GCCGCD,地方GCE策智库在经济发展和社会GD9理GB2GB3中发GAFG97重G88的GCE策咨询作用, 地方GCE策智库的建设应当充GA5重视GB1力建设, 并提GDCG97GD6GD7地方GCE策智库发展GB1力的GD6价方案,取得G97GB8好的GE5GE6效G94。(2)信息获取与决策支G80研究。智库在信息获取G8E题G9B的态度和GB1力决定G97智库的决策支G80GB1力,GB9期的相关研究主G88集中于智库的信息获取倾
22、向,近年GBD,随着社交网络的兴起,Twitter、微博G84作GCD智库获取信息的GDDGBDGD3受到学GCB们的关注。 德国学GCBSchulz-Hardt 和Frey13GCCGCD智库GE5质G9B就是GBB个提供决策支G80的团G82,决策的科学与否依赖于智库所获取的信息是否全面可靠;G90G9F,他们从社会GA4理学的角度GA5G92G97组织决策GB2GB3中的信息检索行GCD,发现G97集G82信息搜索GB2GB3中偏见GFEGFF的机理, 并展望G97如何GC3用该研究GABG94使智库更好地获取信息并履行自身职GB1。 Schulz-Hardt14还进GBB步研究G97G
23、BB个G90201G80专家所GAAGAB的智库团G82的决策GB2GB3,发现信息获取策G85的G81G82是G83G84G85G9AGFEGFF的主G88原G9E, 从决策GB2GB3GBD说, G86点G9B的G87质G88和信G89是GDEG80智库团G82获取G8AG86信息,并GBAG8BGDCG8CG8D决策的GB4效依GA1。GE1国学GCBGolbeck 和Hansen15GA5G92G97G81G82偏见对于GCE策信息搜G8E的影响, 并设G8FG97GBBGFCGDD的方G90GBDG8FG91GD6GD7Twitter G92G93的GCEGD9G88行GCD和G86
24、点,他们GB6发G97相应的G8FG91机GB3G94并进行G97GE5G95研究, G93G94G96明该方G90GB1G97G98好地G99G9A智库决策受到G81G82和GCE策信息GBDGD3影响的机理。 德国学GCBHennigG8416GCCGCD博G8A是智库进行决策的重G88GB6GD3信息GBDGD3, G98G9B以G9CG9DG9EG9FGA0GA1加的博G8A中GA2GA3G97GC2G9F的GBF点信息, 可以GC3用博G8A信息进行GA4GA5GA5G92。(3)GA6国智库建设现状研究。GA6GA7GA6国GA8GB8GCD重视智库在GCEGD9、经济和社会GFF
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于stanfordtmt的国际智库研究内容挖掘分析-董克
限制150内