融合lda模型的政策文本量化分析——基于国际气候领域的实证-杨慧.pdf
《融合lda模型的政策文本量化分析——基于国际气候领域的实证-杨慧.pdf》由会员分享,可在线阅读,更多相关《融合lda模型的政策文本量化分析——基于国际气候领域的实证-杨慧.pdf(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2016年5月 现代情报 May,2016笙三鱼鲞篁!塑 型堡丝堡竺型型竺 !堕;堑 型竺:!应用研究融合LDA模型的政策文本量化分析基于国际气候领域的实证杨 慧1,2杨建林12(1南京大学信息管理学院,江苏南京210023;2江苏省数据工程与知识服务重点实验室,江苏南京210023)摘要政策文本是政策生命周期的核心要件,对其进行多种维度的内容挖掘与国内外的对比分析不但有利于指导政策的制定,还有益于把握国际局势,以提升国家软实力。对于政策文本内容的量化研究而言,目前的学术成果采用的方法主要有基于数理统计的内容分析类、文献计量类、社会网络分析类、文本挖掘类等方面。文章选取国际气候领域作为试点对象
2、,采用主题模型的新视角。对采集到的政策文本数据进行基于语义的主题挖掘,并同时融合词频及分布形态研究、时间离散化、实证研究等方法综合对比分析我国与美国、欧盟的气候政策情况。最后,根据数据证据为我国相关政策的制定提出完善建议。关键词LDA;模型;政策文本;主题挖掘;量化分析;R语言;国际气候领域13(3l:10 3969iissn10080821201605012(中图分类号G202 (文献标识码A (文章编号10080821(2016)05007111Quantitative Analysis of Policy Text Merged with LDA ModelBaSed on the Fi
3、eld of Intemational Climate as DemonstrationYang Huil2 Yang Jianlinl2(1School of Information Management,Nanjing University,Nanjing 210023,China;2Jiangsu Key Laboratory of Data Engineering and Knowledge Service,Nanjing 210023,China)Abstract)As the core component of the life circle of policy,the polic
4、y text is worth being analyzed from the删e of multidimensional content mining and internationally contrasfive analysis,which is conducive to the guidance of policymaking,themastery of international situation and the pmmofion of national soft powerTo the dimension of the quantitative researches of the
5、policy text。the methods of the current researches are related to certain methods such as content analysis based on mathematicalstatistics,bibhometrics,social network analysis and text miningThis article chose international climate field as experimental Unit,and apphed topics mining based on semantic
6、 aspect to the gathered policy text data from the flew perspective of topic modelMeanwhileby merging study of word frequency and distribution,time discretization,empirical study and other methods,this ar。ticle made comprehensive and contrasfive analysis of climate policy of China,EU and US,and propo
7、sed suggestions to the relatedpolicymaking based on data evidence as the conclusionsKey wordsLDA;model;policy text;topics mining;quantitative analysis;R language;international climate field政策法规原始文本作为一种特殊类型的文献具有期刊论文、专利文献等信息资源无法比拟的权威性、严肃性、约束力。其广义上的文本内涵表现为由国家或地区的各级权力或行政机关以文件形式颁布的法律、法规、部门规章等官方文献,通常被统称为政
8、策文本。学术界对于政策法规的研究由来已久,研究对象涵盖政策法规的制定、执行以及效果、环境变量和反馈等重大方面,研究触角遍及政策法规的整个生命周期,采用的量化分析手段涉及运筹学、收稿日期:2016一0108基金项目:国家社会科学基金项目“社会化信息搜寻认知模型研究”(项目编号:149rQ046)研究成果之一。作者简介:杨慧(1992一),女,硕士研究生,研究方向:数据挖掘、信息检索。一71万方数据2016年5月第36卷第5期 融合LDA模型的政策文本量化分析May,2016V0136 No5系统论与控制论、计量经济等众多领域。以上的研究切面很多是跳出政策文本,进行宏微观环境的模拟与探讨。作为社会
9、的风向标以及生命周期的核心要件,相对于整个生命周期瑰丽的量化分析手段而言,政策文本的量化分析手段则较为简约,亟待开发与拓展。相对单调的量化分析手段与政策文本自身的特性休戚相关。作为文本对象,政策文本的研究方式源于文献解读,即在思辨的基础之上结合研究者的专业素养和政策领悟,通过分析政策文本的谋篇布局以及修辞与表述方式,探测出相关政治立场,并基于此进行深度解读或政治变迁的预测与估量。然而,当思辨形式的文本解读无法满足学术界关于理性主义、科学主义的诉求,以试图弥补以往研究的模糊性、经验性的量化主义便开始萌芽与发展。量化主义着手于从政策文本的外部特征和内容特征发现数量规律与政治现象,研究方式不仅是基于
10、单篇文本层面的微观统计,还涉及特定领域大批量文本的宏观计量。纵观政策文本量化分析的历史进程,时至今日,在循序渐进中已经形成几条较为可行的研究方法与基本范式,笔者认为可以归纳为以下几大方面:基于数理统计的内容分析类。模式表现为基于一定的理论工具,提出基本的文本分析框架并制定量化标准,采用多人编码或者专家打分的方式,从不同维度来测度文本的基本单元和内涵。典型的流程如国内学者盛亚等人在研究创新政策中的利益相关者时,通过引入Rothwell等学者有关政策分类工具的理论成果,制定分类维度与内容编码标准,融合抽样以及多组多轮的分析方式,在结果的信度水平满足基本要求的情况下得出研究结论。文献计量类。旨在将传
11、统的文献计量方式迁移至政策文本,并在此基础上进行创新。李江【2j等学者提出“Policiometrics”即政策计量学这一概念,认为其是一种研究政策文本外部和内容结构属性的定量分析方法。研究切入点不仅涉及关键词共现、发文主体以及年份计量、政策类型及效力等传统视角,还包括文本内容中参照分析以及知识扩散等方面。社会网络分析类。政策文本的社会网络分析视角常与文献计量方法融合交汇,不同的是,社会网络分析视角更加注重融合图论和传播学知识,注重从宏观视角展现政策文本中所隐含的关系网络、语言关联、行动关系。如张永安J等学者就运用社会网络分析法描绘出了相关领域政策发文主体的关系网络图谱。文本挖掘类。在以往的定
12、量分析方法均存在人力耗损较大、信息抽取方式过于简单、内容细节容易被忽视等情况下,部分学者开始尝试文本挖掘视角,这也是本文随后探讨的主要方面。综合方法。通过对以上方法进行两两或多方融合并辅以其他特定分析手段,力求从多角度进行文本内容的全方位探讨。这种融会贯通的量化分析偏好将成为政策文本分析今后发展的重要方向。通览上述方法的特性,不难发现文本挖掘的应用程度一72一将成为提升政策文本量化分析成熟度的关键。其丰富的研究手段不仅能够从政策文本中发掘出潜在的信息与知识,还能够凭借技术理性和机器效率完成文本内容多种维度的特征识别与信息抽取,为内容分析和政策文献计量等方法提供坚实的数据基础与效率支撑。由于政策
13、文本有诸多特性,目前文本挖掘对其的应用程度尚不高,研究处于起步期。针对政策文本的高词项维度、多主题分布特征,本文将主题挖掘技术引入政策文本分析,通过基于主题的语义降维,探知政策文本潜在的主题内容及演化趋势。为使研究成果能够反映当下热点并更具实际价值,本文选取气候领域作为研究对象,因为随着发达国家碳资本主义的发展以及发展中国家能源消耗的加强,气候问题日益突出并国际化。由于不同国家或者地区的经济发展水平、战略利益等方面彼此不同,气候政策制定存在差异,因此基于主题挖掘来对比分析相异的气候政策的内容及发展趋势,能够利于把握国际气候治理局势并提高国家的软实力,对我国气候政策的制定具有重要的意义。本文的研
14、究目的在于从主题分析的理论角度推进政策文本挖掘进程,并结合气候领域的分析实践验证主题挖掘的可行性及性能,最终根据研究结论为国家气候治理提供建议。1相关工作11政策文本挖掘研究进展文本挖掘技术是指可以从文本中获得隐含知识的一类技术的统称,相关研究与应用兴起于20世纪90年代,处理的对象从最初的非结构化文本逐步扩展到半结构化的网页,再进一步延伸至专利文献、科技报告等特殊类型的非结构化文本。随着政策文本量化分析的需求逐渐凸显,以及文本挖掘技术在众多领域所实现的璀璨价值,有学者开始尝试将文本挖掘前沿技术应用于政策文本的内容分析。例如,Prior等人(2012年)【4对英国的卫生领域的政策文件进行比较研
15、究,基于政策文本叙事结构的特征识别,将文本挖掘策略与语义网分析相结合,揭示出政策文本内容的基本元素;Talamini与Dewes(2012年)bJ对巴西有关科研机构的学术文献以及政府公文施行文本挖掘,从宏观环境维度和dwords视角抽取高质量文本内容,从而对比分析液体生物燃料的科研成果与实际政策问的差异;Li Jiexun等人(2010年)6 3提出了一个名为政策过程挖掘(Policybased Process岫)的新方法,将文本挖掘算法融入商业政策文本,以完成特定信息自动抽取;刘兴(2011年)【7 J通过融合正则自动机模型、改进的,IF算法以及朴素贝叶斯算法(Naive Bayes)实现了
16、税收政策公文识别;苏变萍(2008年)【8 J改进了文档自动分类模式,提出了面向政策法规web文本的一种动态可扩展的分类方法;熊小梅(2007年)19 J构建出法律案情文本分类系统,利用潜在语义分析技术进行万方数据2016年5月第36卷第5期现代情报Journal of Modem InformationMay2016V0136 No5文本二次降维,并使用支持向量机(Support Vector Machine)以及K近邻(KNearest Neighbour)技术测试文本分类。综合当下的研究成果,可以发现政策文本挖掘的成熟度和丰富度均有待提升。一方面从研究成果“量”的角度来看,政策文本挖掘类
17、文献较少,其学术投入的加强对改善政策内容分析定量不足而定性有余的整体态势具有实际意义。另一方面从研究成果的“质”上来看,当下政策文本挖掘类成果的研究视角主要集中在信息抽取、分类、聚类以及词项降维等方面,基于语义视角的技术补充则成为接下来的重要工作。由于主题挖掘技术的语义价值以及在降维方面的特殊作用,将其应用于政策文本分析以实现主题抽取则更具实际效用。12主题挖掘的发展概况以及政策文本的主题模型适用性论证主题挖掘技术伴随着自动文摘的研究而产生,其兴起始于学术界有关提升文本挖掘效能和深度的需求,技术开始从词项间的语义视角探知文本内容结构。随着单篇文档的局部主题无法满足研究需求,以及文本聚类、分类迫
18、切需要语义视角的补充,基于大规模语料库的多文档主题挖掘便成为研究热点。目前相关研究内容主要包括探知主题外延、主题内涵、主题寿命、主题强度、主题迁移以及主题问的关系等,分析手段主要包括基于主题模型、基于网络图、基于词汇链的构造、基于共词分析等。主题模型是主题挖掘常用手段,被广泛用于自然语言处理和机器学习。其产生源自1990年Deerwester SC等人提出的潜在语义索引(LSI),以及随之发展的概率潜在语义索引(pISI)。随后,David M Blei等人拓展了pLSI,提出了一个更完善的概率生成模型,即潜在狄利克雷分配模型(LDA)。作为非监督机器学习技术,IDA成为使用最为广泛的主题模型
19、,现在的主题模型大多是基于其的扩展,如CTM、LabeledLDA、PAM。目前,LDA的使用范围遍及文本情感分析、微博主题挖掘、话题追踪、垃圾评论屏蔽、知识挖掘、计算机视觉以及生物医学等领域,并由学术界逐渐延伸至工业界,已经发展成较为成熟的主题分析方法。对于政策法规这类特殊文本而言,由于其词项的高维特性,传统的基于相似性度量的分类和聚类等文本挖掘技术实施后的结果则缺乏可解释性,而其多主题特性则致使基于词频和内容结构规则的主题归纳方法失去实用价值。然而,主题模型则提供了新型语义降维与探索主题结构的新方法,将成为解决以上两大核心问题的关键技术。因为,主题模型具有清晰的层次结构,不仅能够从语义视角
20、将高维的“文档一词项”分布映射至低维的“文档一主题”、“主题一词项”分布,从而将基于语义的“中层特征”(即主题)取代“底层特征”(即词项),达到更具意义的文本降维,还能够将文本主题结构及其分布量化的展现出来,并挖掘出定性的角度难以归纳出的潜在语义关系,从而定量的实现政策法规这类特殊文本的多主题分析价值。此外,对于大规模语料库,主题模型的适用性和支持性均较为突出,这也使得分析大容量的政策法规文本库可行性较大。基于以上论断,本文将采用LDA主题模型进行气候领域政策法规原始文本的主题挖掘实践。2数据来源和处理方法21 采集对象依据UNFCCC(联合国气候变化框架公约)历史缔约方的气候治理态度,参与气
21、候国际谈判的国家或地区可被分为领跑者、伞形国家、发展中国家和特殊利益集团3种主要类型【101。本文选取欧盟、美国、中国分别作为这3种类型的典型代表,以发布的气候政策文本作为分析对象,进行主题挖掘与对比分析。为确保分析对象的可比性,本文聚焦最高层面的政策法规,因为顶层设计基本反映了一个国家或者地区的整体规划。此外,气候与能源、环境等国家核心架构联系密切,很多有关气候的政策法规其核心主题并不是气候,而是能源、环境等,这样的政策文本显然不能作为本文的主要数据来源,否则会形成较大的偏差。本文所采集的政策文本明确限定于标题包含气候的政策法规。22数据来源由于三方的法律体系、政府机构、公文类型均有差异,本
22、文以政府官方门户发表的公文情况为基准,利用爬虫抓取门户上的目标法律、法规、政策文件。本文将政策文本大类定义为:法律(法律、草案、议案等形式)、政府公布的所有相关类型的文件(所有相关部门或委员会公布的条例、政策、白皮书等),数据抓取时间为2015年7月。221欧盟欧盟法除了成员国国内法外,主要包括条约、二级法、补充法3个层面。有关欧盟的联盟层面的政策法规在官方门户EURLex(urI:http:eurlexeuropaeuhomepagehtml)均可以查到。符合要求的文件类型为除ConsolidatedLegislation(合并立法)和Parhamentary Questions(议会疑问)
23、外的所有类型,实验最终抓取满足条件的文件共计249份。222美国美国是宪政联邦共和制国家,有关美国的法律(包括议案)在国会门户(urhhttps:wwwcongressgov)均可获得,联邦政府以及相关部门的政策文件来自GPO(美国政府出版办公室,url:http:wwwgpogov)的FDsys(美国政府出版办公室联邦数字化系统)。该系统提供了美国政府自90年代以来的官方文件。根据文件集的简介,选择满足条件的文件集作为文件来源,融合两大门户最终抓取文件754份。一73万方数据2016年5月第36卷第5期 融合LDA模型的政策文本量化分析223 中国全国人大是中国的最高权力机关,享有立法权。国
24、务院(即中央人民政府)是最高行政机关的执行机关。我国政策文本的采集理应来自这两方。由于政府门户公布的信息仅是近年的,日一检索界面不够友好,故将数据来源替换为“北大法宝”(url:http:wwwpkulawca),目前国内最为权威的法律法规信息检索系统。筛选数据集后,最终抓取文件86份。23基于R语言的主题挖掘模型构建政策文本具有典型的长文本特性,其政治术语较多,语义表述较为完整。同微博等个人类短文本不同,政策文本并不涉及较多的情感词汇,也不涉及千变万化的表达习惯和个性标签,其内容的特征单元词往往具有规范性与文本间的连续使用性。此外,与学术文献等不同,政策文本L一May,2016v0136 N
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 融合 lda 模型 政策 文本 量化 分析 基于 国际 气候 领域 实证 杨慧
限制150内