基于风险短语自动抽取的上市公司风险识别方法及可视化研究-胡小荣.pdf
《基于风险短语自动抽取的上市公司风险识别方法及可视化研究-胡小荣.pdf》由会员分享,可在线阅读,更多相关《基于风险短语自动抽取的上市公司风险识别方法及可视化研究-胡小荣.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、情报学报 2017年7月 第36卷 第7期 Journal of the China Society for Scientific and Technical Information, July 2017, 36(7): 663-668 收稿日期: 2017-05-02; 修回日期: 2017-06-20 基金项目: 中央级公益性科研院所基本科研业务费专项资金项目“上市公司年报数据库建设及服务系统研发” ( ZD2016-08) ,国家自然科学基金项目“科学基金项目产出专利对产业技术发展的影响研究” ( L1624039) ,国家社会科学基金项目“面向科技型中小企业创新的技术竞争情报方法体系研
2、究” ( 12CTQ030) 。 作者简介: 胡小荣,女, 1993 年生,硕士研究生,主要研究方向为文本挖掘, E-mail: ;姚长青,男, 1974 年生,博士,副研究员,主要研究领域为情报理论与方法;高影繁,女, 1974 年生,博士,副研究员,主要研究方向为文本挖掘、知识组织。 基于风险短语自动抽取的上市公司风险 识别方法及可视化研究 胡小荣,姚长青,高影繁 (中国科学技术信息研究所,北京 100038) 摘 要 上市公司作为证券市场的基石,其财务状况与风险信息是众多投资者与研究人员的关注焦点,而上市公司年报中的风险信息披露字段因其权威性与公开性成为研究者评估上市公司风险的研究依据。
3、目前针对风险信息披露字段内容的研究仅停留在基于分词与词频统计的风险分析层面,而单个的词并不能很好地揭示不同风险主题的具体表现和语义内容。本文采用基于多因素拟合的风险短语识别技术,对沪深两市环保行业 76 家上市公司年报中“风险因素”的文字描述字段进行处理,得到环保行业不同风险主题文本中的主题短语,最后使用 jQCloud词云图对风险主题短语进行可视化展示。 关键词 上市公司风险评估;互信息;左右熵;多因素拟合;可视化 Risk Identification Method of Listed Companies Based on the Automatic Risk Phrase Extract
4、ion and Visualization Hu Xiaorong, Yao Changqing and Gao Yingfan (Institute of Scientific and Technical Information of China, Beijing 100038) Abstract: The financial status and risk information of listed companiesthe cornerstone of the securities marketis the focus of many investors and researchers,
5、 who usually conduct their researches based on the risk information in-voked in annual reports of listed companies. The current methods are only based on word segmentation and frequency statistics, although a single word cannot capture the meaning of text and topics. This paper adapts the phrase ext
6、rac-tion technology based on multi-factor fitting into the risk assessment of 76 listed companies in the environmental protection industry in Shenzhen and Shanghai stock markets. Finally, we use jQCloud to visualize the theme phrase. Key words: risk assessment of listed companies; mutual information
7、; information entropy; multi-factor fitting; visu-alization 1 引 言 企业的风险是“未来的不确定性对公司实现其目标的影响” ,存在于企业生产经营活动的各个环节,在当前市场经济条件下,市场需求日趋多样,竞争程度愈加激烈,企业面临的风险日益加剧。而上市公司作为证券市场的基石,直面众多投资者,其经营状况会影响到投资者、证券市场乃至整个国万方数据664 情 报 学 报 第 36 卷 民经济。因此,上市公司的风险信息成为众多投资者与研究人员的关注焦点。中国证监会发布的公开发行证券的公司信息披露内容与格式准则 2 号对上市公司年度报告中关于上市
8、公司风险信息的披露做出相关规定,上市公司需针对自身的实际情况,充分、准确、具体地描述相关风险因素。 上市公司风险信息披露的数据公开可获取的特性使得众多研究者开始以此作为研究对象来评估上市公司风险。上市公司风险信息披露方式规定较为模糊1, 大多数公司根据本公司面临的风险情况进行文字性描述。目前该类研究以基于分词与词频统计的文本分析方法为主,通过高频主题词分析文本的主旨2, 而单个的词并不能很好地揭示不同种类风险的具体表现和语义内容。例如, “原材料价格”比“原材料”和“价格”两个单独的词表现出来的语义要更加丰富。因此,本文采用基于多因素拟合的风险短语抽取方法,以沪深两市环保行业 76 家上市公司
9、年报为背景数据,通过对“风险因素”文字描述字段的分析,得到环保行业不同风险主题文本中的主题短语,以获取更丰富的语义表现 ,最后以词云图的方式进行可视化展示,使结果更加直观。 2 国内外研究现状 国内外关于上市公司风险的分析主要基于上市公司年报或招股说明书中的风险披露字段及年报中的财务数据。最常见的分析方法是通过对上市公司年报中的财务数据进行量化分析来实现对上市公司财务风险的评估。着眼于对上市公司的风险披露及对策字段进行分析是近年来的一个研究热点,该类该部分的研究又分为两个维度: ( 1)对风险披露方式存在的问题提出思考和改进。 蒋巍等3对浙江航民股份有限公司年报的风险披露字段进行实证研究,认为
10、我国上市公司风险信息披露的现状与规范要求仍有一定差距。 张曾莲4从理论和实证的双重角度对我国上市公司风险披露的现状和存在的问题进行评价,从而得到我国上市公司的风险信息披露质量,并为其规范和准则提供理论。 ( 2)对风险字段进行文本内容分析, Meijer5采用内容分析法对荷兰上市公司 2005-2008 年的年报中揭示的企业风险信息的类型和性质进行了纵向研究,以度量风险披露的数量。 Appiagyei 等6审查了加纳证券交易所( GSE)采用国际财务报告准则之前和之后的风险披露,并采用内容分析法对2004-2011 年上市公司的年报进行了检验。国内吴运建等7分析了我国上证 A 股上市公司年报中
11、的风险信息披露字段,应用内容分析法,对公司年报表示风险的关键词进行统计,用来表示风险信息披露的水平。 种莉萍8运用内容分析法对上市公司招股说明书中的风险字段进行比较分析和趋势分析,得出不同市场拟上市企业信息披露的差异性及近四年内上市公司风险信息披露的趋势,并在此基础上运用了非参数分析及描述性统计的方法进行了实证比较。赵一鸣等13将基于文本主题可视化的方法应用在计算机应用服务行业上市公司的风险分析上,根据 J. Donohue 提出的高频低频词界分公式, 得到代表主题的核心高频词汇,然后进行主题可视化分析,揭示该行业市场风险的具体表现和语义内容。徐静婷9在对招股说明书的文本内容进行分析时,引入了
12、文本挖掘技术,进行了基于词频的首要风险。 现有的基于风险披露文本内容分析方法的主要问题在于:单个的词不能很好地揭示主题,并且会丢失掉一部分语义内容,本文采取基于多因素拟合的短语自动抽取技术提取不同种类风险的主题短语,本文方法基于“短语的信息表征能力比单个词要强很多,它们在确定集合主题时比单个的词更重要”的假设。例如,在市场竞争风险主题中, “技术优势”比“技术”与“优势”两个词表达的信息更丰富;在替代产品风险主题中, “新产品风险”比“新产品”与“风险”两个词更能揭示主题的具体表现。 3 基于多因素拟合的风险短语识别技术及可视化方法 3.1 方法流程 从统计学的视角来看,一个短语的内部词之间的
13、结合紧密程度依赖于词语的共现频次10。因此,在进行短语提取时,最简单的方法就是统计候选词串的数量,即候选词串的内部词语之间的共现频次,但是这种方法会产生大量的噪音,结果中会包含很多不符合语法和语义的词串。为了消除词串统计方法的缺陷,基于多因素拟合的短语识别方法可以将词语的互信息、左熵、右熵这三个统计量相结合,首先对词串的互信息、左熵、右熵这三个统计量进行计算,用以判别词串的内部结合紧密程度和外部边界独立性,然后对互信息与左右熵进行综合计算,得到 score 值,根据 score 值得到候选短语序列。最后进行基于词频的短语过滤,筛选出符合语法与语义的风险主题短语。本文采用的基于多因素拟合的万方数
14、据第 7 期 胡小荣等:基于风险短语自动抽取的上市公司风险识别方法及可视化研究 665 短语提取技术流程如图 1 所示。 图 1 基于多因素拟合的短语提取流程 3.2 互信息的计算 为了简化文本中的统计计算,在该方法中对互信息与左右熵的计算方法进行了重新定义。二元互信息的计算公式( 1)如下: ()MI( ) log log() ()tabnpttNpxpy n n( 1)其中, t 为候选词串, x , y 为候选词串 t 的内部词语。()pt , ()px , ()py分别表示 t , x , y 的概率。采用简单的归一化频率形式来估计概率: () /tpt n N , ()px /xnN
15、, () /ypy n N . tn ,xn ,yn 分别表示 t , x , y 在语料中出现的频次, N 是集合中所有长度满足阈值的候选词串的总数。互信息体现了两个词之间的相互依赖程度,互信息值越高 , 表明 x 和 y 相关性越高,则 x 和 y 组成短语的可能性越大;反之,互信息值越低, x 和 y 之间相关性越低,则 x 和 y 之间存在短语边界的可能性越大。 3.3 左右熵的计算 左熵的计算公式( 2)如下: 2() (|)log(|)LaAE W PaWW PaWW ( 2)右熵的计算公式( 3)如下:2() ( | )log ( | )RbBE W PWb W PWb W (
16、3)其中,LE 与RE 分别表示词串的左熵和右熵, W 表示候选词串, 12,nWww w ; A 表示候选词串左边出现的所有词的集合, a 表示集合 A 中的某一个词; B 表示候选词串右边出现的所有词的集合, b 表示集合 B 中的某一个词;如果某个词串的LE 与RE值越大,则该词串左右出现的词越多,搭配越丰富,那么该词串更有可能是短语。 3.4 基于多因素拟合的score值计算 score 值是对互信息与左右熵的综合计算。通过对互信息、左熵、右熵归一化之后求和得到,具体计算公式( 4)如下: score=MI/total_MI+LE/total_LE+RE/total_RE( 4)其中,
17、 MI、 LE、 RE 分别为某一候选短语的互信息值、左熵与右熵, total_MI、 total_LE、 total_RE 分别为候选短语序列的互信息值之和、左熵之和与右熵之和。本文采取由 score 值排序得到的抽取结果作为候选短语序列,并将其按照词频排序,通过词频降低噪声词的权重,以进行短语过滤。 3.5 可视化技术与词云图 在当前的大数据时代背景下,数据与信息量呈爆炸式增长,这就使得数据的处理变得更加复杂化,从大量数据中提取有效信息也变得更加困难。自然语言分析技术可以较好地从文本大数据中挖掘出重要信息11,但是挖掘出来的这些信息则需要一种更为直观、具象的组织表达形式,才能更加便于人们进
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 风险 短语 自动 抽取 上市公司 识别 方法 可视化 研究 胡小荣
限制150内