【广发金工】事件驱动策略之(十一):公告披露背后隐藏的投资机会——互联网大数据挖掘系列专题之(二).pdf
《【广发金工】事件驱动策略之(十一):公告披露背后隐藏的投资机会——互联网大数据挖掘系列专题之(二).pdf》由会员分享,可在线阅读,更多相关《【广发金工】事件驱动策略之(十一):公告披露背后隐藏的投资机会——互联网大数据挖掘系列专题之(二).pdf(19页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 识别风险,发现价值 请务必阅读末页的免责声明 1 1/1919 金融工程|专题报告 2014 年 6 月 26 日 证券研究报告 公告披露公告披露背背后后隐藏隐藏的投资机会的投资机会 互联网大数据挖掘系列专题之(二)互联网大数据挖掘系列专题之(二)报告摘要报告摘要:互联网金融互联网金融大大数据数据强势来袭强势来袭 近年来,随着互联网大数据及行为金融的发展,人们越来越关注非结构化的数据给投资者的投资决策带来的影响。在非结构化数据中,上市公司公告是其中一个组成部分。上市公司所披露的某些公告常常隐藏着许多关键信息,从而带给投资者巨大的想象空间,导致股价大幅波动。然而由于公告的发布具有非定期性以及内
2、容多样性等特征,导致我们很少能够对其背后隐藏的投资机会进行系统的识别分类并对未来利好信息的精准把握。本文的目的是通过对公告进行重新分类,并结合公告的披露频率以及公告日个股股价涨跌情况来对相应个股进行涨跌预测!公告披露事件选股策略构建公告披露事件选股策略构建 本专题中,针对上市公司最新披露的公告信息进行事件选股策略构建时,我们主要考虑了以下几方面的信息:(1)考虑公告类型考虑公告类型:公告主要划分为上述八大类,此外对于财务报表我们还单独划分了业绩预增与快报大幅超预期两类公告;(2)考虑长期未出公告考虑长期未出公告:在前期报告此时无声胜有声长期不出公告股票的投资机会中,我们发现上市公司若长期未出任
3、何公告,则在发布公告之后其股价上涨概率较高;沿用该思路,我们继续对个股的细分公告类型进行发布期限跟踪,若上市公司长期未出某一类型的公告,则跟踪其发布该类公告后的个股表现情况(3)考虑公告披露当日个股表现考虑公告披露当日个股表现:同一类型的公告,若不细分公告的具体内容实际上还难以界定该类公告属于利好还是利空,同样也难以与其其对股价带来的影响;而考虑公告日个股股价表现实际上是参考了公告日投资者对该公告的普遍预期偏差情况,因此我们将不同的公告类型在公告披露当日的个股表现情况列为重点区分标准之一。重大事项及股东大会公告等策略选股能力突出重大事项及股东大会公告等策略选股能力突出 历史回测结果表明,财务报
4、表、股东大会、增发公告以及重大积极事项等公告策略的选股效果相当突出,均能获得较高的超额收益。其中,建议买入披露财务报告当日股价窄幅震荡的个股,持有一周左右,平均能获得年化超额收益 37%,信息比 1.02;建议买入发布股东大会公告的个股,若个股当日个股大涨则效果更佳,持有期为一个月左右,平均年化超额收益 20%;增发公告当日,若个股大涨则坚决买入,持有期限为一个月左右,需要注意的是若个股当日没有大涨,则规避该类个股;重大积极事项披露同样带来个股显著超额收益,可持有 10 个交易日左右。图图 1 1:财务公告事件策略实证结果财务公告事件策略实证结果 图图 2 2:股东大会公告事件策略实证结果:股
5、东大会公告事件策略实证结果 表表 1:财务公告事件策略实证结果:财务公告事件策略实证结果 跌 平 涨 全部 年化收益年化收益 19.2%36.7%4.9%19.9%信息比信息比 0.66 1.02 0.31 0.68 回撤回撤 14.1%12.9%23.9%12.8%胜率胜率 55.0%54.6%51.2%54.4%数据来源:广发证券发展研究中心 分析师:分析师:史庆盛史庆盛 S0260513070004 020875558888618 相关研究:相关研究:基于网络新闻热度的择时策略互联网大数据挖掘系列专题之(一)2014-06-25 广发证券金融工程:事件驱动量化选股周报 2014-06-2
6、3 此时无声胜有声长期不出公告股票的投资机会 2012-03-21 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2012-01-04 2013-01-04 2014-01-04 沪深300 公告日个股跌 公告日个股平 公告日个股涨 全样本 0.6 0.8 1 1.2 1.4 1.6 1.8 2012-01-04 2013-01-04 2014-01-04 沪深300 公告日个股跌 公告日个股平 公告日个股涨 全样本 识别风险,发现价值 请务必阅读末页的免责声明 2 2/1919 金融工程|专题报告 目录索引目录索引 一、互联网大数据挖掘体系介绍.4 1.1 什么是互联网大数据?.4
7、 1.2 互联网金融数据获取.5 1.3 互联网大数据抓取体系.6 二、公告数据来源及抓取.8 2.1 公告类型.8 2.2 数据来源.9 2.3 公告信息披露平台结构.10 三、公告披露事件驱动选股策略构建.11 四、实证分析.12 4.1 数据说明.12 4.2 实证结果.12 4.3 工具推介.16 五、总结.17 风险提示.18 识别风险,发现价值 请务必阅读末页的免责声明 3 3/1919 金融工程|专题报告 图表索引图表索引 图 1:财务公告事件策略实证结果.1 图 2:股东大会公告事件策略实证结果.1 图 3:互联网数据来源.5 图 4:文本信息挖掘流程.6 图 5:互联网数据抓
8、取体系.7 图 6:上市公司公告类型划分.8 图 7:公告数据抓取首页.11 图 8:公告数据抓取内容.11 图 9:财务公告事件策略实证结果.13 图 10:股东大会公告事件策略实证结果.14 图 11:增发公告事件策略实证结果.15 图 12:重大积极公告事件策略实证结果.16 图 13:A 股公告抓取工具展示.17 表 1:财务公告事件策略实证结果.1 表 2.著名 IT 公司文本挖掘项目.5 表 3.上市公司公告类型划分明细.9 表 4:财务公告事件策略实证结果.13 表 5:股东大会公告事件策略实证结果.14 表 6:增发公告事件策略实证结果.15 表 7:重大积极公告事件策略实证结
9、果.16 识别风险,发现价值 请务必阅读末页的免责声明 4 4/1919 金融工程|专题报告 一、互联网大数据挖掘体系介绍一、互联网大数据挖掘体系介绍 1.1 什么是什么是互联网互联网大数据大数据?随着云时代的来临,大数据(Big data)也吸引了越来越多的关注,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。正如纽约时报的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。实际上,大数据从很早以前就一直存在着,然而只是光只有数据大是没有用处的。世界上最大的数据估计和互联网一点关系都没有,今天
10、我们所普遍关注的数据不仅仅是大,最重要的是这些大数据是以在线的形式存在了,这个恰恰是互联网的特点。所有东西在线这个事情,远远比“大”更反映本质。像快的打车要用一个交通的数据,如果这些东西不在线,是没有用的。又好比今天的淘宝数据和大众点评数据,因为他在线了,所以就值钱!写在磁带、写在纸上的数据,根本没有用,也没法用。反过来讲,互联网也让数据搜集变得非常容易。过去美国谁要做总统,需要做盖勒普调查,去街上拦2000个人,在纸上打个勾,预测就很准了。现在不用做这个事情,只要在twitter上分析每个人发的东西,就可以知道总统会是谁了。可见,互联网行业的“大数据”才称得上是有使用价值和可操作性的“大数据
11、”!这些数据的规模是如此庞大,以至于不能用G或T来衡量,因此也常常称为“巨量数据”或“海量数据”,具有数量巨大、结构复杂、类型众多等特点。那么互联网大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于时代杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万 目前,互联网上的数据量已经从以往的TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024
12、EB=1ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。互联网发展已有二十年,这二十年就是各行各业被互联网冲击的二十年,最先受到冲击的是媒体,然后是零售业、旅游,刚刚开始的
13、是金融业!受冲击行业的每一次涅受冲击行业的每一次涅槃槃,也是一次重生,也是一次重生!例如:媒体行业诞生了以雅虎为代表的门户,谷歌、百度为代表的搜索引擎,Twitter为代表的社交媒体,至今这个行业的变化还在继续;在零售业,产生了阿里巴巴、亚马逊、易贝这样的电商公司;在旅游行业则诞生了携程、去哪儿网这样的公司;而金融行业的故事则刚刚开金融行业的故事则刚刚开始始 识别风险,发现价值 请务必阅读末页的免责声明 5 5/1919 金融工程|专题报告 1.2 互联网互联网金融金融数据获取数据获取 伴随着互联网的快速发展,信息的提供者与使用者之间的界限已经越来越模糊。在互联网金融时代的背景下,金融信息的来
14、源渠道也越来越丰富多样。投资者有更多的渠道来获取相关的金融信息,过去上百年的金融研究,往往局限于对以数字形式存在的数据的研究,而忽略了对非结构化的金融“数据”的研究,在当前互联网时代下,分析师的研究报告、股吧论坛帖子的信息、新闻媒体的新闻以及微博和维信等非结构化文本信息往往能够反应当前市场上投资者对股市的投资情绪,而这些信息往往又对投资者的投资决策起到潜移默化的作用。采用互联网文本挖掘的方法对这些非结构化文本形式存在的金融信息进行挖掘,并从中提取出对投资决策有利的信息是该专题报告研究的重点。图图3:互联网数据来源互联网数据来源 数据来源:广发证券发展研究中心 基于上述三类数据来源,我们将采用互
15、联网文本挖掘技术来获取相关的信息。“文本信息挖掘”的概念最早由Ronen Feldman博士提出,并倡导将非结构化的内容转变为有价值的商业智能行业中,即文本驱动商务智能概念。目前许多IT巨头已经纷纷在不同领域针对大数据开展了文本挖掘的项目。表表2.著名著名IT公司文本挖掘项目公司文本挖掘项目 公司公司 文本挖掘项目 谷歌谷歌 X Lab,谷歌大脑项目 微软微软 TextFlow项目 脸书脸书 深度学习研究小组预测用户行为 百度百度 创建深度学习研究院 腾讯腾讯 成立中文处理研究室,从事文本挖掘研究 文本信息挖掘是通过分析用户数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示
16、等步骤。移动互联网数据具有数据量大、数据结构复杂、数据内容分散等特点,呈现出爆炸性增长的趋势。因此,为了从浩如烟海的数据中提取出有效信息,必须选择合适的数据挖掘策略。识别风险,发现价值 请务必阅读末页的免责声明 6 6/1919 金融工程|专题报告 信息挖掘是一个复杂的过程,需要进行大量的数据采集和运算等。按照基本功能,可以将整个信息挖掘流程划分成内容采集内容采集、内容挖掘内容挖掘和行为分析行为分析3个环节。图图4:文本信息挖掘流程文本信息挖掘流程 数据来源:广发证券发展研究中心(一)(一)内容采集内容采集 进行互联网文本数据挖掘的基础是数据的真实性和有效性,内容采集主要包括以下两个方面。a)
17、页面内容爬取。这是将网页的内容通过爬虫获取的部分,分析页面代码格式,进行网页代码的编码转换等,尽可能获取自己需要的信息。b)页面垃圾过滤。页面中不可避免地会存在大量的垃圾信息,这些信息严重干扰到对后期信息挖掘的准确性,页面垃圾过滤机制会找出包括广告在内的段落以及其他对内容挖掘无效的部分,并将其清除,不进入内容挖掘部分。(二)内容挖掘(二)内容挖掘 主要是对需要的特定信息进行提取,该阶段处理后的文本数据是后期进行分词、情感分析的基础;(三)行为分析(三)行为分析 整个文本挖掘过程的重点和难点是分词和情感分析,对于海量文本信息海量文本信息而言,程序的处理速度也是至关重要的一点。1.3 互联网大数互
18、联网大数据据抓取抓取体系体系 对于大规模的互联网信息抓取大规模的互联网信息抓取而言,单线程的数据获取是一项非常局限的事情,因此多线程、分布式的信息抓取平台是必须搭建的。因此数据的抓取平台的搭建是一项基础性的工作。整体上,我们的大数据抓取平台可分为三部分:首先是搜索热门网站,对需要提取信息的网站的网页编码格式、网页制作规则进行研究,提取出需要提取的信息的网页编码格式;第二是对需要提取信息的网站进行分布式配置,多线程爬取特定的信息,并将信息存储到指定的数据库中;第三,监控数据爬取过程,防止网站数据异常带来的数据抓取缓慢等问题,主 识别风险,发现价值 请务必阅读末页的免责声明 7 7/1919 金融
19、工程|专题报告 要是防止对指定网站的频繁访问导致IP被限制访问的问题。图图5:互联网数据:互联网数据抓取抓取体系体系 数据来源:广发证券发展研究中心 上图刻画了在大规模的互联网数据爬取过程中的整体框架,对于单个网站的的数据抓取框架可以简化成以下几个步骤:1)首先对需要批量爬取信息的网页结构进行研究,主要是研究需要提取的特定信息的网页格式进行研究,这步骤可以借助在IE浏览器下打开需要提取信息的网页,然后调用出开发人员工具,找到需要批量提取的特定信息的网页代码规则,或者利用Firefox浏览器下的XPATH工具以及View Source Chart工具;2)找到不同个股的网页url之间的关系,利用
20、url之间的关系,抓取所有个股的网页url;3)由于网页抓取的数据量往往非常庞大,出于效率的考虑,往往采用分布式、多线程的方式进行,若条件允许需要同时几十部甚至上百部电脑多个线程地抓取需要的内容。此时,就需要一台主程序电脑控制其他电脑的程序运转;在数据抓取过程中由于网络不稳定、电脑突然死机等问题,需要对抓取的过程进行监控,记录下每个进程运行的过程,防止数据抓取的缺漏,同时处于对网站安全的考虑,需要实时监控程序的运行,防止网络访问限制问题,设置适当的断线重连机制,IP切换机制等;4)对于抓取到的信息统一批量存储到指定的数据库中,构成后续分析的底层的数据库。识别风险,发现价值 请务必阅读末页的免责
21、声明 8 8/1919 金融工程|专题报告 二、公告二、公告数据来源及抓取数据来源及抓取 上市公司所披露的某些公告常常隐藏着许多关键信息,从而带给投资者巨大的想象空间,导致股价大幅波动。然而由于公告的发布具有非定期性以及内容多样性等特征,导致我们很少能够对其背后隐藏的投资机会进行系统的识别分类并对未来利好信息的精准把握。考虑到A股上市公司每日公告分别在上交所及深交所的信息披露平台上面实时公布的,我们自主开发编写了一套网络公告文本抓取系统并维护相应的公告数据库,实现同步维护交易所披露的公告,从而能够第一时间把握上市公司披露的报告,并通过对公告类型及公告内容等重要信息进行分析,从而挖掘公告披露背后
22、所隐含的投资机会。信息渠道信息渠道:上海证券交易所信息披露平台&深圳证券交易所信息披露平台 技术要求:技术要求:VBA+Matlab+多线程 数据特点及信息价值:数据特点及信息价值:非结构化金融数据、半结构化数据,对公告信息量化挖掘,获取有用价值 2.1 公告类型公告类型 什么类型的公告披露之后更加容易带来股价的上涨?由于公告类型较多,我们针对常见的公告分别建立不同的关键词库,用于识别公告类型,并将其分为8大类,其中,前三类公告分别为:财务报表、股东大会以及重大利好,这三大类公告一直以来都受到了许多投资者的重视,许多量化投资者及传统主动投资者都尤其关注这些公告的发布,我们不对具体的公告内容进行
23、区分,而同一默认将其划分为“利好”公告;第4-6类是大家所常见的“利空”公告,包括个股增发、交易异常信息提示、配股公告等,这些公告披露的同时,是否一定利空个股?最后两大类公告则没有明确的多空界定,包括股权股本相关业务公告以及公司重大事项等。在下文中我们将对上述公告类型进行一一测算,在区分公告类型的同时,也将结合公告披露当日个股股价的表现以及上市公司多长时间内未披露过该类公告一起来进行区分和定义,分析公告披露背后所隐藏的投资机会。图图6:上市公司公告类型划分上市公司公告类型划分 识别风险,发现价值 请务必阅读末页的免责声明 9 9/1919 金融工程|专题报告 数据来源:广发证券发展研究中心 表
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 广发金工 广发 金工 事件 驱动 策略 十一 公告 披露 背后 隐藏 投资 机会 互联网 数据 挖掘 系列 专题
链接地址:https://www.taowenge.com/p-91820920.html
限制150内