【广发金工】事件驱动策略之(十二):倾听股吧之声洞察大盘趋势——互联网大数据挖掘系列专题之(三).pdf
《【广发金工】事件驱动策略之(十二):倾听股吧之声洞察大盘趋势——互联网大数据挖掘系列专题之(三).pdf》由会员分享,可在线阅读,更多相关《【广发金工】事件驱动策略之(十二):倾听股吧之声洞察大盘趋势——互联网大数据挖掘系列专题之(三).pdf(24页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 识别风险,发现价值 请务必阅读末页的免责声明 1 1/2424 金融工程|专题报告 2014 年 6 月 27 日 证券研究报告 倾听股吧之声,洞察大盘趋势倾听股吧之声,洞察大盘趋势 互联网大数据挖掘系列专题之(三)互联网大数据挖掘系列专题之(三)报告摘要报告摘要:互联网金融大数据强势来袭互联网金融大数据强势来袭 伴随着互联网的快速发展,信息的提供者与使用者之间的界限已经越来越模糊,而在互联网金融时代的背景下,金融信息的来源渠道也越来越丰富多样。投资者有更多的渠道来获取相关的金融信息,过去上百年的金融研究,往往局限于对以数字形式存在的数据的研究,而忽略了对非结构化的金融“数据”的研究,在当前
2、互联网时代下,分析师的研究报告、股吧论坛帖子的信息、新闻媒体的新闻以及微博和维信等非结构化文本信息往往能够反应当前市场上投资者对股市的投资情绪,而这些信息往往又对投资者的投资决策起到潜移默化的作用。随着互联网的高速发展,投资者越来越倾向于在网络上通过各种股吧论坛来表达自己对市场的观点,同时获取自己所关注的个股信息,因此,在股吧中投资者所发表的文字信息常常隐藏着其对个股及大盘的情绪。构建股吧情绪择时指标构建股吧情绪择时指标 GS 使用网络文本挖掘的方法,我们抓取了淘股吧和金融界等热门股吧的股票帖子内容,并采用文本脱水、分词以及情感分析等方法得到每条帖子的“乐观”与“悲观”判断,最后结合该帖子的点
3、击量和回复量来构建股吧情绪指标GSt:GSt=(Dt+Ht)(Gt-Bt)下面,基于A股情绪指标GS时间序列构造布林通道,当某日股吧情绪指标剧增并且突破上界,则发出看多信号,突破下界则发出看空信号。布林通道上界:GS_UPt=(GSt的M日均值)*(1+N%)布林通道上界:GS_DOWNt=(GSt的M日均值)*(1-N%)当某日股吧情绪GSt剧增并且突破上轨,则发出看多信号,次日开始看多大盘指数,突破下轨则发出看空信号,次日开始看空大盘指数。GS 指标大盘择时效果突出指标大盘择时效果突出 将 NQ 指标应用于沪深 300 指数择时,自 2010 年以来策略年化绝对收益 40.2%,年化超额
4、48%;分年度来看,策略每个自然年度均获得正的绝对收益,胜率 100%,其中 2014 年截止 5 月份累计收益 9.23%。风险提示:风险提示:股吧言论仅仅是投资者表达情绪的一种方式,且关于投资者的情绪识别具有一定的误差,因此在此基础上搭建的量化策略并不一定完备和准确。图图 1:股吧情绪择时策:股吧情绪择时策略原理略原理 图图 2:股吧情绪择时策:股吧情绪择时策略净值略净值 表表 1.股吧情绪择时策略实证结果汇总股吧情绪择时策略实证结果汇总 年化收益率年化收益率 40.20%年化超额收益率年化超额收益率 48.90%胜率胜率 51.50%赔率赔率 1.2 数据来源:广发证券发展研究中心 分析
5、师:分析师:史庆盛史庆盛 S0260513070004 020875558888618 相关研究:相关研究:基于网络新闻热度的择时策略互联网大数据挖掘系列专题之(一)2014-06-25 公告披露背后隐藏的投资机会互联网大数据挖掘系列专题之(二)2014-06-26 识别风险,发现价值 请务必阅读末页的免责声明 2 2/2424 金融工程|专题报告 目录索引目录索引 一、互联网大数据挖掘体系介绍.4 1.1 什么是互联网大数据?.4 1.2 互联网金融数据获取.5 1.3 互联网大数据抓取体系.6 二、股吧数据结构及特点.8 2.1 股吧数据特点.8 2.2 股吧数据结构.8 三、股吧数据挖掘
6、及策略构建.11 3.1 核心技术.11 3.2 实现步骤.13 3.3 策略构建.19 四、实证分析.21 4.1 数据说明.21 4.2 实证结果.21 五、总结.22 风险提示.23 识别风险,发现价值 请务必阅读末页的免责声明 3 3/2424 金融工程|专题报告 图表索引图表索引 图 1:股吧情绪择时策略原理.1 图 2:股吧情绪择时策略净值.1 图 3:互联网数据来源.5 图 4:文本信息挖掘流程.6 图 5:互联网数据抓取体系.7 图 6:股吧数据特点.8 图 7:金融界股吧主网址示例.9 图 8:金融界个股股吧首页(平安银行示例).10 图 9:金融界个股股吧帖子内容(平安银行
7、示例).10 图 10:股吧情绪指标构建核心技术.11 图 11:股吧情绪指标构建步骤.13 图 12:金融界论坛股吧数据抓取流程.14 图 13:帖子内容提取范例.14 图 14:自定义金融词库范例.15 图 15:论坛帖子分词案例.15 图 16:情感分析步骤(关键词匹配法).16 图 17:单个句子情感分析案例.16 图 18:某日股吧帖子情感分析案例.17 图 19:股吧帖子点击量变化.17 图 20:股吧帖子回复量变化.18 图 21:乐观帖子数量变化.18 图 22:悲观帖子数量变化.19 图 23:Twitter 情感分析预测 Facebook IPO 走势.20 图 24:策略
8、构建原理.21 图 25:股吧情绪择时策略净值.22 表 1.股吧情绪择时策略实证结果汇总.1 表 2.著名 IT 公司文本挖掘项目.5 表 3.股吧情绪择时策略实证结果汇总.22 表 4.股吧情绪择时策略年度表现.22 识别风险,发现价值 请务必阅读末页的免责声明 4 4/2424 金融工程|专题报告 一、互联网大数据挖掘体系介绍一、互联网大数据挖掘体系介绍 1.1 什么是什么是互联网互联网大数据大数据?随着云时代的来临,大数据(Big data)也吸引了越来越多的关注,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。正如纽约时报的一篇专栏中所称,“大数据”时
9、代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。实际上,大数据从很早以前就一直存在着,然而只是光只有数据大是没有用处的。世界上最大的数据估计和互联网一点关系都没有,今天我们所普遍关注的数据不仅仅是大,最重要的是这些大数据是以在线的形式存在了,这个恰恰是互联网的特点。所有东西在线这个事情,远远比“大”更反映本质。像快的打车要用一个交通的数据,如果这些东西不在线,是没有用的。又好比今天的淘宝数据和大众点评数据,因为他在线了,所以就值钱!写在磁带、写在纸上的数据,根本没有用,也没法用。反过来讲,互联网也让数据搜集变得非常容易。过去美国谁要做总统,需要做盖勒
10、普调查,去街上拦2000个人,在纸上打个勾,预测就很准了。现在不用做这个事情,只要在twitter上分析每个人发的东西,就可以知道总统会是谁了。可见,互联网行业的“大数据”才是真正有使用价值和可操作性的“大数据”!这些数据的规模是如此庞大,以至于不能用G或T来衡量,因此也常常称为“巨量数据”或“海量数据”,具有数量巨大、结构复杂、类型众多等特点。那么互联网大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于时代杂志770年的文字量);卖
11、出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万 目前,互联网上的数据量已经从以往的TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数
12、据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。互联网发展已有二十年,这二十年就是各行各业被互联网冲击的二十年,最先受到冲击的是媒体,然后是零售业、旅游,刚刚开始的是金融业!受冲击行业的每一次涅受冲击行业的每一次涅槃槃,也是一次重生,也是一次重生!例如:媒体行业诞生了以雅虎为代表的门户,谷歌、百度为代表的搜索引擎,Twitter为代表的社交媒体,至今这个行业的变化还在继续;在零售业,产生了阿里巴巴、亚马逊、易贝这样的电商公司;在旅游行业则诞生了携程、去哪儿网这样的公司;而金融行业的故事则刚金融行业的故事则刚刚开刚开始始 识别风险,发现价值 请务必阅
13、读末页的免责声明 5 5/2424 金融工程|专题报告 1.2 互联网互联网金融金融数据数据获取获取 伴随着互联网的快速发展,信息的提供者与使用者之间的界限已经越来越模糊。在互联网金融时代的背景下,金融信息的来源渠道也越来越丰富多样。投资者有更多的渠道来获取相关的金融信息,过去上百年的金融研究,往往局限于对以数字形式存在的数据的研究,而忽略了对非结构化的金融“数据”的研究,在当前互联网时代下,分析师的研究报告、股吧论坛帖子的信息、新闻媒体的新闻以及微博和维信等非结构化文本信息往往能够反应当前市场上投资者对股市的投资情绪,而这些信息往往又对投资者的投资决策起到潜移默化的作用。采用互联网文本挖掘的
14、方法对这些非结构化文本形式存在的金融信息进行挖掘,并从中提取出对投资决策有利的信息是该专题报告研究的重点。图图3:互联网数据来源互联网数据来源 数据来源:广发证券发展研究中心 基于上述三类数据来源,我们将采用互联网文本挖掘技术来获取相关的信息。“文本信息挖掘”的概念最早由Ronen Feldman博士提出,并倡导将非结构化的内容转变为有价值的商业智能行业中,即文本驱动商务智能概念。目前许多IT巨头已经纷纷在不同领域针对大数据开展了文本挖掘的项目。表表2.著名著名IT公司文本挖掘项目公司文本挖掘项目 公司公司 文本挖掘项目 谷歌谷歌 X Lab,谷歌大脑项目 微软微软 TextFlow项目 脸书
15、脸书 深度学习研究小组预测用户行为 百度百度 创建深度学习研究院 腾讯腾讯 成立中文处理研究室,从事文本挖掘研究 文本信息挖掘是通过分析用户数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示等步骤。移动互联网数据具有数据量大、数据结构复杂、数据内容分散等特点,呈现出爆炸性增长的趋势。因此,为了从浩如烟海的数据中提取出有效信息,必须选择合适的数据挖掘策略。识别风险,发现价值 请务必阅读末页的免责声明 6 6/2424 金融工程|专题报告 信息挖掘是一个复杂的过程,需要进行大量的数据采集和运算等。按照基本功能,可以将整个信息挖掘流程划分成内容采集内容采集、内容挖掘内容挖掘和行为
16、分析行为分析3个环节。图图4:文本信息挖掘流程文本信息挖掘流程 数据来源:广发证券发展研究中心 (一)(一)内容采集内容采集 进行互联网文本数据挖掘的基础是数据的真实性和有效性,内容采集主要包括以下两个方面。a)页面内容爬取。这是将网页的内容通过爬虫获取的部分,分析页面代码格式,进行网页代码的编码转换等,尽可能获取自己需要的信息。b)页面垃圾过滤。页面中不可避免地会存在大量的垃圾信息,这些信息严重干扰到对后期信息挖掘的准确性,页面垃圾过滤机制会找出包括广告在内的段落以及其他对内容挖掘无效的部分,并将其清除,不进入内容挖掘部分。(二)(二)内容挖掘内容挖掘 主要是对需要的特定信息进行提取,该阶段
17、处理后的文本数据是后期进行分词、情感分析的基础;(三)(三)行为分析行为分析 整个文本挖掘过程的重点和难点是分词和情感分析,对于海量文本信息海量文本信息而言,程序的处理速度也是至关重要的一点。1.3 互联网大数据互联网大数据抓取抓取体系体系 对于大规模的互联网信息抓取大规模的互联网信息抓取而言,单线程的数据获取是一项非常局限的事情,因此多线程、分布式的信息抓取平台是必须搭建的。因此数据的抓取平台的搭建是一项基础性的工作。整体上,我们的大数据抓取平台可分为三部分:首先是搜索热门网站,对需要提取信息的网站的网页编码格式、网页制作规则进行研究,提取出需要提取的信息的网页编码格式;第二是对需要提取信息
18、的网站进行分布式配置,多线程爬取特定的信息,并将信息存储到指定的数据库中;识别风险,发现价值 请务必阅读末页的免责声明 7 7/2424 金融工程|专题报告 第三,监控数据爬取过程,防止网站数据异常带来的数据抓取缓慢等问题,主要是防止对指定网站的频繁访问导致IP被限制访问的问题。图图5:互联网数据互联网数据抓取抓取体系体系 数据来源:广发证券发展研究中心 上图刻画了在大规模的互联网数据爬取过程中的整体框架,对于单个网站的股吧论坛的数据抓取框架可以简化成以下几个步骤:1)首先对需要批量爬取信息的网页结构进行研究,主要是研究需要提取的特定信息的网页格式进行研究,这步骤可以借助在IE浏览器下打开需要
19、提取信息的网页,然后调用出开发人员工具,找到需要批量提取的特定信息的网页代码规则,或者利用Firefox浏览器下的XPATH工具以及View Source Chart工具;2)找到不同个股的股吧论坛url之间的关系,利用url之间的关系,抓取所有个股的股吧url;3)由于股吧抓取的数据量往往非常庞大,出于效率的考虑,往往采用分布式、多线程的方式进行,若条件允许需要同时几十部甚至上百部电脑多个线程地抓取需要的内容。此时,就需要一台主程序电脑控制其他电脑的程序运转;在数据抓取过程中由于网络不稳定、电脑突然死机等问题,需要对抓取的过程进行监控,记录下每个进程运行的过程,防止数据抓取的缺漏,同时处于对
20、网站安全的考虑,需要实时监控程序的运行,防止网络访问限制问题,设置适当的断线重连机制,IP切换机制等;4)对于抓取到的信息统一批量存储到指定的数据库中,构成后续分析的底层的数据库。识别风险,发现价值 请务必阅读末页的免责声明 8 8/2424 金融工程|专题报告 二二、股吧数据股吧数据结构及特点结构及特点 随着互联网的高速发展,投资者越来越倾向于在网络上通过各种股吧论坛来表达自己对市场的观点,同时获取自己所关注的个股信息,因此,在股吧中投资者所发表的文字信息常常隐藏着其对个股及大盘的情绪。而股吧信息具有其独有的特征,其挖掘也面临着更多的困难。2.1 股吧数据股吧数据特点特点(一)(一)热门股吧
21、热门股吧 淘股吧、金融界、东方财富网等;(二)(二)数据数据类型类型 通过对大规模的文本类型数据的挖掘,获取到股民对个股涨跌情绪指标,从而获取到对相应行业指数、大盘指数涨跌预期,构建相应的策略,跟踪个股、行业指数、大盘指数涨跌;(三)(三)数据特点数据特点(1)半结构化:文本数据既不是完全无结构的也不是完全结构化的。例如文本可能包含结构字段,如作者、长度、发帖时间、回复量、点击量等,也可能包含大量的非结构化的数据,如摘要和内容。(2)高维:文本向量的维数一般都可以高达上万维,一般的数据挖掘、数据检索的方法由于计算量过大或代价高昂而不具有可行性;(3)高数据量:一般的文本库中都会存在最少数千个文
22、本样本,对这些文本进行预处理、编码、挖掘等处理的工作量是非常庞大的,因而手工方法一般是不可行的 (4)语义性:文本数据中存在着一词多义、多词一义,在时间和空间上的上下文相关等情况。图图6:股吧数据特点股吧数据特点 数据来源:广发证券发展研究中心 2.2 股吧数据结构股吧数据结构 下面以“金融界”的股吧论坛为例来解析常见的股吧论坛网页结构:识别风险,发现价值 请务必阅读末页的免责声明 9 9/2424 金融工程|专题报告(一)(一)个股股吧列表个股股吧列表 在金融界股吧论坛上,有存储个股股吧列表的主网址,网址为:http:/ 数据来源:广发证券发展研究中心 识别风险,发现价值 请务必阅读末页的免
23、责声明 1010/2424 金融工程|专题报告 图图8:金融界个股股吧金融界个股股吧首页(首页(平安银行平安银行示例示例)数据来源:广发证券发展研究中心 图图9:金融界个股股吧帖子内容金融界个股股吧帖子内容(平安银行平安银行示例)示例)数据来源:广发证券发展研究中心 就仅仅从金融界个股股吧论坛的帖子数量角度上看,可以看出数据量非常庞大。例如截止至2014年6月20日,平安银行的历史帖子页数一共有1444页,帖子量为144342条,如果单单计算金融界股吧主网址上的沪市A股以及深市A股的股票量一共有2489只。平均每个个股的帖子总量为25000条,总用的帖子量就用62225000条帖子。这些帖子量
24、还是不包括一些主题吧的帖子的数量,因此仅从金融界论坛上,个股的股吧帖子数量规模上看,数据量还是非常巨大的。如果将比较热门的网站,例如淘股吧、东方财富网、新浪财经以及和讯网上的个股股吧帖子信息采集下来的话,仅仅是帖子的数量规模就是亿级别的数量级。如果再加上帖子的点击量、回复量、发表时间等信息,数据量就更加庞大了。以上仅仅是从数量上看出帖子的规模非常庞大,如果从存储的大小的角度上看,也可以看出,单单是存储也是需要非常大的空间的。一个汉字占两个字节,1KB就是1024个 识别风险,发现价值 请务必阅读末页的免责声明 1111/2424 金融工程|专题报告 字节,即512个汉字就能存储1KB大小。这样
25、的话,假设每个帖子内容、回复量、点击量、回复内容、帖子标题等信息加起来平均有1kb的大小,大约有60G左右的数据量,这仅仅金融界上的沪深A股的个股股吧的数据量大小,而且是截止至2014年6月20日的估计,这些热门财经网站,每天的访问量以及发帖量也是非常巨大的。所以对于股吧内容的文本信息的挖掘要求非常高,想要在短期提取相关热门网站上所有个股的股吧信息,需要对程序的设计有高的要求,必须采取分布式、多线程等高效的方法才能完成短期内大量数据的抓取,这也对电脑的配置等硬件提出了高的要求。三三、股吧股吧数据挖掘及策略构建数据挖掘及策略构建 3.1 核核心技术心技术 股吧数据的挖掘及策略的构建主要包含了一下
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 广发金工 广发 金工 事件 驱动 策略 十二 倾听 洞察 大盘 趋势 互联网 数据 挖掘 系列 专题
链接地址:https://www.taowenge.com/p-91819641.html
限制150内