【广发金工】基于大数据挖掘的关联个股投资机会-互联网大数据挖掘系列(六).pdf





《【广发金工】基于大数据挖掘的关联个股投资机会-互联网大数据挖掘系列(六).pdf》由会员分享,可在线阅读,更多相关《【广发金工】基于大数据挖掘的关联个股投资机会-互联网大数据挖掘系列(六).pdf(21页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 识别风险,发现价值 请务必阅读末页的免责声明 1 1/2121 金融工程|专题报告 2015 年 9 月 9 日 证券研究报告 阿点 基于大数据挖掘的关联个股投资机会基于大数据挖掘的关联个股投资机会 互联网大数据挖掘系列互联网大数据挖掘系列(六六)报告摘要报告摘要:互联网快速发展互联网快速发展 随着互联网的发展以及不断普及,人类每天产生的数据量正在呈现指数级的增长。同时伴随着互联网的快速发展,投资者也越来越倾向于从互联网上获取相关的个股信息。在互联网热门网站上,投资者也往往会对关注的个股进行标记,添加到自选股栏目中,而投资者资金的流动也往往在自选股栏目中的个股中进行。因此如果能够基于互联网大
2、数据,获取到投资者的关注度个股,并基于海量的投资者关注股个股的数据,从关注度的变化去做一些量化策略的研究就显得非常有意义。共同关注度定义共同关注度定义 基于所抓取的个股的关注度数据,定义以股票 j 为基准的股票 k 的共同关注度指标为:11*nijikiniji,其中分母表示关注了股票 j 的总的用户数,分子表示关注了股票 j 的同时关注了股票 k 的总的用户数。基于个股共同关注度的选股策略构建基于个股共同关注度的选股策略构建 在历史回测期,定期地计算基准个股中共同关注个股的关注人数以及共同关注占比,选取共同关注的个股中关注度最高的前 N 只个股,动态地考虑基准个股与对应的共同关注个股所在的行
3、业的相关性,根据行业之间的相关性以及基准个股与关联个股前一段时间的涨跌幅等因素,选择满足条件的关联个股为多头组合,同时以基准个股为空头组合;基于构建的多空组合,在下一个交易日以开盘价做多多头组合,以开盘价做空空头组合,考虑涨跌停因素的影响;资金等权投资。实证结果实证结果 历史回测结果显示,基于关注度的选股策略在取得了较优异的结果。策略自 2013 年以来,超配组合取得了 115.18 的累计收益率,年化收益率为38.21%,最大回撤为-8.79%,周胜率为 55.65%。多空组合对冲后,在历史回测期内取得了 54.78%的累计绝对收益率,年化绝对收益率为 20.26%,最大回撤为-7.99%,
4、周胜率为 55.65%。整体上而言,在历史回测期内取得相对较为优异的表现。风险提示风险提示 本篇报告所提供的个股的共同关注度数据一定程度上能够反映投资者对个股的关注,但其中的关注度数据并不能代表所有投资者的观点,历史的数据并不能精确地预测未来金融市场变化,注意市场其他风险的变化。图图 1 1 共同关注度选股策略历史表现共同关注度选股策略历史表现 表表 1 1 基于共同关注度的策略表现指标基于共同关注度的策略表现指标 指标 超配净值 对冲净值 累计净值:2.15 1.55 累计收益率:115.18%54.78%年化收益率:38.21%20.26%信息比 2.51 1.76 日胜率:57.70%5
5、0.93%周胜率:55.65%55.65%最大回撤:-8.79%-7.99%分析师:分析师:史庆盛史庆盛 S0260513070004 020-87555888-8618 相关研究:相关研究:基于互联网挖掘的热点选股策略互联网大数据挖掘系列专题之(五)2015-04-09 上市公司披露信息变更隐含的投资机会事件驱动策略之(十四)2014-12-26 倾听股吧之声,洞察大盘趋势互联网大数据挖掘系列专题之(三)2014-06-27 公告披露背后隐藏的投资机会互联网大数据挖掘系列专题之(二)2014-06-26 基于网络新闻热度的择时策略互联网大数据挖掘系列专题之(一)2014-06-25 识别风险
6、,发现价值 请务必阅读末页的免责声明 2 2/2121 金融工程|专题报告 目录索引目录索引 一 前言.4 1.1 互联网大数据发展.4 1.2 互联网大数据在金融领域应用.5 二 数据抓取流程框架.7 2.1 数据抓取流程.8 三 互联网大数据策略回顾.9 3.1 基于互联网挖掘的热点选股策略.9 3.2 倾听股吧之声,洞察大盘趋势.10 3.3 基于网络新闻热度的择时策略.11 四 基于个股共同关注度的选股策略实证.12 4.1 共同关注度定义.13 4.2 专题数据抓取流程.15 4.3 策略框架.16 4.4 策略构建思路.17 4.5 策略实证.18 4.5.1 数据说明.18 4.
7、5.2 实证结果.18 五 总结.19 5.1.1 总结.19 5.1.2 未来研究方向.19 风险提示.20 识别风险,发现价值 请务必阅读末页的免责声明 3 3/2121 金融工程|专题报告 图表图表目录目录 图 1 共同关注度选股策略历史表现.1 图 2 大数据 4V 特征.5 图 3 大数据应用行业结构.5 图 4 大数据在金融行业应用结构.6 图 5 数据抓取平台框架组件.8 图 6 基于互联网挖掘的热点选股策略表现.9 图 7 股吧情绪择时策略表现.10 图 8 网络新闻热度择时策略表现.11 图 9 共同关注个股一栏.12 图 10 用户共同关注一栏.12 图 11 个股关注度变
8、化.12 图 12 个股关注度变化.12 图 13 自选股栏目一栏.13 图 14 自选股栏目一栏.13 图 15 用户共同关注度.14 图 16 平安银行共同关注个股数据.16 图 17 策略构建框架.17 图 18 银行与房地产行业相关性.17 图 19 银行与非银金融行业相关性.17 图 20 医药生物与休闲服务行业相关性.18 图 21 银行与传媒行业相关性.18 图 22 基于关联个股的选股策略结果表现.18 表 1 基于共同关注度的策略表现指标.1 表 2 公募基金大数据量化研究产品一栏.6 表 3 基于互联网挖掘的热点选股策略指标.9 表 4 股吧情绪择时策略表现.10 表 5
9、股吧择时分年度表现.11 表 6 新闻热度择时策略表现.11 表 7 新闻热度择时分年度表现.11 表 8 用户共同关注度数据举例.14 表 9 共同关注行业一栏.14 表 10 共同关注行业一栏.15 表 11 基于关联个股的选股策略表现指标一栏.19 识别风险,发现价值 请务必阅读末页的免责声明 4 4/2121 金融工程|专题报告 一 前言前言 1.1 互联网大数据发展互联网大数据发展 随着互联网的发展以及不断普及,人类每天产生的数据量正在呈现指数级的增长。据统计,大约每两年人类的数据量就翻一番。资料统计显示,2011 年,全球的数据规模大约为 1.8ZB(1TB=1024GB,1PB=
10、1024TB,1EB=1024PB,1ZB=1024 EB),这些数据量可以填满超过 618 亿个 32GB 的 iPad,而这些 iPad 的数量可以用来修超过 2 座长城。到 2020 年,全世界的数据量将达到 40ZB 的规模,如果将这些数据装入光盘,这些光盘总的重量相当于超过 400 艘航母的重量。在热门网站,例如电商网站上,每天产生的数据量也是惊人的。例如,每天在淘宝网站上有超过数千万笔的交易,每天产生的数据量超过 50TB,存储量则超过40PB。百度的数据总量超过 1000PB,存储的网页数量超过 1 万亿个,每天处理的搜索请求超过 60 亿次,有几十 PB 的数据。而随着信息传播
11、的多样化发展,除了传统的数值型的数据量急剧增加外,非结构化以及半结构化的数据也呈现爆发式的增长。数据的存储单位也从 GB-TB-PB-EB-ZB 的级别递增。这些数据量已经超过了我们传统的计算机存储,而依据这些数 数量进行的相关研究也超过了传统的计算机的计算量。如何存储、管理以及挖掘这些数据中所隐藏的,逐渐成为一个新的领域,于是大数据的概念应运而生。而在大数据发展过程中,互联网的发展以及不断普及在其中起到了至关重要的作用。根据维基百科关于大数据的定义,大数据指的是无法用常规的软件工具用可承受的时间进行抓取、管理和处理的数据集合。大数据具备如下的 4V 特征:1、Volume(大量)(大量):数
12、据规模往往是海量的,数据量一般在10TB规模左右,更多的认为应该达到PB规模。2、Velocity(高速):(高速):数据处理速度快,在数据量非常庞大的情况下,也能够做到数据的实时处理。3、Variety(多样)(多样):随着互联网的发展,数据的存储形式也越来越多样化,而数据来源也多种多样,因此数据种类和格式日渐丰富,数据所包含的范畴已打破了以前所限定的结构化数据范畴,更多地囊括了半结构化和非结构化数据,如网络日志、博客、视频、图片、微信微博内容等等。4、Value(价值)(价值):数据价值密度低,价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数
13、据可能仅有一二秒。当前人们正处于信息大爆炸时代,每天都有大量的信息出现在人们身边。而人们也越来越倾向于通过搜索引擎、网络媒体、财经网站等获取信息。人们在互联网上浏览、阅读所形成的记录也是海量的,这些记录正反应了人们的行为习惯以及潜在的消费行为、投资行为等。这些海量的用户行为其中包含的价值是不可忽视的,对这些相关的大数据的挖掘,发现其中的价值,从而更好地指导用户的行为将决策。在金融领域如何从海量的互联网大数据中挖掘出对投资决策有用的信息,正成为当前量化投资领域研究的又一个新的方向。识别风险,发现价值 请务必阅读末页的免责声明 5 5/2121 金融工程|专题报告 图图 2 2 大数据大数据 4V
14、4V 特征特征 数据来源:广发证券发展研究中心数据来源:广发证券发展研究中心 1.2 互联网大互联网大数据在金融领域应用数据在金融领域应用 互联网大数据正在影响着人们的生活,各行各业纷纷加入研究其应用的行列中,金融行业也不例外。据统计,大数据在金融行业的应用已越来越多。例如据赛迪顾问的数据报告显示,国内大数据应用在金融领域的比重占到了 17.5%,在其中处于第三的位置。图图 3 大数据应用行业结构大数据应用行业结构 数据来源:广发证券发展研究中心、赛迪顾问数据来源:广发证券发展研究中心、赛迪顾问 大数据在金融领域的应用,从投资结构上来看,证券行业在其中处于第二的位置,而银行在大数据领域的应用占
15、第一的位置,保险在其中排名最后。互联网,28.90%电信,19.90%金融,17.50%交通,9.80%政府,8.80%其他,8.80%医疗,6.30%识别风险,发现价值 请务必阅读末页的免责声明 6 6/2121 金融工程|专题报告 图图 4 大数据在金融行业应用结构大数据在金融行业应用结构 数据来源:广发证券发展研究中心、赛迪顾问数据来源:广发证券发展研究中心、赛迪顾问 相对于银行和保险业,证券行业的大数据应用起步相对较晚,其中对于大数据方面的研究也是较晚的,对大数据相关的量化投资策略的研究也是在近年开始的。在国外,证券行业对大数据方面的量化研究也是近几年开始的。例如,在2011年5月英国
16、对冲基金Derwent Capital Markets建立了规模为4000万美金的对冲基金,该基金是首家基于社交网络的对冲基金,该基金通过分析Twitter的数据内容来感知市场情绪,从而指导进行投资。利用 Twitter 的对冲基金 Derwent Capital Markets 在首月的交易中确实盈利了,其以1.85%的收益率,让平均数只有0.76%的其他对冲基金相形见绌。而在国内对大数据方面的量化研究,比较典型的是2014年广发基金管理有限公司推出的广发百发100指数基金,该基金是国内首只互联网大数据基金,依靠百度在搜索领域的海量的大数据,采用量化的方法,从中选取中未来一段时间内可能上涨的
17、个股。随后,国内各大公募基金相继跟互联网公司合作,相继推出大数据基金,例如南方基金与新浪合作,推出i100、i300指数;博时联合蚂蚁金服、恒生聚源推出的淘金100指数;大成基金联合奇虎360推出360互联+指数等等。表表 2 公募基金大数据量化研究产品一栏公募基金大数据量化研究产品一栏 基金公司基金公司 合作方合作方 大数据基金大数据基金 广发基金管理有限公司 百度 广发百发100指数 南方基金管理有限公司 新浪 i100、i300指数 博时基金管理有限公司 银联 中证银联智惠大数据100指数 大成基金管理有限公司 奇虎360 360互联+天弘基金管理有限公司 雪球 中证雪球领先组合100指
18、数 中欧基金管理有限公司 银联 中证银联智策大数据100指数 鹏华基金管理有限公司 银联 中证银联智策消费大数据指数 大成基金管理有限公司 雪球 中证雪球社交投资精选大数据指数 银行,41.10%证券,35.10%保险,23.80%识别风险,发现价值 请务必阅读末页的免责声明 7 7/2121 金融工程|专题报告 嘉实基金管理有限公司 腾讯 嘉实腾讯自选股大数据 泰达宏利基金管理有限公司 同花顺 同花顺大数据量化优选灵活配置混合 上海东方证券资产管理有限公司 京东 东方红京东大数据灵活配置混合型基金 博时基金管理有限公司 搜房网房天下 中证房天下大数据指数 博时基金管理有限公司 雪球 中证雪球
19、智选大数据100指数 博时基金管理有限公司 蚂蚁金服、恒生聚源 淘金100指数 数据来源:广发证券发展研究中心数据来源:广发证券发展研究中心 从表2中可以看到,对互联网大数据的量化研究相关的产品已越来越丰富。截止至当前,已经有广发、南方、博时、大成、嘉实、天弘、中欧、鹏华、泰达宏利、东方证券资管等10家基金公司对互联网大数据进行量化研究,成立相关的基金。广发基金联合百度基于百度的海量数据开发百度100指数系列基金,博时联合蚂蚁金服、嘉实基金挖掘腾讯自选股数据、泰达宏利掘金同花顺数据,从最初对搜索引擎数据海量数据的挖掘,再到专业的互联网热门财经网站,再到目前与投资者关注相关性较强的腾讯自选股、同
20、花顺、雪球网等,公募基金在对互联网大数据领域的量化研究,无论从广度还是深度角度看,已经越来越丰富。而从产品的角度看,对互联网大数据量化研究的结果,除了之前完全被动模拟的互联网大数据指数基金外,目前对大数据方面的量化投资已渐渐进入到主动管理状态,例如广发基金最近获批发行的广发100策略精选就是主动量化型大数据基金,而东方证券资产管理有限公司携手京东大数据平台研发的东方红京东大数据是一只混合型基金,而嘉实基金上报的腾讯自选股大数据策略股票型、泰达宏利上报的同花顺大数据量化优选灵活配置混合型等属于主动管理型基金。对互联网大数据的量化研究俨然已成为当前量化投资领域的一个新的领域。对互联网大数据的挖掘与
21、研究,广发金工在该领域也进行了比较深入的研究,在专题策略上也取得了一系列的研究成果。例如之前采用文本挖掘的方法对上市公司公告披露背后的投资机会进行了统计分析以及实证,得到了较好的就结果,具体可见公告披露背后隐藏的投资机会互联网大数据挖掘系列专题之(二)专题报告;从股吧、个股的新闻热度、上市公司信息变更、财经频道的荐股信息等角度对文本信息进行挖掘,具体可见、;基于互联网海量的个股新闻信息对热点概念的选股可见基于互联网挖掘的热点选股策略互联网大数据挖掘系列专题之(五)等相关的专题策略报告。二 数据抓取流程框架数据抓取流程框架 对互联网大数据的量化研究,往往涉及到对网络数据的抓取工作。从2013年开
22、始,广发金工就开始了对互联网数据的量化研究工作。基于对互联网大数据的深入 识别风险,发现价值 请务必阅读末页的免责声明 8 8/2121 金融工程|专题报告 研究,广发金工搭建了一个完善的数据抓取平台框架。2.1 数据抓取流程数据抓取流程 首先,介绍一下我们金融工程小组搭建的完善的数据抓取平台框架。图图 5 数据抓取平台框架组件数据抓取平台框架组件 数据来源:广发证券发展研究中心数据来源:广发证券发展研究中心 上图刻画了我们金融工程小组搭建的完善的数据抓取平台组件的整个框架流程。整个抓取平台的平台核心部分是中间的分配调度服务器,辅助搭建的模块有四个,整个抓取平台的平台核心部分是中间的分配调度服
23、务器,辅助搭建的模块有四个,分别为抓取任务调度器、网页规则识别、反监控系统以及监控系统。分别为抓取任务调度器、网页规则识别、反监控系统以及监控系统。分配调度服务器功能为负责将所需数据从互联网上抓取下来,然后以指定形式的格式批量存储下来,这里可以将记录以特定的标题格式以 txt 的形式存储于本地或者以数据库的形式存储相关的文本信息。如果是以新闻文本的标题作为存储格式的一部分的话,对于在 Windows 系统下注意 txt 文件名中的一些非法字符的处理以及由于网页本身代码的特殊性,导致的一些非法字符的处理。抓取任务调度分发器负责分配抓取的网站的调度,包括一些常规的抓取以及一些临时的抓取(链接失效、
24、断网重新抓取等任务)调度、网页规则识别负责根据抓取任务调度器分配到的网站,调用指定网站的网页内容获取规则。监控系统负责监控网页的异常(例如链接失效、断网、网页加载过慢等情况)、反监控系统负责监控网站的防盗链等问题(例如 IP 频繁访问造成的 IP 被禁等问题)。通过对网站网页源代码解析的方式来获取新闻文本内容,有三种方式可以获取到需要提取的新闻文本信息。1)字符串匹配查找的字符串匹配查找的方法方法 通过对特定网站的网页源代码的识别,利用字符串匹配的方式获取到需要提取的文本信息,该方法需要对字符的匹配查找能力有较高的要求,缺点是往往提取出来的文本信息包含一些干扰的文本信息,即信息提取不“纯”。2
25、)正则表达式匹配方法正则表达式匹配方法 这种方法要求使用者对正则表达式的规则使用较熟练,该方法能够迅速地匹配到监控系统监控系统监控异常、调整反监控规则获取反监控规则、异常规则、设置代理IP反监控反监控管理管理反监控规则异常规则恢复策略可视化配置智能化配置网页规则识别网页规则识别获取网页抓取规则抓取任务调度抓取任务调度分发器分发器常规抓取临时抓取带优先级抓取消息通用可扩展集群抓取线程池连接池批量存储批量存储分配调度服务器分配调度服务器 识别风险,发现价值 请务必阅读末页的免责声明 9 9/2121 金融工程|专题报告 所需的文本信息,并将所需的文本信息提取出来。3)HTMLDOM结构解析结构解析
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 广发金工 广发 金工 基于 数据 挖掘 关联 个股 投资 机会 互联网 系列

限制150内