【广发金工】多维数据下的大数据择时策略研究.pdf
《【广发金工】多维数据下的大数据择时策略研究.pdf》由会员分享,可在线阅读,更多相关《【广发金工】多维数据下的大数据择时策略研究.pdf(19页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 识别风险,发现价值 请务必阅读末页的免责声明 1 1/1919 金融工程|专题报告 2016 年 5 月 17 日 证券研究报告 e 多维数据下的大数据择时策略研究多维数据下的大数据择时策略研究 互联网大数据挖掘互联网大数据挖掘系列系列专题之(专题之(八八)报告摘要报告摘要:网络热度网络热度择时策略思想择时策略思想 我国 A 股投资者中散户众多,散户投资者的情绪、对市场的关注程度通常对市场涨跌起到推波助澜的作用。这些投资者的“关注度”往往可以反映在热门财经网站的关注人数和搜索引擎的搜索量上,如百度、东方财富网、新浪财经、雪球网、和讯财经等,本篇专题报告称之为“网络热度”。在大数据发展趋势下,
2、互联网数据为量化投资提供了新的数据来源,搜索量、股吧情绪、新闻热度、个股关注度等新型的数据相比传统数据更加能够反映整个市场的情绪,本篇专题报告通过对这些热度数据进行深入研究,探讨这些数据在择时策略上的应用效果。网络热度择时网络热度择时策略构建策略构建 利用网络的热度数据,构建了布林通道,根据均线设臵上轨和下轨,将上轨、下轨分别作为预测沪深 300 指数次日涨跌的两个阈值。具体地,择时策略原理如下:设臵布林通道设臵布林通道:以热度数据的 M 日均值构造均线,以 M 日热度数据的标准差的 N 倍构造上轨、下轨,即:布林通道上轨=热度数据的 M 日均值+N*M 日热度的标准差;布林通道下轨=热度数据
3、的 M 日均值-N*M 日热度的标准差;择时策略择时策略:当日热度突破通道上轨,则发出看多信号,次日开盘买入;当日热度突破通道下轨,则发出看空信号,次日开盘卖出;相连两日发出不同信号,先平仓后根据信号进行买卖;相连两日的第二日不发出信号,次日开盘直接平仓,考虑可以做空的收益;实证结果实证结果 我们采用了三个网络源的热度数据进行实证分析。热度 1 发出的信号准确,测试区间累计净值达到 10.31,年化收益率 58.21%,胜率 57.61%,赔率 1.14,累计最大回撤仅有 18.11%,收益回撤比达到 3.23。热度 2 和热度 3 经过综合信号策略改进后,区间内实现的收益率相比单一热度择时更
4、高,超额年化收益率达到 54.47%,累计最大回撤下降,收益回撤比显著提高。风险风险提示提示 本报告提出的择时策略基于网络热度数据,热度数据仅仅是投资者投资情绪的一个方面表现,市场行情受到其他因素影响。图图 1 网络热度择时策略表现网络热度择时策略表现 表表 1 网络热度择时策略指标表现网络热度择时策略指标表现 累计净值 10.31 年化收益率 58.21%超额年化收益率 58.55%累计最大回撤 18.11%胜率 57.61%赔率 1.14 分析师:分析师:史庆盛史庆盛 S0260513070004 020-87577060 相关研究:相关研究:基于网络新闻热度的择时策略互联网大数据挖掘系列
5、专题(一)2014-06-25 基于互联网挖掘的热点选股策略互联网大数据挖掘系列专题之(五)2015-04-09 基于大数据挖的Smart Beta策略互联网大数据挖掘系列专题之(七)2016-03-23 联系人:陈原文 020-87576976 识别风险,发现价值 请务必阅读末页的免责声明 2 2/1919 金融工程|专题报告 目录索引目录索引 一、前言.4 1.1 互联网大数据与量化投资.4 1.2 互联网大数据研究体系.6 1.3 互联网热度择时策略介绍.7 二、网络热度择时策略构建.8 2.1 样本数据.8 2.2 策略原理.11 三、实证结果.12 3.1 热度 1 实证结果.12
6、3.2 热度 2、热度 3 实证结果.13 3.3 参数敏感性测试.15 四、总结.17 4.1 网络热度是有效的量化择时数据.17 4.2 研究不足与未来方向.17 识别风险,发现价值 请务必阅读末页的免责声明 3 3/1919 金融工程|专题报告 图表索引图表索引 图图 1 网络热度择时策略表现网络热度择时策略表现.1 图图 2 CAYMAN ATLANTIC 旗下大数据基金产品业绩旗下大数据基金产品业绩.5 图图 3 3 广发金工数据抓取体系广发金工数据抓取体系.6 图图 4 4 广发金工大数据挖掘策略框架广发金工大数据挖掘策略框架.6 图图 5 A 股成交额与沪深股成交额与沪深 300
7、 指数走势指数走势.7 图图 6 热度热度 1 与沪深与沪深 300 指数走势指数走势.8 图图 7 网络热度择时策略表现网络热度择时策略表现.8 图图 8 中证中证 500 网络情绪走势网络情绪走势.9 图图 9 行业网络情绪变化一览行业网络情绪变化一览.9 图图 10 网络热度一览网络热度一览.9 图图 11 热度热度 1 与沪深与沪深 300 指数走势指数走势.10 图图 12 热度热度 2 与沪深与沪深 300 指数走势指数走势.10 图图 13 热度热度 3 与沪深与沪深 300 指数走势指数走势.10 图图 14 热度策略择时表现热度策略择时表现.12 图图 15 热度热度 1 热
8、度热度 1 综合信号择时策略表现综合信号择时策略表现.13 图图 16 热度热度 2 择时策略表现择时策略表现.14 图图 17 热度热度 3 择时策略表现择时策略表现.14 图图 18 热度热度 2、热度、热度 3 综合策略表现综合策略表现.15 图图 19 热度热度 1 敏感性测试结果敏感性测试结果.16 图图 20 热度热度 2 敏感性测试结果敏感性测试结果.16 图图 21 热度热度 3 敏感性测试结果敏感性测试结果.16 表表 1 网络热度择时策略指标表现网络热度择时策略指标表现.1 表表 2 2 大数据量化产品一览大数据量化产品一览.5 表表 3 互联网挖掘小工具一览互联网挖掘小工
9、具一览.7 表表 4 上交所交易额按投资者分类上交所交易额按投资者分类.7 表表 5 热度与次日沪深热度与次日沪深 300 指数的相关系数指数的相关系数.10 表表 6 热度热度 1 择时策略指标表现一览择时策略指标表现一览.12 表表 7 热度热度 1 择时策略分年度指标表现一览择时策略分年度指标表现一览.13 表表 8 热度热度 1 综合信号择时策略指标表现一览综合信号择时策略指标表现一览.13 表表 9 热度热度 2 择时策略指标表现一览择时策略指标表现一览.14 表表 10 热度热度 3 择时策略表现指标一览择时策略表现指标一览.14 表表 11 热度热度 2、3 综合策略指标表现一览
10、综合策略指标表现一览.15 识别风险,发现价值 请务必阅读末页的免责声明 4 4/1919 金融工程|专题报告 一一、前言、前言 1.1 互联网大数据与互联网大数据与量化投资量化投资 近十几年来,互联网在计算机技术的不断发展下得到了迅速的普及和发展,逐渐替代传统的纸质传播媒介。互联网的传播已经逐渐改变了人们的生活方式和习惯,尤其是在这个信息爆炸的时代,人们已经习惯于利用互联网搜索、了解和关注自己感兴趣的新闻、热点事件等。伴随着人们对互联网使用程度的增加,互联网上沉淀的数据规模已呈指数型速度增长,数据的存储结构形式也发生了多样化的概念,如何存储、管理以及挖掘这些数据中所隐藏的价值,逐渐成为一个新
11、的领域,大数据的概念便伴随之产生了。另一方面,传统的量化投资研究面临瓶颈。传统的量化投资一般从财务指标、行情数据、行业数据中挖掘有价值的投资信息,而随着量化投资领域的发展,这些传统数据中隐含的大部分投资信息已经被专业投资者所挖掘,专业投资者希望另辟蹊径,寻找新的数据维度来挖掘有用信息。互联网大数据由于具有数据量大(Volume)、类型繁多(Variety)、价值密度大(Value)、时效性高(Velocity)的特征,为量化投资提供了新的数据来源,搜索量、股吧情绪、新闻热度、个股关注度等新型的数据相比传统数据更加能够及时甚至提前反映整个市场的情绪,从而能够为投资决策起到指导的作用。纵观海内外,
12、对大数据相关的量化投资策略的研究近几年刚刚兴起,但对互联网大数据相关的量化策略的研究已然成为量化投资新的研究方向和热门研究领域。2011年5月,英国对冲基金Derwent Capital Markets建立了规模为4000万美金的对冲基金,该基金是首家基于社交网络的对冲基金,通过分析Twitter的数据内容来感知市场情绪,从而指导进行投资。在2012年,CAYMAN ATLANTIC公司新成立了一只基于网络社交媒体Twitter、搜索引擎Google及其他新闻媒体数据的进行交易的对冲基金。根据其官网披露的基金历史收益数据,截止2015年12月,该基金累计收益率高达63.21%,年化收益率为15
13、.02%,在基金运行的42月中有32个月获得了正收益,亏损的10个月当中,平均月亏损为-0.45%,而获得正收益的月份中,平均月收益率为2.12%。国内各大公募基金相继与互联网公司合作,推出了一些大数据基金产品,如广发基金与百度的中证百度百发策略100指数型基金、南方基金与新浪合作的大数据100指数型基金等等。目前国内大数据量化产品包括了指数型、股票型和混合型基金以及集合资产管理计划等类型。识别风险,发现价值 请务必阅读末页的免责声明 5 5/1919 金融工程|专题报告 图图 2 CAYMAN ATLANTIC 旗下大数据基金产品业绩旗下大数据基金产品业绩 数据来源:CAYMAN ATLAN
14、TIC 官网、广发证券发展研究中心 表表 2 2 大数据量化产品一览大数据量化产品一览 基金公司基金公司 合作方合作方 大数据基金大数据基金 产品类型产品类型 广发基金 百度 中证百度百发策略 100 指数型 指数型 博时基金 蚂蚁金服 中证淘金大数据 100 指数型 指数型 南方基金 新浪 大数据 100 指数型 指数型 东方资管 京东 东方红京东大数据灵活配臵混合型 混合型 南方基金 新浪 大数据 300 指数型 指数型 博时基金 银联 中证银联智惠大数据 100 指数型 指数型 广发基金 百度 百发大数据策略精选灵活配臵混合型 混合型 广发基金 百度 百发大数据策略成长灵活配臵混合型 混
15、合型 嘉实基金 腾讯 腾讯自选股大数据策略股票型 股票型 大成基金 360 中证 360 互联网+大数据 100 指数型 指数型 大成基金 雪球 中证雪球社交投资精选大数据指数型 指数型 鹏华基金 银联 中证银联智策消费大数据指数型 指数型 中欧基金 银联 中证银联智策大数据 100 指数型 指数型 博时基金 房天下 中证房天下大数据指数型 指数型 博时基金 雪球 中证雪球智选大数据 100 指数型 指数型 海富通基金 东方财富 东财大数据灵活配臵混合型 混合型 富国基金 蚂蚁金服 中证娱乐大数据指数型 指数型 泰达宏利基金 同花顺 同顺大数据量化优选灵活配臵混合型 混合型 天弘基金 蚂蚁金服
16、 中证电商大数据指数型 指数型 天弘基金 雪球 中证雪球领先组合 100 指数型发起式 指数型 富国基金 蚂蚁金服 中证医药大数据指数型 指数型 广发资管 新浪网 广发资管玺智大数据精选 集合资产管理计划 数据来源:广发证券发展研究中心 随着机构投资者对大数据这一块的重视性的逐渐加强,对互联网大数据的量化 识别风险,发现价值 请务必阅读末页的免责声明 6 6/1919 金融工程|专题报告 投资研究将更加地多样化,包括对市场的择时、行业配臵、选股、热点追踪等领域,甚至是实时的大数据量化监控系统。1.2 互联网大数据互联网大数据研究研究体系体系 在互联网数据挖掘与研究方面,广发金工建立了完善的数据
17、抓取平台以及对互联网大数据各个数据维度的研究视角。图图 3 3 广发金工数据抓取体系广发金工数据抓取体系 数据来源:广发证券发展研究中心 广发金工研究了多个维度的互联网数据,比如从公告、财报角度研究的报告 公告披露背后隐藏的投资机会互联网大数据挖掘系列专题之(二)等;从股吧、社交角度研究的报告倾听股吧之声,洞察大盘趋势互联网大数据挖掘系列专题之(三)等;以及从网络媒体角度分析的报告基于互联网挖掘的热点选股策略互联网大数据挖掘系列专题之(五)、基于大数据挖掘的关联个股投资机会互联网大数据挖掘系列专题之(六)、基于大数据挖的Smart Beta策略互联网大数据挖掘系列专题之(七)等。图图 4 4
18、广发金工大数据挖掘策略框架广发金工大数据挖掘策略框架 数据来源:广发证券发展研究中心 基于对大数据的研究积累,广发金工也开发了一系列的互联网挖掘小工具,包括上市公司公告抓取、研究报告抓取、搜索量抓取、关注度抓取等小工具。识别风险,发现价值 请务必阅读末页的免责声明 7 7/1919 金融工程|专题报告 表表 3 互联网挖掘小工具一览互联网挖掘小工具一览 A 股新闻热度搜索工具 A 股上市工具公告抓取工具 上市公司信息变更抓取 文本信息批量识别及处理 汇丰 PMI 实时监测工具 个股研报热点监测工具 特定公告实时监测工具 财经小编选股工具 数据来源:广发证券发展研究中心 1.3 互联网热度互联网
19、热度择时策略介绍择时策略介绍 我国A股市场的散户投资者众多,散户投资者贡献了A股市场的80%以上的成交额。尽管散户投资者在整个A股市场总市值上占比不大,但是散户投资者的巨大成交额与股市涨跌有极强的相关性。2011年以来的统计表明,A股成交额与沪深300指数走势相近,二者之间的相关系数达到0.88。表表 4 上交所交易额按投资者分类上交所交易额按投资者分类 2011 年年 2012 年年 2013 年年 自然人 83.50%80.80%82.20%一般法人 2.10%2.10%2.50%专业机构 14.40%17.10%15.30%数据来源:公开资料、广发证券发展研究中心 图图 5 A股成交额与
20、沪深股成交额与沪深300指数走势指数走势 数据来源:WIND、广发证券发展研究中心 可见,股市的涨跌通常伴随着成交额的增减变动,而散户投资者作为A股成交额的主力军,他们的情绪对市场涨跌有着推波助澜的作用,是一种领先于市场行情的指标。当投资者对市场情绪较乐观时,会先搜索、关注相关标的的财务数据、行业信息等相关信息,然后进行投资交易,而行情数据是投资者交易的结果,已经反映了这些情绪的变动,是相对于投资者情绪的滞后数据。我们基于一些热门专业的财经网站和搜索引擎,比如百度搜索引擎、东方财富网、新浪财经、雪球网、和讯财经等互联网数据源,利用网站上股票的关注人数、搜索量数据,得出散户投资者的“关注度”指标
21、,本篇专题报告称之为“网络热度”。本篇专题报告通过对这些网络热度的数据进行分析,探讨网络热度数据在大盘指数上的择时应用。识别风险,发现价值 请务必阅读末页的免责声明 8 8/1919 金融工程|专题报告 以某网站的网络热度为例。2011年至今,该热度数据与沪深300指数走势相近,我们计算二者之间的相关性,热度数据与次日沪深300指数的相关系数为0.68,说明该热度数据的表现与次日沪深300指数的表现有很强的相关关系。图图 6 热度热度1与沪深与沪深300指数走势指数走势 数据来源:互联网、广发证券发展研究中心 广发金工曾经在报告基于网络新闻热度的择时策略互联网大数据挖掘系列专题(一)中介绍过利
22、用网络热度进行择时的策略方法,本报告是在这篇报告的基础上进一步研究网络搜索量、关注度等数据对大盘的影响。在本报告的后续部分,我们将使用不同来源的网络热度数据(热度1,热度2,热度3),构建我们的热度择时策略。图图 7 网络热度择时策略表现网络热度择时策略表现 数据来源:广发证券发展研究中心 二二、网络热度网络热度择时择时策略策略构建构建 2.1 样本数据样本数据 我们采用了三个典型的网络数据源的热度数据,分别记为:热度1,热度2,热度3。热度数据是基于A股上市公司的关注人数每日增量数据的加总或搜索量的每日 识别风险,发现价值 请务必阅读末页的免责声明 9 9/1919 金融工程|专题报告 数据
23、,反映的是整个市场的当日的热度。由于数据的可获取性,三个热度数据的时间区间不同。统计结果表明,三个热度与沪深300指数均有相近的走势,并且热度与次日指数相关系数均超过了0.5。(关于具体的热度数据来源,欢迎感兴趣的机构投资者通过邮件或电话详细咨询广发金工团队)。图图 8 中证中证 500 网络情绪走势网络情绪走势 数据来源:互联网、广发证券发展研究中心 图图 9 行业网络情绪变化一览行业网络情绪变化一览 数据来源:互联网、广发证券发展研究中心 图图 10 网络热度一览网络热度一览 数据来源:互联网、广发证券发展研究中心 识别风险,发现价值 请务必阅读末页的免责声明 1010/1919 金融工程
24、|专题报告 表表 5 热度与次日沪深热度与次日沪深 300 指数的相关系数指数的相关系数 热度热度 1 热度热度 2 热度热度 3 相关系数相关系数 0.68 0.50 0.63 数据来源:互联网、广发证券发展研究中心 图图 11 热度热度 1 与沪深与沪深 300 指数走势指数走势 数据来源:互联网、广发证券发展研究中心 图图 12 热度热度 2 与沪深与沪深 300 指数走势指数走势 数据来源:互联网、广发证券发展研究中心 图图 13 热度热度 3 与沪深与沪深 300 指数走势指数走势 数据来源:互联网、广发证券发展研究中心 识别风险,发现价值 请务必阅读末页的免责声明 1111/191
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 广发金工 广发 金工 多维 数据 策略 研究
限制150内