国泰君安_20160923_国泰君安数量化专题之八十一:基于主题影响力因子的投资策略.pdf
《国泰君安_20160923_国泰君安数量化专题之八十一:基于主题影响力因子的投资策略.pdf》由会员分享,可在线阅读,更多相关《国泰君安_20160923_国泰君安数量化专题之八十一:基于主题影响力因子的投资策略.pdf(17页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 2016.09.23 基于主题基于主题影响力因子的投资策略影响力因子的投资策略 数量化数量化专题之专题之八八十十一一 刘富兵(分析师)刘富兵(分析师) 殷明(研究助理)殷明(研究助理) 021-38676673 021-38674637 证书编号 S0880511010017 S0880116070042 本报告导读:本报告导读: 本篇报告是基于文本挖掘的主题投资策略的下篇,继上篇报告阐述了如何通过文本挖掘市场的热点主题,以及如何进行主题内选股之后,报告旨在发掘一类可以获得超额收益的主题即影响力因子较高的主题。通过投资这类
2、主题,可以获得稳定的超额收益。 摘要:摘要: 通过基于文本挖掘的主题投资策略报告,我们已经可以 及时挖掘出市场上的各类主题。然而如何针对这些主题构建 投资策略呢?一个简单直接的想法是每当发现该主题则直 接买入。然而通过研究发现,这样的策略并无超额收益。我 们分析了该策略失效的原因,并进一步寻求解决方法。 报告首先对主题的研究范围进行了定义,并简单的回顾了前 一篇报告中阐述的国泰君安主题生产框架,该框架生产的主 题满足主题的三大特征,能够满足研究的需要。 不同的主题在市场上强弱表现不尽相同,我们通过主题的影 响力因子将不同主题进行了区分,并通过实验证明了不同影 响力因子在历史的表现的差异性。 基
3、于上述的影响力因子,我们构建了一类选主题的策略,该 策略从 2010 年 7 月至 2016 年 6 月六年时间里,可以获得约 六倍的绝对收益。如果使用中证 500 指数进行对冲,可以在 较低的回撤(9.89%)下获得年化 25.99%的相对收益。 正如主题投资报告的上篇中所述,主题投资研究要解决两个 问题,即配置什么主题(即选主题) ,配置主题中的哪些标 的(即选龙头股) 。上篇中我们已经解决了第二个问题,本 篇则通过影响力因子的构建解决了第一个问题。通过这两类 问题的研究,我们发现主题投资的最大特征:截断亏损,让 利润奔跑。 金融工程团队:金融工程团队: 刘富兵:刘富兵: (分析师)(分析
4、师) 电话:021-38676673 邮箱: 证书编号:S0880511010017 刘正捷: (分析师)刘正捷: (分析师) 电话:0755-23976803 邮箱: 证书编号:S0880514070010 李辰:李辰: (分析师分析师) 电话:021-38677309 邮箱: 证书编号:S0880516050003 陈奥林:陈奥林: (研究助理研究助理) 电话:021-38674835 邮箱: 证书编号:S0880114110077 孟繁雪:孟繁雪: (研究助理(研究助理) 电话:021-38675860 邮箱: 证书编号:S088011604008 殷明殷明: (研究助理)(研究助理)
5、电话:021-38674637 邮箱: 证书编号:S0880116070042 叶尔乐: (研究助理)叶尔乐: (研究助理) 邮箱: 电话:021-38032032 证书编号:S0880116080361 相关报告 基 于 MACD 的 价 格 分 段 研 究 3.0 2016.09.11 基于机器学习的牛股精选2016.09.08 拐点预测之级别错位研究2016.08.03 基于文本挖掘的主题投资策略2016.07.05 基 于 奇 异 谱 分 析 的 均 线 择 时 研 究 2016.06.22 数 量 化 专 题 报 告数 量 化 专 题 报 告金融工程金融工程 金 融 工 程金 融 工
6、 程证 券 研 究 报 告证 券 研 究 报 告数量化专题报告数量化专题报告 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 2 of 17 目录 1. 引言 . 3 2. 主题数据回顾. 3 2.1. 主题的研究范围 . 3 2.2. 国泰君安主题生产框架 . 4 3. 主题的异动及其影响力因子 . 5 3.1. 一个简单的策略发现即买入 . 6 3.2. 主题的异动 . 8 3.3. 主题影响力因子 . 9 4. 主题选股策略实证分析 . 11 4.1. 选主题策略构建 . 11 4.2. 策略持仓分析 . 13 5. 总结与展望 . 16 5.1. 主题投资体系结构 .
7、 16 5.2. 研究展望 . 16 数量化专题报告数量化专题报告 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 3 of 17 1. 引言引言 主题投资是 A 股市场上投资者非常关注的投资机会。在基于文本挖掘 的主题投资策略报告中,我们已经阐述了如何主动挖掘热点主题的投 资机会。本篇报告是上一篇报告的延续,继上篇报告之后进一步探究如 何把握主题性投资机会,选出强势的主题,寻找主题的买卖点。 上一篇报告中我们已经提出,主题投资需要解决三大问题,即:1.如何 挖掘热点主题,提示投资机会;2.如何选择强势的主题进行投资;3.给 定主题,如何选出主题下的龙头股。上一篇报告已经解决
8、了 1、3 两个 问题,本篇报告专注于第二个问题,即选主题的问题。选主题问题其实 又可以分割为几个子问题,譬如选择什么样的主题进行投资,如何选择 投资的买卖点,是否需要结合行情条件决定投资机会等等。为了解决这 些问题,我们定义了一种基于新闻的因子主题影响力因子将几类主 题进行区分,并发现该因子具有非常好的区分效应。总体来说,对市场 影响力越大的主题,其在市场上的表现更具有延续性。因此,我们基于 此做了绝对收益和相对收益的实证分析, 发现纯粹选主题的策略从 2010 年到 2016 年 6 年期间可以获得稳定的 25.99%的相对收益,最大回撤控 制在 10%以内。 本篇报告的结构如下:第二章首
9、先对上篇报告中阐述的主题数据进行了 回顾;第三章则开始对主题本身进行了研究范围的定义,并描述了什么 叫主题的异动及其影响力因子,希望通过影响力因子可以找出相对强势 的主题;第四章开始针对主题影响力因子进行策略的构建,并通过分年 度的策略统计寻找该策略的收益特征;最后,我们对主题投资的两篇报 告进行了总体性的总结,并描述了主题投资未来的研究方向。 2. 主题数据回顾主题数据回顾 这一节我们首先对贯穿文章始终的“主题”进行范围的定义,阐明我们 研究的主题需要满足的三个条件。 2.1. 主题主题的研究范围的研究范围 “主题” ,或称概念,题材,热点,一般是指一类股票的集合,该类股 票在某一方面具有相
10、同的特征。主题的概念在 A 股市场上由来已久,对 这个词语的概念的理解也不一而足。为了确认这篇报告中所研究的“主 题”的概念,我们对主题本身进行了研究范围的定义,认为要成为一个 主题,必须要满足以下三个特征: 1.聚合性,即同一个主题内的个股在市场上表现的相关性很高。具体来 说,同一个主题中的股票应该在某个维度具有相同的特征,所以才能聚 合到一起,但这种特征未必是基本面特征。也就是说,主题内的股票往 往和主题指数本身同步涨跌,或者受主题指数的涨跌影响很大。这种影 响有时候未必是基本面的特征。例如,2016 年 2 月 22 日晚间,大恒科 技发布澄清公告,否认公司为“虚拟现实”概念股,同时表示
11、截止当日数量化专题报告数量化专题报告 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 4 of 17 公司并未有 VR 虚拟现实相关产品的研发、营销计划。然而,即使在该 公告发布后,大恒科技在后续的涨跌幅依然和虚拟现实概念呈现极高的 相关性。因此,对于个股是否属于某个主题的一个比较直接的标准就是 该个股和主题本身的表现是否存在高相关性。 2.稳定性, 即主题内个股变化率较低。 主题中的个股应该有适当的进出, 例如手机游戏概念中,天神娱乐通过借壳上市的方式借壳原本从事木材 家具生产的公司科冕木业,从而进入了手机游戏概念。但是,这样的并 购、借壳事件并不常见,主题中的个股在短期内
12、保持相对稳定,不经常 出现变换。相反,像“高送转” 、 “股东增持”这样的热点事件虽然有时 也被称为概念,但我们更倾向于将其作为事件研究,因为每次该事件出 现时个股标的变化很大。 3.专注性,即主题概念涉及的概念股标的应该是通过一些最具代表性的 个股标的表示出来。例如, “一带一路”概念涉及到的股票非常多,有 上五百只,但是市场上对其炒作更多是中国中铁、中铁二局、新疆城建 等少数股票,即所谓“龙头股” 。 2.2. 国泰君安国泰君安主题生产框架主题生产框架 国泰君安自己的主题生产方式在基于文本挖掘的主题投资策略报告 中已经详细阐述过,这里做一个简单的回顾。如图 1 所示,我们通过网 络爬虫爬取
13、门户网站和行业深度网站的即时新闻,通过数据库存储为底 层新闻源。基于新闻源数据,我们通过主题热点挖掘方式获得最新的主 题(包括文本聚类、关键词抽取、关键词匹配等步骤) ,并和主题爬虫 爬取的主题数据进行合并去重,得到最终的主题数据。主题数据确定之 后,通过主题个股挖掘算法,经历统计去噪之后得到个股数据,利用主 题相对热度计算主题活跃期。这三部分数据共同构成主题数据,入主题 库。从以上过程不难看出,我们这里主题数据挖掘的方式和市场上目前 普遍使用的方式并不相同。目前大部分对主题数据的挖掘是通过给定某 个具体的主题,例如“精准医疗”,然后被动地去挖掘主题相关的个股和 新闻、研报等数据,这要建立在一
14、个前提上,即必须知道自己关注什么 主题。但是实际上,很多时候主题变幻莫测,在一个具体的时间点我们 并不知道什么主题会在市场上产生行情,更不可能去指定一个主题。因 此,这种主动挖掘近期热点的方式显得弥足珍贵,虽然这种方式难免会 引入一些噪音,但是如果能加入一些人工的去噪管理,作为提示主题投 资机会,具有很大的借鉴意义。 数量化专题报告数量化专题报告 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 5 of 17 图图 1 国泰君安国泰君安主题数据生产框架主题数据生产框架 数据来源:国泰君安证券研究 我们将根据以上框架生产的主题数据按照 2.1 节中对主题三个性质的描 述进行对照
15、,发现数据基本满足这三个特征: 1.聚合性。通过文本挖掘的方式找到主题个股关联,并进行了统计意义 上的去噪,聚合到一起的个股是以主题词作为桥梁“聚合”起来的。 2.稳定性。根据主题个股关联情况,去除变化频繁的主题。具体实现方 法是:在每个月的首个交易日,对主题库中所有主题一一检查该主题中 的个股集合(记为 S2)相对于上一个周期(即上一个月的首个交易日) 的个股集合(记为 S1)的变化率,即 1-(S2S1)/S1,去除主题的个股 变化率大于 80%的主题,如“高送转” 、 “业绩预增” 、 “员工持股”等。 3.专注性。对所有主题,限制其个股数量在 30 只以内,即取出最具代表 性的 30
16、只个股。筛选原则是, “由市场决定哪些个股与主题更加关联”, 具体算法是:对给定的主题,计算该主题过去三次异动时,主题内个股 平均涨幅,取出排名前 30 位的个股纳入主题池。该算法假定短期内主 题的代表性个股是稳定的,也就是说,对未来主题池中个股的选择根据 过去最近的几次主题表现来决定。 3. 主题的异动及其主题的异动及其影响力因子影响力因子 基于主题数据,我们可以进行主题投资。一个简单的想法是,既然主题 投资收益丰厚,那么在我们通过挖掘算法发现主题后直接买入,等待主 题行情。然而这样的操作策略并不能获得超额收益。通过观察策略持仓 发现,策略不能获得超额收益的主要原因是主题选择问题和买卖点选择
17、 问题。为了解决这两个问题,我们提出了影响力因子一个可以较好 区分主题强弱的因子。通过对每个主题影响力因子的计算,找出比较强 势的主题进行投资,同时通过因子上轨构建相应买点。 数量化专题报告数量化专题报告 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 6 of 17 3.1. 一个一个简单的策略简单的策略发现即买入发现即买入 由于我们每天都可以在市场上发现新的主题,因此,可以频繁收到投资 机会提示。于是一个简单的想法就是发现一个主题后立刻买入,主题买 入后回撤达到 10%卖出,希望主题发现的实时性能够帮助我们提前埋伏 主题机会。然而,我们针对这种方式进行了回测,发现策略并没
18、有超额 收益。 如图 2 所示, 深蓝色曲线为策略曲线, 浅蓝色曲线为基准中证 500。 我们发现在回测的六年时间内,主题策略并未获得高于基准的超额收 益。 图图 2 发现即发现即买入主题投资策略并没有超额收益买入主题投资策略并没有超额收益 数据来源:国泰君安证券研究 为了探究该策略无效的原因,我们查看了具体持仓,发现之所以失效, 主要原因有以下两点: 1、突发事件的干扰。突发的热点事件是指市场上不定期发生的一些热 点事件,例如上篇报告中提到的柴静发布雾霾视频的事件,天津滨海新 区天津港的瑞海公司危险品仓库火灾爆炸事件等等。这些突发事件有正 向事件也有负向事件,但是他们的共同特征是对市场的冲击
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 国泰 _20160923_ 数量化 专题 八十一 基于 主题 影响力 因子 投资 策略
限制150内