国泰君安_20160705_国泰君安数量化专题之七十六:基于文本挖掘的主题投资策略9.pdf
《国泰君安_20160705_国泰君安数量化专题之七十六:基于文本挖掘的主题投资策略9.pdf》由会员分享,可在线阅读,更多相关《国泰君安_20160705_国泰君安数量化专题之七十六:基于文本挖掘的主题投资策略9.pdf(19页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 2016.07.05 基于文本挖掘的主题投资策略基于文本挖掘的主题投资策略 数量化数量化专题之专题之七十六七十六 刘富兵(分析师)刘富兵(分析师) 021-38676673 证书编号 S0880511010017 本报告导读:本报告导读: 本篇报告旨在通过对新闻文本、研报文本的挖掘分析,展示一种及时跟踪市场热点主题,并构建该主题相关基础信息的方法。通过对市场上主题投资的规律探究,构建一 类主题内选股投资策略。 摘要:摘要: 市场上热点主题千差万别,主题轮动瞬息万变,能否第一时 间发现市场的热点主题?是否有一种方式可以自动跟踪市
2、 场上实时发生的各类热点事件?本篇报告通过一种对新闻 文本的挖掘算法构建了主题仓库,并对每个主题分别挖掘个 股、建立主题的活跃期限,用以描述该主题的市场表现。 主题的构成是依靠个股的组合,而主题内个股也在动态变 化,如何描述主题和其中个股的关系也是重要的研究课题。 本篇报告通过动量因子、分析师推荐因子、新闻报道因子和 行业相似性因子四类度量方式来描述主题和个股的关联程 度。每一类度量指标都是基于对历史主题的数量化观察。 基于四类因子,我们发现通过构建多空组合进行主题内选股 可以获得较稳定的超额收益。从 2014 年至今的实证结果表 明,组合能在较低回撤(5.04%)前提下获得较为可观的收 益(
3、年化收益 21.57%) 。 主题投资研究要解决两个问题,即配臵什么主题,配臵主题 中的哪些标的。本文主要解决第二个问题。未来我们会通过 观察主题轮动的市场规律尝试解决第一个问题。主题投资的 本质是投资者对于市场热点的不同解读导致的博弈过程,我 们希望通过这两方面的研究进一步揭示这种博弈过程导致 的股价变化规律,从而给予投资者一定的指示。 金融工程团队:金融工程团队: 刘富兵:刘富兵: (分析师)(分析师) 电话:021-38676673 邮箱: 证书编号:S0880511010017 刘正捷: (分析师)刘正捷: (分析师) 电话:0755-23976803 邮箱: 证书编号:S088051
4、4070010 李辰:李辰: (分析师分析师) 电话:021-38677309 邮箱: 证书编号:S0880516050003 陈奥林:陈奥林: (研究助理研究助理) 电话:021-38674835 邮箱: 证书编号:S0880114110077 王浩:王浩: (研究助理研究助理) 电话:021-38676434 邮箱: 证书编号:S0880114080041 孟繁雪:孟繁雪: (研究助理)(研究助理) 电话:021-38675860 邮箱: 证书编号:S088011604008 相关报告 基 于 奇 异 谱 分 析 的 均 线 择 时 研 究 2016.06.22 价格走势观察之基于均线的分
5、段方法 2016.05.31 事件驱动策略的因子化特征2016.05.27 基于微观市场结构的择时策略2016.05.19 融资融券标的调整事件研究2016.05.17 数 量 化 专 题 报 告数 量 化 专 题 报 告金融工程金融工程 金 融 工 程金 融 工 程证 券 研 究 报 告证 券 研 究 报 告国泰君安版权所有发送给博颐投资.公共邮箱: p1国泰君安版权所有发送给博颐投资.公共邮箱: p129006数量化专题报告数量化专题报告 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 2 of 19 目 录 1. 引言 .3 2. 主题数据构建 .3 2.1. 热点主题
6、挖掘 .3 2.2. 主题个股挖掘 .8 2.3. 主题活跃期构建 .9 3. 主题内选股因子 . 11 3.1. 个股动量因子 . 11 3.2. 分析师推荐因子 .12 3.3. 新闻报道因子 .13 3.4. 行业相似度因子 .14 4. 主题内选股策略和实证分析 .14 4.1. 选股模型构建 .14 4.2. 实证分析 .16 5. 总结与展望 .17 5.1. 主题投资体系结构 .17 5.2. 研究展望 .18 国泰君安版权所有发送给博颐投资.公共邮箱: p2国泰君安版权所有发送给博颐投资.公共邮箱: p2数量化专题报告数量化专题报告 请务必阅读正文之后的免责条款部分请务必阅读正
7、文之后的免责条款部分 3 of 19 1. 引言引言 主题投资作为 A 股市场上一种重要的投资机会, 反映了投资者对市场上 发生的热点事件的解读,同时也是不同市场参与者的心理博弈过程。如 果我们能通过一种方式第一时间抓住这些投资者关心的热点,并且找出 这些热点的变化规律,我们就有机会更快地介入此类投资机会,获得丰 厚的收益。而伴随着投资数据化,数据本身的非结构化,越来越多的热 点变幻信息可以通过数据分析和挖掘获得。与此同时,市场对此类信息 的解读,例如分析师对热点的评价,新闻记者对事件的报道,以及投资 者对异动的反应,也可以通过挖掘研报和新闻文本获得。因此,基于文基于文 本的挖掘算法对于即使把
8、握市场热点,构建主题数据具有重要意义。本的挖掘算法对于即使把握市场热点,构建主题数据具有重要意义。 本报告首先介绍了一种文本挖掘的算法来构建主题数据,包括用来描述介绍了一种文本挖掘的算法来构建主题数据,包括用来描述 主题本身的主题词向量和描述其构成的个股集合。主题本身的主题词向量和描述其构成的个股集合。在此基础上,我们提 出了主题的活跃期限有界性主题的活跃期限有界性,从而将研究的范围进一步聚焦。同时,为 了度量主题内个股和主题的关系,我们定义了四类因子,分别是动量因动量因 子,分析师推荐因子,新闻报道因子和行业相似性因子子,分析师推荐因子,新闻报道因子和行业相似性因子。这些因子的选 取都是基于
9、对历史的主题轮动规律一些数量化的观察。最后,我们将构 建一个主题内选股的多空策略。实证结果表明,该策略从 2014 年初开 始,在相对较低的回撤条件下,可以获得比较稳定的相对收益。 本篇报告的第 2 章,我们将介绍构建热点主题数据的方法,包括主题词 本身的构建,主题词向量的构建,主题活跃期的构建,主题个股的挖掘 等。在第 3 章中,我们将首先给出一些历史上主题演变的数量化观察结 果,基于这些结果,我们定义了四类选股因子。在第 4 章中,我们尝试 构建了主题内选股的多空策略,该策略通过实证分析证明稳定有效。第 5 章为研究的总结和展望。 2. 主题数据构建主题数据构建 对主题数据的构建可以从多个
10、层次展开。要描述一个主题的特征,需要 描述该主题表达的是什么热点事件,用怎样的关键词来描述这个热点, 以及该主题可能发生异动的时间段等。以下就从这些方面分别构建主 题。 2.1. 热点主题挖掘热点主题挖掘 热点主题的挖掘方式有很多。最简单常用的方式是直接通过各大财经网 站的主题概念板块抓取。图 1 展示了目前国内主要的财经网站整理的主 题数据的情况,包括新浪财经,云财经,东方财富网等。 然而,通过爬取网站的方式来获取主题有诸多弊端。其一,这样的爬取 方式非常依赖源网站本身,数据的质量也很依赖于源网站;其二,通过 爬取网页的方式获得主题, 很大程度上具有比较高的延迟性, 也就是说, 这种方式并不
11、能第一时间获得市场上最活跃的主题。为了解决以上问 题,我们介绍一种基于新闻文本挖掘的主题获取方式。通过该方式可以 在主题异动的第一时间监控到主题的异动。 国泰君安版权所有发送给博颐投资.公共邮箱: p3国泰君安版权所有发送给博颐投资.公共邮箱: p3数量化专题报告数量化专题报告 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 4 of 19 图图 1 新浪财经、新浪财经、东方财富网上的主题概念板块东方财富网上的主题概念板块 数据来源:国泰君安证券研究、东方财富网、新浪财经网 该算法的核心思想是,一个主题的异动往往带来的是对这个主题大量持 续的报道,更有甚者,在主题还没有在市场
12、上有所表现的时候,就已经 有大量的新闻报道产生了,从而使得和该热点相关的新闻数量在这一时 间达到一个突发的高点。从此角度出发,我们可以对近期的全量新闻进 行文本聚类,将描述同一个事件的新闻聚到一个类别中,而热点事件由 于受到广泛关注,很容易从聚类类别中“脱颖而出” 。我们拿 2015 年 2 月 28 日,柴静发布雾霾深度调查视频穹顶之下为例,该视频的发 布对 A 股市场造成了强烈的冲击,环保板块、大气治理板块保持了 3 到 4 个交易日的强势表现。也就是说,在市场对该热点有所反应之前,我 们其实已经能够从新闻中捕捉到这样的新闻了。这些新闻大部分是对热 点事件本身的报道,或者是一些专家学者对该
13、热点的解读。因此,我们 首先需要从全量文本中将该热点相关的新闻找到,在此基础上再进行信 息提取。根据以上思路,热点主题的挖掘流程可以分为四个步骤(见图 2) : 1.新闻文本聚类。 对算法执行当天的最近 N 天的全量新闻进行文本聚类。 通过文本聚类,可以将类似新闻汇聚到一个集合中,从而可以在下一步 对即将研究的新闻集合进行进一步处理。应用新闻聚类算法的核心是如 何度量两个新闻文本之间的相似度。一般的做法是将新闻文本的相似度 度量转换为两个文本的关键词向量之间的相似度度量,通过两个向量的 cosine 相似度即可描述文本之间的相似度。 新闻文本的关键词向量可以国泰君安版权所有发送给博颐投资.公共
14、邮箱: p4国泰君安版权所有发送给博颐投资.公共邮箱: p4数量化专题报告数量化专题报告 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 5 of 19 使用 TFIDF 算法抽取,即对于每个文本,抽取 TFIDF 值最高的 n 个关键 词作为关键词向量。新闻文本聚类过程一定要特别注意短文本聚类问 题。由于短文本的关键词向量维度较小,很容易在聚类过程中出现分错 类别的情况,因此,如有必要,可以通过标题聚类的方式将短文本进行 归类,做特别处理。这里的近 N 天中 N 的取值一般可以取 17 任意值, 数值越大,则新闻样本越多,数值越少,实时化效果越好。具体取值由 应用需求决定。
15、聚类算法本身的选择可以使用层次聚类算法,该算法的 好处是无需事先指定要聚类的类别数量,并且可以根据聚类结果中新闻 数量的多少动态调整聚类算法的停止条件。 图图 2 热点主题热点主题挖掘流程挖掘流程 数据来源:国泰君安证券研究 2.筛选热点主题。通过上一步的新闻聚类,我们已经将类似新闻聚集到 同一个集合中。我们关心的是那些包含的新闻数量最多的集合,因为这 些集合中很可能包含市场热点。上文已经提到,对于热点事件,新闻记 者会争相报导且频繁转发,从而导致此类新闻聚集到同一个集合中,形 成大的集合。因此,在这一步,我们选取新闻数量排名前 1%的类别作 为待挖掘主题的热点文本集合。 3.候选关键词提取。
16、在这一步,我们对第二步得到的文本集合进行关键 词提取,我们希望通过这些关键词代替新闻文本来描述主题。通过文本 抽取关键词的技术非常多,常用的算法包括上文提到的 TF-IDF 算法, 类似 Google 搜索排序的 TextRank 算法,中科院研发的基于邻接词信息 熵的 ICTCLAS 自然语言处理器等。一般来说,如果我们已经有比较好 的外部知识库,比如比较完善的新词词典,或者主要词语的 IDF 得分词 典,那么用相对比较简单的 TF-IDF 就可以解决大部分问题了。如果没 有这样的知识库积累,可以考虑使用 TextRank 或者其他更复杂的算法。 4.确定主题名称(标签) 。我们希望对每个挖
17、掘出的热点文本集合打一个 名称标签来说明这是一个怎样的主题或者概念,所以需要从候选关键词 中选取一个最适合做主题名称的词语。一般来说,对于一些热点市场上 会有一些比较统一、成熟的称谓,因此我们可以借鉴投资者对这一类热 点的称谓来给主题打标签。具体的做法是:计算每个关键词加“概念”, “主题”,或“板块”这些后缀之后在新闻文本中出现的次数,取出次数 最高的那个词语作为主题名称。 下面用一个具体的实例来介绍以上步骤的实施过程。 2015 年 2 月 28 日, 柴静发布雾霾深度调查视频穹顶之下 ,对 PM2.5、大气污染、雾 霾等话题进行了全方位报道。受此影响,3 月 1 日开盘后环保板块大幅国泰
18、君安版权所有发送给博颐投资.公共邮箱: p5国泰君安版权所有发送给博颐投资.公共邮箱: p5数量化专题报告数量化专题报告 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 6 of 19 高开,龙头股纷纷涨停,并且环保板块持续强势了 34 个交易日。我们 来观察在发布雾霾视频当天算法的运行情况。 首先,根据步骤一,对当天的全量新闻进行聚类(也可以根据前面提到 的近 N 天新闻进行聚类) ,得到聚类后的类别分布如表 1,图 3 所示。 表表 1:2015 年年 2 月月 28 日日新闻聚类类别中新闻数量分布新闻聚类类别中新闻数量分布 类别中新闻类别中新闻数量数量 类别数量类别数量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 国泰 _20160705_ 数量化 专题 七十六 基于 文本 挖掘 主题 投资 策略
限制150内