欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    国泰君安_20160705_国泰君安数量化专题之七十六:基于文本挖掘的主题投资策略9.pdf

    • 资源ID:871324       资源大小:1.21MB        全文页数:19页
    • 资源格式: PDF        下载积分:6金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要6金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    国泰君安_20160705_国泰君安数量化专题之七十六:基于文本挖掘的主题投资策略9.pdf

    请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 2016.07.05 基于文本挖掘的主题投资策略基于文本挖掘的主题投资策略 数量化数量化专题之专题之七十六七十六 刘富兵(分析师)刘富兵(分析师) 021-38676673 liufubing008481gtjas.com 证书编号 S0880511010017 本报告导读:本报告导读: 本篇报告旨在通过对新闻文本、研报文本的挖掘分析,展示一种及时跟踪市场热点主题,并构建该主题相关基础信息的方法。通过对市场上主题投资的规律探究,构建一 类主题内选股投资策略。 摘要:摘要: 市场上热点主题千差万别,主题轮动瞬息万变,能否第一时 间发现市场的热点主题?是否有一种方式可以自动跟踪市 场上实时发生的各类热点事件?本篇报告通过一种对新闻 文本的挖掘算法构建了主题仓库,并对每个主题分别挖掘个 股、建立主题的活跃期限,用以描述该主题的市场表现。 主题的构成是依靠个股的组合,而主题内个股也在动态变 化,如何描述主题和其中个股的关系也是重要的研究课题。 本篇报告通过动量因子、分析师推荐因子、新闻报道因子和 行业相似性因子四类度量方式来描述主题和个股的关联程 度。每一类度量指标都是基于对历史主题的数量化观察。 基于四类因子,我们发现通过构建多空组合进行主题内选股 可以获得较稳定的超额收益。从 2014 年至今的实证结果表 明,组合能在较低回撤(5.04%)前提下获得较为可观的收 益(年化收益 21.57%) 。 主题投资研究要解决两个问题,即配臵什么主题,配臵主题 中的哪些标的。本文主要解决第二个问题。未来我们会通过 观察主题轮动的市场规律尝试解决第一个问题。主题投资的 本质是投资者对于市场热点的不同解读导致的博弈过程,我 们希望通过这两方面的研究进一步揭示这种博弈过程导致 的股价变化规律,从而给予投资者一定的指示。 金融工程团队:金融工程团队: 刘富兵:刘富兵: (分析师)(分析师) 电话:021-38676673 邮箱:liufubing008481gtjas.com 证书编号:S0880511010017 刘正捷: (分析师)刘正捷: (分析师) 电话:0755-23976803 邮箱:liuzhengjie012509gtjas.com 证书编号:S0880514070010 李辰:李辰: (分析师分析师) 电话:021-38677309 邮箱:lichengtjas.com 证书编号:S0880516050003 陈奥林:陈奥林: (研究助理研究助理) 电话:021-38674835 邮箱:chenaolingtjas.com 证书编号:S0880114110077 王浩:王浩: (研究助理研究助理) 电话:021-38676434 邮箱:wanghao014399gtjas.com 证书编号:S0880114080041 孟繁雪:孟繁雪: (研究助理)(研究助理) 电话:021-38675860 邮箱:mengfanxuegtjas.com 证书编号:S088011604008 相关报告 基 于 奇 异 谱 分 析 的 均 线 择 时 研 究 2016.06.22 价格走势观察之基于均线的分段方法 2016.05.31 事件驱动策略的因子化特征2016.05.27 基于微观市场结构的择时策略2016.05.19 融资融券标的调整事件研究2016.05.17 数 量 化 专 题 报 告数 量 化 专 题 报 告金融工程金融工程 金 融 工 程金 融 工 程证 券 研 究 报 告证 券 研 究 报 告国泰君安版权所有发送给博颐投资.公共邮箱:boyitouzigmail.com p1国泰君安版权所有发送给博颐投资.公共邮箱:boyitouzigmail.com p129006数量化专题报告数量化专题报告 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 2 of 19 目 录 1. 引言 .3 2. 主题数据构建 .3 2.1. 热点主题挖掘 .3 2.2. 主题个股挖掘 .8 2.3. 主题活跃期构建 .9 3. 主题内选股因子 . 11 3.1. 个股动量因子 . 11 3.2. 分析师推荐因子 .12 3.3. 新闻报道因子 .13 3.4. 行业相似度因子 .14 4. 主题内选股策略和实证分析 .14 4.1. 选股模型构建 .14 4.2. 实证分析 .16 5. 总结与展望 .17 5.1. 主题投资体系结构 .17 5.2. 研究展望 .18 国泰君安版权所有发送给博颐投资.公共邮箱:boyitouzigmail.com p2国泰君安版权所有发送给博颐投资.公共邮箱:boyitouzigmail.com p2数量化专题报告数量化专题报告 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 3 of 19 1. 引言引言 主题投资作为 A 股市场上一种重要的投资机会, 反映了投资者对市场上 发生的热点事件的解读,同时也是不同市场参与者的心理博弈过程。如 果我们能通过一种方式第一时间抓住这些投资者关心的热点,并且找出 这些热点的变化规律,我们就有机会更快地介入此类投资机会,获得丰 厚的收益。而伴随着投资数据化,数据本身的非结构化,越来越多的热 点变幻信息可以通过数据分析和挖掘获得。与此同时,市场对此类信息 的解读,例如分析师对热点的评价,新闻记者对事件的报道,以及投资 者对异动的反应,也可以通过挖掘研报和新闻文本获得。因此,基于文基于文 本的挖掘算法对于即使把握市场热点,构建主题数据具有重要意义。本的挖掘算法对于即使把握市场热点,构建主题数据具有重要意义。 本报告首先介绍了一种文本挖掘的算法来构建主题数据,包括用来描述介绍了一种文本挖掘的算法来构建主题数据,包括用来描述 主题本身的主题词向量和描述其构成的个股集合。主题本身的主题词向量和描述其构成的个股集合。在此基础上,我们提 出了主题的活跃期限有界性主题的活跃期限有界性,从而将研究的范围进一步聚焦。同时,为 了度量主题内个股和主题的关系,我们定义了四类因子,分别是动量因动量因 子,分析师推荐因子,新闻报道因子和行业相似性因子子,分析师推荐因子,新闻报道因子和行业相似性因子。这些因子的选 取都是基于对历史的主题轮动规律一些数量化的观察。最后,我们将构 建一个主题内选股的多空策略。实证结果表明,该策略从 2014 年初开 始,在相对较低的回撤条件下,可以获得比较稳定的相对收益。 本篇报告的第 2 章,我们将介绍构建热点主题数据的方法,包括主题词 本身的构建,主题词向量的构建,主题活跃期的构建,主题个股的挖掘 等。在第 3 章中,我们将首先给出一些历史上主题演变的数量化观察结 果,基于这些结果,我们定义了四类选股因子。在第 4 章中,我们尝试 构建了主题内选股的多空策略,该策略通过实证分析证明稳定有效。第 5 章为研究的总结和展望。 2. 主题数据构建主题数据构建 对主题数据的构建可以从多个层次展开。要描述一个主题的特征,需要 描述该主题表达的是什么热点事件,用怎样的关键词来描述这个热点, 以及该主题可能发生异动的时间段等。以下就从这些方面分别构建主 题。 2.1. 热点主题挖掘热点主题挖掘 热点主题的挖掘方式有很多。最简单常用的方式是直接通过各大财经网 站的主题概念板块抓取。图 1 展示了目前国内主要的财经网站整理的主 题数据的情况,包括新浪财经,云财经,东方财富网等。 然而,通过爬取网站的方式来获取主题有诸多弊端。其一,这样的爬取 方式非常依赖源网站本身,数据的质量也很依赖于源网站;其二,通过 爬取网页的方式获得主题, 很大程度上具有比较高的延迟性, 也就是说, 这种方式并不能第一时间获得市场上最活跃的主题。为了解决以上问 题,我们介绍一种基于新闻文本挖掘的主题获取方式。通过该方式可以 在主题异动的第一时间监控到主题的异动。 国泰君安版权所有发送给博颐投资.公共邮箱:boyitouzigmail.com p3国泰君安版权所有发送给博颐投资.公共邮箱:boyitouzigmail.com p3数量化专题报告数量化专题报告 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 4 of 19 图图 1 新浪财经、新浪财经、东方财富网上的主题概念板块东方财富网上的主题概念板块 数据来源:国泰君安证券研究、东方财富网、新浪财经网 该算法的核心思想是,一个主题的异动往往带来的是对这个主题大量持 续的报道,更有甚者,在主题还没有在市场上有所表现的时候,就已经 有大量的新闻报道产生了,从而使得和该热点相关的新闻数量在这一时 间达到一个突发的高点。从此角度出发,我们可以对近期的全量新闻进 行文本聚类,将描述同一个事件的新闻聚到一个类别中,而热点事件由 于受到广泛关注,很容易从聚类类别中“脱颖而出” 。我们拿 2015 年 2 月 28 日,柴静发布雾霾深度调查视频穹顶之下为例,该视频的发 布对 A 股市场造成了强烈的冲击,环保板块、大气治理板块保持了 3 到 4 个交易日的强势表现。也就是说,在市场对该热点有所反应之前,我 们其实已经能够从新闻中捕捉到这样的新闻了。这些新闻大部分是对热 点事件本身的报道,或者是一些专家学者对该热点的解读。因此,我们 首先需要从全量文本中将该热点相关的新闻找到,在此基础上再进行信 息提取。根据以上思路,热点主题的挖掘流程可以分为四个步骤(见图 2) : 1.新闻文本聚类。 对算法执行当天的最近 N 天的全量新闻进行文本聚类。 通过文本聚类,可以将类似新闻汇聚到一个集合中,从而可以在下一步 对即将研究的新闻集合进行进一步处理。应用新闻聚类算法的核心是如 何度量两个新闻文本之间的相似度。一般的做法是将新闻文本的相似度 度量转换为两个文本的关键词向量之间的相似度度量,通过两个向量的 cosine 相似度即可描述文本之间的相似度。 新闻文本的关键词向量可以国泰君安版权所有发送给博颐投资.公共邮箱:boyitouzigmail.com p4国泰君安版权所有发送给博颐投资.公共邮箱:boyitouzigmail.com p4数量化专题报告数量化专题报告 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 5 of 19 使用 TFIDF 算法抽取,即对于每个文本,抽取 TFIDF 值最高的 n 个关键 词作为关键词向量。新闻文本聚类过程一定要特别注意短文本聚类问 题。由于短文本的关键词向量维度较小,很容易在聚类过程中出现分错 类别的情况,因此,如有必要,可以通过标题聚类的方式将短文本进行 归类,做特别处理。这里的近 N 天中 N 的取值一般可以取 17 任意值, 数值越大,则新闻样本越多,数值越少,实时化效果越好。具体取值由 应用需求决定。聚类算法本身的选择可以使用层次聚类算法,该算法的 好处是无需事先指定要聚类的类别数量,并且可以根据聚类结果中新闻 数量的多少动态调整聚类算法的停止条件。 图图 2 热点主题热点主题挖掘流程挖掘流程 数据来源:国泰君安证券研究 2.筛选热点主题。通过上一步的新闻聚类,我们已经将类似新闻聚集到 同一个集合中。我们关心的是那些包含的新闻数量最多的集合,因为这 些集合中很可能包含市场热点。上文已经提到,对于热点事件,新闻记 者会争相报导且频繁转发,从而导致此类新闻聚集到同一个集合中,形 成大的集合。因此,在这一步,我们选取新闻数量排名前 1%的类别作 为待挖掘主题的热点文本集合。 3.候选关键词提取。在这一步,我们对第二步得到的文本集合进行关键 词提取,我们希望通过这些关键词代替新闻文本来描述主题。通过文本 抽取关键词的技术非常多,常用的算法包括上文提到的 TF-IDF 算法, 类似 Google 搜索排序的 TextRank 算法,中科院研发的基于邻接词信息 熵的 ICTCLAS 自然语言处理器等。一般来说,如果我们已经有比较好 的外部知识库,比如比较完善的新词词典,或者主要词语的 IDF 得分词 典,那么用相对比较简单的 TF-IDF 就可以解决大部分问题了。如果没 有这样的知识库积累,可以考虑使用 TextRank 或者其他更复杂的算法。 4.确定主题名称(标签) 。我们希望对每个挖掘出的热点文本集合打一个 名称标签来说明这是一个怎样的主题或者概念,所以需要从候选关键词 中选取一个最适合做主题名称的词语。一般来说,对于一些热点市场上 会有一些比较统一、成熟的称谓,因此我们可以借鉴投资者对这一类热 点的称谓来给主题打标签。具体的做法是:计算每个关键词加“概念”, “主题”,或“板块”这些后缀之后在新闻文本中出现的次数,取出次数 最高的那个词语作为主题名称。 下面用一个具体的实例来介绍以上步骤的实施过程。 2015 年 2 月 28 日, 柴静发布雾霾深度调查视频穹顶之下 ,对 PM2.5、大气污染、雾 霾等话题进行了全方位报道。受此影响,3 月 1 日开盘后环保板块大幅国泰君安版权所有发送给博颐投资.公共邮箱:boyitouzigmail.com p5国泰君安版权所有发送给博颐投资.公共邮箱:boyitouzigmail.com p5数量化专题报告数量化专题报告 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 6 of 19 高开,龙头股纷纷涨停,并且环保板块持续强势了 34 个交易日。我们 来观察在发布雾霾视频当天算法的运行情况。 首先,根据步骤一,对当天的全量新闻进行聚类(也可以根据前面提到 的近 N 天新闻进行聚类) ,得到聚类后的类别分布如表 1,图 3 所示。 表表 1:2015 年年 2 月月 28 日日新闻聚类类别中新闻数量分布新闻聚类类别中新闻数量分布 类别中新闻类别中新闻数量数量 类别数量类别数量 >100>100 27 8080- -100100 192 6060- -8080 386 4040- -6060 810 2020- -4040 4722 2 2- -2020 13592 0 0- -1 1 9735 数据来源:国泰君安证券研究 图图 3 新闻新闻聚类类别中新闻数量分布示意聚类类别中新闻数量分布示意 1%1%3%16%46%33%>10080-10060-8040-6020-402.0-200-1数据来源:国泰君安证券研究 通过上面的示意图可以更清晰地看到,大部分类别的数量都是在 0-20 个之间,也就是说,大部分集合都是很小的,这表明大部分新闻是相互 比较独立的,叙述的是不太相关的事情。反之,那些相对比较大的集合 数量就比较少,例如新闻数量在 100 个以上的类别只占总体的不到 1%, 但是这些集合中却可能包含我们想要挖掘的热点信息。因此,我们可以 选择前 1%的类别作为主题热点的候选集合 S。我们对其中某个类别的新 闻标题进行了随机抽样,结果如下: 雾霾调查视频爆红 关注柴静概念基金 独家-环保部长:柴静雾霾纪录片值得敬佩 柴静拍雾霾视频引质疑:以女儿病情开场是否客观 争议中的穹顶之下:雾霾存在于空气,还是人心? 环保部长陈吉宁:已看柴静雾霾纪录片 值得敬佩 柴静雾霾调查:穹顶之下 国泰君安版权所有发送给博颐投资.公共邮箱:boyitouzigmail.com p6国泰君安版权所有发送给博颐投资.公共邮箱:boyitouzigmail.com p6数量化专题报告数量化专题报告 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 7 of 19 看完这个你就知道柴静雾霾调查视频究竟讲了啥 雾霾调查视频走红:柴静概念横空出世 九股蓄势待发 雾霾调查视频走红 柴静概念股横空出世 柴静雾霾视频调查引关注 初衷因女儿患肿瘤 找到候选集合之后,需要确定什么主题词能够最好地描述热点。对于柴 静主题,我们抽取出的前 10 名词语如下: 1.柴静 2.PM2.5 3.雾霾治理 4.优酷 5.大气治理 6.苍穹 7.灰尘 8.丁仲礼 9.PM10 10.脱硫脱硝 可以看到,这些主题词基本上很好的概况了当时柴静发布雾霾视频的热 点事件。为了进一步甄选合适的词语作为主题名称,我们通过主题词+ “概念”或者+“主题”作为模式匹配所有文本,结果如表 2 所示: 表表 2:主题词模式匹配结果主题词模式匹配结果 模式模式 出现次数出现次数 “柴静概念柴静概念”+ +“柴静柴静主题主题” 25 “PM2.5PM2.5 概念概念”+ +“PM2.5PM2.5 主题主题” 18 “雾霾治理概念雾霾治理概念”+ +“雾霾治理雾霾治理主题主题” 13 “优酷概念优酷概念”+ +“优酷主题优酷主题” 0 “大气治理概念大气治理概念”+ +“大气治理主题大气治理主题” 11 “苍穹概念苍穹概念”+ +“苍穹主题苍穹主题” 0 “灰尘概念灰尘概念”+ +“灰尘主题灰尘主题” 0 “丁仲礼概念丁仲礼概念”+ +“丁仲礼主题丁仲礼主题” 0 “PM10PM10 概念概念”+ +“PM10PM10 主题主题” 0 “脱硫脱硝概念脱硫脱硝概念”+ +“脱硫脱硝主题脱硫脱硝主题” 2 数据来源:国泰君安证券研究 从上表不难看出,使用“柴静” 、 “PM2.5” 、 “雾霾治理” 、 “大气治理” 这几个词语作为概念词语最佳,并且可以将这四个词语对应的主题聚类 到一个类别中。 综上所述,在这一步,我们可以完成两方面数据的构建,即对主题本身 名称的确定和主题相关的一系列关键词的抽取。这些关键词可代替原文 本描述主题,我们称之为主题的词向量。 国泰君安版权所有发送给博颐投资.公共邮箱:boyitouzigmail.com p7国泰君安版权所有发送给博颐投资.公共邮箱:boyitouzigmail.com p7数量化专题报告数量化专题报告 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 8 of 19 2.2. 主题主题个股个股挖掘挖掘 通过 2.1 章介绍的算法,我们已经可以实时获取主题热点,下一步就是 寻找和该主题相关的标的。在之前的报告基于文本挖掘的量化投资应 用一文中,我们已经对如何挖掘主题个股进行了比较详细的介绍,这 里做一些进一步的解释。 对于每个主题,我们从新闻和研报文本中抽取管理个股。这里抽取的个 股是候选个股集合,我们并不对个股和主题之间的相似性关系做更多描 述。这些关系的描述后文会通过一系列因子给出。抽取的具体方法是, 如果一篇文章中出现了“主题词+概念”的模式,则挖出文本中该模式 附近的所有个股的词语,并将这些个股加入主题候选个股集合中,对应 记录出现的次数。遍历所有文本后,对每个主题,过滤掉出现次数较少 的个股,得到最终的候选集合。 总结来说,关键点在于两点:1.附近。这里的抽取算法抽取的是“主题 词+概念”模式附近的词语。这里附近的衡量标准可以是以句号分隔的 两个完整句子。这样做的主要目的是去除这样类似新闻的噪音: “ 除新股外,两市共 38 只非 ST 个股涨停,其中互联网金融、博彩等概念 股受到资金追捧,今日上市的 7 只新股依旧是市场热点,并二次临时停 牌;金轮股份、易事特、友邦吊顶、溢多利、东方通、创意信息、安硕 信息等 7 只次新股依旧延续“传统”强势涨停,以下为部分个股涨停原 因。 【博彩概念】安妮股份、高鸿股份、内蒙君正、鸿博股份、新华都、人 民网、新北洋 财政部日前发布的数据显示,2013 年,全国共销售彩票 3093.25 亿元, 同比增长18.3%。 其中体育彩票机构销售1327.97亿元, 同比增长20 .2%。 爆发式增长的背后,是各大互联网企业纷纷涉足彩票领域,五百彩票网 等专业彩票网站的诞生。随着网络彩票销售模式的出现,未来彩票行业 将成爆发式增长。其中,新北洋称,彩票投注机主要由打票、读票两个 核心模块构成,公司具备彩票投注机整机及这两个核心模块的研发生产 能力,并且公司的彩票相关产品已在市场实现了批量销售。 ” 对于上述文章,如果直接用全文本进行操作,则会混入大量无关个股。 2.过滤。对那些出现较少的个股,将其过滤,因为那些大概率是噪音。 很多新闻会同时提及多个概念,但是从统计意义上来说,某两个主题同 时被提及的概率则降低很多。因此,即使因为一篇文章提到了多个主题 而混入噪音,我们也可以通过统计意义上的方法来去噪。 国泰君安版权所有发送给博颐投资.公共邮箱:boyitouzigmail.com p8国泰君安版权所有发送给博颐投资.公共邮箱:boyitouzigmail.com p8数量化专题报告数量化专题报告 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 9 of 19 2.3. 主主题题活跃期构建活跃期构建 通过 2.1、2.2 章介绍的算法,我们已经可以实时往主题库中写入主题和 个股了。随着时间的推移,越来越多的主题被沉淀下来,但是这些主题 并非所有都是有研究价值的。我们认为,只有在主题的活跃区间内才有 研究价值,也就是说,只有在新闻、研报中被提及达到一定的次数,说 明市场的关注度较高,这部分的主题相对比较有研究价值。为了验证此 想法,我们考察了主题库中所有主题的热度分布情况。 具体来说,定义: 绝对热度=研究区间内主题相关研报+新闻数量 相对热度=绝对热度/研究区间时间 也就是说,用相对热度来表示平均每天主题关联的文本数量,总体上主 题的相对热度分布如表 3、图 4 所示。 表表 3: 主题相对主题相对热度分布情况热度分布情况 相对相对热度热度 10.00>10.00 43 20 11 14 9 4 5 5 数据来源:国泰君安证券研究 图图 4 主题主题相对热度相对热度分布示意分布示意 020040060080010001200主题个数数据来源:国泰君安证券研究 从图表中不难看出,超过 80%的主题的相对热度都很低,平均每天相关 的新闻、研报数量不到 1 个。因此,我们可以通过设定主题热度的阈值 过滤那些非活跃的主题,留下活跃的主题。实验数据表明,在市场上某 一特定时间点 t,活跃的主题数量一般不超过 300 个。我们列出了相对 热度排名相对较高的 25 个主题,如表 3 所示。 国泰君安版权所有发送给博颐投资.公共邮箱:boyitouzigmail.com p9国泰君安版权所有发送给博颐投资.公共邮箱:boyitouzigmail.com p9数量化专题报告数量化专题报告 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 10 of 19 表表 3:相对热度:相对热度前前 25 名名的主题的主题 主题名主题名 绝对热度绝对热度 统计统计日期日期 相对相对热度热度 供给侧改革供给侧改革 3447 74 46.5811 十三五规划十三五规划 3614 175 20.6514 互联网互联网+ + 7550 383 19.7128 中国制造中国制造 20252025 5256 373 14.0912 虚拟现实虚拟现实 3252 309 10.5243 人民币贬值人民币贬值 2912 337 8.6409 员工持股计划员工持股计划 2561 337 7.5994 健康健康中国中国 999 162 6.1667 生物医药生物医药 4807 814 5.9054 员工持股员工持股 4374 814 5.3735 业绩预增业绩预增 3884 814 4.7715 智能制造智能制造 3642 814 4.4742 能源互联网能源互联网 1475 336 4.3899 央企改革央企改革 3567 814 4.3821 海绵城市海绵城市 679 180 3.7722 高送转高送转 448 134 3.3433 工业工业 4.04.0 2662 814 3.2703 网络安全网络安全 2655 814 3.2617 军民融合军民融合 2534 814 3.1130 装备制造装备制造 977 320 3.0531 在线旅游在线旅游 2471 814 3.0356 一带一路一带一路 2463 814 3.0258 智智能机械能机械 1018 337 3.0208 央企重组央企重组 993 332 2.9910 互联网医疗互联网医疗 943 337 2.7982 数据来源:国泰君安证券研究 因此,为了确定每一个主题的活跃区间,我们可以使用绝对热度值来发 现那些热度高涨的时间点。为了使得热度曲线更加平滑,实际操作中我 们使用 7 天的移动平均值对绝对热度做平滑,得到 MA(Heat-7d)曲线。设 MA(Heat-7d)在 t 时刻的观察值为,均值为 ,标准差为 s,则活跃区间 T 为: 表 4 是根据以上公式计算得到的一些主题的活跃区间的示例,以及对该 主题在这段期间活跃原因的可能解释。 国泰君安版权所有发送给博颐投资.公共邮箱:boyitouzigmail.com p10国泰君安版权所有发送给博颐投资.公共邮箱:boyitouzigmail.com p10数量化专题报告数量化专题报告 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 11 of 19 表表 4:主题活跃期:主题活跃期示例示例 主题名主题名 活跃周期活跃周期 最近最近的活跃期的活跃期 备注备注 世界杯世界杯 4 年 2014 年 5 月 -2014 年 9 月 虽然世界杯 7 月才开赛,但是从 5 月开始就已经博得大量舆论关 注,资金也开始潜伏 埃博拉埃博拉 病毒病毒 无周期性 2014 年 10 月 -2015 年 6 月 2014 年 10 月左右埃博拉病毒感 染病人直线上升,媒体开始疯狂 报道 柴静柴静 (pm2.5)(pm2.5) 每年春季 2016 年 3 月- 今 柴静和 pm2.5, 大气治理基本上 是类似含义,每年春季舆论明显 增多 高送转高送转 1 年 2015 年 12 月- 今 每到年底就会有大量高送转公告 问世 两会两会 1 年 2016 年 3 月- 今 每年 3 月的政协和人大会议是公 众焦点 315315 晚晚 会会 1 年 2016 年 3 月- 今 315 晚会经常会伴随 A 股上市公 司黑天鹅事件,因此受到广泛关 注 第一夫第一夫 人人 无周期性 2013 年 3 月 -2014 年 4 月 2013 年 3 月 22 日“第一夫人” 彭丽媛随国家主席出访俄罗斯, 其首秀服装和拎包都来自本土品 牌,服装股因此受到市场追逐 维生素维生素 涨价涨价 不确定 2015 年 12 月- 今 维生素每次涨价都造成市场的疯 狂追逐,但其涨价的规律却不具 有周期性 博彩 (彩博彩 (彩 票)票) 不确定 2016 年 1 月- 今 博彩概念在每次政府出台互联网 彩票相关政策的时间段,或者有 重大赛事举办的时候 (如世界杯, 欧洲杯等) ,会出现大幅异动 一号文一号文 件件 1 年 2015 年 12 月 -2016 年 2 月 近几年中央一号文件关注大农 业,从前一年底开始就有资金炒 作该文件的出台预期 数据来源:国泰君安证券研究 3. 主题主题内选股内选股因子因子 基于主题数据,我们考虑描述主题和其个股的关系。我们希望通过不同 维度的指标描述其关系,并发掘通过这些指标是否能够找出主题内的龙 头股,或者具有龙头潜力的股票。为此,我们将从个股动量维度、分析 师推荐维度、新闻报道维度和行业维度四个角度来描述。 3.1. 个股动量因子个股动量因子 主题的发展一般要经历潜伏期、出现期、成熟期、消退期的过程,也就 是说

    注意事项

    本文(国泰君安_20160705_国泰君安数量化专题之七十六:基于文本挖掘的主题投资策略9.pdf)为本站会员(pei****hi)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开