【广发金工】那些年一起追过的财经小编选股策略——互联网大数据挖掘系列专题之(四).pdf





《【广发金工】那些年一起追过的财经小编选股策略——互联网大数据挖掘系列专题之(四).pdf》由会员分享,可在线阅读,更多相关《【广发金工】那些年一起追过的财经小编选股策略——互联网大数据挖掘系列专题之(四).pdf(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 识别风险,发现价值 请务必阅读末页的免责声明 1 1/2626 金融工程|专题报告 2014 年 8 月 21 日 证券研究报告 阿点 那些年那些年,一起追过的财经小编策略一起追过的财经小编策略 基于基于互联网财经频道互联网财经频道文本文本挖掘挖掘选股选股 报告摘要报告摘要:互联网大数据与互联网金融时代互联网大数据与互联网金融时代 最近几年来,随着互联网大数据以及互联网金融时代的发展,人们获取信息的渠道越来越丰富多样。伴随着行为金融的发展,人们越来越关注非结构化的金融“数据”给投资决策带来的影响。在非结构化的信息中,热门财经网站的财经信息是其中的一部分。热门财经网站发布的财经新闻往往能够对个
2、股的股价产生影响,然而由于财经新闻往往为文本类信息,导致我们很少能够对此类财经信息所带来的投资机会进行量化,并运用于实际的投资实践中。本专题报告的目的为通过对热门财经网站的财经荐股栏目的文本信息进行挖掘,将文本类信息转换为能够进行实际操作的类“数据”信息,通过该信息建立量化策略,试图探讨文本类信息带来的投资价值。财经小编事件选股策略构建财经小编事件选股策略构建 基于文本挖掘技术,我们将大量的热门财经网站相关的荐股栏目的信息转换为类“数据”信息,然后基于这些类“数据”信息构建策略,我们主要考虑一下几个方面的信息:单个财经频道选股策略:单个财经频道选股策略:基于单个财经频道荐股栏目的荐股信息,考虑
3、在全样本内,单个财经网站不区分行业、不考虑个股当日表现下的荐股能力;在创业板股票的荐股能力;在沪深 300 指数成分股中的荐股能力以及在申万一级行业指数的荐股能力。多财经频道智能选股策略多财经频道智能选股策略:基于单个财经频道的前期一段时间内的单个策略表现,利用前期表现优异网站的荐股信息构成超配组合,考虑多个财经网站下的超配组合的策略表现。与单策略类似,考虑全样本内,不区分行业、个股当日表现的动态多策略;区分申万一级行业的动态策略。实证结果实证结果 历史回测结果显示,在单个财经频道事件选股策略下在单个财经频道事件选股策略下,策略存在明显的短期效应,以持有期 2 个交易日最为明显。在不区分行业以
4、及当日表现等因素的影响下,持有期为 2 个交易日的策略在回测期内的表现最为优异,其中新浪财经的荐股表现在历史回测期内表现最好,年化超额收益率为 64.35%;在创业板的选股能力上,新浪财经以及华讯财经网上相对上证指数超额收益明显;在多财经频道选股策略下在多财经频道选股策略下,策略同样存在明显的短期效应,其中在不区分行业的情况下,考虑各个网站前 5 个交易日表现,选择前 50%网站推荐个股形成超配组合策略表现优异,年化超额收益率为 43.66%。而在考虑区分申万一级行业的情况下,考虑各个网站前 30 个交易日表现,选择前 50%网站推荐个股形成超配组合策略表现优异,年化超额收益率为 21.82%
5、。图图 1 动态多策略表现动态多策略表现 表表 1 策略分年度表现策略分年度表现 指标 最大 回撤 最大月内回撤 超额累积收益率 2009-19.77%-19.77%78.36%2010-17.01%-17.01%27.77%2011-24.04%-14.76%-9.86%2012-12.53%-10.74%27.87%2013-12.32%-12.32%42.96%2014至今-10.60%-7.71%11.55%表表 2 策略整体表现策略整体表现 胜率 超额累积收益率 年化超额收益率 46.57%397.37%15.38%分析师:分析师:史庆盛史庆盛 S0260513070004 020-
6、87555888-8618 相关研究:相关研究:捕捉羊群效应下的行业轮动机会行为金融投资策略专题之(一)2014-04-14 基于网络新闻热度的择时策 略互联网大数据挖掘系 列专题之(一)2014-06-25 公告披露背后隐藏的投资 机会互联网大数据挖掘系 列专题之(二)2014-06-26 倾听股吧之声-互联网大数据挖掘系列专题之(三)2014-06-27 识别风险,发现价值 请务必阅读末页的免责声明 2 2/2626 金融工程|专题报告 目录索引目录索引 一、前言.5 二、互联网财经荐股体系介绍.5 2.1 互联网财经频道选股策略框架.5 2.2 数据抓取平台组件框架.6 2.3 数据来源
7、.7 2.4 数据处理过程.7 三、财经小编量化策略构建.10 3.1 热门财经网站荐股信息统计-全样本统计.10 3.2 热门财经网站荐股信息统计-创业板、沪深 300 指数成分统计.11 3.3 热门财经网站荐股信息统计-申万一级行业指数成分统计.12 四、策略构建及实证.13 4.1 单个财经频道选股策略.13 4.2 单个财经频道选股策略实证结果.13 4.3 多财经频道智能选股策略.19 4.4 多财经频道智能选股策略实证结果.20 五、总结.23 5.1 总结.23 5.2 工具推荐.24 风险提示.25 识别风险,发现价值 请务必阅读末页的免责声明 3 3/2626 金融工程|专
8、题报告 图表图表目录目录 图 1 动态多策略表现.1 图 2 互联网财经频道选股策略框架.5 图 3 数据抓取平台组件框架.6 图 4 爬取热门财经网站荐股栏目实例.7 图 5 热门财经网站荐股栏目实例.8 图 6 热门财经网站荐股栏目对应网页源代码.8 图 7 荐股信息存储一览.8 图 8 热门财经网站对应爬取字段.9 图 9 热门财经网站对应爬取字段源代码.9 图 10 个股推荐信息提取一览.9 图 11 各大财经网站每日荐股均值一览.10 图 12 各大热门财经网站每日推荐创业板与沪深 300 指数成分一览.11 图 13 凤凰网申万一级行业荐股均值一览.12 图 14 新浪网申万一级行
9、业荐股均值一览.12 图 15 搜狐证券_个股风云申万一级行业荐股均值一览.12 图 16 同花顺申万一级行业荐股均值一览.12 图 17 南方财富网申万一级行业荐股均值一览.12 图 18 中国证券网申万一级行业荐股均值一览.12 图 19 搜狐证券_个股风云策略表现一览.14 图 20 华讯财经_机构荐股栏目策略表现一览.14 图 21 南方财富网_个股推荐策略表现一览.15 图 22 凤凰网_黑马集中营策略表现一览.16 图 23 新浪网荐股栏目策略表现一览.16 图 24 同花顺_个股投资荐股策略表现一览.17 图 25 中国证券网_热点研究个股荐股策略表现一览.17 图 26 凤凰网
10、_黑马集中营荐股栏目申万一级行业策略表现(持有期 2 个交易日).18 图 27 新浪网_个股研究荐股栏目申万一级行业策略表现(持有期 2 个交易日).19 图 28 考虑各个网站前 5 个交易日表现选择前 50%网站推荐个股形成超配组合策略.20 图 29 考虑各个网站前 30 个交易日表现,选择前 50%网站推荐个股形成超配组合策略.21 图 30 考虑对应申万一级行业策略前5个交易日表现选择前50%网站策略持有期2个交易日表现.22 图 31 考虑对应申万一级行业策略前 30 个交易日表现选择前 50%网站持有期 2 个交易日表现.23 图 32 广发证券金融工程:财经频道量化选股系统.
11、24 表 1 策略分年度表现.1 表 2 策略整体表现.1 识别风险,发现价值 请务必阅读末页的免责声明 4 4/2626 金融工程|专题报告 表 3 各大热门财经网站每日荐股信息统计.10 表 4 各大热门财经网站推荐沪深 300 指数成分股以及创业板股票信息一览.11 表 5 各大热门财经网站荐股信息不同持有期下表现一览.13 表 6 搜狐证券_个股风云策略指标一览.14 表 7 华讯财经_机构荐股策略表现指标一览.14 表 8 南方财富网_个股推荐策略表现指标一览.15 表 9 考虑各大热门财经网站推荐沪深300指数成分股策略指标一览(持有期 2个交易日).15 表 10考虑各大热门财经
12、网站推荐沪深300指数成分股策略指标一览(持有期5个交易日).16 表 11 考虑各大热门财经网站推荐创业板股票策略指标一览(持有期 2 个交易日)16 表 12 考虑各大热门财经网站推荐创业板股票策略指标一览(持有期 5 个交易日).17 表 13 各大财经网站申万一级行业荐股优异行业一览.18 表 14 凤凰网_黑马集中营申万一级行业部分策略表现指标.18 表 15 新浪网_个股研究申万一级行业部分策略表现指标.19 表 16 考虑单个网站前 5 个交易日表现下的动态策略表现一览.20 表 17 考虑各网站前 5 个交易日表现,选择前 50%网站形成超配组合,持有期 2个交易日策略表现.2
13、0 表 18 考虑单个网站前 30 个交易日表现下的动态策略表现一览.21 表 19 考虑各网站前 30 个交易日表现,选择前 50%网站形成超配组合持有期 2 个交易日策略表现.21 表 20 考虑对应申万一级行业策略前5个交易日表现选择前50%网站策略持有期2个交易日表现.22 表 21 考虑对应申万一级行业策略前5个交易日表现选择前50%网站策略持有期2个交易日表现.22 表 22 考虑对应申万一级行业策略前 30 个交易日表现选择前 50%网站持有期 2 个交易日策略表现.23 表 23 考虑对应申万一级行业策略前 30 个交易日表现选择前 50%网站持有期 2 个交易日策略表现.23
14、 识别风险,发现价值 请务必阅读末页的免责声明 5 5/2626 金融工程|专题报告 一、前言一、前言 当前,是互联网信息时代。互联网在过去10年里,经历了快速发展阶段,信息的爆炸性增长也使得人们获取的信息量迅速地增加。人们获取信息的途径也越来越丰富。而在互联网大数据时代下,信息的提供者与使用者之间的界限已经越来越模糊,金融信息的来源渠道也越来越丰富多样。投资者有更多的渠道来获取相关的金融信息,过去上百年的金融研究,往往局限于对以数字形式存在的数据的研究,而忽略了对非结构化的金融“数据”的研究,在当前互联网时代下,分析师的研究报告、股吧论坛帖子的信息、新闻媒体的新闻以及微博和维信等非结构化文本
15、信息往往能够反应当前市场上投资者对股市的投资情绪,而这些信息往往又对投资者的投资决策起到潜移默化的作用。据相关报道,2011年8月24日,巨人网络董事长兼首席执行官史玉柱通过微博透露中国人寿“虎视眈眈”欲控股民生银行,随后民生银行股价在两个交易日大涨,史玉柱旗下公司所持该行股份浮盈2.56亿元,他的这条微博也因此被称为“史上最贵微博”;2012年12月6日,“SOHO中国”在某热门财经网站上发布中标消息称:“在刚刚结束的光华路SOHO2项目地上钢结构定标会上,浙江杭萧钢构股份有限公司成功中标!”,随后,SOHO中国董事长潘石屹转发并评论。下午开盘后,杭萧钢构股价应声而上,最高上涨逾6%。可见,
16、媒体的传播已经对个股的涨跌产生了重要的影响。之前我们分别通过股吧帖子论坛、上市公司公告内容、个股新闻热度等三个角度对互联网的文本信息对股市的影响进行了统计分析以及实证,得到了较好的就结果。本专题报告从另一个角度考虑互联网财经相关的文本信息对股市的影响进行研究,我们考虑热门财经网站上推荐股票栏目上的荐股信息对股市的影响,利用大量的热门财经网站上海量的荐股文本信息,从中寻找对个股、行业存在显著影响的信息,并基于此构建量化策略。二、二、互联网财经荐股互联网财经荐股体系介绍体系介绍 2.1 互联网互联网财经频道选股策略框架财经频道选股策略框架 图图 2 互联网财经频道选股策略框架互联网财经频道选股策略
17、框架 数据来源:广发证券发展研究中心 互联网财经频道新浪财经、搜狐网个股推荐、同花顺个股推荐、腾讯财经、华讯财经、凤凰网、南方财富网、中国证券网、搜狐证券金罗盘Matlab,Vba爬取文本存储(字段:推荐日期、标题、文章内容、网站区别标志、推荐个股先后顺序)txt文本形式存储或数据库存储动态考虑多个网站选股策略动态考虑多个网站各行业选股策略文本预处理文本信息提取个股推荐时间顺序网站区分标签个股推荐计数考虑各网站综合选股能力考虑各网站各行业选股能力考虑各网站沪深300、创业板股票选股能力单个网站策略多个网站动态策略 识别风险,发现价值 请务必阅读末页的免责声明 6 6/2626 金融工程|专题报
18、告 财经频道选股策略整个框架分为三大部分:数据获取数据获取、数据处理数据处理以及策略构建策略构建。数据获取阶段数据获取阶段首先收集热门网站的个股推荐栏目,然后对各个网站的个股推荐栏目网页源代码进行解析,分析出需要提取的内容所对应的网页源代码格式,对于返回内容直接为网页所见内容的,直接采用字符串匹配或者HTMLDOM的结构进行解析,推荐使用HTMLDOM结构提取代码,这样爬取下来的内容,“噪音”几乎没有。有些网站信息是经过浏览器再解析后呈现出来的,此时直接对返回的网页源代码进行解析后,得不到需要提取的内容,此时可以考虑是通过JS解析的方式重新获取特定的内容,将需要爬取的特定信息爬取下来后以数据库
19、或者文本文件的形式按一定规律存储于本地磁盘中。数据处理分为预处理以及后期处理两块数据处理分为预处理以及后期处理两块,预处理这一块主要是对由于访问错误或者链接已经失效内容的清洗,后期处理主要是针对预处理后的文本信息根据特定的算法提取每个推荐的个股信息(这里的难点是尽量提高个股信息提取的准确度),可以考虑先对各个网站的文本结构进行分析,找出噪音的规律以及有用信息的规律。策略构建策略构建是本专题研究的重点,主要考虑各个网站的荐股能力,分为整体荐股能力、相对申万一级行业荐股能力、相对沪深300、创业板荐股能力;同时考虑多个网站在单策略结果下的动态选股策略,分为考虑整体的选股能力以及区分行业的选股能力。
20、2.2 数据抓取平台组件框架数据抓取平台组件框架 图图 3 数据抓取平台组件框架数据抓取平台组件框架 数据来源:广发证券发展研究中心 上图刻画了在大规模的互联网数据爬取过程中的整体框架,对于爬取大量财经网站的荐股文本信息,可以分为以下几个主要步骤:1)首先对需要批量爬取信息的网页结构进行研究,主要是研究需要提取的特定信息的网页格式进行研究,这步骤可以借助在IE浏览器下打开需要提取信息的网页,然后调用出开发人员工具,找到需要批量提取的特定信息的网页代码规则,监控系统监控系统监控异常、调整反监控规则获取反监控规则、异常规则、设置代理IP反监控反监控管理管理反监控规则异常规则恢复策略可视化配置智能化
21、配置网页规则网页规则识别识别获取网页抓取规则抓取任务调抓取任务调度分发器度分发器常规抓取临时抓取带优先级抓取消息通用可扩展集群抓取线程池连接池批量存储批量存储 识别风险,发现价值 请务必阅读末页的免责声明 7 7/2626 金融工程|专题报告 或者利用Firefox浏览器下的XPATH工具以及View Source Chart工具以及Firebug、以及Httpfox工具;2)找到各个财经网站上需要爬取的财经信息栏目url的规律,然后直接遍历所有需要爬取的财经网站的荐股栏目信息,获取到各个网站历史荐股信息;3)对于大规模的互联网信息抓取而言,单线程的数据获取是一项非常局限的事情,因此多线程、分
22、布式的信息抓取平台是必须搭建的。因此数据的抓取平台的搭建是一项基础性的工作。由于需要爬取的财经小编的网站数量多,并且需要爬取所有的个股推荐信息,因此爬取的效率是非常关键的一步,多线程、分布式爬取是解决效率问题的好办法。对特定网站需要爬取内容的,需要注意的是网站代码格式不一致问题,因此需要动态地调整爬取程序(正常爬取代码格式+特殊的格式爬取),爬取完成后信息的规范化存储也是一个比较重要的问题,这个可以方便后面的数据清洗、处理。推荐采用数据库存储格式或者本地磁盘的文本形式存储。同时出于对网站安全的考虑,需要实时监控程序的运行,防止网络访问限制问题,设置适当的断线重连机制,IP切换机制等;4)对于抓
23、取到的信息统一批量存储到指定的数据库或者本地磁盘中,构成后续分析的底层的数据库。2.3 数据来源数据来源 经过手工搜索热门财经网站,我们确定了10个热门财经网站的荐股栏目,分别为:中国证券网中国证券网_热点研究个股推荐热点研究个股推荐、南方财富网南方财富网_个股推荐个股推荐、同花顺同花顺_个股投资个股投资、搜狐网站搜狐网站_金罗盘金罗盘、新浪财经新浪财经_个股研究个股研究、华讯财经华讯财经_机构荐股机构荐股、华讯财经华讯财经_个股点评个股点评、华讯财经华讯财经_内参内参、搜狐证券搜狐证券_个股风云个股风云、凤凰网凤凰网_黑马集中营黑马集中营。这样我们就选定了爬取的财经网站池。图图 4 爬取热门
24、财经网站荐股栏目实例爬取热门财经网站荐股栏目实例 数据来源:广发证券发展研究中心 2.4 数据处理过程数据处理过程 选定需要爬取的热门财经网站池后,接下来的过程就是爬取网站池中对应的荐股栏目的历史荐股信息,首先根据需要爬取内容对应到网站的源代码中,找到需 识别风险,发现价值 请务必阅读末页的免责声明 8 8/2626 金融工程|专题报告 要爬取内容的网页源代码代码结构,这里需要注意的问题是,对应的链接失效以及网站对应需要爬取位置格式前后不一的问题,这时候就需要在程序中写入容错机制,判断链接是否失效以及格式前后是否一致的问题。图图 5 热门财经网站荐股栏目实例热门财经网站荐股栏目实例 图图 6
25、热门财经网站荐股栏目对应网页源代码热门财经网站荐股栏目对应网页源代码 数据来源:广发证券发展研究中心 数据来源:广发证券发展研究中心 图图 7 荐股信息存储一览荐股信息存储一览 数据来源:广发证券发展研究中心 数据爬取完后接下来的一步就是将文本类型的数据处理成有用的信息,因为本专题报告挖掘的是每个热门财经网站荐股栏目上推荐的个股信息,因此需要将爬取下来的文本信息中关于推荐的个股提取出来,从大量的文本信息中提取推荐个股信息的难点是如何获取到特定的个股推荐信息以及最大限度地降低噪音信息对提取个股推荐信息的影响,本专题采用的方法是通过存储各大财经网站的“噪音”信息库,形成“噪音”信息库。如果在提取各
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 广发金工 广发 金工 那些 一起 财经 编选 策略 互联网 数据 挖掘 系列 专题

限制150内