基于卷积和循环神经网络模型融合的股票开盘价预测研究.docx
《基于卷积和循环神经网络模型融合的股票开盘价预测研究.docx》由会员分享,可在线阅读,更多相关《基于卷积和循环神经网络模型融合的股票开盘价预测研究.docx(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于卷积和循环神经网络模型融合的股票开盘价预测研究赵浩博 李锡祚摘要:本文提出了一种利用股票价格和相关新闻数据,基于卷积和循环神经网络模型融合的股票开盘价预测研究方法。针对股票开盘价预测的问题,考虑到股票相关信息的时序性以及新闻影响的持续性特点后,首先使用向量表示方法将新闻数据转换成向量,再利用卷积神经网络模型提取出股票相关的新闻文本特征,同时使用循环神经网络模型对股票价格数据进行训练,最后将新闻特征向量和价格训练后得到的向量合并,得到股票信息的低维向量表示并输入到深度神经网络中,利用深度神经网络对股票开盘价进行预测。本文实验中使用的数据是美股道琼斯指数与相关新闻,实验结果表明,本文所提出的方
2、法在股票开盘价预测上具有明显的优越性。关键词:股票开盘价预测;卷积神经网络;循环神经网络;深度学习0引言金融市场是国家金融体系的重要部分,对于一、二级市场的参与者来说股票价格的分析预测是其做出正确判断与决定的重要参考,因此预测其价格也让大量的专家学者为之着迷。在全球化的股票市场中,市场的行情与国家经济大环境、法律法规、企业经营情况、投资者信心、新闻舆情等都有所关联,股市行情具有高度的波动性与不确定性,使其成为金融与计算机领域研究中的一大难题。由于公司报表、报刊和舆论媒体等文本信息的快速增长与积累,可用于分析的数据样本也在逐渐丰富,数据数量也在不断地增加。在股票价格的预测中,如何使用文本数据来让
3、模型的表现得到提升,在近些年的股市预测中一直是关注的热点。资本市场相关的数据信息通常可以反应股票价格波动,并且数据信息分析相比传统的K线分析更具有广度和深度。同时,随着AI领域的持续发展,机器学习和深度学习等人工智能技术在众多研究领域和实际场景中得到了广泛的应用,自然语言处理领域也因为深度学习的兴起得到了发展和进步,这些技术上的突破均使得股票预测模型的建立有了更大的上升空间。在过往的研究中,线性回归、遗传算法、SVM、决策树这些机器学习算法以及深度学习网络模型都被大量用在股票预测的研究之中。在文献中作者将多种机器学习算法与卷积神经网络(CNN)在股票预测中的表现进行了比较,证明了卷积神经网络模
4、型在股票预测上的准确率优于传统的机器学习算法。而在文献中,作者利用tensorflow框架搭建了多层神经网络(MLP)来对股票的价格进行预测,最终通过与传统的BP神经网络方法对比,说明了合适的神经网络结构有利于提高网络模型预测的准确率,同时还能有效减少预测耗时。基于深度学习在股票预测中的优良表现和循环神经网络在序列数据预测中的特殊性,本文提出了一种基于卷积和循环神经网络模型融合的股票开盘价预测研究方法。在股票的数据选取方面包含了历史价格和相关新闻,新闻的特征提取用到了word2vec和CNN方法。在训练模型上,由于股票价格是时间序列数据,具有时序性,同时新闻对股价的影响具有持续性,所以本文采用
5、的训练模型是卷积神经网络和循环神经网络。1相关技术1.1Word2Vector在神经网络等机器学习和深度学习模型中,无法直接处理字符串类型的数据,因此需要将其转换为纯数字信息。在转换过程中,应尽可能保留数据原始信息。Word2Vector与One-hot类似,是一种将文本数据转换为矢量的模型,广泛用于自然语言处理(NLP)中。One-hot对文本中的所有单词进行计数,然后对于每个词汇表编号,为每个单词创建N维向量。向量的每个维度代表一个单词,因此对应的数字位置中的维度值为1.其它维度均为0。虽然此方法保留原始单词信息,但在文本数量多的情况下维度太高,而且不能反映两个词之间的关系。例如,猫和小猫
6、明显比猫和珊瑚更接近,但其却在单词向量表示中无法得到体现。相比于One-hot的编码方式,Word2Vector通过学习文本,使用单词向量来表示单词的语义信息,通过将单词向量“嵌入空间”(嵌入就是将原始单词所在的空间映射到新空间),达到语义相似的单词之间距离接近的目的。这样便可以降低维度并反映单词和单词之间的关系。在Word2Vector方法中,主要有Skip-Gram和CBOW两种模型。从直观上理解,CBOW的做法是,将一个词所在的上下文中的詞作为输入,而词本身作为输出。Skip-Gram的做法和CBOW刚好相反,其将一个词所在的上下文中的词作为输出,而词本身作为输入。具体情况如图1所示。1
7、.2卷积神经网络(CNN)卷积神经网络(CNN)在计算机视觉领域取得了极大的进展,与此同时,CNN开始应用于自然语言处理(Natural Language Processing)的各种任务,也逐渐在自然语言处理领域占有了重要的地位。之所以用CNN来进行自然语言处理的工作,是因为其解决了传统词袋模型和连续词袋模型句子中词语的顺序被忽略、训练参数非常大的问题。在图像中卷积核通常是对图像的一小块区域进行计算,而在文本中,一句话所构成的词向量作为输入。每一行代表一个词的词向量,所以在处理文本时,卷积核通常覆盖上下几行的词,所以此时卷积核的宽度与输入的宽度相同。通过这样的方式,就能够捕捉到多个连续词之间
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 卷积 循环 神经网络 模型 融合 股票 开盘价 预测 研究
限制150内