论基于股票时间序列数据的关联规则挖掘研究bana.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《论基于股票时间序列数据的关联规则挖掘研究bana.docx》由会员分享,可在线阅读,更多相关《论基于股票时间序列数据的关联规则挖掘研究bana.docx(23页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、南昌大学20003级硕士学学位论文文献综述报告基于股票时间序序列数据的关关联规则挖掘掘研究Study oon Minning AAssociiationn Rulees froom Stoock Tiime Seeries Data 系 别: 计算机科科学与技术系系专 业: 计算机应应用技术研究方向: 人人工智能研 究 生: 汪廷华导 师: 程从从(教教授)2005年033月一引言随着计算机信息息系统的日益益普及,大容量存储储技术的发展展以及条形码码等数据获取取技术的广泛泛应用,人们们在日常事务务处理和科学学研究中积累累了大量的各各种类型的数数据。在这些些数据中,有有很大一部分分是呈现时间间序
2、列(tiime seeries)类类型的数据。所所谓时间序列列数据就是按按时间先后顺顺序排列各个个观测记录的的数据集11,如金融融证券市场中中每天的股票票价格变化;商业零售行行业中,某项项商品每天的的销售额;气气象预报研究究中,某一地地区的每天气气温与气压的的读数;以及及在生物医学学中,某一症症状病人在每每个时刻的心心跳变化等等等。然而,我我们应该注意意到:时间序序列数据不仅仅仅是历史事事件的记录,更更重要的是蕴蕴藏这些数据其中不不显现的、有有趣的模式。随随着时间推移移和时间序列列数据的大规规模增长,如如何对这些海海量数据进行行分析处理,挖挖掘其背后蕴蕴藏的价值信信息,对于我我们揭示事物物发展
3、规律变变化的内部规规律,发现不不同事物之间间的相互关系系,为人们正正确认识事物物和科学决策策提供依据具具有重要的实实际意义。时间序列数据分分析按照不同同的任务有各各种不同的方方法,一般包包括趋势分析析、相似性搜搜索、与时间间有关数据的的序列模式挖挖掘、周期模模式挖掘等2。本综综述是针对证证券业中股票票时间序列分分析的,试图图通过列举、分分析有关证券券业中股票时时间序列数据据分析的原理理、方法与技技术,着重探探讨数据挖掘掘中基于股票时时间序列数据据的关联规则则挖掘的概念念、原理技术术、实施过程程及存在的障障碍和问题,以以期能有新的的发现和领悟悟。二股票时间序序列传统研究究方法概述随着我国市场经经
4、济建设的发发展,人们的的金融意识和和投资意识日日益增强。股股票市场作为为市场经济的的重要组成部部分,正越来来越多地受到到投资者的关关注。目前股股票投资已经经是众多个人人理财中的一一种重要方式式。不言而喻喻,如果投资资者能正确预预测股票价格格、选准买卖卖时机,无疑疑会给投资者者带来丰厚的的收益。于是是,在股票的的预测和分析析方面出现了了大量的决策策分析方法和和工具,以期期能有效地指指导投资者的的投资决策。目目前,我国股股市用得较多的方法法概括起来有有两类3:一类是基基本分析和技技术分析,另另一类是经济济统计分析。1基本分析和和技术分析在股票市场上,当当投资者考虑虑是否投资于于股票或购买买什么股票
5、时时,一般可以以运用基本分分析的方法对对股市和股票票进行分析;而在买卖股股票的时机把把握上,一般般可以运用技技术分析的方方法4。基本分析指的是是通过对影响响股票市场供供求关系的基基本因素(如如宏观政治经经济形势、金金融政策、行行业变动、公公司运营财务务状况等)进进行分析,来来确定股票的的真正价值,判判断未来股市市走势,是长长期投资者不不可或缺的有有效分析手段段。技术分析是完全全根据股市行行情变化而加加以分析的方法,它它通过对历史史资料(成交交价和成交量量)进行分析析,来判断大大盘和个股价价格的未来变变化趋势,探探讨股市里投投资行为的可可能转折,从从而给投资者者买卖股票的的信号,适合合于投资者作
6、作短期投资。目目前技术分析析常用的工具具是各种各样样的走势图(KK线图、分时时图)和技术术指标(MAA、RSI、OOBV等)。2经济统计学学分析主要针对时间序序列数据进行行数学建模和和分析。传统统的时间序列列数据分析已已经是一个发发展得相当成成熟的学科,有有着一整套分分析理论和工工具,是目前前时间序列数数据分析的主主要方法,它它主要用经济济统计学的理理论和方法对对经济变量进进行描述、分分析和推算。传统时间序列数据分析的研究目的在于5:分析特定的数数据集合,建建立数学模型型,进行模式式结构分析和和实证研究;预测时间序列列的未来发展展情况。传统的时间序列列数据分析最最基本的理论论是40年代代分别由
7、Noorbor Wieneer和Anddrei KKolmoggomor提提出的。200世纪70年年代,G.PP.Box和和G.M.JJenkinns发表专著著时间序列列分析:预测测和控制,对对平稳时间序序列数据提出出了自回归滑滑动平均模型型(ARMAA),以及一一整套的建模模、估计、检检验和控制方方法,使得时时序数据分析析得以广泛运运用于各种工工程领域。其其基本思想是是根据各随机机变量间的依依存关系或自自相关性,从从而由时间序序列的过去值值及现在值来来预测出未来来的值。该模模型以证券市市场为非有效效市场为前提提,当期的股股票价格变化化不仅受当期期随机因素的的冲击,而且且受前期影响响。换句话说
8、说,就是历史史信息会对当当前的股票价价格产生一定定程度的影响响。采用的方方法一般是在在连续的时间间流中截取一一个时间窗口口(一个时间间段),窗口口内的数据作作为一个数据据单元,然后后让这个时间间窗口在时间间流上滑动,以以获得建立模模型所需要的的训练集66。7基于股票票时间序列是是一种混沌时时间序列的认认知,提出一一种新颖的非非线性时间序序列预测模型型,即滑动窗窗口二次自回回归(MWDDAR)模型型,该模型使使用部分的历历史数据及其其二次项构造造自回归模型型,模型参数数用最小二乘乘法估计。其其基本理论基基础是:一个个线性模型不不能描述混沌沌时间序列的的全局性特征征,但在一个个小的时间间间隔内,系
9、统统的行为却可可以用某种线线性模型近似似。8则则提出了一种种基于嵌入理理论和确定集集上的预测误误差的混沌时时间序列预测测方法,并探探讨了在股票票价格预测上上的应用。可以看出,经济济统计学为问问题的探索解解决方案提供供了有用而实实际的框架;模型是经济济统计学的核核心,模型的的选择和计算算往往被认为为是次要的,是是建立模型的的枝节。经济济统计学本质质上是从事“确定性”分析的,可可以说统计方方法是“目标驱动”的。但是,在在大量数据集集中往往存在在一些未被人人们预期到但但又具有价值值的信息,人人们为发现大大量数据中隐隐藏的规律和和模式,就需需要新的具有有“探索性”的分析工具具。显然,数数据挖掘就是是这
10、样的一门门工具。三数据挖掘技技术应用于股股票时间序列列分析的研究究现状数据挖掘(DMM,Dataa Miniing),也也称为数据库库中的知识发发现(KDDD,Knowwledgee Disccoveryy in DDatabaase)是数数据库技术和和机器学习等等人工智能技技术相结合的的产物,是一一门新兴的数数据智能分析析技术9。20世纪纪80年代末末,随着数据据库、互联网网技术的迅速速发展以及管管理信息系统统(MIS)和和网络数据中中心(IDCC)的推广应应用,数据的的存取、查询询、描述统计计等技术已日日臻完善,但但高层次的决决策分析、知知识发现等实实用技术还很很不成熟,导导致了“信息爆炸
11、”但“知识贫乏”的现象。到到了90年代代,人们提出出在数据库基基础上建立数数据仓库,应应用机器学习习和统计分析析相结合的方方法处理数据据,这两者的的结合促成了了数据挖掘技技术的诞生。所谓数据挖掘,简简单地说,就就是从大量数数据中提取或或挖掘知识2;详细细一点可以描描述为主要利利用某些特定定的知识发现现算法,在一一定的运算效效率的限制下下,从大量的的数据中抽取取出潜在的、有价值的知识(模型、规则和趋势)的过程。挖掘算法的好坏直接影响到知识发现的质量和效率,因此目前大多数研究都集中于数据挖掘算法及其应用上。1相关技术介介绍(1)关联规则则挖掘关联规则是美国国IBM AAlmadeen Ressea
12、rchh Centter的 RRakeshh Agraawal等人人于19933年首先提出出来的KDDD研究的一个个重要课题10。关关联规则挖掘掘本质是从大大量的数据中中或对象间抽抽取关联性,它它可以揭示数数据间的依赖赖关系,根据据这种关联性性就可以从某某一数据对象象的信息来推推断另一对象象的信息。它它可以做如下下形式化定义义:设I = ii1,i2,.,im是一组项的的集合(例如如一个商场的的物品),DD是一组事务务集(称之为事务务数据库)。D中的每个事事务T是项的集合合,且满足TTI。称事务T支持物品集集X,如果XT。关联规则则是如下形式式的一种蕴含含式:XY,其中XI,YI,且XY= f
13、。(1) 称关联联规则XY在事务数据据库D中具有大小小为s的支持度,如如果物品集XXY的支持度为为s%,即suupportt(XY)=P(XX U Y)。(2) 称规则则XY在事务数据据库D中具有大小小为c的可信度,如如果D中支持物品品集X的事务中有有c%的事务同时时也支持物品品集Y,即connfidennce(XY)=P(YY|X)。从语义的角度来来分析,规则则的可信度表表示这条规则则的正确程度度;支持度表表示用这条规规则可以推出出百分之几的的目标,即这这一规则对于于整体数据的的重要程度。用用户可以定义义二个阈值,要要求数据挖掘掘系统所生成成的规则的支支持度和可信信度都不小于于给定的阈值值。
14、这样,就就用蕴含式、支支持度和可信信度唯一标识识了每一个挖挖掘出来的关关联规则。已知事物数据库库D,关联规规则的挖掘问问题就是产生生支持度与置置信度分别大大于用户给定定的最小阈值值的所有关联联规则。该问问题分两步来来求解:第一一步是找出事事务数据库DD中所有满足足条件的具有有用户指定最小小支持度的项项目集。具有有最小支持度度的项目集称称为频繁项集集。第二步是是从频繁项集集中构造可信信度不低于用用户要求的规规则。形式地地,对于每一一个频繁项目目集A,找出出A的所有非非空子集a,如如果比率suupportt(A)/ssupporrt(a)min_conf(可可信度),就就生成关联规规则a(AA-a
15、)。识别或发现所有有的频繁项集集是关联规则则挖掘算法的的核心,也是是计算量最大大的部分。目目前已有不少少挖掘频繁项项集的方法,其其中最著名的的是R.Aggrawall和R.Srrikantt提出的Appriorii算法111,其核心心是利用这样样一个性质:频繁项集的的所有非空子集都都是频繁的。基基于这样的先先验知识,AApriorri使用一种种“逐层搜索“的迭代方法法,k-项集集用于探索(kk+1)项集集。首先找出出频繁1-项项集,记作LL1;用L11找频繁2-项集L2;而L2用于于找L3,如如此下去,直直到不能找到到频繁k-项项集。虽然Aprioori算法能能最终挖掘出出所有的关联联规则,但
16、由由于处理的数数据量非常大大,因而算法法的效率显得得十分重要。后后来的一些研研究人员对算算法的连接和和剪枝过程进进行各种优化化。如12提出出了称为ApprioriiTid的改改进算法,该该算法提出了了在每一步(第第一步除外)计计算候选频繁繁项集的支持持度时不需要要浏览整个事务务数据库。它它认为不包含含任何k-项项集的事务不不可能包含任任何k+1项项集,这样,这这种事务在其其后的考虑时时,可以加上上标记或删除除,因为为产产生j-项集集(jk),扫扫描数据库时时不再需要它它们。该算法法的本质是压压缩进一步迭迭代扫描的事事务数。而13提出出的ApriioriPrro算法,其其基本思想与与Aprioo
17、riTidd是一致的,也也是减少对数数据集的扫描描,不同的是是ApriooriProo算法是通过过在原有的数数据集上增加加一个属性,通通过这个属性性的取值来减减少对某些事事务的扫描。14是结合合Aprioori和ApprioriiTid两种种算法,提出出了一种混合挖掘掘算法AprrioriHHybridd,其基本思思想是在扫描描的早期使用用Aprioori算法,当当候选模式集集中记录条数数小到可以放放进内存时就就转向AprrioriTTid算法。这些改进算法虽虽然比Aprriori算算法在挖掘效效率上有一些些提高,但本本质上没有什什么区别,都都要在挖掘过过程中生成大大量的候选模模式集。“有没有
18、这样的的算法,挖掘掘全部的频繁繁项集而不产产生候选?” 19999年Han等等人提出FPP-Growwth算法15,以以及 Agrrawal等等人提出的树树投影(TTree PProjecct)166关联规则则挖掘算法就就是这样的算算法,它们在在性能上均获得得了突破,与与Aprioori算法相相比,挖掘效效率有了数量量级的提高。利利用FP-TTree 可可以压缩事务务数据集,压压缩有的达到到100多倍倍;而树投投影方法从原原理上讲是适适应任何数据据集的,无论论其据量多大大该算法都能能有效运行,从从而使得关联联规则挖掘可可以应用于海海量数据的挖挖掘和稠密数数据集的挖掘掘。除了上述关联规规则挖掘的
19、经经典算法之外外,人们着重重在以下几个个方面对关联联规则进行了了研究。(1)继续通过过各种手段提提高挖掘效率率。这方面包包括对原有算算法的进一步步改进177,18;提出一些并并行挖掘算法法19,220、增量量算法211以及带约约束的关联规规则挖掘策略略(元规则制制导关联规则则挖掘)222,23。(2)不同形式式关联规则的的研究。关联联规则最早是是由购物篮分分析开始的,但但是随着研究究的扩展和深深入,关联规规则的应用范范围不断扩大大,因此出现现了多种形式式关联规则的的研究。由最最简单的单维维、单层、布布尔关联规则则逐渐向复杂杂形式扩展。在在基本关联规规则的基础上上提出了布尔尔型加权关联联规则和广
20、义义模糊型加权权关联规则算算法24,由单层的的关联规则扩扩展为多层次次关联规则的的研究255等等。关关联规则形式式的多样化,反反映了人们从从不同角度认认识同一事物物的不同视点点,加深了对对关联规则的的认识与研究究。(3)结合其它它理论(如软软计算理论)对对关联规则进进行研究。引引入粗糙集概概念,使关联联规则发现的的模式具有较较高的解释能能力和精确度度26;通过引入神神经网络的概概念,提出用用相互激活与与竞争网络来来进行数据库库中的关联规规则的发现27;还还有基于遗传传算法的多维维关联规则挖挖掘28等。可以看看出通过引入入其他领域的的先进理论,丰丰富了关联规规则研究的内内容,提高了了算法的有效效
21、性。(4)关联规则则的价值评判判标准研究。如如29分分别讨论了关关联规则的客客观评价指标标(支持度、可可信度和相关关强度)和主主观评价指标标(新颖性、用用户感兴趣性性和简洁性),在此基础础上给出了一一种关联规则则的综合自动动评价方法。(5)关联规则则的应用研究究。理论从实实践中来,但但最终是为了了指导实践。关关联规则自提提出以来,经经过无数学者者的研究努力力,广泛应用用于社会生产产和科研的各各个方面,产产生了巨大的的效益300,31,332,33。(2)序列模式式挖掘序列模式(Seequenttial PPatterrn)挖掘最最早也是由RR.Agraawal首先先提出来的34。设设有一个交易
22、易数据库D,每每个顾客可在在不同时间购购买不同物品品,每次购买买活动称为交交易(Traansacttion)。这这里,顾客、交交易时间和所所购物品分别别以Custtomer_ID、Trransacction_Time和和Itemsset标识。如如果以Cusstomerr_ID为第第一关键字,TTransaactionn_Timee为第二关键键字对数据库库D排序,那那么,对每一一顾客而言,他他进行的所有有交易是以交交易时间的升升序排列的,从从而构成一个个序列,称这这种序列为顾顾客序列CSS(Custtomer Sequeence)。一一般地,令某某顾客的各次次交易时间为为t1,t22,t3,tn
23、,该该顾客在交易易时间ti购购买的物品集集记为iteemset(i),于是是该顾客的CCS序列为iitemseet(t1), iteemset(t2), itemsset(t33), itemmset(ttn)。相应应地,可以认认为上述交易易数据库D已已转换为顾客客序列数据库库。如果某序序列s包含在在某顾客的CCS序列中,那那么称该顾客客支持(Suupportt)该序列ss。某序列的的支持度为支支持该序列的的顾客数与顾顾客序列数据据库中顾客总总数之比。序序列模式就是是在上述顾客客序列数据库库中满足用户户指定最小支支持度的最长长序列。序列模式的问题题定义与关联联规则很相似似,它们之间间的区别可以
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 股票 时间 序列 数据 关联 规则 挖掘 研究 bana
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内