基于基因表达式编程函数挖掘和时间序列分析关键技术研究.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《基于基因表达式编程函数挖掘和时间序列分析关键技术研究.pdf》由会员分享,可在线阅读,更多相关《基于基因表达式编程函数挖掘和时间序列分析关键技术研究.pdf(61页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-y-9 9 3 7 9四川I 大学硕士学位论文题目基王基固麦鲨盘缠程函数撞握塑瞳闻崖到佥板差毽堇盔研究作者避完成日期垄Q Q 鱼生垒旦羔量日专i F9 9 3 7 6 9基于基因表达式编程函数挖掘和时间序列分析关键技术研究计算机应用专业研究生:陈字指导教师:唐常杰摘要数据挖掘作为多领域的交叉学科,是近2 0 年来数据库界研究的热点;进化计算模型不需要太多领域知识和建立先验模型,在处理复杂的数据挖掘问题中得到了广泛的青睐。在函数挖掘和时间序列分析的问题中,取得了很大的成功。函数挖掘和时间序列分析的实践已经暴露出传统G E P 的缺陷:如难以挖掘分段函数和难以制定时间序列分析的嵌入维度等。在前人
2、的工作基础上,本文结合了统计学和小波分析的方法,对G E P 在函数挖掘和时间序列分析的缺陷做出了一系列的改进。本文的主要工作和贡献如下:I)分析了G E P 用于分段函数挖掘存在的问题,提出了基于小波的函数分段点发现算法。该算法通过对待拟合数据进行离散小波变换,对小波细节系数进行分析,能够比较准确的发现分段函数的分段点的所在,从而使得G E P 能够快速准确地挖掘分段函数。2)在统计学理论的基础上提出了根据自相关系数将时间序列分为强变化时间序列和弱变化时间序列,并提出了基于I 卜步相关序列制定时间序列嵌入维度的算法。对于强变化时间序列提出了差分平均预测方法。通过对时间序列作一次差分的预处理后
3、进行预测,取得了比原始G E P 方法更好的预测效果。对于弱变化时间序列提出了菲波那契加权平均滑动窗口预测的方法,通过菲波那契线性滤波器滤波后进行预测,取得了比原始G E P方法更为准确的预测结果。3)在小波变换的基础上,提出了针对强变化时间序列的基于小波近似系数的嵌入维度制定算法和针对弱变化时间序列的基于小波细节系数的嵌入维度制定算法。提出了两种基于小波滤波的G E P 时间序列预测方法:基于B 峙e-M a s s a r t 阈值策略的小波滤波预测方法和基于S t e i n 无偏估计阈值策略的小波滤波预测方法。这两种方法有效地滤除了时间序列中的噪声数据,使数据更为平滑,有效地提高了G
4、E P 时间序列预测的准确度。4)通过一系列的实验验证了本文提出的所有方法的有效性,证明使用这些方法能够提高G E P 函数挖掘和时间序列分析的准确性。本文的组织如下:第一节函数发现和时间序列分析背景。成果和不足;第二节介绍了数据挖掘、进化计算和小波分析的基本概念,术语和方法。第三节提出了基于小波分析的G E P 分段函数挖掘方法;第四节提出了基于N 步相关序列G E P 时间序列的分析方法,给出了四种新的预测方法。第五节通过一系列的实验验证了本文提出了所有方法的有效性。关键词:基因表达式编程函数挖掘时间序列分段函数小波近似系数细节系数自相关系数N-步相关序列嵌入维度T h er e s e
5、a r c ho fk e yt e c h n i q u e sf o rf u n c t i o nm i n i n ga n dt i m es e r i e sa n a l y s i sb yG e n eE x p r e s s i o nP r o g r a m m i n gS c h o o lo f C o m p u t e rS c i e n c eG r a d u a t e C H E NY uS u p e r v i s o r:T A N GC h a n g j i eA b s t r a c tD a t aM i n i n g,a
6、sac r o s s-d i s c i p l i n e,h a sr e c e i v e dp l e n t yo fa t t e n t i o n si nt h ed a t a b a s er e s e a r c hg r o u p ss i n c et h el a s tt w od e c a d e s A m o n gv a r i o u sd a t am i n i n gt e c h n o l o g i e s,E v o l u t i o nC o m p u t i n gh a sb e e nw i d e l ya p p
7、 l i e di nc o m p l e xp r o b l e mh a n d l i n gb e c a u s ei tr e q u i r e sl i t t l ef i e l dk n o w l e d g ea n dn oP n O rm o d e l P a r t i c u l a r l y,a p p l y i n gG e n eE x p r e s s i o nP r o g r a m m i n gt of u n c t i o nm i n i n ga n dt i m es e r i e sa n a l y s i sh
8、a sw o nb i gS U C C e s s H o w e v e r,t h e s ep r a c t i c e sh a v ee x p o s e ds o m el i m i t a t i o n so ft r a d i t i o n a lG E P F o ri n s t a n c e,i ti sd i f f i c u l tt om i n es e g m e n t e df u n c t i o na n dt od e c i d et h ee m b e d d i n gd i m e n s i o nf o rt i m
9、es e r i e s B a s e do ne x i s t i n gr e s e a r c h,t h i st h e s i sc o m b i n e sG E Pw i t hs t a t i s t i c sa n dw a v e l e ta n a l y s i st of o r maf e wn e wm e t h o d sf o rf u n c t i o nm i n i n ga n dt i m es e r i e sp r e d i c t i o n T h em a i nr e s u l t sa n dc o n t r
10、 i b u t i o n sa r ea sf o l l o w s,1)A n a l y s e st h ed i s a d v a n t a g e so fo r i g i n a lG E Pi ns e g m e n t e df u n c t i o nm i n i n ga n dp r o p o s e sW a v e l e t b a s e dS e g m e n tP o i r r tF i n d i n gA l g o r i t h m T h i sa l g o r i t h ma p p l i e sad i s c r
11、e t ew a v e l e tt r a n s f o r m a t i o no nt r a i n i n gd a t a T h r o u g ha na n a l y s i so nw a v e l e td e t a i lc o e f f i c i e n t s i tc a nd i s c o v e rt h es e g m e n tp o i n t so fs e g m e n t e df u n c t i o n sa n dh e n c ee n a b l eG E Pt om i n es c g m e m e df u
12、 n c t i o n se f f e c t i v e l y 2)P r o p o s e ss e l f-c o r r e l a t i o nc o e f f i c i e n t sb a s e dm e t h o dt oc l a s s i f yt i m es e r i e si n t oS e v e r eV i b r a t e d-t i m eS e r i e sa n dM i l dV i b r a t e dT i m eS e r i e s,a n df u r t h e r m o r e,p r o p o s e
13、sE m b e d d i n gD i m e n s i o nD e c i s i o nA l g o r i t h mb a s e do nN-s t e pc o r r e l a t i o ns e r i e s T oc o p ew i t hS e v e r eV i b r a t e dn m eS e r i e s,t h i st h e s i sp r o p o s e sD i f f e r e n c eA v e r a g eP r e d i c t i o nM e t h o d,w h i c hc a no b t a i
14、 nam O r ea c c u r a t er e s u l t st h a no r i g i n a lG E Pt h r o u g had i f f e r e n c eo p e r a t i o no nt i m es e r i e sd a t a;T od e a lw i t hM i l dV i b r a t e dT i m eS e r i e s,T h i ss t u d ya d v a n c e sF i b o n a c c i-W e i g h t e dA v e r a g eS l i d i n gW i n d
15、o wP r e d i c t i o nM e t h o d,w h i c hc a nr e a c hh i g h e ra c c u r a c yt h a no r i g i n a lG E Pt h r o u 曲al i n e a rF i b o n a c c if i l t e rf o rt i m es e r i e sd a t a 3 1P r o p o s e sa ne m b e d d i n gd i m e n s i o nd e c i d i n ga l g o r i t h mb a s e d0 1 1 _ w a
16、v e l e ta p p r o x i m a t ec o e f f i c i e n t st oh a n d l eS e v e r eV i b r a t e dT i m eS e r i e sa n da n o t h e ra l g o r i t h mb a s e do nw a v e l e td e t a i lc o e 伍c i e n t st oh a n d l eM i l dV i b r a t e dT i m eS e r i e s P u t sf o r w a r dt w ot i m es e r i e sp
17、r e d i c a t i n gm e t h o d sb a s e do i l w a v e l e tf i l t e r i n g,B i r g e-M a s s a r tT h r e s h o l db a s e dW a v e l e tF i l t e r i n gP r e d i c a t i n gM e t h o da sw e l la sS t e i nS U R ET h r e s h o l db a s e dW a v e l e tF i l t e r i n gP r e d i c a t i n gM e t
18、 h o d T h e s et w om e t h o d sf i k e rn o i s ed a t ai nt i m es e r i e sa n dm a k et h ed a t as m o o t h e r,a n dh e n c ei m p r o v et h ep r e d i c a t i o np r e c i s i o n。硼_ l i st h e s i so r g a n i z e da sf o l l o w s S e c t i o nli n t r o d u c e st h eb a c k g r o u n
19、d,a c h i e v e m e n t sa n dI i m i t a t i o n so ff u n c t i o nm i n i n ga n dt i m es e r i e sp r e d i c a t i o n;S e c t i o n2b r i e f l yi n t r o d u c e st h eb a s i ct e r m i n o l o g ya n dm e t h o d o l o g yo fd a t am i n i n g,e v o l u t i o nc o m p u t i n ga n d w a v
20、e l e ta n a l y s i s;S e c t i o n3p r o p o s e saW a v e l e t-b a s e dS e g m e n tP o i n tF i n d i n gA l g o r i t h mf o rG E Pt om i n es e g m e n t e df u n c t i o n s;S e c t i o n4p r o p o s e sE m b e d d i n gD i m e n s i o nD e c i s i o nA l g o r i t h mb a s e do nN-s t e pc
21、 o r r e l a t i o ns e r i e sa n da d d i t i o n a l l yf o u rn o v e lp r e d i c a t i n gm e t h o d s S e c t i o n5d e m o n s t r a t e st h ee 彘e t i v e n e s so fa l It h em e t h o d si nt h i sp a p e rb ye x t e n s i v ee x p e r i m e n t s K e yw o r d s:G e n eE x p r e s s i o n
22、P r o g r a m m i n g,F u n e t i o nM i n i n g,T i m eS e r i e s,S e g m e n t e dF u n c t i o n,W a v e l e t,A p p r o x i m a t eC o e f f i c i e n t s,D e t a i lC o e f f i c i e n t s,S e l f-C o r r e l a t i o nC o e f f i c i e n t s,N-s t e pC o r r e l a t i o nS e r i e s,E m b e d
23、d i n gD i m e n s i o n1 引言函数挖掘,作为一个既古老又年轻的领域一直吸引着无数研究者的目光。哲学认为:世界是一个普遍联系的整体,其运动受一定规律的支配。千百年来,人们在认识世界,改造世界的过程中不断地认识和发现新的规律,并把这些规律运用于实践,进一步推动认识世界和改造世界的过程。牛顿从天体运动观测数据中发现了万有引力定律,实际上就是一个函数挖掘的过程,其结果进一步推动了其他场力的计算和分析。在计算机发明以前,人们对函数的发现主要依靠多年不懈的辛勤工作加上一些突发的灵感。例如法拉第发现电磁感应定律就是在做了数十年实验后,在一次偶然的事件中获得了灵感而得到的。随着人们对
24、数学和统计学研究的不断深入,人们提出了最小二乘法(L e a s tS q u a r eF i t t i l l g)等一系列函数发现的方法,在函数发现领域取得了很大的进步。进入2 0 世纪中后期,随着计算机技术的不断发展,计算机技术被不断运用到了各个领域,极大地推动了各个领域的发展。在函数发现领域,在用计算机实现了以往的方法的同时,随着生物技术的发展,仿生计算开始被运用到函数发现领域,并取得了巨大的成功。神经网络,遗传算法等新方法的提出,为函数发现提供了一系列行之有效的方法。2 0 0 1 年葡萄牙学者C f i n d i d a在遗传算法(G e n e t i c A l g o
25、r i t h m,G A)和遗传编程(G e n e t i cP r o g r a m m i n g,G P)的基础上提出了基因表达式编程(G e n eE x p r e s s i o nP r o g r a m m i n g,G E P)技术,它既有G A 简单的表达结构,又有G P 能处理较为复杂问题的特点。将G E P应用于函数发现领域获得了比G A 和G P 更大的成功,它不仅能发现更为复杂的函数,而且其运行速度也比G P 快1 0 0-6 0 0 0 0 倍【1 3 1。用G E P 进行函数发现与传统的统计学方法相比具有不需要事先知道数学模型,能够发现具有复杂形式的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 基因 表达式 编程 函数 挖掘 时间 序列 分析 关键技术 研究
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内