硕士论文-非线性主成分分析方法及其在医学中的应用.pdf
《硕士论文-非线性主成分分析方法及其在医学中的应用.pdf》由会员分享,可在线阅读,更多相关《硕士论文-非线性主成分分析方法及其在医学中的应用.pdf(40页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、山西医科大学硕士学位论文非线性主成分分析方法及其在医学中的应用姓名:苗丽花申请学位级别:硕士专业:流行病与卫生统计学指导教师:郭东星20090510l I 阳医科人学坝l:学位沦史非线 生主成分分析方法及其在医学中的应用摘要在医学多变量研究中,经常会遇到各变量之M 呈非线性关系的情况,此时如果仍用一般的线性数据处理方法分析数据是不妥的。由此,各种非线性数据处理方法应运而生,基于核函数技术的非线性数据处理方法由于其操作简簟的优良特性而倍受青睐。核函数技术通过非线性映射把输入空问的数据映射到高维特征空问,在特征空间进行数据处理,它的关键在于通过引入核函数,可以把非线性变换后的高维特征空间的内积运算
2、转换为原始输入空f b J 中的核函数计算,而不用显式地计算非线性映射,从而实现了输入空间上的非线性化。本研究探讨了基于核函数的核主成分分析法(K e r n e lP r i n c i p a lC o m p o n e n tA n a l y s i S,K P C A)的基本原理和数学模型。主成分分析(P r i n c i p a lC o m p o n e n tA n a l y s i s,P C A)是一种经典的统计方法,它对多元统计观测数据的协方差结构进行分析,以期求出能简约地表达这些数据关系的主成分。具体地蜕也就是通过线性变换将原始,l 维观测值化为个数相同的一组新
3、特征,即每一个新特征都是原始特征的线性组合,如果这些新特征互不相关,其中少数m 个(ms 刀)包含了原始数据主要信息的最重要的特征就是主成分(P r i n c i p a lC o m p o n e n t,P C)。主成分分析是一种特征提取的方法,也可以认为是一种数据压缩(降维)的方法。核主成分分析则是在特征空间中进行通常的线性主成分分析,是在高维特征空间中对角化核矩阵K,其非零特征根的数目最多为Z 个(观测值的个数),它通常高于样本的维数。特征空间的维数很高,甚至是无穷维的。但是K P C A 并不是在整个特征空间中寻求主成分,而只是在由,个观测数据所张成的孑空问中寻求主成分,不必计算
4、非线性变换和内积,只需计算核函数,因而与P C A 相比计算量的增加不会太大,对于特别复杂的问题甚至可以不用计算全部特征值,只需用特别的算法计算最大的一个或两个特征值即可。研究结果表明核主成分分析比主成分分析具有更好的降维效果,且能有效地处理变量间的非线性关系。为在医学研究中的应用提供了理论依据。本课题实例分析使用M a t l a b 软件作为运算分析平台。关键词:主成分,核主成分,核函数,协方差函数l I I 州医科人学坝I 学位论史N o n l i n e a rp r i n c i p a lc o m p o n e n ta n a l y s i sm e t h o da
5、n di t sa p p l i c a t i o n si nm e di c i n eA b s t r a c tT h e r ea r em u l t i v a r i a t ea n a l y s e si nt h em e d i c a lr e s e a r c h,a n dw eo f t e ne n c o u n t e rt h ev a r i a b l e sw h i c ha r en o n l i n e a rr e l a t e da m o n gt h e m I nt h i sc a s e,i ti si n a p
6、 p r o p r i a t et h a tt oh a n d l et h ed a t aw i t hal i n e a rm e t h o d T h u s,m a n ym e t h o d sw h i c hc a nd e a lw i t ht h en o n l i n e a rd a t aa r ep r o p o s e d A m o n gt h e m,n o n l i n e a rd a t ap r o c e s s i n gm e t h o d sb a s e do nk e r n e lt r i c ka r ev
7、e r yp o p u l a rt od e a lw i t ht h e s ev a r i a b l e sf o ri t se x c e l l e n tp r o p e r t yt h a ti ti se a s yt oo p e r a t e T h em a i ni d e ao fk e r n e lm e t h o d si so r i g i n a li n p u ts p a c ed a t aa r em a p p e di n t oh i g hd i m e n s i o nf e a t u r es p a c e s
8、t h r o u g hn o n l i n e a rm a p p i n g,D a t ai sa p p l i e dt od e a lw i t hi nt h ef e a t u r es p a c e s I t sk e yi si n d u c t e di n t ok e r n e lf u n c t i o n,t h a ts c a l a rp r o d u c to p e r a t i o ni nh i g hd i m e n s i o nf e a t u r ei st r a n s f o r m e di n t ok
9、e r n e lf u n c t i o nc o m p u t ei ni n p u ts p a c e,a n dd o n tn e e dt oc o m p u t en o n l i n e a rm a p p i n g,S On o n l i n e a r i z a t i o ni sa c h i e v e di ni n p u ts p a c e s I n t h i sp a p e rw ed i s c u s st h ew o r kp r i n c i p l ea n dm a t h e m a t i c sm o d e
10、lo fk e r n e lp r i n c i p a lc o m p o n e n ta n a l y s i sm e t h o d P r i n c i p a lc o m p o n e n ta n a l y s i si sat r a d i t i o n a ls t a t i s t i cm e t h o da n di t sa n a l y s i so b j e c ti st h ec o v a r i a n c es t r u c t u r eo ft h em u l t i v a r i a t eo b s e r v
11、 e dv a l u ea n di t sp u r p o s ei so b t a i nt h ep r i n c i p a lc o m p o n e n tw h i c hc a ns i m p l yd e s c r i b et h er e l a t i o no ft h eo b s e r v e dv a l u e I nd e t a i l,P C Am e t h o di sc h a n g i n go r i g i n a lnd i m e n s i o no b s e r v e dv a r i a b l ei n t
12、oas e to fn e wf e a t u r ew i t ht h es a m enn u m b e rt h r o u g hl i n e a rt r a n s f o r m a t i o n,a n de a c hn e wf e a t u r ei st h el i n e a rc o m b i n a t i o no ft h eo r i g i n a lf e a t u r e I ft h e s en e wf e a t u r e sa r eu n r e l a t e db e t w e e ne a c ho t h e
13、f t h es m a l ln u m b e rm a i nf e a t u r e sa m o n gt h e mw h i c hc o n t a i nt h ep r i n c i p a li n f o r m a t i o no ft h eo r i g i n a ld a t aa r ec a l l e dp r i n c i p a lc o m p o n e n t s P C Ai sam e t h o do ff e a t u r ee x t r a c t i o na n dd i m e n s i o n a l i t y
14、r e d u c t i o n W h i l ek e r n e lP C Ai san o n l i n e a rg e n e r a l i z a t i o no fP C Ai nt h es e n s et h a ti ti sp e r f o r m i n gP C Ai nf e a t u r es p a c e sa n dd i a g o n a l i z i n gk e r n e lm a t r i xi nh i g hd i m e n s i o n a ls p a c e s K e r n e lP C Ac a nf i
15、n da tm o s t(t h en u m b e ro fo b s e r v e dv a l u e)n u m b e ro fn o n z e r oe i g e n v a l u e s,w h i c hc a ne x c e e dt h es a m p l ed i m e n s i o n a l i t y T h ed i m e n s i o n a l i t yo ff e a t u r es p a c e si sv e r yh i g h,e v e nt oi n f i n i t e H o w e v e r,k e r n
16、 e lP C Ad o n tn e e dt ol o o kf o rp r i n c i p a lc o m p o n e n t si nt h ef u l ls p a c e sEb u tj u s ti nt h es u b s p a c es p a n n e db yt h eo b s e r v e dd a t a K e r n e lP C An e e do n l yt oc o m p u t ek e r n e lf u n c t i o na n dr a t h e rt h a nt oc o m p u t en o n l i
17、 n e a rt r a n s f o r m a t i o na n ds c a l a rp r o d u c t T h u s,t h ea m o u n to fc a l c u l a t i o no fk e r n e lP C Ai s n tv e r yc o m p l i c a t e dc o m p a r e dt ol l叫医科人学硕I j 学伸论文P C A W h e nc o m et oe s p e c i a l l yc o m p l e x i t yp r o b l e m,w ee v e nd o n tn e e
18、dt oc o m p u t et h ew h o l ee i g e n v a l u e,o n l yn e e dt oc o m p u t et h el a r g e s to n eo rt w oe i g e n v a l u e s O u rr e s u l t sd e m o n s t r a t et h a tk e r n e lp r i n c i p a lc o m p o n e n ta n a ly s i ss h o w sb e t t e rr e s u l t st h a np r i n c i p a lc o
19、m p o n e n t sa n a l y s i si nd i m e n s i o n sr e d u c t i o na n dc a nd e a lw i t ht h en o n l i n e a rr e l a t i o nb e t w e e nt h ev a r i a b l e s P r o v i d eat h e o r e t i c a lb a s i sf o rt h ep o p u l a r i z e da p p l i c a t i o no ft h e s em e t h o d si nm e d i c
20、a ls t u d i e s W eu s eM a t l a bs o f t w a r ea sp l a t f o r mt oh a n d l et h ea n a l y s i so fo u ra p p l i c a t i o ne x a m p l e K e yw o r d s:P r i n c i p a lc o m p o n e n t,K e r n e lP r i n c i p a lC o m p o n e n t,K e r n e lF u n c t i o n,c o v a r i a n c ef u n c t i
21、o nmh 叫医科人学硕l:学位沦文j 上一日I J吾在医学研究中经常会遇到多个指标的实际问题。指标数目的增多必然会带来统计分析的复杂性。比如描述牙槽弓形念特征的可有2 2 个指标,衡量甲状腺机能的有2 1 个指标等。指标较多时不但增加了资料搜集的工作量,而且给资料分析带来很多麻烦,增加了分析问题的复杂性和难度。例如,在儿章的生长发育的评价中,某科研工作者收集到了1 4 8 名儿章的身高、体重、胸围、头围、坐高、肺活量等十个指标。要求根据这十个指标对研究对象做出合理的评价,如果分别用每一个指标对儿章的生长发育作评价,这种评价只能是孤立的,而不是综合的。那么,去寻找一种合理的、综合性的方法,既可
22、减少分析指标,又尽量不损失或少损失原指标所包含的信息,而又能对资料做出全面的分析就非常必要。事实上,许多指标之间往往具有一定的相关性,因此有可能用较少的起主导作用的综合指标把存在于各原始指标中的主要信息分f-J 另J 类地提取出来。这些为数较少的综合指标既能综合反映原始指标中所包含的主要信息,而且相互之间又是无关的,同时分别具有各自的独特含义,可以避免不必要的重复。这种处理问题的方法就是主成分分析方法,综合后的指标就称为是原始指标的主成分。主成分分析(p r i n c i p a lc o m p o n e n ta n a l y s i s)也称主分量分析,于1 9 0 1 年由P e
23、 a r s o n首先提出,1 9 3 3 年由H o t e l l i n g 作了进一步的发展。主成分分析是一种经典的统计方法,它对多元统计观测数据的协方差结构进行分析,以期求出能简约地表达这些数据依赖关系的主成分。主成分分析是一种特征提取的方法,也可以认为是一种数据降维的方法。一般来说,主成分分析的实施效果与评价指标间的相关程度高低成正比。评价指标间相关程度越高,主成分分析的效果就越好。当指标之间相关性不大时,第一个主成分所提取的原始指标的信息常常是很少的,这时,为了满足累计方差贡献率不低于某阈值(比如8 5),就有可能选择较多的主成分,此时的主成分分析的降维作用不明显,这是经典主成
24、分分析的一个不足之处。它的另一个不足之处是只能处理“线性”问题,只是一种“线性降维技术。一方面,对原始数据进行标准化处理后,协方差矩阵就变成相关系数矩阵,而相关系数只能反映指标间“线性 程度。在现实生活中,指标间的关系也有呈非线性关系的,如果这时非要用“线性”关系去反映,会得到不正确的结论。另一方面,主成分是指标的线性组合。当主成分与原始指标之间呈非线性关系,此时简单地进行线性处理就有可能导致对现实关系反映上的偏差。现实生活中有许多变量之间呈非线性关系的数据,要对这些数据更加合理的处理和解释,就不能用经典的主成分分析方法。基于以上原因,有必要对经典的主成分分析加以改造,进行非线性主成分分析方法
25、的研究。为此,专家、学者提出了一系列的非线性主成分方法,主要分为三类:(1)由l r i c和K a w a t o 提出的基于主成分分析的多层感知器方法,此类方法需预先确定主成分个数,I V心医科人学硕I:学位论文并且在网络隐含层较多时,学习训练能力会下降。(2)由H a s t i e t 和S t u e t z l e 提出的主曲线和主曲面方法,此类方法同样需要预先确定主成分个数,而且即使在给出了适合的个数时,也不能清楚地确定各主成分的方差贡献率的大小。(3)由S c h o l k o p f(1 9 9 8,1 9 9 9)及M u l l e r(2 0 0 1)引入的核主成分分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 硕士论文 非线性 成分 分析 方法 及其 医学 中的 应用
限制150内