粗糙集和神经网络.docx
基于粗集和神经网络的混合数据挖掘方法颜菲摘 要在处理大数据量,消退冗余信息等方面,粗集理论有着良好效果。而神经网络那么具有独特的 模型结构和固有的非线性模拟力量,以及高度的自适应和容错特性等突出特征。因此,两种技术的有 效结合是近几年数据挖掘领域的一个讨论热点。本文提出了一个新的混合挖掘方法。关键词数据挖掘粗集神经网络一、引言随着数据库技术的不断进展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在 大量的数据背后隐蔽着很多重要的信息,假如能把这些信息从数据库中抽取出来,将为公司制造很多 潜在的利润,而这种从海量数据库中挖掘信息的技术,就称之为数据挖掘(Data Mining-DM)。1粗集理论是一种刻画不完整性和不确定性信息的数学工具,能有效地分析和处理不精确、不全都、 不完整等各种不完备信息,并从中觉察隐含的学问,揭示潜在的规律。粗集理论以观看和测量所得 的数据并进行分类的方法为基础,它认为学问是基于对对象分类的力量,学问直接与真实或抽象世界 有关的不同分类模式联系在 起,粗集用上近似、下近似和边界来刻画信息的不确定雇,神经网络是通过网络中各连接权值的转变,实现信息的处理和存储。在神经网络中每个神经元既 是信息的存储单元,又是信息的处理单元,信息的处理与存储合二为一,由这些神经元构成的网络在 每个神经元的共同作用下,完成对输入模式的识别与记忆。人工神经网络以神经元间广泛的互连分布 来存贮信息,以非线性神经元来协同处理信息。因此,它具有大规模并行处理、极强的鲁棒性和容错 性,很强的自学习功能。二、粗集和神经网络集成方法概述由于粗集和神经网络具有很强的优势互补性,因此将两种技术的有效结合是当前的一个讨论热点, 已引起了很多学者的广泛关注。目前常用的有如下几种结合方式:(1)将粗集作为神经网络的前端处 理器(2)强耦合方式:即先用粗集分析决策表得到初始规章,然后用神经网络精化。(3)粗神经网络: 在一般BP网的输入层和隐层之间加一个粗神经元(全互连接),以抑制输入层数据的波动。(4)用粗集 优化神经网络的结构。除上述结合模式外,还存在很多新的集成方式。在现行的各种结合方式中,粗集理论的属性约简是其中的重要组成局部之一,通过用其对神经网 络的训练数据进行约简,削减网络学习所需数据量,到达进一步改善神经网络学习效率和精度的目的。 然而在实际应用中,对于一些规模较大的网络,粗集的处理效率还值得深化讨论。由于基于并行遗传 算法的属性约简方法可有效解决数据量大、维数多时的快速约简问题,因而我们可考虑首先用其对神 经网络的输入空间进行快速选取,在此基础上用神经网络进行数据挖掘,以进一步提高应用粗集和神 经网络对大型实际数据库进行挖掘时的效率。三、一种新的集成化算法的实践基于前述分析,本文设计了一种粗集理论和神经网络的组合模型,通过对某超市客户特征分析的 应用,验证了该模型的性能优于传统的粗糙集和一般的神经网络模型。(一)建模思想对样本数据进行分析,然后据己知的领域学问形成一个初始的信息表,采纳合理的离散方法对连 续属性进行离散化,用基于遗传算法的并行约简算法对数据进行快速属性约简(水平约简),以约简后 的属性作为输入层神经元,然后对数据进行垂直约简,包括消退数据中的不全都对象和冗余对象,最 终用神经网络对处理后的精简数据进行训练。并行约简算法的弓I入可以进一步提高粗集和神经网络模 型的整体挖掘效率。处理过程如图1所示。粗集理论离 散 化对象约简并行属性约简图1 数据处理流程图(二)算法各组成局部(1)连续属性离散化:用粗集方法对数据进行分析前,需要将连续变量离散化,离散化本质上可归 结为采用选取的断点来对条件属性构成的空间进行划分的问题,把n维空间划分成有限个区域,使得 每个区域中的对象的决策值相同。常用的方法有:距离划分方法、等频率划分方法、Naive Scaler方 法等。(2)决策表形成:采纳量化后的条件属性和决策属性值形成一张二维表格每一行描述一个对象,每 一列对应对象的一种属性。(3)属性约简:决策表属性约简的过程,就是从决策表系统的条件属性中去掉不必要的的条件属性, 从而分析所得到约简中的条件属性对于决策属性的决策规章。本文所用流程:输入:条件属性集合C= Y11,Y12,Y53,决策属性集合D= d;输出:一个属性约简集合REDUStepl:计算条件属性C有D正域P0或(D);Step2:对属性Yijec,计算去除它所得到的条件属性子集C、.”的D正域POScXYij (D);Step3:假如POSc"j(D) =POSC (D),那么说明属性Yij对于决策属性d是不必要的,这时C= CYij), 转step2;否那么,输出属性约简REDUX。(4)对象约简:消退数据中的不全都对象和冗余对象,不全都对象为条件属性相同而决策属性不同 的对象,冗余对象为条件属性相同而决策属性也相同的对象。(5)神经网络模型确定:神经网络按类型可分为:BP网络、ART网络、RBF网络和LVM网络等,本文 采纳最常用的BP网络。(6)网络的学习与检验:依据神经网络模型输入,从初始连续属性决策表选择相应的训练数据和属 性对网络训练,并用相应的测试样本进行测试。(三)方法实践现将此方法应用于某超市会员购物的分析决策中,下面以会员特征分析为例进行说明:营销分析人 员吩望分析出某段时间内,对顾客在超市购物的变化起打算性作用的客户特征,并以此为基础对将来 顾客的消费趋势进行猜想。其中,顾客这一主题所涉及的维有年龄、职业、收入、性别、婚姻状况等。 在相关人员的关心下,我们从超市会员数据仓库中选取2005年1月至2006年5月间的数据进行分析。 结合现有数据的实际状况,选取的每条纪录中包括各不同年龄、收入、职业、性别、婚姻的客户数日 购物金额变化率作为输入的条件属性,整体的购物金额变化率作为决策属性Do以2005年1月至2005 年12月的数据作为训练集,2006年1月至5月的数据作为测试集,依据本文的模型进行处理,首先进 行维数约简,得到对购物金额变化率影响大的客户类型为年龄在30-40,收入在4000-6000,职业为文 教业,性别为男性的已婚客户,以此为基础采用BP神经网络进行猜想,采纳图1的结构,神经元激励 函数采纳sigmoid函数。同时讨论传统的BP神经网络,粗糙集的猜想结果,以比拟本文所提模型的性 能。通过比拟可以看出本文提出的模型无论是在训练集还是测试集的猜想精度都高于其他两种网络结 构的猜想精度,这说明白粗集预处理过程的有效性,粗集预处理的水平约简和垂直约简减小了网络的 规模,从而削减了网络训练和测试的时间和简单性;其中并行约简进一步提高了本文模型的计算效率。四、结束语综上所述,我们不难看出,基于粗集的神经网络模型秉承了粗集与神经网络各拘束数据挖掘上的 优点。它解决了由无噪声的训练样本产生的粗集模型在有噪声的环境中应用效果不佳的缺点。参考文献1 Jiawei Ilan, Micheline Kamber. Data Mining: Concepts and Techniques. MorganKaufmann , 2001 (5)Pawlak. Z. Rough Sets theoretical Aspects of Reasonsing about Data. Boston, London, Kordrccht:Kluwer Academic Publishers, 19913刘同明,数据挖掘技术及其应用M,北京:国防工业出版社,20014张文修,吴伟志,等.粗糙集理论与方法加,北京:科学出版社,20015闻新,周露,等.MATLAB神经网络应用设计神,北京:科学出版社,20006屈云波,郑宏.数据库营销M,北京:企业管理出版社,1999(原刊于陕西教育2006年第9期)