2023年数据挖掘与知识发现(讲稿7神经网络挖掘).docx
《2023年数据挖掘与知识发现(讲稿7神经网络挖掘).docx》由会员分享,可在线阅读,更多相关《2023年数据挖掘与知识发现(讲稿7神经网络挖掘).docx(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2023年数据挖掘与知识发现(讲稿7神经网络挖掘) 装 订 线 第7章 基于神经网络的数据挖掘技术 人工神经网络ANN(Artificial Neural Network)是反映人脑结构及功能的一种数学模型,它是由大量的简单处理单元经广泛并行互连形成的一种网络系统。用以模拟人类进行知识的表示与存储以及利用知识进行推理的行为。它是对人脑系统的简化、抽象和模拟,具有人脑功能的许多特征。 目前,人工神经网络已在模式分类、机器视觉、机器听觉、智能计算、机器人控制、信号处理、组合优化问题求解、联想记忆、编码理论、医学诊断、金融决策、数据挖掘等领域得到广泛应用。 7.1 基于知识的神经网络(KBANN)
2、神经网络用于数据挖掘的困难之一是,对经过训练的神经网络的输出结果很难给出直观的解释。许多学者试图将专家系统和神经网络相结合,设计出兼有专家系统和神经网络优点的混合系统。其中,基于知识的神经网络就是其中最有代表性的一种系统。 基于知识的神经网络包含如下四个阶段: 规则库表示阶段:提取原始的领域知识并将其组织成规则库;(属人工智能内容) 映射阶段:将上述规则库中的每条规则映射成一个小的子网络,全体子网络就构成了一个原始网络结构; 学习阶段:用训练样本对上述网络进行训练;(应用人工神经网络学习算法) 规则提取阶段:将上述训练好的神经网络再映射成规则库。 其典型结构图为: 图1 基于知识的神经网络的信
3、息流程 装 订 线 1)原始规则库转化为神经网络结构 (1)合取规则 在与肯定条件相对应的网络连接权设置为w,在与否定条件相对应的网络连接权设置为-w,在与结论相对应的神经元的阈值设置为(2P+1)w/2,其中P是肯定条件的个数。经验表明,在KBANN中,w通常设置为4能取得较好的效果。如,规则 A:B,C,D,not(E) 图2 合取规则转化为神经网络示间图 (2)析取规则 KBANN对与每个析取条件相对应的连接权设置为w,对与结论相对应的神经元阈值设置为w/2。如,规则 图3 析取规则转化为神经网络示意图 2)知识库转化为神经网络示例 设(a)为规则库;(b)为规则的层次结构,其中,实线代
4、表必要关系,虚线表示抑制关系;(c)为由规则库转化而来的神经网络,其中,为了处理析取规则而引入X和Y结点,实线连接代表权重均设置为w,它代表规则库中的依赖关系;细线代表有待进一步学习的连接权,它反映知识的精化。 装 订 线 7.2 基于KBANN的规则提取方法 基于KBANN在数据挖掘中的作用集中体现在规则提取阶段,这一问题在神经网络研究领域十分活跃。这里,主要给出一些从前馈网络(如,多层感知器MLP)中提取规则的方法。几乎所有的规则提取方法都假设经过训练的神经网络的神经元,要么处于活跃状态,要么处于不活跃状态。 1.有代表性的规则提取方法 (1)LRE方法 用LRE方法对MLP进行规则提取主
5、要两步: l 每一步,对网络中的每个隐层结点和输出结点搜索不同的输入组合,使得输入加权和大于当前结点的阈值; l 对每一个组合产生一条规则,其前件是各个输入条件的合取。 如,Either、KT和Subset算法就是LRE方法中有代表性的三种方法。它们的特点:生成的规则均较容易理解,但这三种方法有如下缺点: 搜索空间大,故搜索效率低; 前后生成的规则有可能发生重复; 不能保证所有有用的规则均被产生出来。 针对Subset算法的缺点,Towell等提出了MofN方法,该算法的基本思想是将所有权值分成若干个等价类,在每个等价类中成员的作用基本相似,因而可以相互互换。MofN方法通过六个步骤,从训练好
6、的神经网络中提取规则,它们分别是: 装 订 线 分类-即将连接权分成若干等价类; 平均-即将每个等价类中的权值平均化; 去除-即去除对神经元的作用较小的等价类; 优化-即在去除了部分连接权后,对神经元的阈值进行优化; 提取-即从经优化的神经网络中提取规则; 简化-即将上述规则简化,使其更易于理解。 (2)黑箱方法 黑箱方法仅考虑从前馈神经网络的输入和输出的行为来提取规则。所以称之为黑箱是因为在提取规则时不考虑神经网络的类型和结构,主要关心输入和输出间的映射关系。 (3)提取模糊规则 在模糊神经网络和神经网络模糊系统的研究中,有些模糊神经网络和神经网络模糊系统中包含模糊规则的提取和精化方法。 (
7、4)从递归网络中提取规则 该方法将递归网络的状态和有限自动机的状态相对应,可提高神经网络的泛化能力。 2.一些新规则的提取方法 本节主要介绍Taha和Ghosh的最新研究工作,其中包含三种规则提取方法: (1)二值输入输出规则提取算法(BIO-RE) 该方法属于一种简单的黑箱方法,它对二值输入的神经网络进行规则提取,若原始输入不是二值的,则必须先将其二值化: yi=1ifximi 0otherwise其中,xi为原始输入;mi为阈值;yi是与xi相对应的二值化输入。 装 订 线 图4 感知器模型 它的算法为: 输入:经训练好的神经网络 输出:规则(库) 步骤: 给出对应于各二值输入模式的神经网
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 数据 挖掘 知识 发现 讲稿 神经网络
限制150内