数据挖掘与技术 ch 遗传算法.pptx
《数据挖掘与技术 ch 遗传算法.pptx》由会员分享,可在线阅读,更多相关《数据挖掘与技术 ch 遗传算法.pptx(38页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、生物进化理论和遗传学的基本知识生物进化理论和遗传学的基本知识生命的基本特征包括:生长、繁殖、新陈代谢和遗传与变异。达尔文用自然选择(natural selection)来解释物种的起源和生物的进化,其自然选择学说包括以下三个方面:遗传变异生存斗争和适者生存第1页/共38页生物进化理论和遗传学的基本知识生物进化理论和遗传学的基本知识遗传生物的普遍特征,“种瓜得瓜,种豆得豆”,亲代把生物信息交给子代,子代按照所得信息而发育、分化,因而子代总是和亲代具有相同或相似的形状。生物有了这个特征,物种才能稳定存在。变异亲代和子代之间以及子代的不同个体之间总有些差异,这种现象称为变异。变异是随机发生的,变异的
2、选择和积累是生命多样性的根源。第2页/共38页生物进化理论和遗传学的基本知识生物进化理论和遗传学的基本知识生存斗争和适者生存自然选择来自繁殖过剩和生存斗争。由于弱肉强食的生存斗争不断进行,其结果是适者生存,具有适应性变异的个体被保留下来,不具有适应性变异的个体被淘汰,通过一代代生存环境的选择作用,物种变异被定向着一个方向积累,演变成新的物种。第3页/共38页生物进化理论和遗传学的基本知识生物进化理论和遗传学的基本知识遗传算法效法基于自然选择的生物进化,是一种摹仿生物进化过程的的随机方法。遗传算法是从代表问题可能潜在解集的一个种群开始的,一个种群由经过基因编码的一定数目的个体组成。按照适者生存和
3、优胜劣汰的原理,逐代演化产生出越来越好的近似解。在每一代,根据问题域中个体的适应度大小挑选个体,并借助于自然遗传学的遗传算子进行组合交叉和变异,产生出代表新的解集的种群。这个过程将导致种群像自然进化一样的后生代种群比前代更加适应于环境,末代种群中的最优个体经过解码可以作为问题近似最优解。第4页/共38页生物进化理论和遗传学的基本知识生物进化理论和遗传学的基本知识一定数目N个个体随机地初始化,并计算每个个体的适应度函数,初始代产生。按照适应度选择个体,父代要求基因重组(交叉)而产生子代。所有子代按一定概率变异。子代的适应度又被重新计算,子代被插入到种群中将父代取而代之,构成新的一代。直到满足优化
4、准则为止。第5页/共38页遗传算法可定义为一个遗传算法可定义为一个8 8元组:元组:GA=(GA=(C C,E E,P P0 0,MM,T T)式中,式中,C C个体的编码方法;个体的编码方法;E E个体适应值评价函数;个体适应值评价函数;P P0 0初始种群;初始种群;MM群体大小;群体大小;选择算子;选择算子;交叉算子;交叉算子;变异算子;变异算子;T T遗传算法终止条件。遗传算法终止条件。遗传算法基本原理遗传算法基本原理 第6页/共38页初始化种群初始化种群编码为染色体编码为染色体种群种群计算各染色体的适应值计算各染色体的适应值遗传操作遗传操作(选择、交叉、变异选择、交叉、变异)种群种群
5、停机条件满足停机条件满足?种群种群种群种群N NY Y结结 束束图图 遗传算法的工作原理示意图遗传算法的工作原理示意图遗传算法基本原理遗传算法基本原理 第7页/共38页遗传算法的关键技术包括:遗传算法的关键技术包括:编码问题;编码问题;初始种群的产生;初始种群的产生;确定适应值函数;确定适应值函数;选择遗传操作算子;选择遗传操作算子;停机条件。停机条件。遗传算法基本原理遗传算法基本原理 第8页/共38页编码问题编码问题由于遗传算法不能直接处理解空间的解数据,因由于遗传算法不能直接处理解空间的解数据,因此必须通过编码将它们表示成遗传空间的基因型此必须通过编码将它们表示成遗传空间的基因型串结构数据
6、。串结构数据。编码方法在很大程度上决定了如何进行群体的遗编码方法在很大程度上决定了如何进行群体的遗传进化运算以及遗传进化的效率。由于不同的编传进化运算以及遗传进化的效率。由于不同的编码方法具有不同的特点,为了提高遗传算法的效码方法具有不同的特点,为了提高遗传算法的效率,应根据不同的情况采用不同的编码方式。率,应根据不同的情况采用不同的编码方式。主要的编码方法有二进制编码、浮点数编码、符主要的编码方法有二进制编码、浮点数编码、符号编码、多参数编码、可变长染色体编码等。号编码、多参数编码、可变长染色体编码等。遗传算法关键技术遗传算法关键技术 第9页/共38页编码问题编码问题在遗传算法中一般用二值(
7、在遗传算法中一般用二值(0 0,1 1)向量表示染色)向量表示染色体,故先要对规则进行编码。体,故先要对规则进行编码。编码采用二进制,将由特征和类别组成的训练例编码采用二进制,将由特征和类别组成的训练例子集编码成二进制字符串的遗传样本。一个样本子集编码成二进制字符串的遗传样本。一个样本MMi i是一个二元组,其形式如下:是一个二元组,其形式如下:MMi i=x xi i,y yi i,其,其中:中:i i为样本号;为样本号;x x为条件部分,即训练例子的各为条件部分,即训练例子的各特征编码;特征编码;y y为结论部分,即训练例子的类别。为结论部分,即训练例子的类别。遗传算法关键技术遗传算法关键
8、技术 第10页/共38页具体的编码规则如下:具体的编码规则如下:若属性为范畴型,定义属性段的宽度等于属性取值个数。对若属性为范畴型,定义属性段的宽度等于属性取值个数。对于每个属性段,若第一位为于每个属性段,若第一位为*,表示该属性取值可以为,表示该属性取值可以为任意;否则,各位若取值为任意;否则,各位若取值为1 1,表示取该属性值,表示取该属性值,0 0表示不取表示不取该属性值。例如,某条件属性该属性值。例如,某条件属性C Ci i对应的编码二进制串为对应的编码二进制串为011001011001,表示该属性取第二个属性值或第三个属性值或第六,表示该属性取第二个属性值或第三个属性值或第六个属性值
9、,即个属性值,即若属性为数值型,定义属性段的宽度若属性为数值型,定义属性段的宽度 ,其,其中中n n为该属性的取值个数。对于每个属性段,若第一位为为该属性的取值个数。对于每个属性段,若第一位为*,表示该属性取值可以为任意,表示该属性取值可以为任意遗传算法关键技术遗传算法关键技术 第11页/共38页初始种群的产生初始种群的产生GAGA以初始种群作为初始点开始迭代。初始种群大以初始种群作为初始点开始迭代。初始种群大小表示群体中所含个体的数量。当个体数量取值小表示群体中所含个体的数量。当个体数量取值较小时,可提高遗传算法的运算速度,但较小时,可提高遗传算法的运算速度,但搜索空搜索空间分布范围有限,间
10、分布范围有限,降低了群体的多样性,有可能降低了群体的多样性,有可能会引起遗传算法的早熟现象;当个体数量取值较会引起遗传算法的早熟现象;当个体数量取值较大时,一方面计算复杂,会使遗传算法的运行效大时,一方面计算复杂,会使遗传算法的运行效率降低,另一方面,部分高适应值的个体可能被率降低,另一方面,部分高适应值的个体可能被淘汰,影响交叉。初始种群的一般取值范围是淘汰,影响交叉。初始种群的一般取值范围是2010020100。遗传算法关键技术遗传算法关键技术 第12页/共38页产生初始种群的方法通常有两种:产生初始种群的方法通常有两种:(1 1)对问题的解无任何先验知识的情况,采用随机产生)对问题的解无
11、任何先验知识的情况,采用随机产生样本的方法;样本的方法;(2 2)对于具有某些先验知识的情况,可首先将这些先验)对于具有某些先验知识的情况,可首先将这些先验知识转变为必须满足的一组要求,然后在满足这些要知识转变为必须满足的一组要求,然后在满足这些要求的解中随机地选取样本。这样选择初始种群可使遗求的解中随机地选取样本。这样选择初始种群可使遗传算法更快地达到最优解。传算法更快地达到最优解。遗传算法关键技术遗传算法关键技术 第13页/共38页遗传算法关键技术遗传算法关键技术确定适应值函数遗遗传传算算法法的的设设计计要要素素之之一一是是如如何何确确定定适适应应值值函函数数,在在遗遗传传算算法法中中,利
12、利用用适适应应值值来来衡衡量量个个体体的的优优劣劣,采采用适者生存的原则决定哪些个体进行繁殖,哪些个体被淘汰。用适者生存的原则决定哪些个体进行繁殖,哪些个体被淘汰。第14页/共38页遗传算法关键技术遗传算法关键技术选择遗传操作算子选择遗传操作算子 遗传算子包括三个基本算子:选择算子遗传算子包括三个基本算子:选择算子(Selection Operator)(Selection Operator)、交叉算子、交叉算子(Crossover Operator)(Crossover Operator)、变异算、变异算子子(Mutation Operator)(Mutation Operator)。第15
13、页/共38页选择遗传操作算子选择遗传操作算子选择选择用来确定重组或交叉个体,以及被选个体将产生多少个子代个体。用来确定重组或交叉个体,以及被选个体将产生多少个子代个体。选择的依据是计算适应度。选择的依据是计算适应度。适应度计算之后是实际的选择,按照适应度进行父代个体的选择,可以挑选以下的算法:适应度计算之后是实际的选择,按照适应度进行父代个体的选择,可以挑选以下的算法:轮盘赌选择轮盘赌选择随机遍历抽样随机遍历抽样局部选择等局部选择等第16页/共38页遗传算法关键技术遗传算法关键技术轮盘赌选择轮盘赌选择 一组二进制基因码构成的个体组成的初始种一组二进制基因码构成的个体组成的初始种群,个体的适用度
14、评价值经计算由括号内的数值表群,个体的适用度评价值经计算由括号内的数值表示,适应度越大代表个体越好示,适应度越大代表个体越好00011000000101111001000000010110011101001010101010 (8)(5)(2)(10)(7)11100101101001011011110000000110011101000001010011(12)(5)(19)(10)(14)第17页/共38页遗传算法关键技术遗传算法关键技术轮盘赌选择轮盘赌选择方法类似于博彩游戏中的轮盘赌。个体适应度转化为选中概率,将轮盘分成10个扇区,因为要进行10次选择,所以产生10个0,1之间的随机数,
15、相当于转动10次轮盘,获得10次转盘停止时指针位置,指针停止在某一扇区,该扇区代表的个体即被选中。第18页/共38页遗传算法关键技术遗传算法关键技术轮盘赌选择个体个体染色体染色体适应度适应度选择概率选择概率累计概率累计概率1000110000080.0869570.0869572010111100150.0543480.1413043000000010120.0217390.16304341001110100100.1086960.2717395101010101070.0760870.34782661110010110120.1304350.4782617100101101150.05434
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据挖掘与技术 ch 遗传算法 数据 挖掘 技术 遗传 算法
限制150内