《策略介绍(2021整理)1.pdf》由会员分享,可在线阅读,更多相关《策略介绍(2021整理)1.pdf(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、本文为网上收集整理,如需要该文档得朋友,欢迎下载使用Suanfa jianjieSuanfa jianjie1 1 决策树算法决策树算法机器学习中,决策树是一个预测模型;它代表的是对象属性值与对象值之间的一种映射关系。树中每个节点表示某个对象,每个分叉路径那么代表的某个可能的属性值,而每个叶结点那么对应具有上述属性值的子对象。决策树仅有单一输出;假设需要多个输出,可以建立独立的决策树以处理不同输出。从数据产生决策树的机器学习技术叫做决策树学习,通俗说就是决策树。决策树学习也是数据挖掘中一个普通的方法。在这里,每个决策树都表述了一种树型结构,它由它的分支来对该类型的对象依靠属性进行分类。每个决策
2、树可以依靠对源数据库的分割进行数据测试。这个过程可以递归式的对树进行修剪。当不能再进行分割或一个单独的类可以被应用于某一分支时,递归过程就完成了。另外,随机森林分类器将许多决策树结合起来以提升分类的正确率。决策树同时也可以依靠计算条件概率来构造。决策树如果依靠数学的计算方法可以取得更加理想的效果。1.11.1 决策树的工作原理决策树的工作原理决策树一般都是自上而下的来生成的。选择分割的方法有多种,但是目的都是一致的,即对目标类尝试进行最正确的分割。从根节点到叶子节点都有一条路径,这条路径就是一条“规那么。决策树可以是二叉的,也可以是多叉的。对每个节点的衡量:对每个节点的衡量:1)通过该节点的记
3、录数;2)如果是叶子节点的话,分类的路径;3)对叶子节点正确分类的比例。有些规那么的效果可以比其他的一些规那么要好。Yw1Tx0Nw2Tx0Y YNYw4Tx0Y二叉决策树框图Nw3Tx0N1.2 ID31.2 ID3 算法算法精品文档,word 文档本文为网上收集整理,如需要该文档得朋友,欢迎下载使用1.2.11.2.1 概念提取算法概念提取算法 CLSCLS1)初始化参数 C=E,E 包括所有的例子,为根;2)如果 C 中的任一元素 e 同属于同一个决策类那么创立一个叶子节点YES 终止;否那么依启发式标准,选择特征Fi=V1,V2,V3,Vn并创立判定节点,划分C 为互不相交的N 个集合
4、 C1,C2,C3,Cn;3)对任一个 Ci递归。ID3ID3 算法算法1)随机选择 C 的一个子集 W(窗口);2)调用 CLS 生成 W 的分类树 DT(强调的启发式标准在后);3)顺序扫描 C 搜集 DT 的意外(即由 DT 无法确定的例子);4)组合 W 与已发现的意外,形成新的W;5)重复 2)到 4),直到无例外为止。启发式标准:启发式标准:只跟本身与其子树有关,采取信息理论用熵来量度。熵 是 选 择 事 件 时 选 择 自 由 度 的 量 度,其 计 算 方 法 为:P=freq(Cj,S)/|S|;INFO(S)=-SUM(P*LOG(P);SUM()函数是求 j 从 1 到
5、n 的和。Gain(X)=Info(X)-Infox(X);Infox(X)=SUM(|Ti|/|T|)*Info(X);为保证生成的决策树最小,ID3 算法在生成子树时,选取使生成的子树的熵(即 Gain(S)最小的特征来生成子树。ID3ID3 算法对数据的要求:算法对数据的要求:1)所有属性必须为离散量;2)所有的训练例的所有属性必须有一个明确的值;3)相同的因素必须得到相同的结论且训练例必须唯一。算法算法由于 ID3 算法在实际应用中存在一些问题,于是Quilan 提出了 C4.5 算法,严格上说。C4.5 算法继承了 ID3 算法的优点,并在以下几方面对ID3 算法进行了改进:1)用信
6、息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的缺乏;2)在树构造过程中进行剪枝;3)能够完成对连续属性的离散化处理;4)能够对不完整数据进行处理。C4.5C4.5 算法有如下优点:算法有如下优点:产生的分类规那么易于理解,准确率较高。缺点缺点:在构造树的过程中,需要对数据集进行屡次的顺序扫描和排序,因而导致算法的低效。此外,C4.5 只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。分类决策树算法:分类决策树算法:分类决策树算法,其核心算法是 ID3 算法。分类决策树算法是从大量事例中进行提取分类规那么的自上而下的决策树。决策树的各局部是:根:学习
7、的事例集;枝:分类的判定条件;精品文档,word 文档本文为网上收集整理,如需要该文档得朋友,欢迎下载使用叶:分好的各个类。改进改进1)熵的改进,加上了子树的信息。Split_Infox(X)=-SUM(|T|/|Ti|)*LOG(|Ti|/|T|);Gain ratio(X)=Gain(X)/Split_Infox(X);2)在输入数据上的改进 因素属性的值可以是连续量,但结论属性的值必须是离散值。训练例的因素属性值可以是不确定的,以?表示,但结论必须是确定的。3)对已生成的决策树进行裁剪,减小生成树的规模。2 The k-means algorithm2 The k-means algor
8、ithmk k 平均算法平均算法k-means algorithm是一个聚类算法,把 n 个对象根据它们的属性分为k 个分割,k n。它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。假设有 k 个群组 Si,i=1,2,.,k。i是群组 Si内所有元素 xj的重心,或叫中心点。k 平均聚类创造于1956 年,该算法最常见的形式是采用被称为劳埃德算法(Lloydalgorithm)的迭代式改进探索法。劳埃德算法首先把输入点分成 k 个初始化分组,可以是随机的或者使用一些启发式数据。然后计算
9、每组的中心点,根据中心点的位置把对象分到离它最近的中心,重新确定分组。继续重复不断地计算中心并重新分组,直到收敛,即对象不再改变分组中心点位置不再改变。劳埃德算法和 k 平均通常是紧密联系的,但是在实际应用中,劳埃德算法是解决 k 平均问题的启发式法那么,对于某些起始点和重心的组合,劳埃德算法可能实际上收敛于错误的结果。上面函数中存在的不同的最优解虽然存在变异,但是劳埃德算法仍旧保持流行,因为它在实际中收敛非常快。实际上,观察发现迭代次数远远少于点的数量。然而最近,David Arthur 和 Sergei Vassilvitskii提出存在特定的点集使得 k 平均算法花费超多项式时间到达收敛
10、。近似的 k 平均算法已经被设计用于原始数据子集的计算。从算法的表现上来说,它并不保证一定得到全局最优解,最终解的质量很大程度上取决于初始化的分组。由于该算法的速度很快,因此常用的一种方法是屡次运行k 平均算法,选择最优解。k 平均算法的一个缺点缺点是,分组的数目 k 是一个输入参数,不适宜的k 可能返回较差的结果。另外,算法还假设均方误差是计算群组分散度的最正确参数。3 SVM3 SVM支持向量机支持向量机支持向量机,英文为 Support Vector Machine,简称 SV 机论文中一般简称 SVM。它是一种监督式学习的方法,它广泛的应用于统计分类以及回归分析中。支持向量机属于一般化
11、线性分类器。它们也可以被认为是提克洛夫标准化 TikhonovRegularization方法的一个特例。这种分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区。因此支持向量机也被称为最大边缘区分类器。在统计计算中,最大期望EM算法是在概率probabilistic模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量Latent Variable。最大期望经常用在机器学习和计算机视觉的数据集聚Data Clustering领域。最大期望算法经过两个步骤交替进行计算,第一步是计算期望E,也就是将隐藏变量像能够观测到的一样包含在内从而计算最大似然的期望值;另外一步是最大化
12、M,也就是最大化在 E 步上找到精品文档,word 文档本文为网上收集整理,如需要该文档得朋友,欢迎下载使用的最大似然的期望值从而计算参数的最大似然估计。M 步上找到的参数然后用于另外一个E 步计算,这个过程不断交替进行。Vapnik 等人在多年研究统计学习理论根底上对线性分类器提出了另一种设计最正确准那么。其原理也从线性可分说起,然后扩展到线性不可分的情况。甚至扩展到使用非线性函数中去,这种分类器被称为支持向量机(Support Vector Machine,简称 SVM)。支持向量机的提出有很深的理论背景。支持向量机方法是在近年来提出的一种新方法,但是进展很快,已经被广泛应用在各个领域之中
13、。SVM 的主要思想可以概括为两点:(1)它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;(2)它基于结构风险最小化理论之上在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。在学习这种方法时,首先要弄清楚这种方法考虑问题的特点,这就要从线性可分的最简单情况讨论起,在没有弄懂其原理之前,不要急于学习线性不可分等较复杂的情况,支持向量机在设计时,需要用到条件极值问题的求解,因此需用
14、拉格朗日乘子理论,但对多数人来说,以前学到的或常用的是约束条件为等式表示的方式,但在此要用到以不等式作为必须满足的条件,此时只要了解拉格朗日理论的有关结论就行。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。一个极好的指南是 C.J.C Burges 的?模式识别支持向量机指南?。van der Walt 和 Barnard 将支持向量机和其他分类器进行了比较。有很多个分类器(超平面可以把数据分开,但是只有一个能够到达最
15、大分割。我们通常希望分类的过程是一个机器学习的过程。这些数据点并不需要是中的点,而可以是任意(统计学符号)中或者(计算机科学符号)的点。我们希望能够把这些点通过一个 n-1 维的超平面分开,通常这个被称为线性分类器。有很多分类器都符合这个要求,但是我们还希望找到分类最正确的平面,即使得属于两个不同类的数据点间隔最大的那个面,该面亦称为最大间隔超平面。如果我们能够找到这个面,那么这个分类器就称为最大间隔分类器。设样本属于两个类,用该样本训练SVM 得到的最大间隔超平面。在超平面上的样本点也称为支持向量。精品文档,word 文档本文为网上收集整理,如需要该文档得朋友,欢迎下载使用SVMSVM 的优
16、势:的优势:由于支持向量机方法是建立在统计学习理论的 VC 维理论和结构风险最小原理根底上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最正确折衷,以期获得最好的推广能力(Generalizatin Ability)。支持向量机方法的几个主要优点是:可以解决小样本情况下的机器学习问题;可以提高泛化性能;可以解决高维问题;可以解决非线性问题;可以防止神经网络结构选择和局部极小点问题。4 4 贝叶斯贝叶斯BayesBayes分类器分类器贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率
17、,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。目前研究较多的贝叶斯分类器主要有四种,分别是:Naive Bayes、TAN、BAN 和 GBN。贝叶斯网络是一个带有概率注释的有向无环图,图中的每一个结点均表示一个随机变量,图中两结点间假设存在着一条弧,那么表示这两结点相对应的随机变量是概率相依的,反之那么说明这两个随机变量是条件独立的。网络中任意一个结点X 均有一个相应的条件概率表(Conditional Probability Table,CPT),用以表示结点 X 在其父结点取各可能值时的条件概率。假设结点 X 无父结点,那么 X 的 CPT 为其先验概率分布。贝
18、叶斯网络的结构及各结点的 CPT 定义了网络中各变量的概率分布。贝叶斯分类器是用于分类的贝叶斯网络。该网络中应包含类结点 C,其中 C 的取值来自于类集合(c1,c2,.,cm),还包含一组结点 X=(X1,X2,.,Xn),表示用于分类的特征。对于贝叶斯网络分类器,假设某一待分类的样本D,其分类特征向量为 x=(x1,x2,.,xn),那么样本 D 属于类别 ci的概率为 P(C=ci|X=x)=P(C=ci|X1=x1,X2=x2,.,Xn=xn),(i=1,2,.,m)。而由贝叶斯公式可得:P(C=ci|X=x)=P(X=x|C=ci)P(C=ci)/P(X=x)其中,P(C=ci)可由
19、领域专家的经验得到,称为先验概率;而 P(X=x|C=ci)和 P(X=x)的计算那么较困难;P(C=ci|X=x)称为后验概率。应用贝叶斯网络分类器进行分类主要分成两阶段。第一阶段是贝叶斯网络分类器的学习,即从样本数据中构造分类器;第二阶段是贝叶斯网络分类器的推理,即计算类结点的条件概率,对分类数据进行分类。这两个阶段的时间复杂性均取决于特征值间的依赖程度,甚至可以是 NP 完全问题世界七大数学难题之一,因而在实际应用中,往往需要对贝叶斯网络分类器进行简化。根据对特征值间不同关联程度的假设,可以得出各种贝叶斯分类器,Naive Bayes、TAN、BAN、GBN 就是其中较典型、研究较深入的
20、贝叶斯分类器。4.14.1 朴素贝叶斯朴素贝叶斯Naive BayesNaive Bayes分类器分类器分类是将一个未知样本分到几个预先类的过程。数据分类问题的解决是一个两步过程:第一步,建立模型,描述预先的数据集或概念集。通过分析由属性/特征描述的样本或实例,对象等来构造模型。假定每一个样本都有一个预先定义的类,由一个被称为类标签的属性确定。为建立模型而被分析的数据元组形成训练数据集,该步也称作有指导的学习。4.1.14.1.1 决策树模型和朴素贝叶斯模型的比较决策树模型和朴素贝叶斯模型的比较在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)
21、和朴素贝叶斯模型Naive Bayesian Model,NBC。决策树模型通过构造树来解决分类问精品文档,word 文档本文为网上收集整理,如需要该文档得朋友,欢迎下载使用题。首先利用训练数据集来构造一棵决策树,一旦树建立起来,它就可为未知样本产生一个分类。在分类问题中使用决策树模型有很多的优点,决策树便于使用,而且高效;根据决策树可以很容易地构造出规那么,而规那么通常易于解释和理解;决策树可很好地扩展到大型数据库中,同时它的大小独立于数据库的大小;决策树模型的另外一大优点就是可以对有许多属性的数据集构造决策树。决策树模型也有一些缺点,比方处理缺失数据时的困难,过度拟合问题的出现,以及忽略数
22、据集中属性之间的相关性等。和决策树模型相比,朴素贝叶斯模型发源于古典数学理论,有着坚实的数学根底,以及稳定的分类效率。同时,NBC 模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC 模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为 NBC 模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给 NBC 模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时,NBC 模型的分类效率比不上决策树模型。而在属性相关性较小时,NBC 模型的性能最为良好。朴素贝叶斯模型:Vmap=arg maxP(Vj|a1,a2.an)Vj
23、属于 V 集合,其中 j=1,2,N,即共有 N 类;Vmap是给定一个 example,得到的最可能的目标值;a1.an 是这个 example 里面的属性/特征,共有 n 个特征。Vmap 为目标值,就是后面计算得出的概率最大的一个,所以用 max 来表示,它意味着该 example 应该/最可能为得到最大后验概率的那个类,这与前面讲到的贝叶斯分类器是一致的。将贝叶斯公式应用到 P(Vj|a1,a2.an)中,可得到:Vmap=arg maxP(a1,a2.an|Vj)P(Vj)/P(a1,a2.an)又因为朴素贝叶斯分类器默认 a1.an 他们互相独立的,所以 P(a1,a2.an)对于
24、结果没有影响因为所有的概率都要除同一个东西之后再比较大小。于是可得到:Vmap=arg maxP(a1,a2.an|Vj)P(Vj)然后,朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。换言之,该假定说明给定实例的目标值情况下,观察到联合的a1,a2.an的概率正好是对每个单独属性的概率乘积:P(a1,a2.an|Vj)=iP(ai|Vj)。因此,朴素贝叶斯分类器公式为:Vnb=arg maxP(Vj)iP(ai|Vj)。5 5 邻近算法邻近算法k-Nearest Neighbor algorithmk-Nearest Neighbor algorithm,k k 最近邻
25、算法最近邻算法以下图中,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果 K=3即实线圆内部,由于红色三角形所占比例为 2/3,绿色圆将被赋予红色三角形那个类,如果 K=5即虚线圆内,由于蓝色四方形比例为 3/5,因此绿色圆被赋予蓝色四方形类。精品文档,word 文档本文为网上收集整理,如需要该文档得朋友,欢迎下载使用K 最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的 k 个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,那么该样本也属于这个类别。KNN算
26、法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN 方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。由于KNN 方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN 方法较其他方法更为适合。KNN 算法不仅可以用于分类,还可以用于回归。通过找出一个样本的k 个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight),如权值与距离
27、成正比。该算法在分类时有个主要的缺乏是,当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的 K 个邻居中大容量类的样本占多数。因此可以采用权值的方法和该样本距离小的邻居权值大来改进。该方法的另一个缺乏之处是计算量较大,因为对每一个待分类的文本都要计算它到全体样本的距离,才能求得它的 K 个最近邻点。目前常用的解决方法是事先对样本点进行剪辑,事先去除对分类作用不大的样本。该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。6 6 回归树分类器回归树分类器如果要选择在很大范围的情形下性能都好的、同
28、时不需要应用开发者付出很多的努力并且易于被终端用户理解的分类技术的话,那么Brieman,Friedman,Olshen 和 Stone1984提出的分类树方法是一个强有力的竞争者。6.16.1 分类树分类树在分类树下面有两个关键的思想。第一个是关于递归地划分自变量空间的想法;第二个想法是用验证数据进行剪枝。6.26.2 递归划分递归划分让我们用变量 Y 表示因变量分类变量,用X1,X2,X3,.,Xp表示自变量。通过递归的方式把关于变量 X 的 p 维空间划分为不重叠的矩形。首先,一个自变量被选择,比方Xi和 Xi的一个值 xi,比方说选择 xi把 p 维空间为两局部:一局部是 p 维的超矩
29、形,其中包含的点都满足 Xixi。接着,这两局部中的一个局部通过选择一个变量和该变量的划分值以相似的方式被划分。这导致了三个矩形区域。随着这个过程的持续,我们得到的矩形越来越小。这个想法是把整个 X 空间划分为矩形,其中的每个小矩形都尽可能是同构的或“纯的。“纯的意思是矩形所包含的点都属于同一类。我们认为包含的点都只属于一个类当然,这并不总是可能的,因为经常存在一些属于不同类的点,但这些点的自变量有完全相同的值。7 Adaboost7 Adaboost 分类器分类器Adaboost 是 adaptive boost 的缩写,它是一种迭代算法。其核心思想是针对同一个训练集训练不同的分类器弱分类器
30、,然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改正权精品文档,word 文档本文为网上收集整理,如需要该文档得朋友,欢迎下载使用值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器融合起来,作为最后的决策分类器。使用 Adaboost 分类器可以排除一些不必要的训练数据特征,并将重点放在关键的训练数据上。该算法其实是一个弱分类算法的提升过程,这个过程通过不断的训练,可以提高对数据的分类能力。整个过程如下所示:先通过对 N 个数据
31、的训练样本的学习得到第一个弱分类器;将分错的样本和其他的新数据一起构成一个新的 N 个数据的训练样本,通过对这个样本的学习得到第二个弱分类器;将 1.和 2.都分错了的样本加上其他的新样本构成另一个新的N个数据的训练样本,通过对这个样本的学习得到第三个弱分类器;最终经过提升的强分类器,即某个数据被分为哪一类要通过,的多数表决。对于 boosting 算法,存在两个问题:如何调整训练集,使得在训练集上训练的弱分类器得以进行;如何将训练得到的各个弱分类器联合起来形成强分类器。针对以上两个问题,adaboost 算法进行了调整:使用加权后选取的训练数据代替随机选取的训练样本,这样将训练的焦点集中在比
32、较难分的训练数据样本上;将弱分类器联合起来,使用加权的投票机制代替平均投票机制。让分类效果好的弱分类器具有较大的权重,而分类效果差的分类器具有较小的权重。Adaboost算法是Freund和Schapire根据在线分配算法提出的,他们详细分析了Adaboost算法错误率的上界,以及为了使强分类器到达要求的错误率,算法所需要的最多迭代次数等相关问题。与 Boosting 算法不同的是,adaboost 算法不需要预先知道弱学习算法学习正确率的下限即弱分类器的误差,并且最后得到的强分类器的分类精度依赖于所有弱分类器的分类精度,这样可以深入挖掘弱分类器算法的能力。Adaboost 算法中不同的训练集
33、是通过调整每个样本对应的权重来实现的。开始时,每个样本对应的权重是相同的,即其中 n 为样本个数,在此样本分布下训练出一弱分类器。对于分类错误的样本,加大其对应的权重;而对于分类正确的样本,降低其权重,这样分错的样本就被突出出来,从而得到一个新的样本分布。在新的样本分布下,再次对弱分类器进行训练,得到弱分类器。依次类推,经过T 次循环,得到 T 个弱分类器,把这 T 个弱分类器按一定的权重叠加boost起来,得到最终想要的强分类器。8 8 人工神经网络人工神经网络ANN,artificial neural networkANN,artificial neural network人工神经网络是由
34、具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反响。电脉冲输入树突细胞体信息处理形成轴突传输突触输出图 12.2生物神经元功能模型人工神经网络研究的局限性:研究受到脑科学研究成果的限制;精品文档,word 文档神经网络根本模型本文为网上收集整理,如需要该文档得朋友,欢迎下载使用缺少一个完整、成熟的理论体系;研究带有浓厚的策略和经验色彩;与传统技术的接口不成熟。一般而言,ANN 与经典计算方法相比并非优越,只有当常规方法解决不了或效果不佳时 ANN 方法才能显示出其优越性。尤其对问题的机理不甚了解或不能用数学模型表示的系统,如故障诊断、特征提
35、取和预测等问题,ANN 往往是最有利的工具。另一方面,ANN 对处理大量原始数据而不能用规那么或公式描述的问题,表现出极大的灵活性和自适应性。8.1 BP8.1 BP 网络网络人工神经网络以其具有自学习、自组织、较好的容错性和优良的非线性逼近能力,受到众多领域学者的关注。在实际应用中,80%90%的人工神经网络模型是采用误差反传算法或其变化形式的网络模型简称BP 网络,目前主要应用于函数逼近、模式识别、分类和数据压缩或数据挖掘。1BP 网络建模特点:非线性映照能力非线性映照能力:神经网络能以任意精度逼近任何非线性连续函数。在建模过程中的许多问题正是具有高度的非线性。并行分布处理方式并行分布处理
36、方式:在神经网络中信息是分布储存和并行处理的,这使它具有很强的容错性和很快的处理速度。自学习和自适应能力自学习和自适应能力:神经网络在训练时,能从输入、输出的数据中提取出规律性的知识,记忆于网络的权值中,并具有泛化能力,即将这组权值应用于一般情形的能力。神经网络的学习也可以在线进行。数据融合的能力数据融合的能力:神经网络可以同时处理定量信息和定性信息,因此它可以利用传统的工程技术数值运算和人工智能技术符号处理。多变量系统多变量系统:神经网络的输入和输出变量的数目是任意的,对单变量系统与多变量系统提供了一种通用的描述方式,不必考虑各子系统间的解耦问题。2样本数据的收集和整理分组:采用 BP 神经
37、网络方法建模的首要和前提条件是有足够多典型性好和精度高的样本。而且,为监控训练学习过程使之不发生“过拟合和评价建立的网络模型的性能和泛化能力,必须将收集到的数据随机分成训练样本、检验样本10%以上和测试样本10%以上3 局部。此外,数据分组时还应尽可能考虑样本模式间的平衡。由于传统的误差反传 BP 算法较为成熟,且应用广泛,因此努力提高该方法的学习速度具有较高的实用价值。BP 算法中有几个常用的参数,包括学习率,动量因子,形状因子及收敛误差界值 E 等。这些参数对训练速度的影响最为关键。9 Fisher9 Fisher 分类器分类器X X 空间空间:WTX-W0 0X1-WTX-W0 0X1Y
38、=WTX-W0 0X2把 X 空间各点投影到 Y 空间的一直线上,维数由 2 维降为一维。假设适中选择 W 的方向,可以使两类分开。于是问题便转化为从数学上寻找最好的投影方向,即寻找最好的变换向量 W 的问题。精品文档,word 文档本文为网上收集整理,如需要该文档得朋友,欢迎下载使用1在 X 空间上的均值为:XiNixj1Niji 1,21Ni1NiT在 Y 空间上的均值为:YiyjW xjWTXiNij1Nij1i 1,2投影样本类间类间的别离性用投影样本之差表示:|Y1Y2|WT(X1 X2)|,要求类间的别离性越大越好。投影样本类内类内离散度:2iyjYiWTxjWTXij1j1Ni2
39、NiW2TSiW,其中,Si(x Xi)(x Xi)T。x1Ni投影样本总的离散度可用(1222)来表示,要求投影样本总的离散度越小越好。1222WTS1W WTS2W WTSwW,其中,SwS1S2称为类内散布矩阵。Fisher 准那么函数为:J(W)2TT|Y Y|,1221222而(Y1Y2)(W X1W X2)W SbW,其中,Sb X1 X2为类间散布矩阵。2TX1 X2T称WTSbW1所以,J(W)T,对J(W)求极值得W SwX1X2。这便是n 维 X 空间W SwW向一维 Y 空间的最好投影方向,它实际上是多维空间向一维空间的一种映射。现在我们已把一个 n 维的问题转化为一维的问题。于是只需在一维空间中设计 Fisher分类器:Y WTX W0 X 1Y WTX W0 X 2于是,问题归结为 W0的选择,常用的有以下三种:1.W0Y1Y2;2N1Y2 N2Y2N1WTX1 N2WTX22.W0;N1 N2N1 N2精品文档,word 文档本文为网上收集整理,如需要该文档得朋友,欢迎下载使用y3.W0Y1(Y2Y1)j1N11jY1N22yj1N1。2 jY221jYy21j1精品文档,word 文档
限制150内