决策树算法在商标分类中的应用25215.docx
人工智能原原理姓名:成军军学好:51100611813论文题目:决策树算算法在商标标分类中的的应用中文摘要:决策树一般般都是自上上而下的来来生成的。每每个决策或或事件(即即自然状态态)都可能能引出两个个或多个事事件,导致致不同的结结果,把这这种决策分分支画成图图形很像一一棵树的枝枝干。本文文将使用决决策树算法法对给定的的商标进行行分类。其其中有三大大类商标数数据,每大大类使用五五分之三的的数据进行行训练,使使用五分之之二的数据据进行测试试。我们应应用Javva和MyySQl数数据库进行行测试。用用c4.55算法构造造决策树。最最终对数据据进行准确确率计算。关键词: 决策树树 分类类 商标标 测试试Titlee: Deccisioon trree aalgorrithmm of tthe aappliicatiion ffor ttradeemarkk claassifficattion Abstrract: The ddecission treee is commmonlyy topp-dowwn too genneratte. EEach deciisionn or evennts (nameely nnaturral sstatee) arre liikelyy to eliccit ttwo oor moore eeventts, llead to ddiffeerentt ressultss, puut thhis ddecission brannch lloserr graaphiccs iss likke a treee braanchees. TThis artiicle willl usee thee deccisioon trree aalgorrithmm forr givven tthe ttradeemarkk of classsifiicatiion. Therre arre thhree kindds off traademaark ddata, eacch off thee grooups usinng thhree fiftths oof thhe daata tto trrain, usee twoo fiffths of tthe eexperrimenntal dataa. Wee usee Javva annd MyySQL ddatabbase testting. Usee c4.5 deecisiion ttree algoorithhm's consstrucctionn. Fiinallly, ccalcuulatee thee datta acccuraacy. · Keywoords: Deecisiion ttree claassifficattion braand testt引言:机器学习一一般分为33种类型:有监督的的、无监督督的以及强强化学习【11】。有监督学习习问题涉及及从它的输输入和输出出的实例中中学习一个个函数。对于完全全可观察的的环境,智智能体总能能够观察到到它的行动动所带来的的影响,因因此有监督督学习是可可行的,否否则会困难难一些。 无监督学习习问题涉及及在未提供供明确的输输出值的情情况下,学学习输入的的模式。纯粹的无无监督学习习智能体无无法学习要要做什么,因因为它没有有信息说明明什么能构构成正确的的行动或者者所期望的的状态。 强化学习问问题,是三三类问题中中最普遍的的一个。强强化学习是是从强化物物(起加强强作用的事事物)中进进行学习,而而不是根据据教师所说说的应该做做什么进行行学习。正文:决策树方法法是挖掘分分类规则的的有效方法法,通常包包括两个部部分:树的生成成,开始时时所有的数数据都在根根节点,然然后根据设设定的标准准选择测试试属性,用不同的测测试属性递递归进行数数据分割。树的修剪,就是除去一些可能是噪音或异常的数据。基于信息熵的ID3算法、C45算法都能有效地生成决策树,建决策树的关键在于建立分支时对记录字段不同取值的选择。选择不同的字段值使划分出来的记录子集不同影响决策树生长的快慢及决策树的结构,从而可寻找到规则信息的优劣。可见,决策树算法的技术难点就是选择一个好的分支取值。利用好的取值产生分支可加快决策树的生长,更重要是产生好结构的决策树,并可得到较好的规则信息。相反,若根据一个差的取值产生分支,不但减慢决策树的生长速度,而且使产生的决策树分支过细、结构差,从而难以发现有用的规则信息。随着训练样本集中样本个数的不断增多(即样本集规模不断扩大),训练样本集在主存中换进换出就耗费了大量的时间,严重影响了算法效率。因此使算法能有效处理大规模的训练样本集已成为决策树算法研究的一个重要问题,也是目前国内对决策树算法研究的热点。本文利用决策树C4.5算法来解决图像的分类问题。现在我们引引用下c44.5算法法的实例【22】。C4 .55 算法是是构造决策策树分类规规则的一种种算法,它它是ID33算法的扩扩展。IDD3算法只只能处理离离散型的描描述性属性性而C4.55算法还能能够处理描描述属性取取值为连续续型的情况况。选取节节点的标准准是最大信信息增益率率,具体的的算法步骤骤如下:Stepll:数据源进进行数据预预处理,将将连续型的的属性变量量进行离散散化处理形形成决策树树的训练集集(如果连续取取值的属性性则忽略);(1)根据据原始数据据,找到该该连续型属属性的最小小取值a0大取值an+1;(2) 在在 区 间a ,b插人人n数值等等分为n+l个小区区间;(3 )分分别以ai ,i=1,2, ,n。为分段段点,将区区间a0,an+11划分为两两个子区间间: a0,aj, (ai+1,aan+1)对应该连连续型的属属性变量的的两类取值值,有n种划分方方式;Ste pp2 :计算每个个属性的信信息增益和和信息增益益率;(1 )计计算属性AA的信息增增益Gaiin(A)信息增益益 Gaiin(A)的计算和和ID3算法法中的完全全一致;(2 )计计 算 属性A的信息增增益率Gain一Ratiio( AA)Gaiin一Ratiio(A)=Gain(AA)/I(A )对于取值连连续的属性性而言,分分别计算以以ai(i=1,22,n)为分割割点,对应应分类的信信息增益率率,选择最最大信息增增益率对应应的ai,作为该该属性分类类的分割点点。选择信信息 增益率最最大的属性性,作为当当前的属性性节点,得得到决策树树的根节点点。Step33:根节点属属性每一个个可能的取取值对应一一个子集,对对样本子集集递归地执执行以上SStep22过程,直直到划分的的每个子集集中的观测测数据在分分类属性上上取值都相相同,生成成决策树。Step44:根据构造造的决策树树提取分类类规则,对对新的数据据集进行分分类。类似算法的的主要思想想都是,逐逐步找出能能够为各个个层次的分分类提供最最大信息量量的变量,由由此可以确确定决策树树从根到枝枝,再从枝枝到叶的结结构。决策策树生成的的过程也就就是对训练练数据集迸迸行分类的的过程。现在分析给给出的商标标,建立数数据库。并并建立表:其中id是是主键。属属性包括:circcle、rrectaanglee、triianglle、coonnecct、obbjectt。分别是圆、长长方形、三三角形、组组合行、所所属分类。接着用3/5的数据据作为训练练集,2/5的数据据集作为测测试集。对对所有商标标进行定义义属性,并并保存到数数据库中。如如下:由于数据量量比较大,这这里就不全全部列出,接接着用sqql语句对对数据查询询,比如要要查询从iid1id1000中ciirclee属性都是是1的个数数是多少:Selecct suum(ciirclee)From branndWheree id<<101 and id>00 andd cirrcle=1接着根据cc4.5算算法计算得得到:GainRRati circcle(AA)= 0.2332121131GainRRati Recttangee(A)= 6.4441231121GainRRati triaanglee(A)= 2.9188928337GainRRatiooconnnect(A)=55.3244123221结论:根据c4.5算法,增增益率高的的作为分界界点,则我我们可以得得到决策树树的结构:Rectangle R=00 R=1Object2connect C=1 C=00Object3Object1最后对训练练集和测试试测试集进进行准确率率计算:在数据库中中使用查询询:Selecct *From branndWheree recctanggle=00 andd objject=2用球的值除除以测试集集的60,就就是正确率率。最终的的结果是:类第一类第二类第三类正确率71.766%78.655%86.6%训练集接着用同样样的方法对对测试集进进行测试,得得:类第一类第二类第三类正确率58.655%63.211%70.655%参考文献:【1】姜哲哲,金奕江江等.人工工智能一种现代代方法(第第二版)M人民民邮电出版版社,20010(88)。【2】盛文文,杨江平平,柳健。一一种基于纹纹理元灰度度模式统计计的图像纹纹理分析方方法。JJ,电子子学报 22000(4)。【3】罗森森林,辛子子英,冯磊磊。基于CC4.5的的敏感图像像检测方法法。J北京理工工大学学22006(55)。