数学建模的数据挖掘方法幻灯片.ppt
《数学建模的数据挖掘方法幻灯片.ppt》由会员分享,可在线阅读,更多相关《数学建模的数据挖掘方法幻灯片.ppt(65页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数学建模的数据挖掘方法第1页,共65页,编辑于2022年,星期六分类(Classification)就是通过学习得到一个目标函数(称为模型函数)f,然后把新的对象x通过f映射到一个预先定义的类别号y。1.分类的定义:一、相关概念第2页,共65页,编辑于2022年,星期六2.数据挖掘中分类任务的一般模型数据集构造模型函数f模型是否合理不合理新对象合理模型确定输出类别训练样本集检验样本集输入模型检验第3页,共65页,编辑于2022年,星期六2.分类性能的度量考虑二分类问题即类标号只有2个,可设为1和0.定义:f11:实际为第一类,按模型也判别为第一类;f00:实际为第二类,按模型也判别为第二类;f
2、10:实际为第一类,按模型也判别为第二类;f01:实际为第二类,按模型也判别为第一类;则分类性能可以用准确率或错误率来度量准确率=(f11+f00)/(f11+f00+f10+f01)准确率=1-准确率第4页,共65页,编辑于2022年,星期六3.常见的分类方法常见的分类有:决策树、神经网络、支持向量机、遗传算法、粗糙集、贝叶斯等。三、基于决策树的分类方法例1.下表是用于构造分类模型的数据集,包括14个样本和5个属性:Outlook、Temperature、Humidity、Windy和Play,其中前4个属性是天气,最后一个属性是根据前4个属性的情况说明这样的天气状况是否适合比赛。各属性取值
3、如下:Outlook:sunny(s),overcast(o),rain(r);Temperature:hot(h),mild(m),cool(c);Humidity:high(h),normal(n);Windy:false,truePlay:Yes(y),no(n)第5页,共65页,编辑于2022年,星期六训练样本集如下OutlookTempHumiWindy PlaySHHFNSHHTNOHHFYRMHFYRCNFYRCNTNOCNTYSMHFNSCNFYRMNFYOMNTYOMHTYOHNFYRMHTN第6页,共65页,编辑于2022年,星期六决策树是类似如下的一棵树Outlooksu
4、nnyrainovercastPlay=noPlay=yeswindyfalsePlay=yesTruePlay=no给定一个新的天气象:“rain,hot,high,true”,则判别其类别第7页,共65页,编辑于2022年,星期六决策树的构造:分裂属性的选择四、基于信息增益的特征选择策略1.相关概念设信息源X的取值为A=(a1,a2,an),ai出现的概率为pi,称I(ai)=log(1/pi)=-logpi为ai的信息量;称为X的信息熵。第8页,共65页,编辑于2022年,星期六决策树分类方法利用信息量增加(信息增益)作为特征选择的一种指标。信息增益衡量每个属性对分裂后的数据子集的信息量
5、的贡献。假设训练集T包含n个样本,这些样本分别属于m个类,其中第i个类在T中出现的比例为pi,称为集合T的信息熵。如果m=1,即T的样本都属于一个类,则I(T)=0,达到最小值,何时()达到最大?第9页,共65页,编辑于2022年,星期六假设属性把集合划分为个子集T1,T2,.,Tv,其中Ti所包含的样本数为ni,那么划分后的熵就是:分裂后的信息增益定义为基于信息理论的特征选择方法就是逐一计算每种分裂的信息增益,选择信息增益最大的属性作为分裂属性。下面以前面给出的数据集为例,利用信息增益方法构造决策树。第10页,共65页,编辑于2022年,星期六第一步:计算训练样本集的信息量。分类属性Play
6、有两个类,其样本数统计如下:因此T的信息量为:第二步:计算每个属性的信息增益,对于Outlook属性,它有3个属性值,把样本集T分成3个子集,每个子集的类别统计如下:样本集TPlay=yesPlay=no样本数95第11页,共65页,编辑于2022年,星期六Outlook的信息熵为:OutlookPlay=yesPlay=nototalSunny(T1)134Overcast(T2)505Rain(T3)32514第12页,共65页,编辑于2022年,星期六Outlook的信息增益为:同理对于Temperature属性,它也有3个属性值,把样本集T分成3个子集,每个子集的类别统计如下:Temp
7、eraturePlay=yesPlay=nototalhot(T1)224mild(T2)426cool(T3)31414第13页,共65页,编辑于2022年,星期六Temperature的信息熵为:Temperature的信息增益为:第14页,共65页,编辑于2022年,星期六对于Humidity属性和Windy属性,统计如下:HumidityPlay=yesPlay=nototalNormal(T1)347high(T2)61714WindyPlay=yesPlay=nototalTrue(T1)336False(T2)62814计算其信息增益值分别为0.1653和0.0481.第15页,
8、共65页,编辑于2022年,星期六第三步:比较四个属性的信息增益,按大小顺序排列为Gain(Outlook)Gain(Humidity)Gain(Windy)Gain(Temperature)因此应该选Outlook作为首分裂结点,即决策树的形状为:OutlookSunnyRainOvercast第16页,共65页,编辑于2022年,星期六第二层结点的选择与首结点类似,具体选择过程如下:对于“Sunny”的分支,从原数据集T中统计出Outlook属性值为sunny的样本作为新的数据集T。OutlookTempHumiWindy PlaySHHFNSHHTNSMHFNSCNFY作为新样本集第17
9、页,共65页,编辑于2022年,星期六计算T的信息量为:对于Temperature属性,简单统计如下:TemperaturePlay=yesPlay=nototalhot(T1)022mild(T2)011cool(T3)101显然第18页,共65页,编辑于2022年,星期六对于Humidity属性,简单统计如下:显然HumidityPlay=yesPlay=nototalNormal(T1)101high(T2)033WindyPlay=yesPlay=nototalF(T1)123T(T2)011第19页,共65页,编辑于2022年,星期六因此Sunny分支下的分裂属性可选Temperat
10、ure或Humidity,若取Humidity,则其属性H和N下的记录都为相同的类,该分支算法结束。OutlookTempHumiWindy PlaySHHFNSHHTNSMHFNSCNFY其分支结构如下:HumiditySunnyHighNormalPlay=NoPlay=Yes第20页,共65页,编辑于2022年,星期六若取Temperature,则重新确定记录集如下:OutlookTempHumiWindy PlaySHHFNSHHTNSMHFNSCNFYTempSunnyHighMPlay=NoPlay=No可以看出其三个分支H,C和M下的所有记录也属于相同的类,此分支算法结束。其分支
11、结构如右:CPlay=Yes第21页,共65页,编辑于2022年,星期六同理,对于Rain分支,统计数据如下:WindyRainFalseTruePlay=YesPlay=NoOutlook=RTempHumiWindyPlayMHFYCNFYCNTNMNFYMHTN因此选Windy其分支结构如右:第22页,共65页,编辑于2022年,星期六同理,对于Overcast分支,统计数据如下:Play=Yes该分支下所有记录均为同一类,因此该分支算法结束,其结构如下右。Outlook=Overcast TempHumiWindy PlayHHFYCNTYMNTYMHTYHNFYOvercast第23
12、页,共65页,编辑于2022年,星期六综合以上结果,最后得到决策树如下:OutlookTempSunnyHighMPlay=NoPlay=NoCPlay=YesWindyFalsePlay=YesPlay=NoTrueRainPlay=YesOvercast第24页,共65页,编辑于2022年,星期六决策树构造好后,给出新的对象便可判别其类别,例如,新的天气对象为:1)“Overcast,cool,high,False”2)“Rain,Mild,Normal,True”,其类别分别为:第25页,共65页,编辑于2022年,星期六五、基于数据分布的特征选择策略除了基于信息增益的特征选择策略外,还
13、可以根据结点的数据类别的分布来选择最优分裂结点,称之为Gini Index方法。定义:假设训练集T包含n个样本,这些样本分别属于m个类,其中第i个类在T中出现的比例为pi,则T的Gini Index定义为:假设属性把集合划分为个子集T1,T2,.,Tv,其中Ti所包含的样本数为ni,那么这个划分的Gini Index为:第26页,共65页,编辑于2022年,星期六Gini Index的特征选择方法就是逐一计算按每个属性分裂后的Gini Index值,选择gini Index值最小的属性作为分裂属性。下面以前面给出的数据集为例,利用Gini Index选择策略构造决策树的过程。对总样本进行统计如
14、下:样本集TPlay=yesPlay=no样本数95样本集T的gini Index值为第27页,共65页,编辑于2022年,星期六对于Outlook属性,它有3个属性值,把样本集T分成3个子集,每个子集的类别统计如下:OutlookPlay=yesPlay=nototalSunny(T1)134Overcast(T2)505Rain(T3)325每个子集的Gini Index值如下:因此属性Outlook的Gini Index值为:第28页,共65页,编辑于2022年,星期六同理对于Temperature属性,它也有3个属性值,把样本集T分成3个子集,每个子集的类别统计如下:Temperatu
15、rePlay=yesPlay=nototalhot(T1)224mild(T2)426cool(T3)314因此属性Temperature的Gini Index值为:第29页,共65页,编辑于2022年,星期六对于Humidity属性和Windy属性,统计如下:HumidityPlay=yesPlay=nototalNormal(T1)347high(T2)61714WindyPlay=yesPlay=nototalTrue(T1)336False(T2)62814计算其Gini Index值分别为0.3674和0.4357.第30页,共65页,编辑于2022年,星期六第三步:比较四个属性的G
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学 建模 数据 挖掘 方法 幻灯片
限制150内