《机器学习-习题答案.doc》由会员分享,可在线阅读,更多相关《机器学习-习题答案.doc(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2.5 (题目略)(a). 第一步:S0 G0 第二步:S1 G1 第三步:S2 G2 第四步:S3 G3 ,,第五步:S4 G4 (b).假设中的每个属性可以取两个值,所以与题目例题一致的假设数目为:(2*2*2*2)*(2*2*2*2) = 256(c). 这个最短序列应该为8,如果只有一个训练样例,则假设空间有个假设,我们针对每一个属性来设置训练样例,使每次的假设空间减半。则经过8次训练后,可收敛到单个正确的假设。,(d). 若要表达该实例语言上的所有概念,那么我们需要扩大假设空间,使得每个可能的假设都包括在内,这样假设空间就远远大于256,而且这样没法得到最终的没法收敛,因为对每一个未
2、见过的训练样例,投票没有任何效果,因此也就没有办法对未见样例分类。所以不存在一个最优的查询序列。2.6 完成变型空间表示定理的证明(定理2.1)定理2.1:变型空间表示定理 领X为一任意的实例集合,H为X上定义的布尔假设的集合。令c:X0,1为X上定义的任一目标概念,并令D为任一训练样例的集合。对所有的X,H,c,D以及良好定义的S和G:证明:对VSH,D中任一h:当hS时,取sh,则有hgs成立当hS时,即 ($h1H)(hgh1)Consistent(h1,D)若h1S,显然hgs成立;否则有 ($h2H)(h1gh2)Consistent(h2,D)同样或者h2S,则hgh1gs成立;或
3、者 ($h3H)(h2gh3)Consistent(h3,D)如此下去,必存在一个序列hgh1gh2gghnS故也有 ($sS)hgs同理,对VSH,D中任一h:当hG时,取gh,则有ggh成立当hG时,即 ($h1H)(h1gh)Consistent(h1,D)若h1G,显然ggh成立;否则有 ($h2H)(h2gh1)Consistent(h2,D)同样或者h2G,则g=h2gh1gh成立;或者 ($h3H)(h3gh2)Consistent(h3,D)如此下去,必存在一个序列g=hng gh2gh1gh,故也有 ($gG)ggh2.9 (题目略)对每个属性进行如下操作:令ai=T,遍历样
4、例集,如果样例全部为正例,则向假设中添加ai=T,否则,令ai=F,遍历样例集,如果样例全部为正例,则向假设中添加ai=F,否则,舍弃ai,不向假设中添加ai。时间最大复杂度:2*n*样例集大小3.23.4假设u1:EnjoySport=Yes ,u2:EnjoySport=No H(U)=-P(u1) log P(u1) P(u2) log P(u2)= -(3/4)log(3/4)-(1/4)log(1/4) 对Sky假设v1:Sky=Sunny v2:Sky=Rainy H(U|v1)=-P(u1|v1) log P(u1|v1)-P(u2|v1) log P(u2|v1) = -1*l
5、og(1)-(0)*log(0)=0 H(U|v2)=-P(u1|v2) log P(u1|v2)-P(u2|v2) log P(u2|v2) = -(0)*log(0)-(1)*log(1)=0 H(U|V)=P(v1) H(U|v1)+P(v2) H(U|v2)=(3/4)*0+(1/4)*0=0 所以I(U, V)=H(U)-H(U|V)=H(U) 此时显然信息增益最大,所以Sky作为决策树根节点,又由于对Sky取两个值对应的EnjoySport值都是确定的,因此可画出决策树为: SkyYesNoSunnyRainy使用变型空间算法得到的变型空间为,决策树对应变型空间为,显然,决策树得到
6、的变型空间更一般。树等价于变型空间中的一个或多个成员。假设u1:EnjoySport=Yes ,u2:EnjoySport=No H(U)=-P(u1) log P(u1) P(u2) log P(u2)= -(3/5)log(3/5)-(2/5)log(2/5)=0.971 对Sky假设v1:Sky=Sunny v2:Sky=Rainy H(U|v1)=-P(u1|v1) log P(u1|v1)-P(u2|v1) log P(u2|v1) =-(3/4)*log(3/4)-(1/4)*log(1/4)=0.811 H(U|v2)=-P(u1|v2) log P(u1|v2)-P(u2|v2
7、) log P(u2|v2) = -(0)*log(0)-(1)*log(1)=0H(U|V)=P(v1) H(U|v1)+P(v2) H(U|v2)=(4/5)* 0.811+(1/5)*0=0.6488I(U, V)=H(U)-H(U|V)=0.971-0.6488=0.3222对AirTemp假设v1:AirTemp=Warm v2:AirTemp=Cold H(U|v1)=-P(u1|v1) log P(u1|v1)-P(u2|v1) log P(u2|v1) =-(3/4)*log(3/4)-(1/4)*log(1/4)=0.811 H(U|v2)=-P(u1|v2) log P(u
8、1|v2)-P(u2|v2) log P(u2|v2) = -(0)*log(0)-(1)*log(1)=0 H(U|V)=P(v1) H(U|v1)+P(v2) H(U|v2)=(4/5)*0.811+(1/5)*0=0.6488I(U, V)=H(U)-H(U|V)=0.971-0.6488=0.3222对Humidity假设v1:Humidity=Normal v2:Humidity =High H(U|v1)=-P(u1|v1) log P(u1|v1)-P(u2|v1) log P(u2|v1) =-(1/2)*log(1/2)-(1/2)*log(1/2)=1 H(U|v2)=-P
9、(u1|v2) log P(u1|v2)-P(u2|v2) log P(u2|v2) =-(2/3)*log(2/3)-(1/3)*log(1/3)=0.918 H(U|V)=P(v1) H(U|v1)+P(v2) H(U|v2)=(2/5)*1+(3/5)*0.918=0.9508I(U, V)=H(U)-H(U|V)=0.971-0.9508=0.0202对Wind假设v1:Wind=Strong v2:Wind =Weak H(U|v1)=-P(u1|v1) log P(u1|v1)-P(u2|v1) log P(u2|v1) =-(3/4)*log(3/4)-(1/4)*log(1/4
10、)=0.811 H(U|v2)=-P(u1|v2) log P(u1|v2)-P(u2|v2) log P(u2|v2) =-(0)*log(0)-(1)*log(1)=0 H(U|V)=P(v1) H(U|v1)+P(v2) H(U|v2)=(4/5)*0.811+(1/5)*0=0.6488I(U, V)=H(U)-H(U|V)=0.971-0.6488=0.3222对Water假设v1:Water=Warm v2:Water =Cool H(U|v1)=-P(u1|v1) log P(u1|v1)-P(u2|v1) log P(u2|v1) =-(1/2)*log(1/2)-(1/2)*
11、log(1/2)=1 H(U|v2)=-P(u1|v2) log P(u1|v2)-P(u2|v2) log P(u2|v2) =-(1)*log(1)-(0)*log(0)=0 H(U|V)=P(v1) H(U|v1)+P(v2) H(U|v2)=(4/5)*1+(1/5)*0=0.8I(U, V)=H(U)-H(U|V)=0.971-0.8=0.171对Forecast假设v1:Forecast=Same v2:Forecast=Change H(U|v1)=-P(u1|v1) log P(u1|v1)-P(u2|v1) log P(u2|v1) =-(2/3)*log(2/3)-(1/3
12、)*log(1/3)=0.918 H(U|v2)=-P(u1|v2) log P(u1|v2)-P(u2|v2) log P(u2|v2) =-(1/2)*log(1/2)-(1/2)*log(1/2)=1 H(U|V)=P(v1) H(U|v1)+P(v2) H(U|v2)=(3/5)*0.918+(2/5)*1=0.9580I(U, V)=H(U)-H(U|V)=0.971-0.9580=0.013从而可画出决策树第一步为:SkySunnyRainyNo对于Sky=Sunny选定后H(U)=-P(u1) log P(u1) P(u2) log P(u2)= -(3/4)log(3/4)-(
13、1/4)log(1/4)=0.811对AirTemp假设v1:AirTemp=Warm v2:AirTemp=Cold H(U|v1)=-P(u1|v1) log P(u1|v1)-P(u2|v1) log P(u2|v1) =-(3/4)*log(3/4)-(1/4)*log(1/4)=0.811 H(U|v2)=-P(u1|v2) log P(u1|v2)-P(u2|v2) log P(u2|v2) = -(0)*log(0)-(0)*log(0)=0 H(U|V)=P(v1) H(U|v1)+P(v2) H(U|v2)=(4/4)*0.811+(0/4)*0=0.811I(U, V)=H
14、(U)-H(U|V)=0.811-0.811=0对Humidity假设v1:Humidity=Normal v2:Humidity =High H(U|v1)=-P(u1|v1) log P(u1|v1)-P(u2|v1) log P(u2|v1) =-(1/2)*log(1/2)-(1/2)*log(1/2)=1 H(U|v2)=-P(u1|v2) log P(u1|v2)-P(u2|v2) log P(u2|v2) =-(1)*log(1)-(0)*log(0)=0 H(U|V)=P(v1) H(U|v1)+P(v2) H(U|v2)=(1/2)*1+(1/2)*0 =0.5I(U, V)
15、=H(U)-H(U|V)=0.811-0.5=0.311对Wind假设v1:Wind=Strong v2:Wind =Weak H(U|v1)=-P(u1|v1) log P(u1|v1)-P(u2|v1) log P(u2|v1) =-(1)*log(1)-(0)*log(0)=0 H(U|v2)=-P(u1|v2) log P(u1|v2)-P(u2|v2) log P(u2|v2) =-(0)*log(0)-(1)*log(1)=0 H(U|V)=P(v1) H(U|v1)+P(v2) H(U|v2)=(3/4)*0+(1/4)*0=0I(U, V)=H(U)-H(U|V)=0.811-
16、0=0.811对Water假设v1:Water=Warm v2:Water =Cool H(U|v1)=-P(u1|v1) log P(u1|v1)-P(u2|v1) log P(u2|v1) =-(2/3)*log(2/3)-(1/3)*log(1/3)=0.918 H(U|v2)=-P(u1|v2) log P(u1|v2)-P(u2|v2) log P(u2|v2) =-(1)*log(1)-(0)*log(0)=0 H(U|V)=P(v1) H(U|v1)+P(v2) H(U|v2)=(3/4)*0.918+(1/4)*0=0.6885I(U, V)=H(U)-H(U|V)=0.811
17、-0.6885=0.1225对Forecast假设v1:Forecast=Same v2:Forecast=Change H(U|v1)=-P(u1|v1) log P(u1|v1)-P(u2|v1) log P(u2|v1) =-(2/3)*log(2/3)-(1/3)*log(1/3)=0.918 H(U|v2)=-P(u1|v2) log P(u1|v2)-P(u2|v2) log P(u2|v2) =-(1)*log(1)-(0)*log(0)=0 H(U|V)=P(v1) H(U|v1)+P(v2) H(U|v2)=(3/4)*0.918+(1/4)*1=0.6885I(U, V)=
18、H(U)-H(U|V)=0.811-0.6885=0.1225从而可画出决策树第二步:SkySunnyRainyNoWindWeakStrongYesNo该决策树已全部画出。第一个训练样例后的S和G集合:S:G:当遇到第二个训练样例时,需要根据前两个样例一般化第一步中决策树作为S;同样需要根据前两个样例画出最一般的决策树作为G。困难:注意到由于决策树的假设空间是无偏的,所以如果用候选消除算法来搜索,S边界中的决策树是将所有正例所在分枝的叶节点判为正例其他均为反例(且将各属性的先后次序改变会得到大量语法不同概念相同的树)。而G边界中的决策树则是将反例所在分枝的叶节点判为反例其他均为正例的树。这样
19、,对新的实例将不可能有确定的结论。习题 4.3由题意得知感知器A为:1+2*x1+1*x20,感知器B为:0+2*x1+1*x20,由数学知识可知A所表示的区域大于B,并且B所表示区域是A的一部分,所以显然A比B更一般。习题 4.91、存在一定的隐藏单元权值,能够对八种输入产生如0.1,0.2,0.8的隐藏单元编码。因为sigmoid函数是值域在(0,1)区间的递增函数,而输入样本为只有一位为1的八位二进制码,显然通过训练可以得到从第一个输入单元到第八个输入单元与隐藏单元的递增的连接权重,从而使隐藏单元对于10000000,01000000,00000001 八种不同的输入产生递增的0.1,0
20、.2,0.8 的隐藏单元输出编码。2、不可能存在这样的输出单元权值,能够对以上八种不同的输入进行正确的解码。 因为根据目标输出结果,首先考虑第一种输入:10000000,对应0.1 的隐藏单元编码,隐藏单元与第一个输出单元的权值应为最大,而隐藏单元与其他输出单元的权值相对较小;再考虑第二种输入:01000000,它对应0.2 的隐藏单元编码,隐藏单元与第二个输出单元的权值应最大,而隐藏单元与其他输出单元的权值相对较小;其他输入情况与此类似。而因为只有一个隐藏单元,它到每个输出单元的权值只有一个,所以这些权值的要求是相互冲突、无法实现的。3、由2可知,如果用梯度下降法寻找最优权值,对于不同的输入
21、,权值将会被反复地向不同方向调整,而最终无法收敛,解不存在。习题 6.1解:根据题意有:P(cancer)=0.008, P(cancer)=0.992P(|cancer)=0.98,P(|cancer)=0.02P(|cancer)=0.03,P(|cancer)=0.97第一次化验有其极大后验假设为:P(|cancer) P(cancer)0.980.0080.0078P(|cancer)P(cancer)0.030.9920.0298 则第一次化验后确切的后验概率是:P(A)=P(cancer |)0.0078/(0.00780.0298)0.21P(B)=P(cancer |)0.02
22、98/(0.00780.0298)0.79因为两次的化验是相互独立的,根据乘法原理有:P(cancer |)P(A)P(A)0.210.210.0441P(cancer |)P(B)P(B)0.790.790.6241习题6.3hMAP=argmaxhH P(h|D)=argmaxhH P(D|h)P(h)/P(D)=argmaxhH P(D|h)P(h)hML=argmaxhH P(D|h)为了使FindG保证输出MAP假设,则应该使P(h)=1/|H|,即无先验知识。为了使FindG不保证输出MAP假设,则应该使假设P(h)不全相等,即存在先验知识,使得P(h)不全等于 1/|H|。为了使
23、FindG输出的是ML假设而不是MAP假设,则应该使得每个假设的概率P(h)不全相等,但对任意一个假设成立的条件下所得到的结果是正类的概率相等,即P(D|h)相等(对所有的假设,样例为正类和负类的概率均一样)。8.1给出公式8.7的推导过程解:使用误差准则为如下公式:因为:所以:在整个表达式中尽能通过来影响整个网络则上式可转化为(1)又因为对于除了实例x的第i个属性值有非零值外其他值都为,则有:代入(1)式有:习题8.3决策树学习算法ID3的消极版本,我觉得可以借鉴k-近邻算法思想,先不构造决策树,当有一个新样例时,找到k个离新样例最近的样例,按照ID3算法,生成决策树,再由此树判别新样例是正
24、例还是反例。优点:可以把决策树建立的过程放到需要预测时再进行,所以初始建立决策树的时间省略了,并且在需要预测时只是选取最近的k个建立决策树,所需时间较少。当需要预测样例远小于已有样例时效率比较高。缺点:加大了预测时的时间开销,积极版本只需初始时建立一颗决策树,后面预测只要验证一下即可,但消极版本每次均需重新建立决策树,当需要预测的样例太多时效率十分低下。9.1 (1) 对PlayTennis问题描述:属性集Outlook, Temperature, Humidity, Wind记为:a1,a2,a3,a4目标概念PlayTennis记为:cOutlook(a1)的值可取:Sunny, Over
25、cast,Rain Temperature(a2)的值可取:Hot, Mild , CoolHumidity(a3)的值可取:High, NormalWind(a4)的值可取:Weak, Strong PlayTennis(c)的可取值为:Yes,No根据该问题提供的训练样例,则选取其中任意的两个样例,则由两个样例组成的假设为:IF a1= Sunnya2=Hota3=Higha4=Weak THENc= NoIF a1= Sunnya2=Hota3=Higha4= Strong THENc= No用二进制位串来表示假设,则有a1 a2 a3 a4 c a1 a2 a3 a4 c100 100
26、 10 10 0 100 100 10 01 0 其中,规则前件有a1取100时,表示Outlook取第一个约束即OutlookSunnya2取100时,表示Temperatur取第一个约束即TemperatureHota3取10时,表示Humidity取第一个约束即HumidityHigha4取10时,表示Wind取第一个约束即WindWeak规则后件c取0时表示目标值为No(2)遗传算子如果双亲串是a1 a2 a3 a4 c a1 a2 a3 a4 ch1: 100 100 10 10 0 100 100 10 01 0a1 a2 a3 a4 c a1 a2 a3 a4 ch2: 010
27、100 10 10 1 001 010 10 01 1假设为第一个双亲选取的交叉点位置是第2和16位,如下所示:a1 a2 a3 a4 c a1 a2 a3 a4 ch1: 100 100 10 10 0 100 100 10 01 0那么d1=2并且d2=5所以允许选取的第二个双亲交叉点的位置有2,52,1613,16,如果选取的是2,16:a1 a2 a3 a4 c a1 a2 a3 a4 ch2: 010 100 10 10 1 001 010 10 01 1那么结果生成的两个后代是:a1 a2 a3 a4 c a1 a2 a3 a4 ch1: 100 100 10 10 1 001 010 10 01 0a1 a2 a3 a4 c a1 a2 a3 a4 ch2: 010 100 10 10 0 100 100 10 01 19.3 9.2.5节所描述的程序树如下:EQDUMTNOTCSCSDUMSNOTNNNN交叉算子的操作过程示例如下图:EQDUMTNOTCSCSDUMSNOTNNNNEQDUMTNOTCSCSDUMSNOTNNNNNOTNNNNDUMSEQDUMTNOTCSCSNOTNNEQDUMTNOTCSCSDUMSNN9
限制150内