机器学习导论习题解答.docx
《机器学习导论习题解答.docx》由会员分享,可在线阅读,更多相关《机器学习导论习题解答.docx(22页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、机器学习导论习题解答1.7习题1如何理解机器学习的三个基本要素?机器学习的三个基本要素是模型、学习准则(策略)和优化算法。具体内容请见机器学习导论第1116页。2请阐述人工智能、机器学习、深度学习三者之间的关系。人工智能是在控制论、信息论和系统论的基础上诞生的前沿交叉学科,涉及哲学、心理学、语言学、神经生理学、认知科学、计算机科学、信息科学、系统科学、数学以及各种工程学方法。人工智能的研究领域十分广泛,涉及机器学习、数据挖掘、知识发现、模式识别、计算机视觉、专家系统、自然语言理解、自动定理证明、自动程序设计、智能检索、多智能体、人工神经网络、博弈、机器人学、智能控制、智能决策支持系统等领域,相
2、关研究成果也已广泛应用到生产、生活的各个方面。机器学习是人工智能的核心,也是使机器具有智能的根本途径,是当前人工智能理论研究和实际应用的非常活跃的研究领域。深度学习则是机器学习的一个分支。在很多人工智能问题上,深度学习的方法突破了传统机器学习方法的瓶颈,推动了人工智能领域的快速发展。3什么是监督式机器学习?什么是非监督式机器学习?两者的区别是什么?监督式机器学习,也称监督学习,通过使用带有正确标签(Label)的训练样本数据进行学习得到一个模型,然后用这个训练得到的模型来对输入的未知标签的测试样本进行预测并输出预测的标签。非监督式机器学习又称为无监督学习,它的输入样本并不需要标注,而是自动从样
3、本中学习特征实现预测。两者的区别:监督式机器学习中的训练样本数据是带标签的;而非监督式机器学习中的训练样本数据是不带标签的。4什么是生成式模型?什么是判别式模型?各自的特点是什么?请分别列举生成式模型和判别式模型。假设样本的特征向量为,类别标签为,生成式模型先对它们的联合概率分布或者类条件概率进行建模,然后计算样本属于每一个类别的条件概率,即类后验概率。而判别式模型是直接对类后验概率进行建模,将样本归属到使类后验概率最大的那个类别。在监督式机器学习中,判别式模型和生成式模型各有优缺点,适合于不同条件的学习问题。生成式模型的特点: (1)对联合概率密度分布建模,可以从统计的角度表示数据的分布情况
4、,能够反映同类数据本身的相似度,但它不关心到底划分各类的那个分类边界在哪。(2)生成式模型的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型,而且对于存在隐变量的问题,仍可以使用生成式模型。(3)生成式模型学习和计算过程复杂,需要更多的计算资源。(4)需要的样本数更多,样本较少时学习效果较差。(5)预测时性能较差。(6)一定条件下能转换成判别式。判别式模型特点:(1)对类后验概率建模,寻找不同类别之间的最优分类面,反映的是异类数据之间的差异,不能反映训练数据本身的特性。(2)判别式模型简单易懂,而且可以对数据进行各种抽象、定义特征并使用特征,可以简化学习问题,需要的
5、计算资源较少。(3)需要的样本数可以较少,少样本也能很好学习。(4)预测时拥有较好性能。(5)无法转换成生成式模型。总之,判别式模型和生成式模型都是使类后验概率最大化,判别式是直接对类后验概率建模,而生成式模型通过贝叶斯定理这一“桥梁”使问题转化为求联合概率。常见的生成式模型有朴素贝叶斯模型、隐马尔可夫模型(HMM)、高斯混合模型(GMM)等。常见的判别式模型有逻辑斯谛回归模型、Softmax回归模型、线性回归模型、线性判别分析(LDA)、支持向量机(SVM)、神经网络等。5监督式机器学习涉及的损失函数有哪些?监督式机器学习涉及的损失函数包括0-1损失函数、平方损失函数(损失函数)、均方误差损
6、失函数、绝对损失函数(损失函数)、对数损失函数、交叉熵损失函数、合页损失函数等。6简述损失函数、代价函数和目标函数的区别和联系。请见机器学习导论第12页。7既然代价函数已经可以度量样本集的平均误差,为什么还要设定目标函数?通常情况下,由于训练样本集中的样本数量是有限的,而且训练集中的样本数据包含了各种噪声,因此实际所用的训练集不能很好地反映样本数据的真实分布。在这种情况下,如果以经验风险作为代价函数,当模型过于复杂时,利用经验风险最小化(ERM)准则,有可能对训练集样本数据拟合得很好,但是对测试集样本数据的拟合效果不好,导致模型产生“过拟合”现象,这就出现了所谓的“结构化风险”。结构风险最小化
7、即为了防止过拟合而提出来的策略,结构风险函数就是最终待优化的目标函数。8请解释经验风险和结构风险的含义和异同点。经验风险是模型关于整个训练集中所有样本的平均损失。经验风险越小说明模型对训练集样本数据的拟合效果越好,但是对于未知的样本效果怎么样呢?我们知道未知的样本数据的数量是不容易确定的,所以就没有办法用所有样本损失函数的平均值最小化这个准则,那么怎么来衡量这个模型对所有样本(包含未知的样本和已知的训练样本)的预测能力呢?从概率论的角度很容易就想到了数学期望。期望风险是损失函数的期望,用来度量平均意义下模型预测的性能好坏,表示的是决策函数对所有的样本预测能力的大小。而经验风险仅仅表示决策函数对
8、训练数据集里样本的预测能力。理想的模型(决策)函数应该是让所有的样本的损失函数最小的(也即期望风险最小化),但是,在实际的机器学习问题中,我们无法得知X与Y的联合概率分布函数P(X,Y),因此也没有办法直接计算期望风险。如果只考虑经验风险的话,会出现过拟合的现象,过拟合的极端情况便是模型对训练集中所有的样本数据都有很好的拟合效果,但是对于非训练集中的样本数据,模型的拟合效果非常不好。导致“过拟合”发生的因素有很多,最主要的原因是因为训练样本数量不足以及模型过于复杂。为了解决这一问题,我们需要引入结构风险函数,即对经验风险函数进行矫正,也就是在经验风险函数后面加上一个表示模型复杂度的正则项(惩罚
9、项)。结构风险是对经验风险和期望风险的折中。相比于经验风险,结构风险多了一个正则项(惩罚项),结构风险可以这么理解:经验风险越小,模型决策函数越复杂,其包含的参数越多,当经验风险函数小到一定程度就出现了过拟合现象。也可以理解为模型决策函数的复杂程度是过拟合的必要条件,那么我们要想防止模型产生“过拟合”现象,就要破坏这个必要条件,即降低决策函数的复杂度。也即,让惩罚项最小化,现在出现两个需要最小化的函数了。我们需要同时保证经验风险函数和模型决策函数的复杂度都达到最小化,一个简单的办法把两个式子融合成一个式子得到结构风险函数,然后对这个结构风险函数进行最小化。结构风险小意味着经验风险小、模型复杂度
10、低。结构风险小的模型往往对训练样本以及新的测试样本都有较好的预测性能。结构风险最小化的策略认为结构风险最小的模型是最优的模型。9机器学习中常见的优化算法有哪些?机器学习中常见的优化算法有梯度下降法、随机梯度下降、小批次梯度下降、牛顿法、拟牛顿法、坐标下降法等。10为什么需要对数值类型的特征做归一化?请见机器学习导论第2728页。11什么是过拟合?产生过拟合的原因是什么?防止模型过拟合的常用方法有哪些?“过拟合”是指模型过于复杂,学习能力太强,以至于能捕捉到单个训练样本的特征,并将其认为是“一般规律”,具体表现就是最终模型对已知数据(即训练集中的样本)的预测性能很好,在训练集上的误差很小,而对未
11、知数据(即测试集中的样本)的预测性能不佳,在测试集上的误差远大于训练误差,即模型的泛化能力下降。产生过拟合的主要原因在于训练样本数量较少而样本的特征数量过多,模型参数太多而导致复杂度过高。解决过拟合问题的常用方法有:(1)增加训练样本数量;(2)使用正则化约束;(3)减少特征数;(4)使用丢弃(Dropout)法;(5)提前停止训练。12什么是欠拟合?产生欠拟合的原因是什么?防止模型欠拟合的常用方法有哪些?“欠拟合”是指模型过于简单,学习能力不足,没有很好地捕捉到样本数据特征,无法学习到样本数据中的“一般规律”,不能很好地拟合数据的真实分布,数据点距离拟合曲线较远。欠拟合具体表现就是最终模型在
12、训练集和测试集上的误差都较大,性能较差。欠拟合的现象比较容易克服,常见的解决方法是增加更多的特征,提高模型的表达能力。例如,在线性模型中通过添加二次项或者三次项,使用核SVM、随机森林、深度学习等复杂模型。13请解释机器学习模型的方差和偏差。偏差(Bias)度量了机器学习模型的预测期望与真实标签值的偏离程度,即刻画了模型本身的拟合能力。方差(Variance)度量了同样大小训练集的样本变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响,描述的是预测值作为随机变量的离散程度。一般来说,在一个实际系统中,偏差和方差是有冲突的,偏差随着模型复杂度的增加而降低,而方差随着模型复杂度的增加而增加。
13、14为什么要将样本数据集分为训练集、验证集和测试集三个部分?他们各自的作用是什么?请见机器学习导论第29页。15解释交叉验证的工作原理?如何在-折交叉验证中选择的值?请见机器学习导论第30页。16回归模型和分类模型各有哪些常见的评估指标?请见机器学习导论第31页。17准确率的定义是什么?准确率始终是一个好的度量指标吗?它有什么局限性?请见机器学习导论第33页。18什么是查准率(精确率)?什么是查全率(召回率)?如何权衡查准率(精确率)与查全率(召回率)?请见机器学习导论第3335页。19什么是ROC曲线?如何绘制ROC曲线?ROC曲线相比 P-R 曲线有什么特点?请见机器学习导论第3436页。
14、20什么是AUC?AUC与ROC的关系是什么?什么情形下要使用AUC?请见机器学习导论第36页。21有哪些常见的正则化方法?请解释范数和范数正则化的作用。范数正则化使得模型参数具有稀疏性的原理是什么?常见的正则化方法包括:范数和范数正则化。范数是指向量中每个元素的平方之和,范数是指向量中每个元素的绝对值之和。范数正则化使用的是每个权重值的平方和,其作用是通过使模型的权重值变小,进而使模型变得简单。范数正则化使用的是每个权重值的绝对值之和。使用范数正则化后,模型参数会稀疏,即模型的权重值中有很多0。22为什么加正则化项能防止模型过拟合?过拟合是模型训练当中出现的一种现象,具体表现为模型在训练集上
15、表现很好,误差较小,但在测试集上表现较差,误差较大。其原因通常是:(1)训练样本不足;(2)模型过于复杂;(3)训练集与测试集样本的分布不同;(4)训练集样本里面的噪声数据干扰过大。正则化则是对模型参数添加先验,降低模型的复杂度,对于噪声以及异常样本数据(outliers)的输入扰动相对较小。2.6习题1什么是回归?哪些模型可用于解决回归问题?在统计学中,回归分析指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的自变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和
16、非线性回归分析。线性回归模型、多项式回归模型可用于解决回归问题。2什么是线性回归?解决线性回归的模型有哪些?如果因变量(输出变量)与自变量(输入变量)之间的关系可以用线性方程来表示,则我们称因变量与自变量的关系是线性关系。线性回归(Linear Regression)的目标旨在找到可以描述目标值(输出变量)与一个或多个特征(输入变量)之间关系的一个线性方程或函数。解决线性回归的模型有岭回归模型、套索回归模型和弹性网络(Elastic Net)模型。3什么是正规方程?最小二乘法可以将误差方程转化为有确定解的代数方程组(其方程式数目正好等于未知数的个数),从而可求解出这些未知参数。这个有确定解的代
17、数方程组称为最小二乘法估计的正规方程。正规方程是最小二乘法的矩阵形式。4请阐述梯度下降法的工作原理?什么是随机梯度下降?与通常的梯度下降有何不同?请见机器学习导论第5153页。5什么样的正则化技术适用于线性模型?可以使用L1或L2正则化进行特征选择吗?请见机器学习导论第5556页。6什么时候需要对线性模型进行特征归一化?什么情况下可以不做归一化?在以下情况下需要进行特征归一化:(1)涉及或隐含距离计算的算法,比如K-均值、KNN、PCA、SVM等,一般需要进行特征归一化。因为 zero-mean一般可以增加样本间余弦距离或者内积结果的差异,区分力更强,假设数据集集中分布在第一象限遥远的右上角,
18、将其平移到原点处,可以想象样本间余弦距离的差异被放大了。在模版匹配中,zero-mean可以明显提高响应结果的区分度。 就欧式距离而言,增大某个特征的尺度,相当于增加了其在距离计算中的权重,如果有明确的先验知识表明某个特征很重要,那么适当增加其权重可能有正向效果,但如果没有这样的先验,或者目的就是想知道哪些特征更重要,那么就需要先进行特征归一化,对各维特征等而视之。 增大尺度的同时也增大了该特征维度上的方差,PCA算法倾向于关注方差较大的特征所在的坐标轴方向,其他特征可能会被忽视,因此,在PCA前做特征归一化效果可能更好(2)损失函数中含有正则项时,一般需要进行特征归一化。(3)使用梯度下降算
19、法时,需要进行特征归一化(4)对于传统的神经网络,对输入做特征归一化也很重要,因为采用sigmoid等有饱和区的激活函数,如果输入分布范围很广,参数初始化时没有适配好,很容易直接陷入饱和区,导致梯度消失,所以,需要对输入做进行特征归一化或映射到0,1、1,1,配合精心设计的参数初始化方法,对值域进行控制。但自从有了Batch Normalization,每次线性变换改变特征分布后,都会重新进行Normalization,似乎可以不太需要对网络的输入进行特征归一化了,但习惯上还是会做特征归一化。在以下情况下可以不做特征归一化:(1)与距离计算无关的概率模型,比如朴素贝叶斯分类器,不需要进行特征归
20、一化;(2)与距离计算无关的基于树的模型,比如决策树、随机森林等,树中节点的选择只关注当前特征在哪里切分对分类更好,即只在意特征内部的相对大小,而与特征间的相对大小无关,不需要进行特征归一化。7逻辑斯谛回归为什么用Sigmoid函数?这个函数有什么优点和缺点?请见机器学习导论第58页。8逻辑斯谛回归模型是线性模型还是非线性模型?是生成式模型还是判别式模型?为什么?请见机器学习导论第60页。9如果样本标签值为0或1,请推导逻辑斯谛回归的对数似然函数。请见机器学习导论第5960页。10平方误差损失函数和交叉熵损失函数分别适合什么场景?当模型输出预测值与实际观测值之间的误差服从高斯分布的假设成立时,
21、最小化均方误差损失函数与极大似然估计本质上是一致的,在此情形下(比如回归任务),平方误差损失是一个很好的损失函数选择。交叉熵损失函数一般用于多分类任务,常常与Softmax回归是标配。11逻辑斯谛回归为什么使用交叉熵而不使用欧氏距离作为损失函数?如果使用欧氏距离作为损失函数,那么将逻辑斯谛回归模型的决策函数代入均方误差函数后,得到的代价函数是非凸的,而非凸函数的极值点不唯一,因此最终可能会得到一个局部极值点。12逻辑斯谛回归模型和线性回归模型的区别是什么?Softmax回归和逻辑斯谛回归是什么关系?逻辑斯谛回归模型和线性回归模型的区别:(1)逻辑斯谛回归模型适用于分类任务,而线性回归模型适用于
22、回归任务。(2)线性回归模型一般采用均方误差代价函数,而逻辑斯谛回归模型不能使用均方误差代价函数。逻辑斯谛回归只适用于二分类问题。Softmax回归模型是逻辑斯谛回归模型在多分类问题上的推广,类别标签可以取个不同的值。3.4习题1请阐述-最近邻法的基本思想。-最近邻(kNN)法的基本思想:给定一个训练样本集,对于待预测类别标签的新输入测试实例,可以在特征空间中计算它与所有训练样本的距离,然后在训练样本集中找到与该测试实例最邻近的个训练样本(也就是上面所说的个“邻居”),统计这个样本所属的类别,其中样本数最多的那个类就是该测试实例所属的类别。2-最近邻法的三个关键要素是什么?kNN算法涉及以下三
23、个关键要素: 距离度量,特征空间中样本点的距离是样本点间相似程度的反映。 算法超参数的取值。 决策规则,例如,对于分类任务,采取少数服从多数的“投票法”;对于回归任务,采用取平均值的规则。3-最近邻法有什么优点和缺点?请见机器学习导论第69页。4如何选择-最近邻法中的取值?在实际应用中,通常取较小的值,采用交叉验证法来选择一个合适的值。5请列举常见的距离度量。常见的距离度量有:闵可夫斯基距离、曼哈顿距离、欧式距离、切比雪夫距离。6在构建k-d树过程中,如何确定划分维度和划分数据点?请见机器学习导论第71页。7请简述k-d树的构建过程。请见机器学习导论第7273页。4.8习题1什么是“支持向量”
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 导论 习题 解答
限制150内