《机器学习》学习笔记.pdf
《《机器学习》学习笔记.pdf》由会员分享,可在线阅读,更多相关《《机器学习》学习笔记.pdf(138页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、机器学习机器学习 学习笔记(学习笔记(1 1)-绪论绪论机器学习是目前信息技术中最激动人心的方向之一,其应用已经深入到生活的各个层面且与普通人的日常生活密切相关。本文为清华大学最新出版的机器学习教材的 Learning Notes,书作者是南京大学周志华教授,多个大陆首位彰显其学术奢华。本篇主要介绍了该教材前两个章节的知识点以及自己一点浅陋的理解。1 1 绪论绪论傍晚小街路面上沁出微雨后的湿润,和熙的细风吹来,抬头看看天边的晚霞,嗯,明天又是一个好天气。走到水果摊旁,挑了个根蒂蜷缩、敲起来声音浊响的青绿西瓜,一边满心期待着皮薄肉厚瓢甜的爽落感,一边愉快地想着,这学期狠下了工夫,基础概念弄得清清
2、楚楚,算法作业也是信手拈来,这门课成绩一定差不了!哈哈,也希望自己这学期的 machine learning 课程取得一个好成绩!1.11.1 机器学习的定义机器学习的定义正如我们根据过去的经验来判断明天的天气,吃货们希望从购买经验中挑选一个好瓜,那能不能让计算机帮助人类来实现这个呢?机器学习正是这样的一门学科,人的“经验”对应计算机中的“数据”,让计算机来学习这些经验数据,生成一个算法模型,在面对新的情况中,计算机便能作出有效的判断,这便是机器学习。另一本经典教材的作者 Mitchell 给出了一个形式化的定义,假设:P:计算机程序在某任务类 T 上的性能。T:计算机程序希望实现的任务类。E
3、:表示经验,即历史的数据集。若该计算机程序通过利用经验 E 在任务 T 上获得了性能 P 的改善,则称该程序对 E 进行了学习。1.21.2 机器学习的一些基本术语机器学习的一些基本术语假设我们收集了一批西瓜的数据,例如:(色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),(色泽=浅自;根蒂=硬挺;敲声=清脆)每对括号内是一个西瓜的记录,定义:所有记录的集合为:数据集。每一条记录为:一个实例(instance)或样本(sample)。例如:色泽或敲声,单个的特点为特征(feature)或属性(attribute)。对于一条记录,如果在坐标轴上表示,每个西瓜都可以用坐
4、标轴中的一个点表示,一个点也是一个向量,例如(青绿,蜷缩,浊响),即每个西瓜为:一个特征向量(featurevector)。一个样本的特征数为:维数(dimensionality),该西瓜的例子维数为 3,当维数非常大时,也就是现在说的“维数灾难”。在计算机程序学习经验数据生成算法模型的过程中,每一条记录称为一个“训练样本”,同时在训练好模型后,我们希望使用新的样本来测试模型的效果,则每一个新的样本称为一个“测试样本”。定义:所有训练样本的集合为:训练集(trainning set),特殊。所有测试样本的集合为:测试集(test set),一般。机器学习出来的模型适用于新样本的能力为:泛化能力
5、(generalization),即从特殊到一般。在西瓜的例子中,我们是想计算机通过学习西瓜的特征数据,训练出一个决策模型,来判断一个新的西瓜是否是好瓜。可以得知我们预测的是:西瓜是好是坏,即好瓜与差瓜两种,是离散值。同样地,也有通过历年的人口数据,来预测未来的人口数量,人口数量则是连续值。定义:预测值为离散值的问题为:分类(classification)。预测值为连续值的问题为:回归(regression)。在我们预测西瓜是否是好瓜的过程中,很明显对于训练集中的西瓜,我们事先已经知道了该瓜是否是好瓜,学习器通过学习这些好瓜或差瓜的特征,从而总结出规律,即训练集中的西瓜我们都做了标记,称为标记
6、信息。但也有没有标记信息的情形,例如:我们想将一堆西瓜根据特征分成两个小堆,使得某一堆的西瓜尽可能相似,即都是好瓜或差瓜,对于这种问题,我们事先并不知道西瓜的好坏,样本没有标记信息。定义:训练数据有标记信息的学习任务为:监督学习(supervised learning),容易知道上面所描述的分类和回归都是监督学习的范畴。训练数据没有标记信息的学习任务为:无监督学习(unsupervised learning),常见的有聚类和关联规则。2 2 模型的评估与选择模型的评估与选择2.12.1 误差与过拟合误差与过拟合我们将学习器对样本的实际预测结果与样本的真实值之间的差异成为:误差(error)。定
7、义:在训练集上的误差称为训练误差(training error)或经验误差(empirical error)。在测试集上的误差称为测试误差(test error)。学习器在所有新样本上的误差称为泛化误差(generalization error)。显然,我们希望得到的是在新样本上表现得很好的学习器,即泛化误差小的学习器。因此,我们应该让学习器尽可能地从训练集中学出普适性的“一般特征”,这样在遇到新样本时才能做出正确的判别。然而,当学习器把训练集学得“太好”的时候,即把一些训练样本的自身特点当做了普遍特征;同时也有学习能力不足的情况,即训练集的基本特征都没有学习出来。我们定义:学习能力过强,以至
8、于把训练样本所包含的不太一般的特性都学到了,称为:过拟合(overfitting)。学习能太差,训练样本的一般性质尚未学好,称为:欠拟合(underfitting)。可以得知:在过拟合问题中,训练误差十分小,但测试误差教大;在欠拟合问题中,训练误差和测试误差都比较大。目前,欠拟合问题比较容易克服,例如增加迭代次数等,但过拟合问题还没有十分好的解决方案,过拟合是机器学习面临的关键障碍。2.22.2 评估方法评估方法在现实任务中,我们往往有多种算法可供选择,那么我们应该选择哪一个算法才是最适合的呢?如上所述,我们希望得到的是泛化误差小的学习器,理想的解决方案是对模型的泛化误差进行评估,然后选择泛化
9、误差最小的那个学习器。但是,泛化误差指的是模型在所有新样本上的适用能力,我们无法直接获得泛化误差。因此,通常我们采用一个“测试集”来测试学习器对新样本的判别能力,然后以“测试集”上的“测试误差”作为“泛化误差”的近似。显然:我们选取的测试集应尽可能与训练集互斥,下面用一个小故事来解释 why:假设老师出了 10 道习题供同学们练习,考试时老师又用同样的这 10 道题作为试题,可能有的童鞋只会做这 10 道题却能得高分,很明显:这个考试成绩并不能有效地反映出真实水平。回到我们的问题上来,我们希望得到泛化性能好的模型,好比希望同学们课程学得好并获得了对所学知识”举一反三”的能力;训练样本相当于给同
10、学们练习的习题,测试过程则相当于考试。显然,若测试样本被用作训练了,则得到的将是过于”乐观”的估计结果。2.32.3 训练集与测试集的划分方法训练集与测试集的划分方法如上所述:我们希望用一个“测试集”的“测试误差”来作为“泛化误差”的近似,因此我们需要对初始数据集进行有效划分,划分出互斥的“训练集”和“测试集”。下面介绍几种常用的划分方法:2.3.12.3.1 留出法留出法将数据集 D 划分为两个互斥的集合,一个作为训练集 S,一个作为测试集 T,满足 D=ST 且ST=,常见的划分为:大约 2/3-4/5 的样本用作训练,剩下的用作测试。需要注意的是:训练/测试集的划分要尽可能保持数据分布的
11、一致性,以避免由于分布的差异引入额外的偏差,常见的做法是采取分层抽样。同时,由于划分的随机性,单次的留出法结果往往不够稳定,一般要采用若干次随机划分,重复实验取平均值的做法。2.3.22.3.2 交叉验证法交叉验证法将数据集 D 划分为 k 个大小相同的互斥子集,满足 D=D1D2Dk,DiDj=(ij),同样地尽可能保持数据分布的一致性,即采用分层抽样的方法获得这些子集。交叉验证法的思想是:每次用 k-1 个子集的并集作为训练集,余下的那个子集作为测试集,这样就有 K 种训练集/测试集划分的情况,从而可进行 k 次训练和测试,最终返回 k 次测试结果的均值。交叉验证法也称“k 折交叉验证”,
12、k 最常用的取值是 10,下图给出了 10 折交叉验证的示意图。与留出法类似,将数据集 D 划分为 K 个子集的过程具有随机性,因此 K 折交叉验证通常也要重复 p 次,称为 p 次 k 折交叉验证,常见的是 10 次 10 折交叉验证,即进行了 100 次训练/测试。特殊地当划分的 k 个子集的每个子集中只有一个样本时,称为“留一法”,显然,留一法的评估结果比较准确,但对计算机的消耗也是巨大的。2.3.32.3.3 自助法自助法我们希望评估的是用整个 D 训练出的模型。但在留出法和交叉验证法中,由于保留了一部分样本用于测试,因此实际评估的模型所使用的训练集比 D 小,这必然会引入一些因训练样
13、本规模不同而导致的估计偏差。留一法受训练样本规模变化的影响较小,但计算复杂度又太高了。“自助法”正是解决了这样的问题。自助法的基本思想是:给定包含 m 个样本的数据集 D,每次随机从 D 中挑选一个样本,将其拷贝放入 D,然后再将该样本放回初始数据集 D 中,使得该样本在下次采样时仍有可能被采到。重复执行 m 次,就可以得到了包含 m 个样本的数据集 D。可以得知在 m 次采样中,样本始终不被采到的概率取极限为:这样,通过自助采样,初始样本集 D 中大约有 36.8%的样本没有出现在 D中,于是可以将 D作为训练集,D-D作为测试集。自助法在数据集较小,难以有效划分训练集/测试集时很有用,但由
14、于自助法产生的数据集(随机抽样)改变了初始数据集的分布,因此引入了估计偏差。在初始数据集足够时,留出法和交叉验证法更加常用。2.42.4 调参调参大多数学习算法都有些参数(parameter)需要设定,参数配置不同,学得模型的性能往往有显著差别,这就是通常所说的”参数调节”或简称”调参”(parameter tuning)。学习算法的很多参数是在实数范围内取值,因此,对每种参数取值都训练出模型来是不可行的。常用的做法是:对每个参数选定一个范围和步长,这样使得学习的过程变得可行。例如:假定算法有 3 个参数,每个参数仅考虑 5 个候选值,这样对每一组训练/测试集就有 5*5*5=125个模型需考
15、察,由此可见:拿下一个参数(即经验值)对于算法人员来说是有多么的 happy。最后需要注意的是:当选定好模型和调参完成后,我们需要使用初始的数据集 D 重新训练模型,即让最初划分出来用于评估的测试集也被模型学习,增强模型的学习效果。机器学习机器学习 学习笔记(学习笔记(2 2)-性能度量性能度量本篇主要是对第二章剩余知识的理解,包括:性能度量、比较检验和偏差与方差。在上一篇中,我们解决了评估学习器泛化性能的方法,即用测试集的“测试误差”作为“泛化误差”的近似,当我们划分好训练/测试集后,那如何计算“测试误差”呢?这就是性能度量,例如:均方差,错误率等,即“测试误差”的一个评价标准。有了评估方法
16、和性能度量,就可以计算出学习器的“测试误差”,但由于“测试误差”受到很多因素的影响,例如:算法随机性或测试集本身的选择,那如何对两个或多个学习器的性能度量结果做比较呢?这就是比较检验。最后偏差与方差是解释学习器泛化性能的一种重要工具。2.52.5 性能度量性能度量性能度量(performance measure)是衡量模型泛化能力的评价标准,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果。本节除 2.5.1 外,其它主要介绍分类模型的性能度量。2.5.12.5.1 最常见的性能度量最常见的性能度量在回归任务中,即预测连续值的问题,最常用的性能度量是“均方误差”(mean s
17、quared error),很多的经典算法都是采用了 MSE 作为评价函数,想必大家都十分熟悉。在分类任务中,即预测离散值的问题,最常用的是错误率和精度,错误率是分类错误的样本数占样本总数的比例,精度则是分类正确的样本数占样本总数的比例,易知:错误率+精度=1。2.5.22.5.2 查准率查准率/查全率查全率/F1/F1错误率和精度虽然常用,但不能满足所有的需求,例如:在推荐系统中,我们只关心推送给用户的内容用户是否感兴趣(即查准率:precision),或者说所有用户感兴趣的内容我们推送出来了多少(即查全率:recall)。因此,使用查准/查全率更适合描述这类问题。对于二分类问题,分类结果混
18、淆矩阵与查准/查全率定义如下:初次接触时,FN 与 FP 很难正确的理解,按照惯性思维容易把 FN 理解成:False-Negative,即将错的预测为错的,这样 FN 和 TN 就反了,后来找到一张图,描述得很详细,为方便理解,把这张图也贴在了下边:正如天下没有免费的午餐,查准率和查全率是一对矛盾的度量。例如我们想让推送的内容尽可能用户全都感兴趣,那只能推送我们把握高的内容,这样就漏掉了一些用户感兴趣的内容,查全率就低了;如果想让用户感兴趣的内容都被推送,那只有将所有内容都推送上,宁可错杀一千,不可放过一个,这样查准率就很低了。“P-R 曲线”正是描述查准/查全率变化的曲线,P-R 曲线定义
19、如下:根据学习器的预测结果(一般为一个实值或概率)对测试样本进行排序,将最可能是“正例”的样本排在前面,最不可能是“正例”的排在后面,按此顺序逐个把样本作为“正例”进行预测,每次计算出当前的P 值和 R 值,如下图所示:P-R 曲线如何评估呢?若一个学习器 A 的 P-R 曲线被另一个学习器 B 的 P-R 曲线完全包住,则称:B 的性能优于 A。若 A 和 B 的曲线发生了交叉,则谁的曲线下的面积大,谁的性能更优。但一般来说,曲线下的面积是很难进行估算的,所以衍生出了“平衡点”(Break-Event Point,简称 BEP),即当 P=R 时的取值,平衡点的取值越高,性能更优。P 和 R
20、 指标有时会出现矛盾的情况,这样就需要综合考虑他们,最常见的方法就是 F-Measure,又称 F-Score。F-Measure 是 P 和 R 的加权调和平均,即:特别地,当=1 时,也就是常见的 F1 度量,是 P 和 R 的调和平均,当 F1 较高时,模型的性能越好。有时候我们会有多个二分类混淆矩阵,例如:多次训练或者在多个数据集上训练,那么估算全局性能的方法有两种,分为宏观和微观。简单理解,宏观就是先算出每个混淆矩阵的 P 值和 R值,然后取得平均 P 值 macro-P 和平均 R 值 macro-R,再算出 F或 F1,而微观则是计算出混淆矩阵的平均 TP、FP、TN、FN,接着
21、进行计算 P、R,进而求出 F或 F1。2.5.32.5.3 ROCROC 与与 AUCAUC如上所述:学习器对测试样本的评估结果一般为一个实值或概率,设定一个阈值,大于阈值为正例,小于阈值为负例,因此这个实值的好坏直接决定了学习器的泛化性能,若将这些实值排序,则排序的好坏决定了学习器的性能高低。ROC 曲线正是从这个角度出发来研究学习器的泛化性能,ROC(Receiver Operating Characteristic)曲线与 P-R 曲线十分类似,都是按照排序的顺序逐一按照正例预测,不同的是 ROC 曲线以“真正例率”(True Positive Rate,简称 TPR)为横轴,纵轴为“
22、假正例率”(False Positive Rate,简称 FPR),ROC 偏重研究基于测试样本评估值的排序好坏。简单分析图像,可以得知:当 FN=0 时,TN 也必须 0,反之也成立,我们可以画一个队列,试着使用不同的截断点(即阈值)去分割队列,来分析曲线的形状,(0,0)表示将所有的样本预测为负例,(1,1)则表示将所有的样本预测为正例,(0,1)表示正例全部出现在负例之前的理想情况,(1,0)则表示负例全部出现在正例之前的最差情况。限于篇幅,这里不再论述。现实中的任务通常都是有限个测试样本,因此只能绘制出近似 ROC 曲线。绘制方法:首先根据测试样本的评估值对测试样本排序,接着按照以下规
23、则进行绘制。同样地,进行模型的性能比较时,若一个学习器 A 的 ROC 曲线被另一个学习器 B 的 ROC 曲线完全包住,则称 B 的性能优于 A。若 A 和 B 的曲线发生了交叉,则谁的曲线下的面积大,谁的性能更优。ROC 曲线下的面积定义为 AUC(Area Under ROC Curve),不同于 P-R 的是,这里的 AUC 是可估算的,即 AOC 曲线下每一个小矩形的面积之和。易知:AUC 越大,证明排序的质量越好,AUC 为 1 时,证明所有正例排在了负例的前面,AUC 为 0 时,所有的负例排在了正例的前面。2.5.42.5.4 代价敏感错误率与代价曲线代价敏感错误率与代价曲线上
24、面的方法中,将学习器的犯错同等对待,但在现实生活中,将正例预测成假例与将假例预测成正例的代价常常是不一样的,例如:将无疾病有疾病只是增多了检查,但有疾病无疾病却是增加了生命危险。以二分类为例,由此引入了“代价矩阵”(cost matrix)。在非均等错误代价下,我们希望的是最小化“总体代价”,这样“代价敏感”的错误率(2.5.1节介绍)为:同样对于ROC曲线,在非均等错误代价下,演变成了“代价曲线”,代价曲线横轴是取值在0,1之间的正例概率代价,式中 p 表示正例的概率,纵轴是取值为0,1的归一化代价。代价曲线的绘制很简单:设 ROC 曲线上一点的坐标为(TPR,FPR),则可相应计算出 FN
25、R,然后在代价平面上绘制一条从(0,FPR)到(1,FNR)的线段,线段下的面积即表示了该条件下的期望总体代价;如此将 ROC 曲线土的每个点转化为代价平面上的一条线段,然后取所有线段的下界,围成的面积即为在所有条件下学习器的期望总体代价,如图所示:机器学习机器学习 学习笔记(学习笔记(3 3)-假设检验、方差与偏差假设检验、方差与偏差在上两篇中,我们介绍了多种常见的评估方法和性能度量标准,这样我们就可以根据数据集以及模型任务的特征,选择出最合适的评估和性能度量方法来计算出学习器的“测试误差“。但由于“测试误差”受到很多因素的影响,例如:算法随机性(例如常见的 K-Means)或测试集本身的选
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器学习周志华 机器 学习 周志华 笔记
限制150内