机器学习及其Python实践 (3).pdf
《机器学习及其Python实践 (3).pdf》由会员分享,可在线阅读,更多相关《机器学习及其Python实践 (3).pdf(115页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、机器学习及其Python实践第3章 分类问题第3章 分类问题为了认识客观世界,人们按相似程度将客观事物划分成类别(class)从不同角度观察客观事物会得到不同的属性,这种属性就被称为客观事物的特征(feature)。度量事物之间的相似程度,可以基于特征定义不同形式的距离(distance)同类事物之间的相似度高,相互间的特征距离就小;反之,不同类事物之间的相似度低,特征距离就大给定样本特征,将其划归某一类别,这就是分类(classification)问题,或称为识别(recognition)问题对分类问题进行抽象、建模,然后基于类别特征建立判别函数(discriminant function,
2、或称决策函数),并根据判别函数进行分类决策机器学习将分类所用的判别函数称作分类器(classifier)第3章 分类问题 统计学 类别特征的概率分布被称为该类别的模式(pattern)基于概率分布进行分类的问题也因此被称为模式识别(pattern recognition)问题 贝叶斯(Bayes)决策是统计决策中建立判别函数,解决分类问题的基本方法 计算机科学 针对具体问题直接基于特征(不一定是特征的概率分布)建立判别函数,解决分类问题 例如k近邻方法、线性判别分析、决策树等,可以将这些分类器统称为非贝叶斯决策3.1 贝叶斯分类器 贝叶斯分类器 这种分类规则能使分类错误率最小(即正确率最大),
3、因此贝叶斯分类器是一种错误率最小的分类器 应用贝叶斯分类器解决分类问题,首先需要通过样本训练集建立起问题的概率模型给定特征 ,然后基于条件概率(=|)进行决策分类,将类别判定为条件概率最大的。3.1 贝叶斯分类器 贝叶斯决策 由已知条件推出未知结论,这就是逻辑推理 如果已知条件、未知结论是随机的,需要由已知条件的概率推出未知结论的概率,这就是概率推理贝叶斯公式 设离散型随机变量的值域为 1,2,且(=)0,则对任意的随机变量,()0,有 =(,=)()=(=)=1 =(=),=1,2,.(3 1)或将=简写成,=(,)()=()=1 (),=1,2,.(3 2)原因结果=结果 原因 原因=1
4、结果 原因 原因3.1 贝叶斯分类器 贝叶斯决策 式3-3就是一个分类判别函数,它被称为贝叶斯分类器(Bayes classifier)可以证明,在已知概率分布的情况下,贝叶斯分类器是错误率最小的分类器贝叶斯决策 设离散型随机变量的值域为 1,2,且()0,对任意的随机变量,()0,如果=argmax=1,2,.(3 3)则判定,给定时(即=)成立。因为式3-2中的 具有共同的分母(),所以式3-3等价于=argmax=1,2,().(3 4)3.1 贝叶斯分类器 设计贝叶斯分类器需通过样本数据获得(估计)分类所需的概率分布贝叶斯公式 设离散型随机变量的值域为 1,2,且(=)0,则对任意的随
5、机变量,()0,有 =(,=)()=(=)=1 =(=),=1,2,.(3 1)或将=简写成,=(,)()=()=1 (),=1,2,.(3 2)类别条件概率 特征概率分布 、类别概率分布(),以及各类的特征条件概率 先验概率、后验概率3.1 贝叶斯分类器 举例:红富士和国光是两个苹果品种编号编号底色底色外形外形口感口感果重果重(克)(克)品种品种1黄圆甜190红富士2黄绿扁圆酸甜260红富士3绿扁圆酸甜150国光4黄绿圆甜200红富士5绿扁圆酸甜210国光6黄绿扁圆酸甜170国光7黄圆酸甜200红富士8黄绿扁圆酸甜230红富士9绿扁圆甜180国光10黄绿扁圆酸甜240红富士二分类与多分类3.
6、1 贝叶斯分类器 贝叶斯分类器 使用单个离散型特征 口感:甜、酸甜 、()和 编号编号底色底色外形外形口感口感果重果重(克)(克)品种品种1黄圆甜190红富士2黄绿扁圆酸甜260红富士3绿扁圆酸甜150国光4黄绿圆甜200红富士5绿扁圆酸甜210国光6黄绿扁圆酸甜170国光7黄圆酸甜200红富士8黄绿扁圆酸甜230红富士9绿扁圆甜180国光10黄绿扁圆酸甜240红富士 分类特征:记“甜”为1,“酸甜”为2分类目标:记“红富士”为1,“国光”为2阚道宏3.1 贝叶斯分类器 贝叶斯分类器 、()和 编号编号底色底色外形外形口感口感果重果重(克)(克)品种品种1黄圆甜190红富士2黄绿扁圆酸甜260
7、红富士3绿扁圆酸甜150国光4黄绿圆甜200红富士5绿扁圆酸甜210国光6黄绿扁圆酸甜170国光7黄圆酸甜200红富士8黄绿扁圆酸甜230红富士9绿扁圆甜180国光10黄绿扁圆酸甜240红富士 口感:品种:甜:1酸甜:2红富士:1国光:2出现次数=1:3=1:7=1:6=2:4概率分布 =1=3/10 =2=7/10 =1=6/10 =2=4/10阚道宏3.1 贝叶斯分类器 贝叶斯分类器 、()和 编号编号底色底色外形外形口感口感果重果重(克)(克)品种品种1黄圆甜190红富士2黄绿扁圆酸甜260红富士3绿扁圆酸甜150国光4黄绿圆甜200红富士5绿扁圆酸甜210国光6黄绿扁圆酸甜170国光7
8、黄圆酸甜200红富士8黄绿扁圆酸甜230红富士9绿扁圆甜180国光10黄绿扁圆酸甜240红富士 品种口感|=红富士1口感|=国光2甜:1酸甜:2甜:1酸甜:2出现次数=1:2=1:4=1:1=1:3概率分布 =1|=1=2/6 =2|=1=4/6 =1|=2=1/4 =2|=2=3/4阚道宏3.1 贝叶斯分类器 贝叶斯分类器 、()和 品种口感|=红富士1口感|=国光2甜:1酸甜:2甜:1酸甜:2出现次数=1:2=1:4=1:1=1:3概率分布 =1|=1=2/6 =2|=1=4/6 =1|=2=1/4 =2|=2=3/4口感:品种:甜:1酸甜:2红富士:1国光:2出现次数=1:3=1:7=1
9、:6=2:4概率分布 =1=3/10 =2=7/10 =1=6/10 =2=4/10 1|=(,1)()=21(1)(=2)=46610710=47.或 1|=(,1)()=21(1)=12 =2()=4661046610+34410=47.同理可得,2|=(,2)()=22(2)(=2)=34410710=37.3.1 贝叶斯分类器 贝叶斯分类器 使用两个离散型特征 口感和外形 、()和 编号编号底色底色外形外形口感口感果重果重(克)(克)品种品种1黄圆甜190红富士2黄绿扁圆酸甜260红富士3绿扁圆酸甜150国光4黄绿圆甜200红富士5绿扁圆酸甜210国光6黄绿扁圆酸甜170国光7黄圆酸甜
10、200红富士8黄绿扁圆酸甜230红富士9绿扁圆甜180国光10黄绿扁圆酸甜240红富士 分类特征=(1,2)=(11,21)、=(11,22)、=(12,21)和 =(12,22)3.1 贝叶斯分类器 贝叶斯分类器 使用离散型、连续型混合特征 口感和果重 、()和 编号编号底色底色外形外形口感口感果重果重(克)(克)品种品种1黄圆甜190红富士2黄绿扁圆酸甜260红富士3绿扁圆酸甜150国光4黄绿圆甜200红富士5绿扁圆酸甜210国光6黄绿扁圆酸甜170国光7黄圆酸甜200红富士8黄绿扁圆酸甜230红富士9绿扁圆甜180国光10黄绿扁圆酸甜240红富士 估计连续型随机变量概率分布例如正态分布,
11、2,使用极大似然估计,估计出其中的参数和3.1 贝叶斯分类器 贝叶斯分类器总结 随着特征数的增加、离散型与连续型的混合,特征联合概率密度的估计难度不断加大,贝叶斯分类器的难点在于概率分布估计 在已知概率分布的情况下,贝叶斯分类器在理论上是错误率最小的分类器 但实际应用中,由于估计多个特征之间联合概率分布的难度非常大,因此贝叶斯分类器难以实施 贝叶斯分类器通常被作为研究分类器性能时的一种基准模型3.1 贝叶斯分类器 朴素贝叶斯与参数估计 贝叶斯分类器的难点在于概率分布估计,特别是高维特征的联合概率分布 假设所有特征之间相互独立,则联合概率分布可简化为 1,2,=12,2,=12,(2|3,)3,
12、=12,23,1|().1,2,=1 2=1.(3 5)1,2,|=1|2|=1|.(3 6)阚道宏3.1 贝叶斯分类器 朴素贝叶斯与参数估计 特征条件概率的估计 1,2,|=1|2|=1|.(3 6)给定类别=的条件下各项特征的概率分布 =阚道宏3.1 贝叶斯分类器 朴素贝叶斯与参数估计 特征条件概率的估计 1,2,|=1|2|=1|.(3 6)给定类别=的条件下各项特征的概率分布 =3.1 贝叶斯分类器 朴素贝叶斯与参数估计 特征条件概率的估计 1,2,|=1|2|=1|.(3 6)给定类别=的条件下各项特征的概率分布 =3.1 贝叶斯分类器 朴素贝叶斯与参数估计 乳腺癌数据集“breas
13、t cancer wisconsin dataset”3.1 贝叶斯分类器 朴素贝叶斯与参数估计 乳腺癌数据集“breast cancer wisconsin dataset”使用Scikit-learn库中的朴素贝叶斯模型 GaussianNB(高斯分布特征)MultinomialNB(多项分布特征)BernoulliNB(伯努利分布特征)学习算法fit()、预测算法predict()和评价算法score()3.1 贝叶斯分类器 朴素贝叶斯与参数估计 乳腺癌数据集“breast cancer wisconsin dataset”加载数据集 拆分训练集和测试集3.1 贝叶斯分类器 朴素贝叶斯与
14、参数估计 乳腺癌数据集“breast cancer wisconsin dataset”加载数据集 拆分训练集和测试集 训练并测试模型3.1 贝叶斯分类器 逻辑斯谛回归与牛顿法 贝叶斯分类器 能不能通过特征直接估计出后验概率 呢?对于二分类问题(0-1分布)来说,给定样本数据集,可以使用逻辑斯谛回归方法直接估计后验概率 1、0 、()和 1=,0=1 ,0 1.1+0=1.3.1 贝叶斯分类器 逻辑斯谛回归与牛顿法 二分类:0-1分布 逻辑斯谛回归有一个重要假设:0-1分布的对数几率与特征之间存在线性关系 1=,0=1 ,0 1.1+0=1.几率=1 0=1 .(3 10)对数几率 =ln 1
15、 0=ln1 .(3 11)=1+=11+.(3 12)=.(3 13)3.1 贝叶斯分类器 逻辑斯谛回归与牛顿法 逻辑斯谛回归:0-1分布的对数几率与特征之间存在线性关系=1+=11+.(3 12)=.(3 13)1=,0=1 ,0 O(logN)简单多数表决规则=1,2,、=1,2,=1,1,2,2,.1,1、2,2、,1,2,阚道宏3.2 非贝叶斯分类器 近邻分类器与距离度量 sklearn.neighbors模块中的KNeighborsClassifier类3.2 非贝叶斯分类器 近邻分类器与距离度量 超参数的选择xk=3时,x被判定为k=5时,x被判定为阚道宏3.2 非贝叶斯分类器
16、近邻分类器与距离度量 超参数的选择3.2 非贝叶斯分类器 线性判别分析与特征空间 贝叶斯分类器 估计概率分布需要有足够多的样本数据,高维特征所需样本集的容量要求很大 对于二分类问题,线性判别分析设法将其中的高维特征压缩到一维,然后基于一维特征来设计分类器 、()和 阚道宏3.2 非贝叶斯分类器 线性判别分析与特征空间 特征空间与向量投影 每一项特征都是一个维度 假设向量的坐标是1,2,,向量在上的标量投影(scalar projection,记作)与向量投影(vector projection,记作)=1,1,2,2,特征1e1特征2e2Ox:(x1,x2)p:(1,2)x2x1z=.(3 2
17、8)=.(3 29)=12+22+2=3.2 非贝叶斯分类器 线性判别分析与特征空间 选择投影方向 类内方差最小 类间方差最大x1x2O z=Tx 010-1z=Tx3.2 非贝叶斯分类器 线性判别分析与特征空间 选择投影方向阚道宏3.2 非贝叶斯分类器 线性判别分析与特征空间 选择投影方向3.2 非贝叶斯分类器 线性判别分析与特征空间 选择投影方向3.2 非贝叶斯分类器 线性判别分析与特征空间 选择投影方向3.2 非贝叶斯分类器 线性判别分析与特征空间 选择投影方向3.2 非贝叶斯分类器 线性判别分析与特征空间 线性判别分析分类器 原始训练集 最优投影向量 投影 投影后的数据集 基于一维特征
18、训练集设计分类器=1,1,2,2,=1,1,2,2,=,=1,2,.=10 1.(3 42)阚道宏3.2 非贝叶斯分类器 线性判别分析与特征空间 sklearn.discriminant_analysis模块中的LinearDiscriminantAnalysis类3.2 非贝叶斯分类器 决策树 区分流感与普通感冒:某些特征项比较有效;某些特征项的区分效果不明显 决策树(decision tree)分类模型是一种按照特征有效性,先主要特征,后次要特征,逐步递进,最终完成分类决策的模型口感=?底色=?甜甜外形=?酸酸甜甜外形=?黄黄绿绿底色=?扁扁圆圆红富士黄黄国光绿绿红富士圆圆国光扁扁圆圆红富
19、士圆圆国光红富士黄黄黄黄绿绿国光绿绿123453.2 非贝叶斯分类器 决策树 基于if-then规则进行分类决策,非常类似于人们基于知识的演绎推理(deductive reasoning),即从一般性知识推及某个特定的个体(从一般推及个别)这些if-then规则是怎么来的呢?它们是通过对样本数据进行归纳推理(inductive reasoning,从个别推及一般)得来的 决策树的归纳过程就是基于训练集和学习算法来习得知识、建立决策树模型的过程3.2 非贝叶斯分类器 决策树 决策树学习算法 决策树的学习过程从建立根节点开始,选择某项特征并根据其取值将训练集划分成不同子集,每个取值生成一个子集,然
20、后为每个子集生成一个内部节点 剔除已使用过的特征项,再对所有子集重复“选择特征-划分子集”的过程,直到不可划分为止 将不可划分子集的节点设为叶子节点,并将其标记为某个类别 决策树的学习过程是一个递归过程=1,1,2,2,3.2 非贝叶斯分类器 决策树 决策树学习算法=1,1,2,2,编号编号底色底色外形外形口感口感果重(克)果重(克)品种品种1黄圆甜190红富士2黄绿扁圆酸甜260红富士3绿扁圆酸甜150国光4黄绿圆甜200红富士5绿扁圆酸甜210国光6黄绿扁圆酸甜170国光7黄圆酸甜200红富士8黄绿扁圆酸甜230红富士9绿扁圆甜180国光10黄绿扁圆酸甜240红富士D1=1,2,10口感=
21、?D2=1,4,9特征?甜甜D3=2,3,58,10酸酸甜甜123D1=1,2,10底色=?D2=1,7特征?黄黄D3=2,4,6,8,10黄黄绿绿123D4=3,5,9绿绿43.2 非贝叶斯分类器 决策树 决策树学习算法 特征有效性指的是特征对分类是否有效,该如何度量特征有效性呢?初始集合1,其中既包含红富士苹果,也包含国光苹果。决策树模型依据特征将1划分成子集,希望每个子集尽可能属于同一类别,也就是将1划分成纯度(purity)更高的子集 信息论里的信息熵,或统计学里的基尼指数=1,1,2,2,阚道宏3.2 非贝叶斯分类器 决策树 决策树学习算法 数据集中样本的类别看作一个离散型随机变量,
22、其值域=1,2,,共个类别 假设中样本类别的概率分布为 =1=,=1=1=1,1,2,2,3.2 非贝叶斯分类器 决策树 决策树学习算法=1,1,2,2,编号编号底色底色外形外形口感口感果重(克)果重(克)品种品种1黄圆甜190红富士2黄绿扁圆酸甜260红富士3绿扁圆酸甜150国光4黄绿圆甜200红富士5绿扁圆酸甜210国光6黄绿扁圆酸甜170国光7黄圆酸甜200红富士8黄绿扁圆酸甜230红富士9绿扁圆甜180国光10黄绿扁圆酸甜240红富士3.2 非贝叶斯分类器 决策树 决策树学习算法 总结:信息熵和基尼指数 数据集的纯度越高,则信息熵和基尼指数越小;纯度越低,则信息熵和基尼指数越大 如果数
23、据集只包含一个类别,则纯度最高,其信息熵和基尼指数最小(都为零)如果数据集包含全部类别(假设为)且服从均匀分布,则纯度最低,其信息熵和基尼指数最大,信息熵最大值为log2,基尼指数最大值为1 借用信息熵或基尼指数,可以度量数据集的纯度=1,1,2,2,3.2 非贝叶斯分类器 决策树 决策树学习算法 特征选择准则 数据集的样本特征为维,记作=1,2,,其中表示第项特征 所有特征项都是离散型的,第项特征有个可能的取值 按第项特征的取值,可以将数据集划分成个子集1,2,。将每个子集包含的样本数据个数记作1,2,,1+2+=数据集及其子集1,2,中的样本类别看作离散型随机变量,它们具有共同的值域=1,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器学习及其Python实践 3 机器 学习 及其 Python 实践
限制150内