机器学习导论-第5章贝叶斯分类器与贝叶斯网络.ppt
《机器学习导论-第5章贝叶斯分类器与贝叶斯网络.ppt》由会员分享,可在线阅读,更多相关《机器学习导论-第5章贝叶斯分类器与贝叶斯网络.ppt(50页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第5章章 贝叶斯分类器与贝叶斯网络贝叶斯分类器与贝叶斯网络n掌握贝叶斯公式和朴素贝叶斯分类器原理。掌握贝叶斯公式和朴素贝叶斯分类器原理。n熟悉朴素贝叶斯分类器的优缺点及应用领域。熟悉朴素贝叶斯分类器的优缺点及应用领域。n了解贝叶斯网络的构建方法及推理过程。了解贝叶斯网络的构建方法及推理过程。本章学习目标本章学习目标n5.1 贝叶斯方法贝叶斯方法n5.2 贝叶斯分类器贝叶斯分类器n5.3 贝叶斯网络贝叶斯网络第第5章章贝叶斯分类器与贝叶斯贝叶斯分类器与贝叶斯网络网络n贝贝叶叶斯斯(1702-1761)Thomas Bayes,英英国国数数学学家家。1742年年成成为为英英国国皇皇家家学学会会会
2、会员员。1761年年4月月7日日逝逝世世。贝贝叶叶斯斯在在数数学学方方面面主主要要研研究究概概率率论论。他他首首先先将将归归纳纳推推理理法法用用于于概概率率论论基基础础理理论论,并并创创立立了了贝贝叶叶斯斯统统计计理理论论,对对于于统统计计决决策策函函数数、统统计计推推断断、统统计计的的估估算算等等做做出出了了贡贡献献。他他死死后后,理理查查德德普普莱莱斯斯(Richard Price)于于 1763年年 将将 他他 的的 著著 作作 An essay towards solving a problem in the doctrine of chances寄寄给给了了英英国国皇皇家家学学会会,
3、对对于于现现代代概概率率论论和和数数理理统统计计产生了重要的影响。产生了重要的影响。5.1 贝叶斯方法贝叶斯方法例例:假设某个动物园里的雌性和雄性熊猫的比例是4:6,雌性熊猫中90%的熊猫是干净整洁的,雄性熊猫中20%是干净整洁的。1.求解“正向概率”:在动物园中看到一只干净整洁的雄性熊猫的概率是多少?2.求解“逆向概率”:如果看到一只熊猫是干净整洁的,它是雄性的概率是多少?贝叶斯公式5.1 贝叶斯方法贝叶斯方法贝叶斯公式5.1 贝叶斯方法贝叶斯方法样本空间的划分样本空间的划分5.1 贝叶斯方法贝叶斯方法条件独立公式条件独立公式:如果如果 和和 相互独立,相互独立,则则有:有:其中,其中,是事
4、件是事件发发生的概率。生的概率。条件概率公式条件概率公式:其中,其中,表示事件表示事件 已已发发生的条件下,事件生的条件下,事件 发发生的概生的概率,也称率,也称为为条件概率。条件概率。可以通可以通过过全概率公式全概率公式计计算。算。数学基础数学基础5.1 贝叶斯方法贝叶斯方法全概率公式全概率公式:其中,事件 构成一个完备事件组,即 。数学基础数学基础5.1 贝叶斯方法贝叶斯方法5.1 贝叶斯方法贝叶斯方法n贝贝叶叶斯斯方方法法的的特特点点是是用用概概率率表表示示不不确确定定性性,概概率率规规则则表表示示推推理理或或学学习习,随机随机变变量的概率分布表示推理或学量的概率分布表示推理或学习习的最
5、的最终终结结果。果。n贝贝叶叶斯斯理理论论源源于于贝贝叶叶斯斯提提出出的的贝贝叶叶斯斯定定理理。贝贝叶叶斯斯定定理理是是关关于于随随机机事件事件 和和 的条件概率的一的条件概率的一则则定理,它基于下述定理,它基于下述贝贝叶斯公式叶斯公式:n如如果果我我们们已已经经知知道道事事件件 和和 各各自自发发生生的的概概率率,已已知知当当事事件件 发发生生前前提提下下事事件件 也也发发生生的的条条件件概概率率,那那么么就就可可以以用用贝贝叶叶斯斯公公式式求求得在事件得在事件 发发生前提下事件生前提下事件 发发生的生的概率。概率。n贝贝叶斯公式提供了从先叶斯公式提供了从先验验概率概率计计算后算后验验概率的
6、方法。概率的方法。5.1 贝叶斯方法贝叶斯方法由全概率公式可以得到如下贝贝叶斯公式叶斯公式:n5.1 贝叶斯方法贝叶斯方法n5.2 贝叶斯分类器贝叶斯分类器n5.3 贝叶斯网络贝叶斯网络第第5章章贝叶斯分类器与贝叶斯贝叶斯分类器与贝叶斯网络网络n训练训练数据集:数据集:n由由X和和Y的的联联合概率分布合概率分布P(X,Y)独立同分布独立同分布产产生生n朴素朴素贝贝叶斯通叶斯通过训练过训练数据集学数据集学习联习联合概率分布合概率分布P(X,Y),n即先即先验验概率分布:概率分布:n及条件概率分布:及条件概率分布:5.2 贝叶斯分类器贝叶斯分类器n条件独立性假设:条件独立性假设:n“朴素朴素”贝叶
7、斯名字由来,牺牲分类准确性。贝叶斯名字由来,牺牲分类准确性。n贝叶斯定理:贝叶斯定理:n代入上式:代入上式:5.2 贝叶斯分类器贝叶斯分类器n贝叶斯分类器:贝叶斯分类器:n分母对所有分母对所有ck都相同:都相同:5.2 贝叶斯分类器贝叶斯分类器n朴朴素素贝贝叶叶斯斯分分类类模模型型是是一一种种简简单单的的构构造造分分类类器器的的方方法法。朴朴素素贝贝叶叶斯斯分分类类模模型型是是将将问问题题分分为为特特征征向向量量和和决决策策向向量量两两类类,并并假假设设问问题题的的特特征征向向量量都都是是相相互互独独立立地地作作用用于于决决策策向向量量的的,即即问问题题的的特特征征之之间间都是互不相关的。都是
8、互不相关的。n尽尽管管有有这这样样过过于于简简单单的的假假设设,但但朴朴素素贝贝叶叶斯斯分分类类模模型型能能指指数数级级降降低低贝贝叶叶斯斯网网络络构构建建的的复复杂杂性性,同同时时还还能能较较好好地地处处理理训训练练样样本本的的噪噪声声和和无无关关属属性性,所所以以朴朴素素贝贝叶叶斯斯分分类类模模型型仍仍然然在在很很多多现现实实问问题题中中有有着高效的应用,例如入侵检测和垃圾邮件过滤等领域。着高效的应用,例如入侵检测和垃圾邮件过滤等领域。n目目前前许许多多研研究究学学者者也也在在致致力力于于改改善善特特征征变变量量间间的的独独立立性性的的限限制制使使得得朴素贝叶斯分类模型可以应用到更多问题上
9、。朴素贝叶斯分类模型可以应用到更多问题上。5.2 贝叶斯分类器贝叶斯分类器1.原理:原理:对对于待分于待分类类的的样样本,假本,假设设各个特征之各个特征之间满间满足朴素独立的条件,足朴素独立的条件,基于基于贝贝叶斯公式,通叶斯公式,通过训练样过训练样本的特征概率,求解未知本的特征概率,求解未知样样本的概本的概率分布,从而率分布,从而预测样预测样本的分本的分类类。2.步步骤骤:对对于于训练样训练样本集包含分本集包含分类标签类标签,其中有,其中有 个个样样本,每个本,每个样样本包本包含含 个特征,表示如下:个特征,表示如下:对应对应的的训练训练集有集有 个个输输出出类别类别,表示,表示为为 。5.
10、2 贝叶斯分类器贝叶斯分类器n朴素贝叶斯分类朴素贝叶斯分类对对于于测测试试样样本本集集 ,分分别别统计每个样本对应标签的所有输出类别对应的概率:统计每个样本对应标签的所有输出类别对应的概率:由由于于每每个个样样本本的的特特征征独独立立,根根据据条条件件独独立立公公式式,计计算算样样本本中中每每个个特特征征的的条条件件概概率率,再再计计算算出出对对应应标标签签的的所所有有类类别别的的概概率率,如如下所示:下所示:5.2 贝叶斯分类器贝叶斯分类器n朴素贝叶斯分类朴素贝叶斯分类对于新的测试样本集对于新的测试样本集 ,根据贝叶斯公式可以得到:,根据贝叶斯公式可以得到:如果如果 ,其中,其中 ,则则 ,
11、即认为,即认为 。衡量分类器精度,可以利用衡量分类器精度,可以利用 统计分类器计算与真实标签对比统计分类器计算与真实标签对比的正确率。的正确率。5.2 贝叶斯分类器贝叶斯分类器n朴素贝叶斯分类朴素贝叶斯分类数据数据以以上上表表格格通通过过不不同同的的天天气气特特征征来来预预测测球球赛赛是是否否可可以以进进行行,数数据据集集中中可可以以比比赛赛(Yes)的的样样本本有有 9 个个,而而不不能能比比赛赛的的样样本本(No)有有 5 个个,对对于于一一组组新新的的天天气气数数据据,采采用用贝贝叶叶斯斯理理论论基基于于以以前前的的经经验验数数据据,预预测测为为可可以以比比赛赛的的概概率率要要比比预预测
12、测为为不不能能比比赛赛的的概概率率高高几几乎乎两两倍倍,这这就就称称为为先先验验概概率率(Prior probability)。5.2 贝叶斯分类器贝叶斯分类器n朴素贝叶斯分类朴素贝叶斯分类对于以上数据集,求先验概率如下:对于以上数据集,求先验概率如下:对对于新于新样样本:本:采用采用贝贝叶斯分叶斯分类类法来法来预测预测首先需要首先需要统计统计数据集,数据集,计计算如下的条件概率:算如下的条件概率:5.2 贝叶斯分类器贝叶斯分类器n朴素贝叶斯分类朴素贝叶斯分类5.2 贝叶斯分类器贝叶斯分类器n朴素贝叶斯分类朴素贝叶斯分类根根据据贝贝叶叶斯斯公公式式可可以以计计算算出出新新样样本本X的的两两个个
13、似似然然概概率率(Likelihood Probability)如下所示:如下所示:对对于于以以上上两两个个算算式式,发发现现 的的乘乘积积项项中中出出现现了了0,这这是是因因为为训训练练数数据据集集中中的的 这这个个条条件件概概率率为为0而而导导致致的的,这这时时候候如如果果增增加加有有效效的的训训练练数数据据,就就需需要要采采取取拉拉普普拉拉斯斯修正修正(Laplace correction)。5.2 贝叶斯分类器贝叶斯分类器n朴素贝叶斯分类朴素贝叶斯分类修正后重新修正后重新计计算先算先验验概率如下:概率如下:修正后重新修正后重新计计算条件概率如下:算条件概率如下:5.2 贝叶斯分类器贝叶
14、斯分类器n朴素贝叶斯分类朴素贝叶斯分类修正后重新修正后重新计计算似然概率如下:算似然概率如下:5.2 贝叶斯分类器贝叶斯分类器n朴素贝叶斯分类朴素贝叶斯分类回回顾贝顾贝叶斯公式构建分叶斯公式构建分类类器的数学模型:器的数学模型:其中上式的分子其中上式的分子项项,为为先先验验概率概率(Prior probability),为为通通过过条件概率条件概率(Conditional probability)计计算出来的似然算出来的似然概率概率(Likelihood Probability)。5.2 贝叶斯分类器贝叶斯分类器n朴素贝叶斯分类朴素贝叶斯分类而而分分母母项项为为现现象象概概率率(Evidenc
15、e probability),可可以以通通过过数数学学证证明明其其对对所所有有分分类类相相同同。公公式式的的左左边边为为所所要要预预测测的的 样样本本分分类类,称,称为为后后验验概率概率(Posterior probability)。所以上式也常表达。所以上式也常表达为为当分母相同当分母相同时时,可以,可以认为认为后后验验概率与似然和先概率与似然和先验验概率成正比:概率成正比:计计算本例中的后算本例中的后验验概率如下:概率如下:5.2 贝叶斯分类器贝叶斯分类器n朴素贝叶斯分类朴素贝叶斯分类 回回顾顾贝贝叶叶斯斯理理论论用用于于分分类类预预测测时时的的结结论论,当当且且仅仅当当以以下下条条件件满
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器学习导论-第5章 贝叶斯分类器与贝叶斯网络 机器 学习 导论 贝叶斯 分类 网络
限制150内