欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    机器学习导论-第5章贝叶斯分类器与贝叶斯网络.ppt

    • 资源ID:90953989       资源大小:2.49MB        全文页数:50页
    • 资源格式: PPT        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    机器学习导论-第5章贝叶斯分类器与贝叶斯网络.ppt

    第第5章章 贝叶斯分类器与贝叶斯网络贝叶斯分类器与贝叶斯网络n掌握贝叶斯公式和朴素贝叶斯分类器原理。掌握贝叶斯公式和朴素贝叶斯分类器原理。n熟悉朴素贝叶斯分类器的优缺点及应用领域。熟悉朴素贝叶斯分类器的优缺点及应用领域。n了解贝叶斯网络的构建方法及推理过程。了解贝叶斯网络的构建方法及推理过程。本章学习目标本章学习目标n5.1 贝叶斯方法贝叶斯方法n5.2 贝叶斯分类器贝叶斯分类器n5.3 贝叶斯网络贝叶斯网络第第5章章贝叶斯分类器与贝叶斯贝叶斯分类器与贝叶斯网络网络n贝贝叶叶斯斯(1702-1761)Thomas Bayes,英英国国数数学学家家。1742年年成成为为英英国国皇皇家家学学会会会会员员。1761年年4月月7日日逝逝世世。贝贝叶叶斯斯在在数数学学方方面面主主要要研研究究概概率率论论。他他首首先先将将归归纳纳推推理理法法用用于于概概率率论论基基础础理理论论,并并创创立立了了贝贝叶叶斯斯统统计计理理论论,对对于于统统计计决决策策函函数数、统统计计推推断断、统统计计的的估估算算等等做做出出了了贡贡献献。他他死死后后,理理查查德德普普莱莱斯斯(Richard Price)于于 1763年年 将将 他他 的的 著著 作作 An essay towards solving a problem in the doctrine of chances寄寄给给了了英英国国皇皇家家学学会会,对对于于现现代代概概率率论论和和数数理理统统计计产生了重要的影响。产生了重要的影响。5.1 贝叶斯方法贝叶斯方法例例:假设某个动物园里的雌性和雄性熊猫的比例是4:6,雌性熊猫中90%的熊猫是干净整洁的,雄性熊猫中20%是干净整洁的。1.求解“正向概率”:在动物园中看到一只干净整洁的雄性熊猫的概率是多少?2.求解“逆向概率”:如果看到一只熊猫是干净整洁的,它是雄性的概率是多少?贝叶斯公式5.1 贝叶斯方法贝叶斯方法贝叶斯公式5.1 贝叶斯方法贝叶斯方法样本空间的划分样本空间的划分5.1 贝叶斯方法贝叶斯方法条件独立公式条件独立公式:如果如果 和和 相互独立,相互独立,则则有:有:其中,其中,是事件是事件发发生的概率。生的概率。条件概率公式条件概率公式:其中,其中,表示事件表示事件 已已发发生的条件下,事件生的条件下,事件 发发生的概生的概率,也称率,也称为为条件概率。条件概率。可以通可以通过过全概率公式全概率公式计计算。算。数学基础数学基础5.1 贝叶斯方法贝叶斯方法全概率公式全概率公式:其中,事件 构成一个完备事件组,即 。数学基础数学基础5.1 贝叶斯方法贝叶斯方法5.1 贝叶斯方法贝叶斯方法n贝贝叶叶斯斯方方法法的的特特点点是是用用概概率率表表示示不不确确定定性性,概概率率规规则则表表示示推推理理或或学学习习,随机随机变变量的概率分布表示推理或学量的概率分布表示推理或学习习的最的最终终结结果。果。n贝贝叶叶斯斯理理论论源源于于贝贝叶叶斯斯提提出出的的贝贝叶叶斯斯定定理理。贝贝叶叶斯斯定定理理是是关关于于随随机机事件事件 和和 的条件概率的一的条件概率的一则则定理,它基于下述定理,它基于下述贝贝叶斯公式叶斯公式:n如如果果我我们们已已经经知知道道事事件件 和和 各各自自发发生生的的概概率率,已已知知当当事事件件 发发生生前前提提下下事事件件 也也发发生生的的条条件件概概率率,那那么么就就可可以以用用贝贝叶叶斯斯公公式式求求得在事件得在事件 发发生前提下事件生前提下事件 发发生的生的概率。概率。n贝贝叶斯公式提供了从先叶斯公式提供了从先验验概率概率计计算后算后验验概率的方法。概率的方法。5.1 贝叶斯方法贝叶斯方法由全概率公式可以得到如下贝贝叶斯公式叶斯公式:n5.1 贝叶斯方法贝叶斯方法n5.2 贝叶斯分类器贝叶斯分类器n5.3 贝叶斯网络贝叶斯网络第第5章章贝叶斯分类器与贝叶斯贝叶斯分类器与贝叶斯网络网络n训练训练数据集:数据集:n由由X和和Y的的联联合概率分布合概率分布P(X,Y)独立同分布独立同分布产产生生n朴素朴素贝贝叶斯通叶斯通过训练过训练数据集学数据集学习联习联合概率分布合概率分布P(X,Y),n即先即先验验概率分布:概率分布:n及条件概率分布:及条件概率分布:5.2 贝叶斯分类器贝叶斯分类器n条件独立性假设:条件独立性假设:n“朴素朴素”贝叶斯名字由来,牺牲分类准确性。贝叶斯名字由来,牺牲分类准确性。n贝叶斯定理:贝叶斯定理:n代入上式:代入上式:5.2 贝叶斯分类器贝叶斯分类器n贝叶斯分类器:贝叶斯分类器:n分母对所有分母对所有ck都相同:都相同:5.2 贝叶斯分类器贝叶斯分类器n朴朴素素贝贝叶叶斯斯分分类类模模型型是是一一种种简简单单的的构构造造分分类类器器的的方方法法。朴朴素素贝贝叶叶斯斯分分类类模模型型是是将将问问题题分分为为特特征征向向量量和和决决策策向向量量两两类类,并并假假设设问问题题的的特特征征向向量量都都是是相相互互独独立立地地作作用用于于决决策策向向量量的的,即即问问题题的的特特征征之之间间都是互不相关的。都是互不相关的。n尽尽管管有有这这样样过过于于简简单单的的假假设设,但但朴朴素素贝贝叶叶斯斯分分类类模模型型能能指指数数级级降降低低贝贝叶叶斯斯网网络络构构建建的的复复杂杂性性,同同时时还还能能较较好好地地处处理理训训练练样样本本的的噪噪声声和和无无关关属属性性,所所以以朴朴素素贝贝叶叶斯斯分分类类模模型型仍仍然然在在很很多多现现实实问问题题中中有有着高效的应用,例如入侵检测和垃圾邮件过滤等领域。着高效的应用,例如入侵检测和垃圾邮件过滤等领域。n目目前前许许多多研研究究学学者者也也在在致致力力于于改改善善特特征征变变量量间间的的独独立立性性的的限限制制使使得得朴素贝叶斯分类模型可以应用到更多问题上。朴素贝叶斯分类模型可以应用到更多问题上。5.2 贝叶斯分类器贝叶斯分类器1.原理:原理:对对于待分于待分类类的的样样本,假本,假设设各个特征之各个特征之间满间满足朴素独立的条件,足朴素独立的条件,基于基于贝贝叶斯公式,通叶斯公式,通过训练样过训练样本的特征概率,求解未知本的特征概率,求解未知样样本的概本的概率分布,从而率分布,从而预测样预测样本的分本的分类类。2.步步骤骤:对对于于训练样训练样本集包含分本集包含分类标签类标签,其中有,其中有 个个样样本,每个本,每个样样本包本包含含 个特征,表示如下:个特征,表示如下:对应对应的的训练训练集有集有 个个输输出出类别类别,表示,表示为为 。5.2 贝叶斯分类器贝叶斯分类器n朴素贝叶斯分类朴素贝叶斯分类对对于于测测试试样样本本集集 ,分分别别统计每个样本对应标签的所有输出类别对应的概率:统计每个样本对应标签的所有输出类别对应的概率:由由于于每每个个样样本本的的特特征征独独立立,根根据据条条件件独独立立公公式式,计计算算样样本本中中每每个个特特征征的的条条件件概概率率,再再计计算算出出对对应应标标签签的的所所有有类类别别的的概概率率,如如下所示:下所示:5.2 贝叶斯分类器贝叶斯分类器n朴素贝叶斯分类朴素贝叶斯分类对于新的测试样本集对于新的测试样本集 ,根据贝叶斯公式可以得到:,根据贝叶斯公式可以得到:如果如果 ,其中,其中 ,则则 ,即认为,即认为 。衡量分类器精度,可以利用衡量分类器精度,可以利用 统计分类器计算与真实标签对比统计分类器计算与真实标签对比的正确率。的正确率。5.2 贝叶斯分类器贝叶斯分类器n朴素贝叶斯分类朴素贝叶斯分类数据数据以以上上表表格格通通过过不不同同的的天天气气特特征征来来预预测测球球赛赛是是否否可可以以进进行行,数数据据集集中中可可以以比比赛赛(Yes)的的样样本本有有 9 个个,而而不不能能比比赛赛的的样样本本(No)有有 5 个个,对对于于一一组组新新的的天天气气数数据据,采采用用贝贝叶叶斯斯理理论论基基于于以以前前的的经经验验数数据据,预预测测为为可可以以比比赛赛的的概概率率要要比比预预测测为为不不能能比比赛赛的的概概率率高高几几乎乎两两倍倍,这这就就称称为为先先验验概概率率(Prior probability)。5.2 贝叶斯分类器贝叶斯分类器n朴素贝叶斯分类朴素贝叶斯分类对于以上数据集,求先验概率如下:对于以上数据集,求先验概率如下:对对于新于新样样本:本:采用采用贝贝叶斯分叶斯分类类法来法来预测预测首先需要首先需要统计统计数据集,数据集,计计算如下的条件概率:算如下的条件概率:5.2 贝叶斯分类器贝叶斯分类器n朴素贝叶斯分类朴素贝叶斯分类5.2 贝叶斯分类器贝叶斯分类器n朴素贝叶斯分类朴素贝叶斯分类根根据据贝贝叶叶斯斯公公式式可可以以计计算算出出新新样样本本X的的两两个个似似然然概概率率(Likelihood Probability)如下所示:如下所示:对对于于以以上上两两个个算算式式,发发现现 的的乘乘积积项项中中出出现现了了0,这这是是因因为为训训练练数数据据集集中中的的 这这个个条条件件概概率率为为0而而导导致致的的,这这时时候候如如果果增增加加有有效效的的训训练练数数据据,就就需需要要采采取取拉拉普普拉拉斯斯修正修正(Laplace correction)。5.2 贝叶斯分类器贝叶斯分类器n朴素贝叶斯分类朴素贝叶斯分类修正后重新修正后重新计计算先算先验验概率如下:概率如下:修正后重新修正后重新计计算条件概率如下:算条件概率如下:5.2 贝叶斯分类器贝叶斯分类器n朴素贝叶斯分类朴素贝叶斯分类修正后重新修正后重新计计算似然概率如下:算似然概率如下:5.2 贝叶斯分类器贝叶斯分类器n朴素贝叶斯分类朴素贝叶斯分类回回顾贝顾贝叶斯公式构建分叶斯公式构建分类类器的数学模型:器的数学模型:其中上式的分子其中上式的分子项项,为为先先验验概率概率(Prior probability),为为通通过过条件概率条件概率(Conditional probability)计计算出来的似然算出来的似然概率概率(Likelihood Probability)。5.2 贝叶斯分类器贝叶斯分类器n朴素贝叶斯分类朴素贝叶斯分类而而分分母母项项为为现现象象概概率率(Evidence probability),可可以以通通过过数数学学证证明明其其对对所所有有分分类类相相同同。公公式式的的左左边边为为所所要要预预测测的的 样样本本分分类类,称,称为为后后验验概率概率(Posterior probability)。所以上式也常表达。所以上式也常表达为为当分母相同当分母相同时时,可以,可以认为认为后后验验概率与似然和先概率与似然和先验验概率成正比:概率成正比:计计算本例中的后算本例中的后验验概率如下:概率如下:5.2 贝叶斯分类器贝叶斯分类器n朴素贝叶斯分类朴素贝叶斯分类 回回顾顾贝贝叶叶斯斯理理论论用用于于分分类类预预测测时时的的结结论论,当当且且仅仅当当以以下下条条件件满满足足时时:可以得到可以得到结论结论:预测预测 属于属于 。所所以以,对对于于本本例例的的新新样样本本 ,可可以以预预测测其其分分类类结结果果为为 ,也就是在天气条件也就是在天气条件为为 的的时时候,候,预测预测比比赛赛可以可以进进行。行。5.2 贝叶斯分类器贝叶斯分类器n朴素贝叶斯分类朴素贝叶斯分类5.2 贝叶斯分类器贝叶斯分类器n朴素贝叶斯分类朴素贝叶斯分类n贝叶斯垃圾邮件过滤器贝叶斯垃圾邮件过滤器n传统的垃圾邮件过滤方法是关键词过滤,但这种方法过于绝对,传统的垃圾邮件过滤方法是关键词过滤,但这种方法过于绝对,很容易出现误判的情况。贝叶斯垃圾邮件过滤会同时考虑关键词很容易出现误判的情况。贝叶斯垃圾邮件过滤会同时考虑关键词在正常邮件和垃圾邮件中出现的概率,并且学习用户的偏好,可在正常邮件和垃圾邮件中出现的概率,并且学习用户的偏好,可以减少误判的可能性。以减少误判的可能性。n假设收到一封电子邮件假设收到一封电子邮件E,邮件由,邮件由n个关键词构成。设个关键词构成。设X=1表示邮表示邮件是正常邮件,件是正常邮件,X=0表示邮件是垃圾邮件。那么判定新邮件是否表示邮件是垃圾邮件。那么判定新邮件是否为垃圾邮件的问题可以表示为比较下列两式值的问题:为垃圾邮件的问题可以表示为比较下列两式值的问题:5.2 贝叶斯分类器贝叶斯分类器n朴素贝叶斯分类朴素贝叶斯分类n其中其中 和和 可以很容易地在邮箱里查出,所以只可以很容易地在邮箱里查出,所以只需要计算需要计算 和和 。这里可以简单假设。这里可以简单假设 E中中 n 个关键词是互不相关,即将问题转化为朴素贝叶斯分类模型。所个关键词是互不相关,即将问题转化为朴素贝叶斯分类模型。所以就有:以就有:n等等式式右右边边的的每每个个分分式式的的计计算算都都是是很很容容易易的的,于于是是就就可可以以很很容容易易地地得得到到上上文文需需要要的的两两个个概概率率值值。可可以以预预先先设设定定好好垃垃圾圾邮邮件件的的概概率率阈阈值值,比比较较 和和 即即可可实实现现自自动动的的垃垃圾圾邮邮件件标标识识与过滤。与过滤。n5.1 贝叶斯方法贝叶斯方法n5.2 贝叶斯分类器贝叶斯分类器n5.3 贝叶斯网络贝叶斯网络第第5章章贝叶斯分类器与贝叶斯贝叶斯分类器与贝叶斯网络网络n贝贝叶叶斯斯网网络络(Bayesian network),又又称称为为信信念念网网络络(Belief network),是是一一种种通通过过有有向向无无环环图图(Directed acyclic graph,DAG)表示一表示一组组随机随机变变量及其条件依量及其条件依赖赖概率的概率率的概率图图模型。模型。n概概率率图图中中,每每个个节节点点表表示示一一个个随随机机变变量量,每每一一条条有有向向边边表表示示随随机机变变量量间间的的依依赖赖关关系系,同同时时每每个个节节点点都都对对应应一一个个条条件件概概率率表表(Condition Probability Table,CPT),用用于于描描述述该该变变量量与与父父变变量量之之间间的的依依赖赖强强度度,也也就就是是联联合合概概率率分分布布。没没有有父父节节点点的的节节点点用用先先验验概概率率表表达达信信息息。两两个个节节点若无点若无连连接接则则表示相互独立的随机表示相互独立的随机变变量量。n贝贝叶叶斯斯网网络络是是由由图图论论和和概概率率论论结结合合而而成成的的描描述述多多元元统统计计关关系系的的模模型型,它它为为多多个个变变量量之之间间复复杂杂依依赖赖关关系系的的表表示示提提供供了了统统一一的的框框架架,具具有有紧紧凑凑有效、有效、简洁简洁直直观观的特点。的特点。5.3 贝叶斯贝叶斯网络网络n贝贝叶叶斯斯网网络络中中的的节节点点可可以以表表示示任任意意问问题题,丰丰富富的的概概率率表表达达能能力力使使能能较较好好地地处处理理不不确确定定性性信信息息或或问问题题。贝贝叶叶斯斯网网络络中中所所有有节节点点都都是是可可见见的,并且的,并且节节点点间间的因果关系可以非常直的因果关系可以非常直观观地地观观察到察到。n由由于于贝贝叶叶斯斯网网络络对对大大规规模模复复杂杂系系统统简简约约而而紧紧凑凑的的表表示示能能力力,使使得得其其成成为为人人工工智智能能、专专家家系系统统、模模式式识识别别、数数据据挖挖掘掘和和软软件件测测试试等等领领域的研究域的研究热热点。点。5.3 贝叶斯贝叶斯网络网络有向图模型5.3 贝叶斯贝叶斯网络网络根据贝叶斯网络的紧凑的联合分布,可得上图贝叶斯网络的联合分布为有向图模型贝叶斯网络示例5.3 贝叶斯贝叶斯网络网络有向图模型5.3 贝叶斯贝叶斯网络网络n通通过过联联合合分分布布的的紧紧凑凑表表示示或或者者通通过过局局部部条条件件独独立立性性的的形形式式化化语语义义,都都可可以以分分析析出出贝贝叶叶斯斯网网络络中中变变量量的的一一些些条条件件独独立立性性,但但是是这这两两种种方方法并没有将所有的独立性情况包括。法并没有将所有的独立性情况包括。n事事实实上上,通通过过图图的的一一些些特特殊殊结结构构和和规规则则可可以以简简单单直直观观地地得得到到所所关关心心变变量量的的条条件件独独立立性性。接接下下来来介介绍绍三三种种基基本本的的变变量量依依赖赖情情况况,三三种种情情况对应三种不同的图结构:况对应三种不同的图结构:有向图模型5.3 贝叶斯贝叶斯网络网络有向图模型5.3 贝叶斯贝叶斯网络网络有向图模型5.3 贝叶斯贝叶斯网络网络有向图模型5.3 贝叶斯贝叶斯网络网络n贝叶斯网络的学习贝叶斯网络的学习n贝贝叶叶斯斯网网络络学学习习是是对对数数据据进进行行统统计计分分析析获获取取贝贝叶叶斯斯网网络络的的过过程程。学学习习包包括括了了参参数数学学习习和和结结构构学学习习两两部部分分。参参数数学学习习是是在在网网络络结结构构已已知知的的情情况况下下确确定定参参数数即即条条件件概概率率表表中中的的值值。结结构构学学习习则则既既需需要要确确定定网网络络结结构构G以以定定性性反反映映变变量量间间的的依依赖赖关关系系,又又需需要要确确定定网网络络参数以定量得到条件概率表中的参数以定量得到条件概率表中的值值。n在在对对贝贝叶叶斯斯网网络络进进行行参参数数学学习习时时,我我们们已已经经知知道道了了网网络络结结构构G和和G中中所所有有节节点点或或部部分分节节点点的的状状态态值值,这这些些状状态态值值就就是是需需要要进进行行学学习习的数据集。的数据集。5.3 贝叶斯贝叶斯网络网络n贝叶斯网络的推理贝叶斯网络的推理n贝贝叶叶斯斯网网络络的的推推理理是是指指在在已已知知网网络络结结构构G和和参参数数下下,给给定定某某些些证证据据或或变变量量的的值值通通过过概概率率论论的的方方法法求求目目标标变变量量值值的的过过程程。贝贝叶叶斯斯网网络络的的推推理理主主要要包包括括两两种种,一一种种为为自自顶顶向向下下的的推推理理,一一种种为为自自底底向向上的推理。上的推理。n推推理理主主要要运运用用的的方方法法有有精精确确推推理理和和近近似似推推理理两两种种,分分别别有有一一些些算算法法来来解解决决实实际际问问题题。不不同同情情况况下下有有不不同同因因素素影影响响推推理理,贝贝叶叶斯斯网网络络拓拓扑扑结结构构和和推推理理任任务务是是两两大大主主要要复复杂杂度度来来源源。网网络络的的大大小小、变变量量的的类类型型和和分分布布情情况况、推推理理任任务务的的类类型型和和相相关关证证据据的的特特征征都都会会影影响推理过程和结果,实际应用中也应灵活选择推理方法。响推理过程和结果,实际应用中也应灵活选择推理方法。5.3 贝叶斯贝叶斯网络网络n贝叶斯网络的推理贝叶斯网络的推理n精精确确推推理理最最简简单单的的方方法法即即计计算算全全局局的的联联合合概概率率,但但直直接接对对联联合合概概率率进进行行计计算算的的效效率率很很低低,常常常常采采用用变变量量消消元元法法分分别别联联合合概概率率的的求求解解达达到到简简化化计计算算的的目目的的。变变量量消消元元法法利利用用链链式式乘乘积积法法则则和和条条件件独独立立性性对对联联合合概概率率计计算算表表达达式式进进行行变变换换,改改变变基基本本运运算算的的次次序序改改变变消消元元的的次次序序,最最终终达达到到减减少少计计算算量量的的目目的的。该该方方法法的的基基本本思思想想可可以以通通过过一一个个简简单单例例子子描描述述,假假设设有有如如下下所所示示的的简简单单贝贝叶叶斯斯网网络络:5.3 贝叶斯贝叶斯网络网络n贝叶斯网络的推理贝叶斯网络的推理n精确推理精确推理5.3 贝叶斯贝叶斯网络网络n贝叶斯网络的推理贝叶斯网络的推理n在在贝贝叶叶斯斯网网络络节节点点很很多多或或依依赖赖关关系系很很复复杂杂时时,精精确确推推理理的的复复杂杂度度很很高高,通通常常需需要要降降低低推推理理的的复复杂杂度度,在在问问题题的的因因果果关关系系在在网网络络中中可可独独立立于于某某一一部部分分存存在在时时,可可以以将将这这一一部部分分结结构构提提取取出出来来用用精精确确推推理理的的方方法法推推理理。在在不不能能利利用用局局部部独独立立时时,就就需需要要降降低低计计算算的的精精度,即采用度,即采用近似推理近似推理的方法。的方法。n随随机机抽抽样样算算法法是是最最常常用用的的近近似似推推理理方方法法。该该方方法法又又被被认认为为蒙蒙特特卡卡洛洛算算法法或或随随机机仿仿真真。算算法法的的基基本本思思想想上上根根据据某某种种概概率率分分布布进进行行随随机机抽抽样样以以得得到到一一组组随随机机样样本本,再再根根据据这这一一组组随随机机样样本本近近似似地地估估计计需要计算的值。需要计算的值。5.3 贝叶斯贝叶斯网络网络n贝叶斯网络的应用贝叶斯网络的应用n医疗诊断医疗诊断n工业制品的故障检测和性能分析工业制品的故障检测和性能分析n基因连锁分析、农作物推断、兽医诊断、环境分析基因连锁分析、农作物推断、兽医诊断、环境分析n风控模型构建风控模型构建n决策支持决策支持n文本分类、中文分词、机器翻译文本分类、中文分词、机器翻译5.3 贝叶斯贝叶斯网络网络n中文分词中文分词n中中文文分分词词问问题题可可以以描描述述为为给给定定一一句句话话,将将其其切切分分为为合合乎乎语法和语义的词语序列。语法和语义的词语序列。n一一个个经经典典的的中中文文分分词词案案例例是是对对“南南京京市市长长江江大大桥桥”的的分分词词。正正确确的的分分词词结结果果为为“南南京京市市/长长江江大大桥桥”,错错误误的的分分词词结结果果是是“南南京京市市长长/江江大大桥桥”。下下面面我我们们使使用用贝贝叶叶斯斯算算法来解决这一问题。法来解决这一问题。n设设完完整整的的一一句句话话为为X,Y为为组组成成该该句句话话的的词词语语集集合合,共共有有n个个词词语语。于于是是分分词词问问题题可可以以转转化化为为求求下下列列式式子子最最大大值值的的问题:问题:5.3 贝叶斯贝叶斯网络网络n中文分词中文分词n所所以以只只需需找找到到 的的最最大大值值。由由于于任任意意的的分分词词情情况况下下由由词语词语序列生成句子是精确的,所以可以忽略序列生成句子是精确的,所以可以忽略 ,只需找到,只需找到 的最大的最大值值即可。按照即可。按照联联合概率公式合概率公式对对 进进行展开,有行展开,有n这这样样的的展展开开子子式式是是指指数数级级增增长长的的,并并且且数数据据稀稀疏疏的的问问题题也也会会越越来来越越明明显显。所所以以假假设设每每个个词词语语只只会会依依赖赖于于词词语语序序列列中中该该词词前前面面出出现现的的k个个词词语语,即即k元元(kgram)语语言言模模型型。这这里里我我们们假假设设k=2,于于是是就有就有n回回到到上上面面到到问问题题,正正常常的的语语料料库库中中,“南南京京市市长长”与与“江江大大桥桥”同同时时出出现现的的概概率率一一般般为为0,所所以以这这一一分分词词方方式式会会被被舍舍弃弃,“南南京京市市/长长江江大大桥桥”的分的分词词方式会是最方式会是最终终的分的分词结词结果。果。5.3 贝叶斯贝叶斯网络网络Question?

    注意事项

    本文(机器学习导论-第5章贝叶斯分类器与贝叶斯网络.ppt)为本站会员(暗伤)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开