《2022年数据挖掘与知识发现.doc》由会员分享,可在线阅读,更多相关《2022年数据挖掘与知识发现.doc(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第11章 贝叶斯网络贝叶斯网络是1986年由Pearl提出的,依照各个变量之间的概率关系,使用图论方法表示变量集合的结合概率分布的图形模型。它提供了一种自然的表示因果信息的方法,用来发觉数据间的潜在关系。在这个网络中,用节点表示变量,有向边表示变量间的依赖关系。其特点有:l 贝叶斯理论给出了信任函数在数学上的计算方法,具有稳定的数学根底,同时刻画了信任度与证据的一致性以及信任度随证据而变化的增量学习特性;l 在数据挖掘中,贝叶斯网络能够处理不完好和带有噪声的数据集,它用概率测度的权重来描绘数据间的相关性,从而处理了数据间的不一致性,甚至是互相独立的咨询题;l 用图形的方法描绘数据间的互相关系,
2、语义明晰、可理解性强,这有助于利用数据间的因果关系进展预测分析;11.1 贝叶斯方法的根本观点贝叶斯分析方法的特点是使用概率去表示所有方式的不确定性。学习或其他方式的推理都是用概率规则来实现的。贝叶斯学习的结果表示为随机变量的概率分布,它能够解释为我们对不同可能性的信任程度。贝叶斯学派的起点是贝叶斯的两项工作:贝叶斯定理和贝叶斯假设。假设随机变量的结合分布密度是,它们的边际密度分别为。设是观测向量,是末知参数向量,则可通过观测向量来获得末知参数向量的可能。贝叶斯定理为: 这里,是的先验分布。上式能够看出,对末知参数向量的可能综合了它的先验信息和样本信息。而传统的参数可能方法只从样本数据获取信息
3、,如最大似然可能。Bayesian方法对末知参数向量可能的一般过程为:l 将末知参数看成是随机变量;l 依照以往末知参数的知识,确定先验分布;l 计算后验分布密度,做出对末知参数的推断。贝叶斯假设:假如没有任何以往的知识来协助确定,贝叶斯提出能够采纳均匀分布作为其分布,即参数在它的变化范围内,取到各个值的时机是一样的。11.2 贝叶斯网络的构造原理定义:贝叶斯网络是一个二元组B=,其中 网络构造G=是一个有向无环图,为结点集;A为弧的集合; 网络参数P中的每一个元素代表结点的条件概率密度; 则由概率的链规则得 关于n个离散二值随机变量,要确定它们的结合分布,需要给出个概率值。这当n较大时,宏大
4、的存储要求往往难以满足。因而,一定的假设独立性是必要的。随机变量间的假设独立性原则使得贝叶斯网络所需定义的先验概率大为减少。结合概率分布由随机变量各自的分布的乘积所唯一确定。关于网络构造中的任一结点,必可找到一个与条件都不独立的最小子集,使得 贝叶斯网络是一种用图表示知识的方法,同时是能够计算的概率模型。通过这种网络,能够综合各种来源的数据,并对这些数据进展综合和推理。给定一个结合概率分布以及变量的一个排序。将作为根结点开场,并给予以先验概率分布,然后用一结点表示,假如与有关,则从到建立一联合,并用表示联合强度。假如与无关,则给予以先验概率分布。在第级从的父结点集合,(),画一组方向线联合到,
5、并用条件概率定量表示,结果能够得到一个有向非循环图,可用于表示中所表达的许多独立关系,该图就称作贝叶斯网络。反过来,包含有重构原始分布函数所必需的所有信息,在排序下,有如下关系:例如 以下图是一个典型的贝叶斯网络,它的结合概率分布函数为11.3 贝叶斯网络在数据挖掘中的应用 1)贝叶斯方法用于分类及回归分析分类规则发觉是依照客体的特征向量值及其他约束条件,将其分到某个类别中。在数据挖掘中,主要研究如何从数据或经历中学习这些分类规则。关于分类咨询题,有些情况,输入特征向量唯一对应着一个类别,这种咨询题称为确定性的分类咨询题;而有些情况,会出现类别重叠现象,也确实是说,来自于不同类别的样本从外观特
6、征上具有极大的类似性,这时我们只能说某一类别的概率是多大,但我们必须为它选择一个类别。Bayesian学派采纳两种处理方法: 选择后验概率最大的类别假设特征向量,类别向量。分类的目的确实是把特征向量X,归入到某个类别中。方法是:假如,则。如今取判别函数。能够证明,这种分类方法能够保证分类误差最小。 选择效用函数最大(或损失最小)的类别在决策理论中,经常采纳平均效益的大小来衡量决策风险的大小,这实际上与不确定性的程度亲密相关。假设为把属于类别的特征向量X错误地划分到类别中所产生的损失,则可选择损失最小的类别,即 如今的判别函数:。 2)贝叶斯分类的应用文本过滤是一种重要的信息平安领域的应用。过滤
7、的本质确实是一种分类,现讨论贝叶斯方法的文本过滤。用下式所示的矢量来表示文本内容: 其中,-表示网页文本,-文本中的关键词,-关键词在网页文本中的权重,即为文本所对应的矢量表示。令-为合法网页集,-非合法网页集。假如网页属于的概率为,属于的概率为,则显然有 +=1由此,以下任一种计算结果都能够推断网页是否为非法网页: (1) 但有时,假如将合法网页误判为非法网页的话,其严峻性远大于非法网页的漏判。因而,上式需要加上一个调整量0。即 (2) 显然,在过滤计算的临界值附近的文本是自学习的重要样本,因而可将临界值附近的文本过滤结果依照领域专家的人工确认作为训练样本的正例集和反例集,并通过更正算法修正正滤模型和参数。另外,可依照贝叶斯定理,通过训练样本集预测未知样本的类别。 (3)在上式(3)中,分别是文本属于非法文本集和合法文本集的先验概率,可通过下式(4)计算 (4)矢量中的关键词,能够看成文本的属性。因而,基于朴素贝叶斯方法的文本内容过滤的技术本质上是将文本进展贝叶斯分类(合法类和非合法类)。计算和的开销可能特别大,为了降低计算开销,可做类条件独立的朴素假定:给定样本的类标号,假定属性值互相条件独立,即在属性间不存在依赖关系。因而,条件概率和可依照下式简化计算: (5)上式(5)中的各概率分量可基于训练样本集近似计算,详细计算方法为
限制150内