机器学习及其Python实践 (6).pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《机器学习及其Python实践 (6).pdf》由会员分享,可在线阅读,更多相关《机器学习及其Python实践 (6).pdf(125页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、机器学习及其Python实践第6章 概率图模型与概率推理第6章 概率图模型与概率推理所有人都会死(大前提)。一般知识(相当于模型)苏格拉底是人(小前提),所以苏格拉底会死(结论)。将一般知识运用于个体(相当于使用模型对样本进行预测)逻辑推理 使用谓词逻辑(predicate logic)进行形式化描述 使用计算机进行自动化的逻辑推理,例如机器定理证明 :是人。:会死。.苏格拉底,苏格拉底第6章 概率图模型与概率推理 如果知识、条件都是确定的,那就可以使用逻辑推理推导出确定性的结论。逻辑推理的整个过程都是确定的 而对于随机现象则需要用概率模型来描述知识,用随机变量表示已知条件和未知结论,然后通过
2、概率演算由已知概率分布计算出未知概率分布,这就是概率推理 可以用有向图或无向图来描述概率模型,这就是概率图模型6.1 贝叶斯网 为实际问题建立概率模型,如果问题具有比较明确的诱因-结果关系(简称因果关系,或依赖关系),则可以使用有向无环图(Directed Acyclic Graph,缩写DAG)来描述这样的概率模型 使用有向无环图描述的概率模型被称作贝叶斯网(Bayesian network)例如在疾病诊断问题中,病因(诱因)与症状(结果)之间就具有比较明确的因果关系,其概率模型可以使用贝叶斯网来描述6.1 贝叶斯网 联合概率分布及其推理 联合概率分布,边缘概率分布 和 条件概率分布|和|,
3、=|=|.(6 2)=1,2,,=1,2,=|=|.(6 3),=,|=,|=,|.(6 4),=,=,=,.(6 5)6.1 贝叶斯网 联合概率分布及其推理 联合概率分布,概率推理已知联合概率分布,求边缘概率、条件概率 简化概率符号将离散型概率分布 =或连续型概率密度 统一记作 =,=,,|=|.=,,=,,=|.=,;,;,;.6.1 贝叶斯网 联合概率分布及其推理 联合概率分布,概率推理已知联合概率分布,求边缘概率、条件概率 求边缘概率:求和消元 =,,=,.(6 6)=,,同理可求 、.(6 7)6.1 贝叶斯网 联合概率分布及其推理 联合概率分布,概率推理已知联合概率分布,求边缘概率
4、、条件概率 求边缘概率:求和消元 求条件概率:贝叶斯公式|=,=|=,=|.(6 8)6.1 贝叶斯网 联合概率分布及其推理 条件概率的计算技巧|=,=|=,=|.(6 8)|=,=,对所有的 =1,=1 .(6 9),或 ,对所有的 .=,=.计算|,6.1 贝叶斯网 相互独立与条件独立6.1 贝叶斯网 生成式或判别式模型 生成式(generative)模型指的是联合概率分布,例如,、,等,它完整描述了随机变量间的概率分布 判别式(discriminative)模型指的是某个特定的条件概率分布(或与其等价的判别函数),例如|、,|,或者如支持向量机中的分类决策(或称判别)函数 =+等6.1
5、贝叶斯网 贝叶斯网的定义与概率推理 贝叶斯网是一个有向无环图,由结点及结点间的有向边组成 结点 结点到的有向边 条件概率分布|X1X2X1X2X3P(X1)P(X2|X1)P(X2|X1)P(X1)P(X3|X2)X2X1X3P(X2)P(X1|X2)P(X3|X2)X1P(X1)X3P(X3)X2P(X2|X1,X3)1,2,=1|.6.1 贝叶斯网 贝叶斯网的定义与概率推理 贝叶斯网中的条件独立定理6-1 贝叶斯网中的每个结点在给定父结点时,都将条件独立于它的非后代结点(其中包括其父结点的父结点,但不包括子结点的子结点)X1X2XX5X6X4X3X7X86.1 贝叶斯网 贝叶斯网的定义与概
6、率推理 贝叶斯网中的条件独立定理6-2 贝叶斯网中结点的父结点、子结点以及子结点的父结点所构成的集合,被称为结点的马尔可夫覆盖(Markov blanket),记作 。若给定结点的马尔可夫覆盖 ,则与非 中的结点条件独立,即X1X2XX5X6X4X3X7X8,|=|=|,.6.1 贝叶斯网 贝叶斯网的定义与概率推理 贝叶斯网中的条件独立6.1 贝叶斯网 贝叶斯网的构造 首先,对问题进行分析并发现其中存在哪些随机变量,为每个随机变量建立一个结点;然后找出各结点之间的依赖关系,为存在直接依赖关系(即直接因果关系)的结点添加有向边;最后再确定各结点的概率分布,无父结点时为先验概率,有父结点时为条件概
7、率|。结点及其依赖关系被称作贝叶斯网的结构,各结点的概率分布被称作贝叶斯网的参数 人工构造贝叶斯网的结构,然后通过样本数据估计各结点的概率分布,这被称作参数学习。也有人在尝试通过样本数据自动学习贝叶斯网的结构,即结构学习6.1 贝叶斯网 贝叶斯网的推理贝叶斯公式、求和消元法、和-积消元算法、信念传播算法6.1 贝叶斯网 贝叶斯网的推理 基于联合概率计算条件概率 贝叶斯公式 也可以将条件概率的计算问题,转化成边缘概率的计算问题阚道宏6.1 贝叶斯网 贝叶斯网的推理 基于联合概率计算条件概率 贝叶斯公式 也可以将条件概率的计算问题,转化成边缘概率的计算问题6.1 贝叶斯网 贝叶斯网的推理 基于联合
8、概率计算边缘概率:求和消元法 给定联合概率分布,,计算边缘概率 =,,对所有的 .(6 19)X1X2X3X5X4 1,2,3,4,5=15|=1 21 32 43 53.(6 20)6.1 贝叶斯网 贝叶斯网的推理 基于联合概率计算边缘概率:求和消元法X1X2X3X5X4 1,2,3,4,5=15|=1 21 32 43 53.(6 20)5=1,2,3,4 1,2,3,4,5=4321 1,2,3,4,5=4321 1 21 32 43 53.(6 21)6.1 贝叶斯网 贝叶斯网的推理 基于联合概率计算边缘概率:求和消元法X1X2X3X5X4 1,2,3,4,5=15|=1 21 32
9、43 53.(6 20)2,3=1,4,5 1,2,3,4,5=541 1,2,3,4,5=541 1 21 32 43 53.(6 22)阚道宏6.1 贝叶斯网 贝叶斯网的推理 基于联合概率计算边缘概率:求和消元法 2,3=541 1 21 32 43 53=325 534 431 1 21=325 534 43122注:记 122=1 1 21=321225 534 43注:提取公因子122=321224335 53注:记 433=4 43=32122433533注:记 533=5 53.(6 27)和-积消元算法、信念传播(belief propagation)算法:提取公因子,并运用动
10、态规划思想对联合概率进行求和消元。6.2 MCMC算法基础 马尔可夫链蒙特卡罗(Markov Chain Monte Carlo,缩写MCMC)算法 MCMC采样算法 MCMC最优化算法 MCMC互评算法等 MCMC算法的算法基础是马尔可夫链和蒙特卡罗仿真6.2 MCMC算法基础 蒙特卡罗仿真(Monte Carlo simulation)通过大量试验,然后对试验数据进行统计分析,发现客观规律性 蒙特卡罗仿真就是一种统计模拟方法,其含义是按给定概率分布 在计算机上模拟采样,每次采样相当于一次随机试验,然后对所生成的样本数据进行统计分析 为问题建立概率模型,该模型的统计量与问题的解之间存在某种对
11、应关系 按照概率模型在计算机上模拟采样,然后通过样本数据的统计量求得问题的近似解6.2 MCMC算法基础 蒙特卡罗仿真(Monte Carlo simulation)举例:求圆周率 ,进而求得:=4 .=扇形面积正方形面积=14 1212=14.通过伪随机数技术让计算机随机生成个位于正方形区域内的样本点,,然后统计落在扇形区域内的样本点个数6.2 MCMC算法基础 蒙特卡罗仿真(Monte Carlo simulation)应用蒙特卡罗仿真方法的三个主要步骤 构造与待求解问题等价的概率模型 按照概率模型(即概率分布)进行模拟采样 通过样本统计量求得问题的近似解 常用模拟采样算法给定某个概率分布
12、 ,如何通过伪随机数技术在计算机上模拟采样,生成一个样本容量为且符合给定概率分布的数据集=1,2,呢?6.2 MCMC算法基础 蒙特卡罗仿真(Monte Carlo simulation)常用模拟采样算法 0,1 区间的均匀分布,记作(0,1)正态分布(或称高斯分布),、,区间的均匀分布(,)线性同余法(linear congruential method)马特赛特旋转(Mersenne Twister)伪随机数函数:random()Box-Muller算法Python语言random模块提供的采样函数:gauss()、uniform()6.2 MCMC算法基础 蒙特卡罗仿真(Monte Ca
13、rlo simulation)离散型概率分布:二项分布、多项分布阚道宏6.2 MCMC算法基础 蒙特卡罗仿真(Monte Carlo simulation)离散型概率分布:二项分布、多项分布阚道宏6.2 MCMC算法基础 蒙特卡罗仿真(Monte Carlo simulation)离散型概率分布:二项分布、多项分布p1=0.3p2=0.5 p3=0.2s10.3s00s20.8s31p1=0.3p2=0.5p3=0.2s00s10.3s20.8轮盘指针轮盘赌采样算法:=1+1+,=1,2,.阚道宏6.2 MCMC算法基础 蒙特卡罗仿真(Monte Carlo simulation)离散型概率分
14、布:二项分布、多项分布p1=0.3p2=0.5 p3=0.2s10.3s00s20.8s31p1=0.3p2=0.5p3=0.2s00s10.3s20.8轮盘指针轮盘赌采样算法:=1+1+,=1,2,.6.2 MCMC算法基础 蒙特卡罗仿真(Monte Carlo simulation)常用模拟采样算法 正态分布(或称高斯分布),、,区间的均匀分布(,)二项分布、多项分布 复杂的连续型概率分布?阚道宏6.2 MCMC算法基础 蒙特卡罗仿真(Monte Carlo simulation)常用模拟采样算法 正态分布(或称高斯分布),、,区间的均匀分布(,)二项分布、多项分布 复杂的连续型概率分布?
15、接受-拒绝采样算法阚道宏6.2 MCMC算法基础 蒙特卡罗仿真(Monte Carlo simulation)常用模拟采样算法 正态分布(或称高斯分布),、,区间的均匀分布(,)二项分布、多项分布 复杂的连续型概率分布?接受-拒绝采样算法6.2 MCMC算法基础 贝叶斯网的近似推理 包含个结点 1,2,的贝叶斯网,它所描述的是个随机变量 1,2,的联合概率分布 1,2,依据联合概率分布,查询其中某个或某几个随机变量的边缘概率或条件概率,这就是贝叶斯网的概率推理 在面对复杂概率模型和多变量概率推理时,精确推理的复杂度会呈指数增长,因此需要设计能够在较低复杂度下求得近似解的近似推理方法6.2 MC
16、MC算法基础 贝叶斯网的近似推理 换一种符号来标记随机变量 1,2,,用表示待查询的变量、表示给定的证据变量、表示剩余的其他变量 概率推理就是给定联合概率分布,,希望查询随机变量的边缘概率 或条件概率|6.2 MCMC算法基础 贝叶斯网的近似推理 贝叶斯网的直接采样 对于多变量联合概率分布 1,2,,该如何进行模拟采样呢?一轮采样:对个随机变量 1,2,逐个采样,然后才能得到一个样本数据=1,2,1,2,=1|.数据集=1,2,=1,2,,=1,2,.6.2 MCMC算法基础 贝叶斯网的近似推理 贝叶斯网的直接采样 式6-37中的各概率项需通过联合概率分布 1,2,计算出来,这样的计算往往太过
17、复杂 贝叶斯网是个例外,它非常适合使用直接采样法进行采样,因为贝叶斯网的联合概率分布 1,2,天生就是由依赖关系建立起来的 1,2,=1|.1,2,=1 1 21 1.(6 37)6.2 MCMC算法基础 贝叶斯网的近似推理 贝叶斯网的直接采样 查询边缘概率?查询条件概率|=?1,2,=1|.数据集=1,2,=1,2,,=1,2,.阚道宏6.2 MCMC算法基础 贝叶斯网的近似推理 贝叶斯网的吉布斯采样 1 1+1=|6.2 MCMC算法基础 贝叶斯网的近似推理 贝叶斯网的吉布斯采样 查询条件概率|=?吉布斯采样的初始样本0是任意设定的,它能收敛吗?6.2 MCMC算法基础马尔可夫链 给定随机
18、变量及其概率分布 ,在此基础上引入时间维度,观测随机变量随时间变化的过程 随机变量序列=1,2,+1,被称作是一个以为参数的随机过程(stochastic process)广义上,随机过程被定义为一组随时间(或空间,或某种参数)变化的随机变量的全体 平稳过程(stationary process)独立同分布采样P(X 1)P(X 2)P(X t)X 1 X 2X tX t+1P(X t+1)1=2=+1=.6.2 MCMC算法基础 马尔可夫链阚道宏6.2 MCMC算法基础 马尔可夫链阚道宏6.2 MCMC算法基础 马尔可夫链状态转移矩阵6.2 MCMC算法基础 马尔可夫链=,1=1=1=.(6
19、 38a)6.2 MCMC算法基础 马尔可夫链阚道宏6.2 MCMC算法基础 马尔可夫链 举例:股票市场,马尔可夫链,01上涨2平盘3下跌p11p13p12p22p33p31p21p23p32阚道宏6.2 MCMC算法基础 马尔可夫链 举例:股票市场,马尔可夫链,06.2 MCMC算法基础 马尔可夫链 马尔可夫链的收敛性31246.2 MCMC算法基础 马尔可夫链 马尔可夫链的收敛性阚道宏6.2 MCMC算法基础 马尔可夫链 马尔可夫链的收敛性=,=1,2,(6 39)6.2 MCMC算法基础 马尔可夫链 马尔可夫链的收敛性=,=1,2,(6 39)=.6.2 MCMC算法基础 马尔可夫链 随
20、机向量的马尔可夫链一组随机变量=1,2,可被称作是一个维随机向量(random vector)X 0X 1 P(X 1|X 0)=AP(X 0)X t+1P(X t+1|X t)=A 0P(X 0)1P(X 1)=A 0X tP(X t|X t-1)=A tP(X t)=A t-1 t+1P(X t+1)=A tX t-1P(X t-1|X t-2)=A t-1P(X t-1)=A t-2阚道宏6.2 MCMC算法基础 马尔可夫链 随机向量的马尔可夫链一组随机变量=1,2,可被称作是一个维随机向量(random vector)X 0X 1 P(X 1|X 0)=AP(X 0)X t+1P(X
21、t+1|X t)=A 0P(X 0)1P(X 1)=A 0X tP(X t|X t-1)=A tP(X t)=A t-1 t+1P(X t+1)=A tX t-1P(X t-1|X t-2)=A t-1P(X t-1)=A t-26.2 MCMC算法基础 马尔可夫链 随机向量的马尔可夫链 构建随机向量的平稳马尔科夫链 构造可遍历且满足细致平稳条件(或平稳分布条件)的状态转移概率(也即状态转移矩阵)逐次转移法或转移接受-拒绝法 1=1,2,11211.6.2 MCMC算法基础 马尔可夫链 随机向量的马尔可夫链 逐次转移法构建随机向量的平稳马尔科夫链 1=1,2,11211.X1t.Xkt.X1t
22、+1.P(X1|.)Xdt.P(X1|.)P(Xk|.)P(Xd|.)Xdt-1.X t-1 t-1=A t-2X t t=A t-1P(Xd|.)6.2 MCMC算法基础 马尔可夫链 随机向量的马尔可夫链 转移接受-拒绝法构建随机向量的平稳马尔科夫链 1=1,2,11211.6.2 MCMC算法基础 马尔可夫链 随机向量的马尔可夫链 转移接受-拒绝法构建随机向量的平稳马尔科夫链 1=1,2,11211.6.2 MCMC算法基础 马尔可夫链 随机向量的马尔可夫链 转移接受-拒绝法构建随机向量的平稳马尔科夫链 1=1,2,11211.6.3 MCMC算法家族 基于马尔可夫链和蒙特卡罗仿真 Mar
23、kov Chain Monte Carlo,缩写MCMC6.3 MCMC算法家族 基于马尔可夫链和蒙特卡罗仿真 Markov Chain Monte Carlo,缩写MCMC MCMC采样算法(例如MH采样算法)MCMC最优化算法(例如模拟退火算法)MCMC互评算法(例如PageRank网页排名算法)6.3 MCMC算法家族 MCMC采样算法(例如MH采样算法)6.3 MCMC算法家族 MCMC采样算法(例如MH采样算法)按边缘概率 对马尔可夫链进行采样:独立采样 独立-同分布采样X 0X 1 P(X 1|X 0=x0)P(X 0)X tP(X t|X t-1=xt-1)X 2P(X 2|X
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器学习及其Python实践 6 机器 学习 及其 Python 实践
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内