《2022年数学分布+生存分析+贝叶斯概率公式+全概率公式.pdf》由会员分享,可在线阅读,更多相关《2022年数学分布+生存分析+贝叶斯概率公式+全概率公式.pdf(14页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数学期望:随机变量最基本的数学特征之一。它反映 随机变量平均取值的大小。又称期望或均值。它是简单算术平均 的一种推广。例如某城市有 10 万个家庭,没有孩子的家庭有1000 个,有一个孩子的家庭有9 万个,有两个孩子的家庭有6000 个,有 3 个孩子的家庭有 3000 个, 则此城市中任一个家庭中孩子的数目是一个随机变量,记为X,它可取值 0,1,2,3,其中取 0的概率为 0.01,取 1 的概率为 0.9,取 2 的概率为 0.06,取 3 的概率为 0.03,它的数学期望为 00.0110.920.0630.03等于 1.11, 即此城市一个家庭平均有小孩 1.11个,用数学式子表示为
2、: E(X)=1.11。也就是说, 我们用数学的方法分析了这个概率性的问题,对于每一个家庭, 最有可能它家的孩子为1.11个。可以简单的理解为 求一个概率性事件 的平均状况。各种数学分布的方差是:1、一个完全符合 分布的样本2、这个样本的方差概率密度 的概念是:某种事物发生的概率占总概率 (1)的比例 ,越大就说明密度越大。比如某地某次考试的成绩近似服从均值为80 的正态分布,即平均分是80 分,由正态分布的图形知x=80 时的函数值最大,即随机变量在80 附近取值最密集,也即考试成绩在80 分左右的人最多。下图为概率密度函数图 (F(x)应为 f(x),表示概率密度 ):精品资料 - - -
3、 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 1 页,共 14 页 - - - - - - - - - - 离散型分布:二项分布、泊松分布连续型分布:指数分布、正态分布、X2分布、 t 分布、 F 分布抽样分布只与自由度,即样本含量(抽样样本含量)有关二项分布( binomial distribution) :例子抛硬币1、 重复试验( n 个相同试验,每次试验两种结果,每种结果概率恒定伯努利试验)2、抽样分布精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - -
4、 - - - - -第 2 页,共 14 页 - - - - - - - - - - 3、 P(X=0), P(X=1), P(X=3), .所有可能的概率共同组成了一个分布,即二项分布泊松分布( possion distribution ) :1、 一个单位 内(时间、面积、空间)某稀有事件2、 此事件发生 K 次的概率3、P(X=0), P(X=1), P(X=3), .所有可能的概率共同组成了一个分布,即泊松分布精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 3 页,共 14 页 - - - - -
5、 - - - - - 精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 4 页,共 14 页 - - - - - - - - - - 二项分布与泊松分布的关系:二项分布 在事件发生 概率很小 ,重复次数 n 很大的情况下,其分布 近似泊松分布均匀分布 (uniform distribution):分为连续型均匀分布 和离散型均匀分布离散型均匀分布:1、n 种可能的结果2、每个可能的概率相等 (1/n) 精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - -
6、 - - - - - - -第 5 页,共 14 页 - - - - - - - - - - 连续型均匀分布:1、可能的结果是连续的2、每个可能的概率相等 () 连续型均匀分布概率密度函数如下图:指数分布( exponential distribution ) :用来表示独立随机事件发生的时间间隔,比如旅客进机场的时间间隔、 中文维基百科新条目出现的时间间隔等等。指数分布常用于各种 “寿命”分布 的近似。1、连续型分布,每个点的概率:2、无记忆性。已经使用了s 小时的元件,它能再使用t 小时的概率,与一个从未使用过的元件使用t 小时的概率相同。即它对已经使用过的s 小时没有记忆。精品资料 -
7、- - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 6 页,共 14 页 - - - - - - - - - - 指数分布的概率密度函数如下图:正态分布( normal distribution) :又称高斯分布。1、描述一个群体的某个指标。2、这个指标是连续的。3、每个特定指标在整个群体中都有一个概率() 。4、所有指标概率共同组成了一个分布,这个分布就是正态分布。正态分布的概率密度函数如下图:精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - -
8、- -第 7 页,共 14 页 - - - - - - - - - - 中心极限定理:不论总体 的分布形式 如何(正态或非正态),只要样本( 抽样样本 )含量 n 足够大时,样本均数 的分布就近似 正态分布 ,且均数与总体均数相等,标准差为(总体标准差) /(n 的开方) 。中心极限定理使得t 分布、 F 分布和 X2分布在抽样样本含量很大时不需要对总体样本是否正态有要求。t 分布( student t distribution ): 1、t 分布是以 0 为中心的 一簇曲线 ,每个自由度决定一个曲线2、自由度 是一个抽样小样本中的具体观测值 的个数(抽样样本含量) - 13、总体样本呈 正态
9、分布(抽样样本含量较小时,要求总体样本呈正态分布,如果抽样样本含量很大( eg. n = 100) ,由中心极限定理可知抽样样本均数也近似正态分布,因而“差值”的概率也呈正态分布,而t 分布的每一条曲线实际上都是正态分布曲线)4、从一个总体样本中 抽取很多个 小样本 抽样5、每个小样本都有一个 均值6、每个 小样本的均值 与总体样本均值 有一个 差值 ,这个差值用 t 估计7、可能有多个小样本的差值估计都是t,t 出现的次数 占所有小样本的 比例可以用一个 概率衡量精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - -
10、 -第 8 页,共 14 页 - - - - - - - - - - 8、所有 t 值的概率 组成一个 分布,就是 t 分布的 一个曲线9、另外做一个抽样,每个小样本包含的观测值不同,则形成t 分布的 另外一个曲线10、自由度越大,则曲线越接近于标准正态分布11、t 分布只与 自由度 相关t 分布的概率密度函数如下图(v 为自由度):X2分布( chi square distribution ) :1、X2分布也是 一簇曲线 ,每个自由度决定一个曲线2、自由度 是一个抽样小样本中的具体观测值 的个数(抽样样本含量) - 12、总体样本呈 正态分布(抽样样本含量(n)较小时,要求总体样本呈正态分
11、布)3、从总体样本中 抽取 n 个观测值 :z1,z2,z3抽样4、将它们 平方后求和,这个和用一个 新变量表示 ,即 X25、重复抽样 并获得多个 X2:X12,X22,X32,X426、可能有多次抽样的X2值相同, 同一个 X2值的抽样次数 占总次数的 比例可以用一个 概率表示精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 9 页,共 14 页 - - - - - - - - - - 7、所有的 概率值共同组成一个 分布,就是 X2分布 的一条曲线8、另外做一次,只要从总体中选取观测值数目n 不同,得
12、到的就是 另外一条曲线10、自由度越大,则曲线越接近于标准正态分布11、X2分布只与 自由度 相关X2分布的概率密度函数如下图(n 在这里为自由度):F 分布(F-distribution) :1、F 分布也是 一簇曲线 ,每对自由度 决定一个曲线2、自由度 是一个抽样小样本中的具体观测值 的个数(抽样样本含量) - 12、两总体样本方差比的分布3、总体样本呈 正态分布(抽样样本含量(n)较小时,要求总体样本呈正态分布)4、从总体样本中 抽取两个样本 , 两个样中的观测值数目可相同也可不同,分别记为 n1和 n25、分别 计算出 X2:X1,X26、构建一个 新变量 F:精品资料 - - -
13、欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 10 页,共 14 页 - - - - - - - - - - 7、重复抽取样本,计算 多个 F 值:F1,F2,F3. 8、可能有多次抽样的F 值相同, 同一个 F 值的抽样次数 占总次数的 比例可以用一个概率表示9、所有的 概率值共同组成一个 分布,就是 F 分布的一条曲线10、另外做一次, 只要从总体中选取观测值数目n 不同,得到的就是 另外一条曲线10、两个自由度越大,则曲线越接近于标准正态分布11、F 分布只与 自由度 相关F 分布的概率密度函数如下图(m,n 在这里为
14、自由度):精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 11 页,共 14 页 - - - - - - - - - - 【在推估总体平均值时,基于样本平均数的抽样分布】t 分布【在用样本方差来推估总体方差时,必须知道样本方差的抽样分布】X2分布【比较两个总体的方差是否相等时,必须知道样本方差的联合抽样分布】F分布生存分析( survival analysis ) :1、2、多种影响慢性疾病的因素(不同手术方法、不同药物 )3、随访一群患者4、5、一段时间后统计生存和死亡3、最终给出的结果是一个 评价各种
15、因素对生存时间的 影响(生存时间、生存率有无差异)精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 12 页,共 14 页 - - - - - - - - - - 贝叶斯公式( bayes formula ) :1、2、描述两个 条件概率 之间的 关系 P(Bi|A)与 P(A|Bi),A 为事件, Bi 为一个划分3、P(Bi|A)=P(A|Bi)*P(Bi)/P(A) 或者4、看图理解全概率公式( full probability formula) :1、描述一个特定 事件的概率 与条件概率 间的关系2、3、 P(A)=P(A|B1)*P(B1) + P(A|B2)*P(B2) + . + P(A|Bn)*P(Bn) 4、 看图理解精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 13 页,共 14 页 - - - - - - - - - - 精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 14 页,共 14 页 - - - - - - - - - -
限制150内