《概率数理统计精选PPT.ppt》由会员分享,可在线阅读,更多相关《概率数理统计精选PPT.ppt(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、概率数理统计第1页,此课件共37页哦第一章 概率统计基础n1.1 基本原理n1.2 高斯分布n1.3 统计基础第2页,此课件共37页哦高斯分布(Gaussian)nNormal 正态分布n:均值(mean)n2:方差(variance),:标准方差n=1/2:精确度(Precision)第3页,此课件共37页哦Gaussian分布期望与方差n期望n方差第4页,此课件共37页哦Gaussian分布的再生性n若独立随机变量 为分别服从均值为 ,方差为 的正态分布,则 随机变量的线性组合仍然服从相同的分布 第5页,此课件共37页哦第一章 概率统计基础n1.1 基本原理n1.2 高斯分布n1.3 统计
2、基础数据显示与图形法常用统计量常用统计分布第6页,此课件共37页哦总体和统计推断n全体被研究对象称为总体,每个研究对象称为个体可以是有限的,如学校学生身高、视力n有限总体很大时,可以认为是无限的,如全国干电池寿命可以是无限的,如每天的测量气压n统计推断当无法获取总体全部个体的观测值时,只能依赖从总体中获得的某个观测子集来对总体做出推断。第7页,此课件共37页哦抽样n样本是总体的一个子集保证从样本到总体推断的正确性,选择随机抽样,表示得到的观测值是独立且随机n随机变量X总体上服从概率分布p(x),那么随机抽样的n个样本值x1,x2,xn独立且具有相同概率p(x),其联合概率:第8页,此课件共37
3、页哦统计推断步骤随机抽样数据分析(图形法)分布假设参数估计假设检验假设修正预测总体模型第9页,此课件共37页哦数据显示和图形法n利用有启发性的图形来提取关于数据特性的信息,对数据分布进行假设茎叶图(Stem and leaf)直方图(histogram)箱须图(Box-Whisker)经验分布函数图(empirical cumulative distribution)正态概率分布图(Normal Probability)第10页,此课件共37页哦茎叶图n将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样就可以清楚
4、地看到每个主干后面的几个数,每个数具体是多少。n通常 选取520根茎汽车电池寿命2.2 4.1 3.5 4.5 3.2 3.7 3.0 2.6 3.4 1.6 3.1 3.3 3.8 3.1 4.7 3.7 2.5 4.3 3.4 3.6 2.9 3.3 3.9 3.1 3.3 3.1 3.7 4.4 3.2 4.1 1.9 3.4 4.7 3.8 3.2 2.6 3.9 3.0 4.2 4.5 汽车电池寿命茎叶图茎叶频率1 692 2 256695 3 0001111222333444556777889925 4 11234577 8 第11页,此课件共37页哦频率直方图n将样本取值分为r个
5、区间,n个样本,落在某个区间(ak-1,ak的个数 nk称为频数 nk/n称为频率目标:标:利用频率直方图估计总体的概率密度n在(ak-1,ak区间用频率为纵坐标,制作相应的频率直方图第12页,此课件共37页哦相对频率直方图n每个频数除以数据总量,得到相对频率汽车电池寿命相对频率分布区间组组中点频率相对频率1.5-1.91.720.050 2.0-2.42.210.025 2.5-2.92.740.100 3.0-3.43.2150.375 3.5-3.93.7100.250 4.0-4.44.250.125 4.5-4.94.730.075 第13页,此课件共37页哦相对频率折线图汽车电池寿
6、命相对频率分布区间组组中点频率相对频率1.5-1.91.720.050 2.0-2.42.210.025 2.5-2.92.740.100 3.0-3.43.2150.375 3.5-3.93.7100.250 4.0-4.44.250.125 4.5-4.94.730.075 n根据每个分区的相对频率,画出折线图估计频率分布第14页,此课件共37页哦茎叶图与直方图n茎叶图特优点没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到图中的数据可以随时记录,随时添加,方便记录与表示。只便于表示两位有效数字的数据,且只方便记录两组的数据n茎叶图与直方图类似茎叶图保留原始资料的资讯,直方图则失去原
7、始资料的讯息将茎和叶逆时针方向旋转90,实际上就是一个直方图,可以从中统计出次数,计算出各数据段的频率或百分比。可以看出分布是否与正态分布或单峰偏态分布逼近。第15页,此课件共37页哦Box-Whisker图(箱须图)n中位数:将x1,x2,Xn按升序排列,n四分位数:25%(上Q1),75%(下Q3)n四分位数差(IQR)上四分位数与下分位数之间的差值第16页,此课件共37页哦BOX图(2)n上边缘 大于Q1+1.5IQR的点或最大值n下边缘 小于Q3-1.5IQR的点或最小值n上下边缘以外的点为异常点(Outliers)n例:班级学生成绩统计第17页,此课件共37页哦(1)(2)(3)(4
8、)(5)(6)(7)(8)(9)(10)5333535364344454748(11)(12)(13)(14)(15)(16)(17)(18)(19)(20)52555864646568697074(21)(22)(23)(24)(25)(26)(27)(28)(29)(30)78808080828384848589最小数(90%)下四分位数(75%)中位数(50%)上四分位数(25%)最大數班级成绩分析第18页,此课件共37页哦Box图(3)n反映数据的中心位置、波动和非对称程度n中位数:中心n四分位数差(IQR):波动程度n上下边缘:异常点n作用观察异常点比较几批数据形状成績甲班乙班丙班第
9、19页,此课件共37页哦经验分布函数nF(x)为总体的分布函数,称为经验分布函数经验分布函数或样本分布函数样本分布函数目标:利用经验分布估计总体的分布第20页,此课件共37页哦经验累积分布图(empirical cumulative distribution)n总体的分布函数称为理论也分布函数n经验分布函数利用样本估计和推断总体的分布函数F(x).高数成绩5 33 35 35 36 4344 45 47 48 52 55 58 64 65 68 69 69 7074 78 80 80 808283 84 84 85 89 第21页,此课件共37页哦正态概率分布图蓝色+表示样本数据叠加红线是连接
10、上四分位数和下四分位数的直线n如果数据服从正态分布,样本数据画出的图成线性第22页,此课件共37页哦重要统计量统计量:由随机变量组成的一随机样本的函数,不含任何未知参数样本均值,描述样本中心趋势样本方差,描述样本的波动性样本标准差S,样本方差的平方根 第23页,此课件共37页哦抽样分布n统计推断从样本中推断总体主要目标:归纳和预测n统计量的概率分布称为抽样分布抽样分布总体大小样本容量选择样本的方法n例:依据 的抽样分布对参数 做出推断第24页,此课件共37页哦均值的抽样分布n样本容量为n的 的抽样分布实验不断重复(样本容量为n),产生多次的值时的一个分布描述样本在总体均值附近的平均变化nn个随
11、机样本来自N(,2)总体,均值 N(,2/n)第25页,此课件共37页哦定义:定义:设Xk为相互独立的随机变量序列,有有限的数学期望 E(Xk)=k 和方差 D(Xk)=k2,令若对于一切实数x,有则称随机变量序列Xk服从中心极限定理中心极限定理(Central Limit Theorem)标准正态分布第26页,此课件共37页哦 定理定理(林德贝尔格林德贝尔格-勒维,勒维,Lindeberg-Levy)设Xk为相互独立的随机变量序列,服从同一分布,且具有数学期望 E(Xk)=和方差 D(Xk)=2,则随机变量的分布函数Fn(x),对于任意x,满足第27页,此课件共37页哦n如果从一个未知分布的
12、总体抽样,不管它是有限还是无限的,假设样本容量足够大时,样本均值的抽样分布会近似于 N(,2/n)的正态分布。第28页,此课件共37页哦中心极限定理应用 n30,的正态分布逼近较好 n30,总体近似正态分布时,逼近效果较好 如果总体 正态分布,无论n大小,的抽样分布精确服从正态分布第29页,此课件共37页哦 若一个随机变量 X 可以看做许多微小而独立的随机因素作用的总和,每一种因素的影响很小,不产生决定作用,则 X 一般可以认为近似地服从正态分布 例:例:测量误差X影响因素:温度X1、湿度X2、观察视线X3、心情X4等微小的、随机的,而且相互没有影响测量的总误差是上述各个因素产生的误差之和:X
13、i某样本的线性拟合模型可以描述为:第30页,此课件共37页哦例例:将一颗骰子连掷100次,则点数之和不少于500的概率是多少?解解:设Xk为第k 次掷出的点数,k=1,2,100,则X1,X100独立同分布.由中心极限定理:第31页,此课件共37页哦定理定理(De Moivre-Laplace中心极限定理中心极限定理)设随机变量Yn服从二项分布Yn B(n,p),(op1),则对于任意x,恒有证明证明 设X1,X2,Xn是n个相互独立的服从(0-1)分布(PXi=0=1-p,PXi=1=p)的随机变量,则Yn=X1+X2+Xn由于E(Xi)=p,D(Xi)=p(1-p)(i=1,2,n),由此
14、得第32页,此课件共37页哦例例:在一家保险公司里有10000个人参加寿命保险,每人每年付12元保险费。在一年内一个人死亡的概率为0.6%,死亡时其家属可向保险公司领得1000元,问:(1)保险公司亏本的概率有多大?(2)其他条件不变,为使保险公司一年的利润不少于60000元的概率大于0.9,则赔偿金至多可设为多少?第33页,此课件共37页哦解:解:设X表示一年内死亡的人数,则X B(n,p)其中 n=10000,p=0.6%设Y表示保险公司一年的利润,Y=1000012-1000X(1)PY0=P1000012-1000X60000=P1000012-aX60000 =PX60000/a0.
15、9;(2)设赔偿金为a元,则令由中心极限定理由中心极限定理,上式等价于上式等价于第35页,此课件共37页哦作业n1.推导Gaussian分布的方差n2.食品店有三种蛋糕出售,价格为1元、1.2元、1.5 元,售出概率分别为0.3、0.2、0.5某天该食品店出售了300 只蛋糕试用中心极限定理计算,这天的收入至少为395元的概率。n3.学习使用Matlab,熟悉样本的图形显示以及正态分布的绘制函数机房版本:Matlab7请自行收集样本集(注意样本数据尽可能充分)撰写报告,论述样本数据的来源背景、绘制图形试推断数据的总体分布,并分析所反映的意义第36页,此课件共37页哦Gaussian(1777-1855)n数学王子,数学成就比肩牛顿、阿基米德n德国著名数学家、物理学家、天文学家、大地测量学家高斯的成就遍及数学的各个领域,在数论、非欧几何、微分几何、超几何级数、复变函数论以及椭圆函数论等方面均有开创性贡献。他十分注重数学的应用,并且在对天文学、大地测量学和磁学的研究中也偏重于用数学方法进行研究。最重要贡献:算术研究第37页,此课件共37页哦
限制150内