统计学概率学习.pptx
《统计学概率学习.pptx》由会员分享,可在线阅读,更多相关《统计学概率学习.pptx(50页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、学习目标学习目标 离散随机变量及相应的分布连续随机变量及相应的分布;利用概率进行决策分析。第1页/共50页离散型随机变量与连续型随机变量试验随机变量可能的取值抽查抽查100个产品个产品取到次品的个数取到次品的个数0,1,2,100一家餐馆营业一天一家餐馆营业一天顾客数顾客数0,1,2,抽查一批电子原件抽查一批电子原件使用寿命使用寿命X 0新建一座住宅楼新建一座住宅楼半年完成工程的百半年完成工程的百分比分比0 X 100第2页/共50页分布分布随机变量取一切可能值或范围的概率或概率的规 律 称 为 概 率 分 布(probability distribution,简称分布)。概率分布可以用各种图
2、或表来表示;一些可以用公式来表示。概率分布是关于总体的概念。有了概率分布就等于知道了总体。前面介绍过的样本均值、样本标准差和样本方差等样本特征的概念是相应的总体特征的反映。我们也有描述变量“位置”的总体均值、总体中位数、总体百分位数以及描述变量分散(集中)程度的总体标准差和总体方差等概念。第3页/共50页4.4 4.4 离散随机变量的分布离散随机变量的分布离散变量只取离散的值,比如骰子的点数、网站点击数、顾客人数等等。每一种取值都有某种概率。各种取值点的概率总和应该是1。当然离散变量不不仅仅限于取非负整数值。一般来说,某离散随机变量的每一个可能取值xi都相应于取该值的概率p(xi),这些概率应
3、该满足关系第4页/共50页最简单的离散分布应该是基于可重复的有两结果(比如成功和失败)的相同独立试验(每次试验成功概率相同)的分布,例如抛硬币。比如用p代表得到硬币正面的概率,那么1p则是得到反面的概率。如果知道p,这个抛硬币的试验的概率分布也就都知道了。4.4.14.4.1二项分布二项分布第5页/共50页这种有两个可能结果的试验有两个特点:一是各次试验互相独立,二是每次试验得到一种结果的概率不变(这里是得到正面的概率总是p)。类似于抛硬币的仅有两种结果的重复独立试验被称为贝努里试验(Bernoulli trials)。4.4.14.4.1二项分布二项分布第6页/共50页下面试验可看成为贝努里
4、试验:每一个进入某商场的顾客是否购买某商品每个被调查者是否认可某种产品每一个新出婴儿的性别。根据这种简单试验的分布,可以得到基于这个试验的更加复杂事件的概率。为了方便,人们通常称贝努里试验的两种结果为“成功”和“失败”。4.4.14.4.1二项分布二项分布第7页/共50页和贝努里试验相关的最常见的问题是:如果进行n次贝努里试验,每次成功的概率为p,那么成功k次的概率是多少?这个概率的分布就是所谓的二项分布(binomial distribution)。这个分布有两个参数,一个是试验次数n,另一个是每次试验成功的概率p。基于此,二项分布用符号B(n,p)或Bin(n,p)表示。由于n和p可以根据
5、实际情况取各种不同的值,因此二项分布是一族分布,族内的分布以这两个参数来区分。4.4.14.4.1二项分布二项分布第8页/共50页一般公式。下面p(k)代表在n次Bernoulli试验中成功的次数的概率,p为每次试验成功的概率。有这里这里为二项式系数,或记为为二项式系数,或记为4.4.14.4.1二项分布二项分布第9页/共50页九个二项分布九个二项分布B(5,p)(p0.1到到0.9)的概率分布图的概率分布图第10页/共50页另一个常用离散分布是Poisson分布(“泊松分布”)。它可以认为是衡量某种事件在一定期间出现的数目的概率。比如说在一定时间内顾客的人数、打入电话总机电话的个数、页面上出
6、现印刷错误的个数、纺织品上出现疵点的个数。4.4.2 Poisson4.4.2 Poisson分布分布第11页/共50页在不同条件下,同样事件在单位时间中出现同等数目的概率不尽相同。比如中午和晚上某商店在10分钟内出现5个顾客的概率就不一定相同。因此,Poisson分布也是一个分布族。族中不同成员的区别在于事件出现数目的均值l l不一样。4.4.2 Poisson4.4.2 Poisson分布分布第12页/共50页参数为l l的Poisson分布变量的概率分布为(p(k)表示Poisson变量等于k的概率)4.4.2 Poisson4.4.2 Poisson分布分布第13页/共50页参数为3、
7、6、10的Poisson分布(只标出了20之内的部分)这里点间的连线没有意义,仅仅为容易识别而画,因为Poisson变量仅取非负整数值第14页/共50页假定有一批500个产品,而其中有5个次品。假定该产品的质量检查采取随机抽取20个产品进行检查。如果抽到的20个产品中含有2个或更多不合格产品,则整个500个产品将会被退回。这时,人们想知道,该批产品被退回的概率是多少?这种概率就满足超几何分布(hypergeometric distribution)。4.4.3 超几何分布第15页/共50页取连续值的变量,如高度、长度、重量、时间、距离等等;它们被称为连续变量(continuous variab
8、le)。换言之,一个随机变量如果能够在一区间(无论这个区间多么小)内取任何值,则该变量称为在此区间内是连续的,其分布称为连续型概率分布。它们的概率分布很难准确地用离散变量概率的条形图表示。4.5 连续变量的分布第16页/共50页想象连续变量观测值的直方图;如果其纵坐标为相对频数,那么所有这些矩形条的高度和为1;完全可以重新设置量纲,使得这些矩形条的面积和为1。不断增加观测值及直方图的矩形条的数目,直方图就会越来越像一条光滑曲线,其下面的面积和为1。该曲线即所谓概率密度函数(probability density function,pdf),简称密度函数或密度。下图为这样形成的密度曲线。4.5
9、4.5 连续变量的分布连续变量的分布第17页/共50页逐渐增加矩形条数目的直方图和一个逐渐增加矩形条数目的直方图和一个形状类似的密度曲线。形状类似的密度曲线。第18页/共50页连续变量落入某个区间的概率就是概率密度函数的曲线在这个区间上所覆盖的面积;因此,理论上,这个概率就是密度函数在这个区间上的积分。对于连续变量,取某个特定值的概率都是零,而只有变量取值于某个(或若干个)区间的概率才可能大于0。连续变量密度函数曲线(这里用f表示)下面覆盖的总面积为1,即4.5 4.5 连续变量的分布连续变量的分布第19页/共50页4.5.14.5.1均匀分布均匀分布均匀分布(uniform distribu
10、tion)是最简单的连续型分布。它的取值范围是一个区间,比如(a,b)。均匀分布随机变量X取值在该区间的一个子区间的概率等于该子区间宽度与区间(a,b)宽度b-a之比,例如,假设区间(a,b)为(0,1)区间,那么X落入(0.2,0.5)的概率为(0.5-0.2)/(1-0)=0.3。第20页/共50页4.5.14.5.1均匀分布均匀分布下图展示了在区间(0,1)上的均匀分布的密度函数。第21页/共50页近似地服从正态分布(normal distribution,又叫高斯分布,Gaussian distribution)。的变量很常见,象测量误差、商品的重量或尺寸、某年龄人群的身高和体重等等。
11、在一定条件下,许多不是正态分布的样本均值在样本量很大时,也可用正态分布来近似。4.5.2 4.5.2 正态分布正态分布第22页/共50页正态分布的密度曲线是一个对称的钟型曲线(最高点在均值处)。正态分布也是一族分布,各种正态分布根据它们的均值和标准差不同而有区别。一个正态分布用N(m m,s s2 2)表示;其中m m为均值,而s s2 2为方差(标准差的平方)。也常用N(m m,s s)来表示,这里s s为标准差。4.5.2 4.5.2 正态分布正态分布第23页/共50页哈佛大学心理学家Richard J.Herrrnstein和美国企业研究所(American Enterprise Ins
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 概率 学习
限制150内