《概率论课程设计.docx》由会员分享,可在线阅读,更多相关《概率论课程设计.docx(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、概率论课程设计 成绩评定表 课程设计任务书 摘要 数理统计是具有广泛应用的数学分支,而对于数据的特征分析有着很重要的作用。在数理统计中参数估计和假设检验都是对数据分析的重要环节。假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体作法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。常用的假设检验方法有u检验法、t检验法、X2检验法、F检验法,秩和检验等。 本课题是对某校随机抽取的100名学生的身高体重的测
2、量结果进行数字特征分析。然后根据要求做假设检验,对学生身高体重与10年前的普查结果有无显著变化做出判断。 关键词:假设检验;参数估计;回归分析;残差图 目录 1 设计目的 (1) 2 设计问题 (1) 3 设计原理 (2) 3.1参数估计 (2) 3.2假设检验的原理 (3) 4 方法实现 (4) 4.1计算均值、中位数、标准差、方差 (5) 4.2作出频数表与频数直方图; (6) 4.3检验数据是否来自正态分布 (9) 4.4正态分布的参数估计 (11) 4.5假设检验及结果分析 (12) 5 设计总结 (15) 参考文献 (15) 致谢 (15) 某校学生身高体重抽样样本的分析 1 设计目
3、的 更好理解参数估计、假设检验等基本的数理统计理论以及在实际问题上的应用。了解概率论与数理统计的知识,熟练掌握概率论与数理统计在实际问题上的应用,并将所学的知识结合MATLAB对数据的处理解决实际问题。本设计是利用数理统计中的基本理论对某学校学生身高体重抽要结果数据进行分析,明确抽要样本的基本特征,然后根据要求做假设检验,对学生身高体重与10年前的普查结果有无显著变化做出判断。在整个分析过程中用MATLAB软件进行解算。 2 设计问题 某学校随机抽取100名学生,测得他们的身高(单位:cm)和体重(单位:kg)如表2-1 与表2-2 所列 表2-1学生身高 表2-2 学生体重 由以上表中数据计
4、算数据的基本特征值,检验数据是否符合正态分布,进行参数估计。学校10年前做过普查,学生平均身高为167.5cm,平均体重为60.2kg,试根据这次抽查数据,对学生身高体重有无显著变化做出判断。 3 设计原理 3.1参数估计 参数估计(parameter estimation)是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。它是统计推断的一种基本形式,是数理统计学的一个重要分支,分为点估计和区间估计两部分,标准特点有无偏性、一致性和有效性三个特点。所用方法有:(1)矩估计法;用样本矩估计总体矩,如用样本均值估计总体均值。(2)最小二乘法;为了选出使得模型输出与系统输出yt尽可能接近的
5、参数估计值,可用模型与系统输出的误差的平方和来度量接近程度。使误差平方和最小的参数值即为所求的估计值。(3)极大似然法;选择参数,使已知数据Y在某种意义下最可能出现。某种意义是指似然函数P(Y)最大,这里P(Y)是数据Y的概率分布函数。与最小二乘法不同的是,极大似然法需要已 知这个概率分布函数P(Y)。在实践中这是困难的,一般可假设P(Y)是正态分布函数,这时极大似然估计与最小二乘估计相同 3.2假设检验的原理 假设检验:统计学中的一种推论过程,通过样本统计量得出的差异作为一般性结论,判断总体参数之间是否存在差异。 假设检验的实质是对可置信性的评价,是对一个不确定问题的决策过程,其结果在一定概
6、率上正确的,而不是全部。 (1)两类假设 对于任何一种研究而言,其结果无外乎有两种可能,即是否符合我们预期。一般来说证伪一件事情比证实一件事容易,在行为科学的研究中,由于我们无法了解总体中除样本以外的个体情况,因此尝试拒绝虚无假设的方法优于证明备择假设。 备则假设:因变量的变化、差异却是是由于自变量的作用往往是我们对研究结果的预期,用H1表示。 虚无假设:实际上什么也没有发生,我们所预计的改变、差异、处理效果都不存在。 观察到的差异只是随机误差在起作用,用H0表示。 (2)小概率原理 小概率原理:小概率事件在一次试验中几乎是不可能发生的。 至于什么就算小概率事件,那就是我们在计算前明确的决策标
7、准,也就是显著性水平。在检验过程中,我们假设虚无假设是真实的,同时计算出观测到的差异完全是由于随机误差所致的概率。之后将其与我们实现界定好的显著性水平比较,从而考虑是否依据小概率原理来拒绝虚无假设。 (3)两类错误 型错误:当虚无假设正确时,我们拒绝了它所犯的错误,也叫错误。研究者得出了处理有效果的结论,而实际上并没有效果,即所谓“无中生有” 型错误:当虚无假设是错误的时候,我们没有拒绝所犯的错误,也叫错误。假设检验未能侦查到实际存在的处理效应,即所谓“失之交臂” 两类检验的关系 +不一定等于1 在其他条件不变的情况下,与不可能同时减小或增大 (4)检验的方向性 单侧检验:强调某一方向的检验,
8、显著性的百分等级为 双侧检验:只强调差异不强调方向性的检验,显著性百分等级为/2 对于同样的显著性标准,在某一方向上,单侧检验的临界区域要大于双侧检验,因此如果差异发生在该方向,单侧检验犯错误的概率较小,我们也说它的检验效力更高。 (5)假设检验的步骤 根据问题要求,提出虚无假设和备择假设 选择适当的检验统计量 确定检验的方向性并规定显著性水平 计算检验统计量的值 将统计量的值与临界值对比做出决策 4 方法实现 在MATLAB输入如下数据 x1=172,171,166,160,55,173,166,170,167,178; x2=173,163,165,170,163,172,182,171,
9、177,173; x3=169,168,168,175,176,168,161,169,171,178; x4=177,170,173,172,170,172,177,176,175,184; x5=169,165,164,173,172,169,173,173,166,163; x6=170,160,165,177,169,176,177,172,165,166; x7=171,169,170,172,169,167,175,164,166,169; x8=167,169,176,182,186,166,169,173,169,171; x9=169,168,165,168,176,170,
10、158,165,172,169; x10=169,172,162,175,174,167,166,174,168,170; y1=60,62,62,55,57,58,55,63,61,60; y2=63,54,62,60,50,60,63,59,64,60; y3=55,70,67,61,64,55,49,67,61,64; y4=62,58,67,59,62,59,58,68,68,72; y5=64,58,59,66,65,62,57,65,73,57; y6=56,65,58,62,63,60,67,56,56,49; y7=65,62,58,61,58,67,72,59,63,54;
11、y8=54,62,63,69,66,75,67,73,65,61; y9=47,65,64,57,65,57,55,62,53,66; y10=50,62,71,66,63,60,64,62,59,60; x=x1,x2,x3,x4,x5,x6,x7,x8,x9,x10; y=y1,y2,y3,y4,y5,y6,y7,y8,y9,y10; 4.1计算均值、中位数、标准差、方差; 在MATLAB里相关命令如下 命令利用mean求算术平均值 格式mean(X) %X为向量,返回X中各元素的平均值 说明:X为向量时,算术平均值的数学含义是 = = n 1 i i x n 1 x ,即样本均值。 命令
12、利用median计算中值(中位数) 格式median(X) %X为向量,返回X中各元素的中位数。命令利用var(x)求样本方差 格式D=var(X) %var(X)= = - - =n 1 i 2 i 2)X x( 1 n 1 s ,若X为向量,则返回向量的 样本方差。 所以输入以下命令及得出的结果 mean(x) ans =170.1700 median(x) ans = 170 std(x) ans =5.3221 var(x) ans =28.3243 mean(y) ans =61.3400 median(y) ans =62 std(y) ans =5.4555 var(y) ans
13、 =29.7620 得到x的相应统计量的值为 均值170.1700,中位数170,标准差5.3221,方差28.3243 得到y的相应统计量的值为 均值61.3400,中位数62,标准差5.4555,方差29.7620 4.2作出频数表与频数直方图; 4.2.1 频数表 在MATLAB里有求频数的命令 输入以下命令 N,X=hist(x,10) N = 2 3 6 17 28 22 11 7 2 2 X = 156.5500 159.6500 162.7500 165.8500 168.9500 172.0500 175.1500 178.2500 181.3500 184.4500 由以上结果作出表格 表-1 学生的身高频数表 输入命令 N,Y=hist(y,10) N = 3 2 9 15 19 19 17 9 4 3 Y = 48.4000 51.2000 54.0000 56.8000 59.6000 62.4000 65.2000 68.0000 70.8000 73.6000 由以上结果作出频数表 表-2 学生体重频数表 4.2.3 直方图 在matlab里正态密度曲线的直方图的命令: 函数histfit 格式histfit(data) %data为向量,返回直方图和正态曲线。
限制150内