应用统计学基础复习.pdf
《应用统计学基础复习.pdf》由会员分享,可在线阅读,更多相关《应用统计学基础复习.pdf(51页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计学 BASIC -1-第一章 绪论 第一节 研究对象 1 统计学 1.1 统计学分为数理统计与应用统计,1.2 应用统计分为心理统计、生物统计、医学统计、社会统计、经济统计等等 1.3 心理统计分为描述统计、推论统计、研究设计。2.推论统计 2.1 推论统计常用于从局部数据估计总体情况。例:6 岁儿童的男女身高差异问题的研究。从某地区随机抽取男生 30 人,平均身高为 114cm;女生 27 名,平均身高为 112.5cm。能否根据这一次测量的结果下结论:6 岁男生的身高比女生高?2.2 心理与教育类实证研究的结果,基本上都不能直接得出结论,而需要运用推论统计。第二节 为什么要学习统计学
2、一、发现随机现象的运动规律 二、贯穿整个心理学研究过程的方法与技术 三、心理学研究资料分析的技术 四、“行话”方便交流、阅读与撰写 五、心理学专业的应用技术之一 第三节 基础概念 一、总体、样本和个案 例:关于汽车限行制度,想了解 A 城市民对此事件的态度 调查对象:所有 A 城市民 调查目的:赞成 vs.反对,各自的比例 可以去问所有的 A 城市民吗?不可能,只能问其中一部分,并根据该部分的观点来了解永川市民的总体观点 二、统计量(特征量)和参数(一)总体的特性称为参数,用希腊字母表示;样本的特性称为统计量,用英文字母表示(二)统计量(特征量)和参数 三、数据(变量)的类型(1)根据数据反映
3、的测量水平,可分为:“称名”,特点:起名称作用,不同的数字没有大小之分(不可比较),不能加减乘除。“顺序”,特点:可比较,不能加减乘除。“等距”,特点:可比较、可加减,不能乘除。“比率”,特点:可比较、可加减乘除。四种类型变量的数学关系比较 数据类型 数学关系 =or or 公务员 教师 工人”3.直方图,主要用于表示()数据资料 4.直条图,主要用于表示()数据资料 5.要表明各个部分在总体中所占的比重(百分比),通常用()图?6.什么是离差?7.一组数据的离差和等于多少?负偏态和正偏态 均数中位数众数 众数中位数均数 统计学 BASIC -6-?练习:一位教师计算了全班 60 个同学考试成
4、绩的均值,中数和众数,发现大部分同学的考试成绩集中于高分段。下面说法不可能正确的是?A.全班 65%的同学的考试成绩高于均值 B.全班 65%的同学的考试成绩高于中数 C.全班同学的考试成绩是负偏态分布(三)四分(位)差 i.又称四分位距,常用 Q 表示。ii.剔除掉整组观测值中最高的 1/4 和最低的 1/4 的数据,然后计算中间的一半数据的全距,再除以 2 而得到。Q2 正好是中位数 Q1,Q2 和 Q3 分别被称为 第一、第二和第三四分位数。练习:计算过程:二、方差与标准差(一)定义 A.方差(又称为变异数、均方)。是表示一组数据离散程度的统计指标。一般样本的方差用表示,总体的方差用表示
5、。B.标准差(standard deviation)是方差的算术平方根。一般样本的标准差用 S 表示,总体的标准差用表示。C.标准差和方差是描述数据离散程度的最常用的差异量。统计学 BASIC -7-?练习:?练习:试估计 49、50、51 的均数和标准差。(三)标准差的性质 标准差的性质 1:每个观测值都加一个相同的常数 C 后,计算得到的标准差等于原标准差 标准差的性质 2:每个观测值都乘以一个相同的常数 C 后,计算得到的标准差等于原标准差乘以这个常数 标准差的性质 3:每一个观测值都乘以一个相同的常数 C(C0),再加上一个常数 d所得的标准差等于原标准差乘以一个常数?练习:已知一组数
6、据 6,5,7,4,6,8 的标准差是 1.29,把这组数中的每一个数据都加上 5,再乘以 2,得到的新数据组的标准差是()。A 1.29 B 6.29 C 2.58 D 12.58(四)方差与标准差的意义 标准差度量的是观测值与平均数间的平均距离。S=0 代表观测值完全没有散布(全都在同一点),否则必然有 S 0。当观测值离平均数散布得越远,S 就越大。比较:平均数与标准差的性质 统计学 BASIC -8-?练习 1.由于记分错误,在一个心理课程的期末考试中每一个考试分数都被加上了 10 分。这个错误对于平均数和标准差分别有什么影响?2.计算下面数列的标准差:1)20,1,2,5,4,4,4
7、,0 2)5,5,5,5,5,5,5,5,5,5(五)标准差的应用 典例:一个班级男生身高的平均数是 1.75 米,标准差是 0.10 米;体重的平均数是 60 千克,体重的标准差是 5 千克,问身高和体重哪个差异大?答:单位不同,不能比较 典例:同样是跳远,大学生的平均成绩是 4 米,标准差为 0.3 米;一年级学生的平均成绩是1 米,标准差为 0.3 米,这两个差异是一样大小吗?答:显然也不是,因为大学生成绩的相对差异比较小,而小学生成绩的相对差异比较大。1.差异系数(1)当两组或几组数据资料单位不同时,不能直接用标准差来比较离散程度的大小;(2)当两组或几组数据资料单位相同时,但它们的平
8、均数相差较大时,也不能直接根据标准差来比较它们的离散程度;应用:(1)比较测量单位不同事物的差异程度;一个班级男生身高的平均数是 1.75 米,标准差是 0.10 米;体重的平均数是 60 千克,体重的标准差事千克问身高和体重哪个差异大?(2)比较单位相同,均数悬殊者 例:初三甲乙两班的数学平均成绩分别为 92 和 71,标准差分别为 8.95 和 7.40。试问两班成绩谁的差异程度大一些?第四节 地位量数 百分位数 百分等级数 Q2 正好是中位数 Q1,Q2 和 Q3 分别被称为第一、第二和第三四分位数。如果将数据分为 100 段,Q1,Q2 和 Q3 分别被称为第 25、第 50 和第 7
9、5 百分位数。统计学 BASIC -9-一、百分位(分)数 定义:团体分数高低排序,计算某个百分位数位置所对应的数值(观测值)。表示在该次数分布中,有 20的个案低于 60 60 就是该组数据的第 20 个百分位数 表示在该次数分布中,有 75的个案低于 25 表示在该次数分布中,有 30的个案低于 55?练习:李芳数学成绩班上排名 15,你能对此成绩进行评价吗?为什么?李芳数学成绩 45 分,你能对此成绩进行评价吗?为什么?二、百分等级(分)数 定义:是百分位数的逆运算。符号:例:小张某次考试成绩为 85 分,且 PR=90 含义是:此次考试有 90%的人的成绩低于 85 分 或 此次考试中
10、有 10%的人成绩高于小张?练习:设某次考试人数为 10 000 名,其中有 6895 人的成绩低于 80 分,请确定卷面 80 分这个成绩的百分等级。卷面 80 分是一个什么地位量数,怎么读?含义是什么?引子:概率 Probability 例:.你买彩票中 500 万的机会 很小(接近 0),但有人中大奖的概率 几乎为 1 .你被流星击中的概率 很小(接近 0),但每分钟有流星击中地球的概率为 1 .今天你被汽车撞上的概率 几乎是 0,但在地球每天发生车祸的概率是 1 第三章 随机事件与概率分布 背景知识 心理学研究要分析的数据具有不确定性 只能在一定程度上用样本统计量去估计总体参数,并对这
11、种估计的把握度进行分析说明 把握度:用概率指出做出某种推断,其正确或犯错误的百分比 第一节 随机事件 一、随机现象和随机事件(一)随机现象 1.什么是随机现象 2.随机现象的特点:偶然性、规律性 偶然性 VS.规律性死亡的概率 我们能预测特定的人明年会死亡吗?如果我们观察好几百万人呢?据美国国家卫生统计中心,20-24岁的男性当中,在任一年中死亡的比例大约是0.0015。同年龄层的女性,死亡概率大约是 0.0005。(正因为男性理赔的比例要高一些,所以保险费会收得多一点)统计学 BASIC -10-(二)随机事件(Random events)例:请判断下列事件是属于事件之和 or 事件之积:共
12、 8 个题目,6 个选择,2 个判断,随机从中抽出一个题.从中抽出选择题或判断题是属于事件之(和).计算从中抽出选择题或判断题的概率是属于(互不相容)事件?练习:请判断下列事件是否属于独立事件.抛一枚硬币然后再掷一个骰子(独立).起床太晚和准时上课(非独立).认真学习和拿奖学金(非独立)?练习:1.判断题:被闪电击中的概率大于在一次彩票中 500 万的概率。2.Person 相关系数是用哪个人的名字命名的 A.Karl Marx B.Carl Friedrich C.Karl Person D.Mario Triola?练习:如果一个人随机猜测这两个答案 同时猜对两题,是属于事件之()计算同时
13、猜对两题的概率,是属于()事件 例:假设从 2223 名登上泰坦尼克号的乘客中随机选出 1 人,思考下列问题:计算 P(选出一个 man 或一个 boy),是属于事件之(),是属于()事件 提示:计算 P:(169264)/22231756/2223?练习:.将一枚硬币抛三次,得到的全部是国徽的概率是多少?.如果从一组包含 10 名男性和 15 名女性的组中没有放回地随机选出 3 个不同的人,则选出 3 名男性的概率是多少?(提示:10/25 *9/24 *8/23)二、随机事件的概率 对随机事件的观测或试验可能有多种结果?不仅想知道有哪些可能的结果,还想知某些结果出现的可能性的大小。这一可能
14、性用数字来表示就是概率概率(一)频率与概率 a)频率是大量试验的结果,随试验次数变化的值 b)概率是一个确定值 c)试验次数越多,频率将无限接近于概率 统计学 BASIC -11-d)频率是事件发生的外在表现,概率体现事件发生的内在实质。频率与概率间的关系:A.样本频率总是围绕概率上下波动 B.样本含量 n 越大,波动幅度越小,频率越接近概率。?练习:下面这些值中,不是概率的有那些?0,1,-1,2,0.0123,3/5,5/3 说明:随机变量 例:每次抛两个硬币,记录正、反面结果;结果可记录为:硬币 1 正面朝上,硬币 2 正面朝上;2 个正面 硬币 1 正面朝上,硬币 2 反面朝上;1 个
15、正面 硬币 1 反面朝上,硬币 2 正面朝上;1 个正面 硬币 1 反面朝上,硬币 2 反面朝上;0 个正面 正面出现的次数就是一个随机变量,记为 x,我们通常对 x 的每个取值的概率感兴趣。对于本例,x 的取值为 0、1、2。说明:离散型随机变量与连续型随机变量.离散型随机变量离散型随机变量:数据间有缝隙,其取值可以列举。例如:抛硬币 10 次,正面的可能取值 x 为 0、1、2、3、4、5、6、7、8、9、10 .连续型随机变量连续型随机变量(continous random variable)数据间无缝隙,其取值充满整个区间,无法一一列举每一可能值。例如:身高、体重、百分制考试成绩 三、
16、概率分布(probability distribution)概率分布:描述随机变量值及这些值对应概率的表格、公式或图形。离散型随机变量离散型随机变量概率分布 连续型随机变量连续型随机变量概率分布 例:离散型随机变量的概率分布:例:离散型随机变量的概率分布:连续型随机变量的概率分布 变量的取值充满整个数值区间,无法一一列出其每一个可能值。一般将连续型随机变量整理成频数表频数表,对频数作直方图直方图,直方图的每个矩形顶端连接的阶梯形曲线来描述连续型变量的频数分布。统计学 BASIC -12-如果样本量很大,组段很多,矩形顶端组成的阶梯型曲线可变成光滑的分布曲线。大多数情况下,可采用一个函数拟合这一
17、光滑曲线。引子:常用的概率分布 离散型随机变量分布:二项分布、泊松分布 连续型随机变量分布:正态分布 第二节(一)二项分布 毒性试验:白鼠 死亡生存 临床试验:病人 治愈未愈 回答题目:判断题 答对答错 事件事件 成功(成功(A)失败(非失败(非 A)这类“成功失败型”试验称为 Bernoulli 试验 例:一位心理学家想了解儿童对于某种材料的再认能力。设计了 10 个记忆项目,先让儿童识记,然后进行再认测验。结果儿童能正确再认 5 个项目。请判断:该儿童对这种材料究竟有没有再认能力。答:10 个项目认对了 50,完全可能是瞎猜的结果。可以认为该儿童对于这种材料完全没有什么再认能力。思考:认对
18、多少个项目才算有再认能力呢?6 个?7 个?作为研究者,不能凭感觉说话。要研究类似上述问题有没有数量规律性,以便找出一个数字标准:超过这个标准,就认为有再认能力,未达到这个标准,就认为没有再认能力。(二)二项试验 必须满足以下条件:这个过程包括一个固定次数固定次数的试验。每次试验的所有结果都可以分为两类两类;各次试验相互独立独立(即任何一次单独试验的结果都不影响其他试验中结果的概率);各次试验中概率必须是常数(即成功成功的概率恒定恒定,失败失败的概率也恒定恒定)。例:114 查号台声称,当用户查询电话号码时,90的情况下会得到正确的电话号码。假设回答的正确率为 90,假如我们想在 5 次查询中
19、有 3 次回答正确的概率。(1)这个过程是一个二项分布吗?统计学 BASIC -13-(2)如果这个过程的结果是一个二项分布,请说明 n,x,p 和 q 的值。解答:试验次数 5 是固定的;5 次试验是独立的,使用的是不同的电话号码,接线员也不同;5 次试验中的每个试验都有两类结果:要么对,要么错;5 次试验中的每个试验,概率 0.9(90)是常数。例:假设每年 9 月份的降水概率为 0.4。假设 30 天的降水次数为 X,20 年中 9 月份降水的分布即为一个二项分布。p=0.4,q=0.6,n=30;X 取值0,30 如果 20 年的 X 值分别为:15,18,11,12,11,16,14
20、,12,10,12,13,14,13,14,12,8,9,10,12,13 降水次数 时间(三)二项分布函数 用 n 次方的二项展开式来表达在 n 次二项试验中成功事件出现的不同次数(X0,1)的概率分布,叫做二项分布函数。1.二项式概率分布函数:二项式概率分布函数:2.二项展开式的要点:项数:二项展开式中共有 n1 项。方次:p 的方次,从 n0 为降幂;q 的方次从 0n 为升幂。每项 p 与 q 方次之和等于 n。系数:各项系数是成功事件次数的组合数。例:2 道是非题的情况 3 道是非题的情况 统计学 BASIC -14-4 道是非题的情况 例:从男生占/的学校中随机抽取个学生,问正好抽
21、到个男生的概率是多少?最多抽到个男生的概率是多少?解:将 n=6,p=2/5,q=3/5,X=4 代入公式,则恰好抽到 4 个男生的概率为 例:最多抽到个男生的概率,等于个也没有抽到、抽到个和抽到两个男生的概率之和,即 3.二项分布曲二项分布曲线线 形成:以成功次数为 X,组合数为 Y 绘制的多边图。特点(二项分布的性质):当时,不论 n 有多大,二项分布曲线都总是对称的;当时,且 n 相当小,图形呈偏态;当相当大(30)时,图形逐渐接近正态分布。4.二项分布的应用二项分布的应用(1)求成功事件恰好出现 X 次的概率(2)在教育与心理中主要用来判断试验结果的机遇性与真实性的界限。5.二项分布的
22、平均数和标准差二项分布的平均数和标准差 如果二项分布满足 pq 且 nq5(或者 pq 且 np5 时),二项分布接近于 正态分布。(应用前提)可用下面的方法计算:可用下面的方法计算:统计学 BASIC -15-注意注意应应用前提:用前提:应用应用猜测性:猜测性:某测验中有 10 道判断题,试分析学生的掌握情况或猜测的可能性。条件分析:求均数和标准差:确定一定可信度时的掌握程度:结果解释 例:某测验有 30 个正误题,试问学生要做对多少题,才属掌握了所学的内容。例:一个教师对 8 个学生的作业成绩进行猜测,如果教师猜对的可能性为 13,问:假如规定猜对 95,才算这个教师有一定的评判能力,那么
23、这个教师至少要猜对几个学生?统计学 BASIC -16-例:假设把一个质地均匀的硬币抛 3 次,这时你和朋友打赌:着地时出现“正面”会有 2次,赌注为 10 元。如果这种结果出现了,你的朋友必须给你 10 元钱。谁更有可能赢呢?例:有 20 道四择一题,试问学生要做对多少题,才属掌握了所学的内容。统计学 BASIC -17-思考:观察我们的生活,看看哪些现象是服从二项分布规律的?6.二项试验二项试验 必须满足的条件有:a)这个过程包括一个固定次数的试验;b)每次试验的所有结果都可以分为两类;c)各次试验相互独立(即任何一次单独试验的结果都不影响其他试验中结果的概率);d)各次试验中概率必须是常
24、数(即成功的概率恒定,失败的概率也恒定)。7.二项二项(式概率式概率)分布函数:分布函数:例:从男生占/的学校中随机抽取个学生,问正好抽到个男生的概率是多少?最多抽到个男生的概率是多少?解:将 n=6,p=2/5,q=3/5,X=4 代入公式,则恰好抽到 4 个男生的概率为 最多抽到个男生的概率:等于个也没有抽到、抽到个和抽到两个男生的概率之和 例:一块均匀的硬币,A 为正面朝上,B 为反面朝上。假设 n=2(抛两次),有多少可能的结果?两次正面朝上的 p?抛不到正面朝上的 p?只有一次正面的 p?至少一次正面的 p?统计学 BASIC -18-什么条件下,二项分布可以近似为正态分布?n 足够
25、大的时候足够大的时候 8.二项分布曲线二项分布曲线 形成:以成功次数为 X,组合数为 Y 绘制的多边图。特点(二项分布的性质):当时,不论 n 有多大,二项分布曲线都总是对称的;当时,且 n 相当小,图形呈偏态;当相当大(30)时,图形逐渐接近正态分布。9.二项分布的应用二项分布的应用(1)求成功事件恰好出现 X 次的概率?(2)在教育与心理中主要用来判断试验结果的机遇性与真实性的界限。第三节 正态分布(Normal D.)一、正态分布的特征 二、标准正态分布表 利用积分公式可求出正态曲线下任何区间的面积,但需要计算,非常麻烦。统计学家已编制好了标准正态分布表,使其使用非常方便。(见教材后的附
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 统计学 基础 复习
限制150内