《统计学入门精品文稿.ppt》由会员分享,可在线阅读,更多相关《统计学入门精品文稿.ppt(48页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计学入门第1页,本讲稿共48页一、统计学简介一、统计学简介l统计学是一门研究随机现象,以推断为特征的方法论科学,“由部分推及全体”的思想贯穿于统计学的始终。l数理统计学和应用统计学第2页,本讲稿共48页分类分类1.1.描述统计(描述统计(descriptive statisticsdescriptive statistics)l主要研究如何整理心理与教育科学实验或调查得来的大量数据,描述一组数据的全貌,表达一件事物的性质。2.2.推断统计(推断统计(inferential statisticsinferential statistics)l根据样本所提供的信息,运用概率的理论进行分析、论证,
2、在一定可靠程度上,对总体分布特征进行估计、推测,这种统计方法称为推断统计。第3页,本讲稿共48页基础概念基础概念1.1.变量变量l就是指心理与教育实验、观察、调查中想要获得的数据。l所确定的每一个值称为某一变量的观测值,也就是具体数据。l与变量相反的是常量,在一定范围内其数值不会随意改变,如圆周率。第4页,本讲稿共48页基础概念(续)变量的基本类型变量的基本类型l称名变量 用于说明某一事物与其他事物在属性上的不同或类别上的差异,但不说明差异的大小。l顺序变量是指可以按事物的某一属性,把它们按多少或大小顺序加以排列的变量。只有大小关系的标示。l等距变量是指变量之间具有相等的距离。除了有量的大小外
3、,还具有相等的单位。只能加减,不能乘除。l比率变量除了有量的大小、相等单位之外,还有绝对零点。可以进行加减乘除四则运算。第5页,本讲稿共48页基础概念(续)2.2.数据类型数据类型 观察方法观察方法 l计数数据(count data)就是计算个数的数据,它表示具有某种属性事物的个数。l测量数据(measurement data)借助于一定的工具或一定的测量标准而获得的数据,数据反映的测量水平数据反映的测量水平l称名数据(nominal data)l顺序数据(ordinal data)l等距数据(interval data)l比率数据(ratio data)是否具有连续性是否具有连续性 l离散数
4、据(discrete data)l连续数据(continuous data)第6页,本讲稿共48页基础概念(续)3.3.总体、样本与个体总体、样本与个体 l总体(population)我们要研究的事物的全体,一般来说这些事物应该具有某种共同的特征。l个体(individual)构成总体的每个基本单元。l样本(sample)从总体中抽取出的一部分个体,目的在于为我们所实验或观察,以达到“从局部推断总体”。第7页,本讲稿共48页基础概念(续)4.4.次数、频率与概率次数、频率与概率 l次数也称频数(frequency),指在某项实验或观察中,某一结果出现的次数。l频率相对次数,某结果出现的次数在总
5、次数中所占的比例。l概率(probability)指某一事件发生的可能性大小,常用P表示,取值范围0P1,是总体的特征。第8页,本讲稿共48页基础概念(续)5.5.参数与统计量参数与统计量 l参数(parameter)也称总体参数,包括反映总体的数字特征的量和总体规律公式中的参数。统计的目的往往就是用样本统计量去估计或推测总体参数的大小。l统计量(statistics)也称样本统计量,指根据样本(即一组观察值)计算出来的这组数据的数字特征的量。它既可以用来反映样本的概貌也可以用来进行统计推断。第9页,本讲稿共48页二、描述性统计二、描述性统计(一)统计表与统计图把统计指标和被说明的事物之间的关
6、系用表格的形式表示就成为统计表。统计图是依据数字资料,应用点、线、画、面、体、色等描绘制成,简单而又有规律,并且能显示数量的图形,它是统计资料的可视化显示方式。第10页,本讲稿共48页员工对主管尽职情况的评定员工对主管尽职情况的评定人数人数非常不尽职非常不尽职9不尽职不尽职30不置可否不置可否10尽职尽职25非常尽职非常尽职6总计总计80表表2-1 80名员工对部门主管尽职程度调查结果名员工对部门主管尽职程度调查结果*表中数据来源于例【表中数据来源于例【2-1】表号表号标题标题顶线顶线表线表线标目标目表注表注标目标目数字数字底线底线第11页,本讲稿共48页Y轴名称轴名称刻度标记刻度标记填充图案
7、填充图案轮廓线轮廓线图图例例基线基线图号图号X轴名称轴名称图题图题尺度单位尺度单位图尺图尺第12页,本讲稿共48页统计图l散点图(scatter plots):探究两事物之间的关系l线形图(line graph):表示事物的发展变化及演变趋势l条形图(bar charts):描述离散性统计事项l圆形图(circle graph),又叫饼图(pie):最适合描述百分比关系。第13页,本讲稿共48页第14页,本讲稿共48页第15页,本讲稿共48页(二)集中量数与差异量数(二)集中量数与差异量数一组变量的次数分布,一般至少有两个方面的基一组变量的次数分布,一般至少有两个方面的基本特征:本特征:l中心
8、位置中心位置 用以度量一组数据的集中趋势,指数据分布中大量数据向某方向集中的程度。中心位置用以描述它们的中心位于何处,故对其数量化描述称为位置度量数或集中量数(measures of central tendency)。l离散性离散性离散性反映一组数据的分散程度,即次数分布的离散程度,或称离中趋势(dispersion),指数据分布中数据彼此分散的程度。第16页,本讲稿共48页集中量数集中量数l算术平均数l加权平均数l中数l众数第17页,本讲稿共48页差异量数差异量数l全距l百分位差、四分位差l方差l标准差第18页,本讲稿共48页方差与标准差l方差(variance)又称变异数,均方(mean
9、 square),指离均差平方的和的平均。总体方差表示为 ,样本方差表示为 。l标准差(standard deviation)指方差的平方根。总体标准差表示为,样本标准差表示为S或SD。第19页,本讲稿共48页方差和标准差的计算方差和标准差的计算 l总体总体 l样本样本 第20页,本讲稿共48页(三)地位量数(三)地位量数l地位量数(measures of position),又叫位置量数,表明研究对象某一属性的数量化指标,即原始变量在其所处分布中地位的量数。因为它是相对于次数分布而言的,故又称相对地位量数。第21页,本讲稿共48页标准分数(standard score)l又称基分数,Z分数(
10、Z-score),指以标准差为单位表示一个原始分数在团体中所处位置的相对地位量数。l计算第22页,本讲稿共48页标准分数(续)l应用用于比较几个分属性质不同的观测值在各自数据分布中相对位置的高低。可以计算不同性质的观测值的总和或平均分,以表示在团体中的相对位置。用来表示标准测验分数。第23页,本讲稿共48页(四)相关分析l集中量数和差异量数主要用于描述单变量数据资料,相关系数则用于描述双变量数据(bivariate data)相互之间的关系。所谓双变量,是指对于一个变量x的每一个观测值x1,x2,xn,同时有 另一个变量的相应观测值y1,y2,yn与之对应。第24页,本讲稿共48页相关系数(c
11、oefficient of correlation)(一)是两列变量间相关程度的数量化指标。(二)解释 l相关系数的大小(绝对值)表示两类数据的密切程度。l正号表示正相关,负号表示负相关。l当r=+1.00时,表示完全正相关;当r=-1.00时,表示完全负相关;当r=0时,表示几乎没有联系。l相关系数仅仅是一个比值,不是等距的,也不是百分比,因此不能进行四则运算,也不能用倍数关系表示,正、负号仅表示方向l有相关关系不一定是因果关系。第25页,本讲稿共48页数据类型与相关类型l积差相关(皮尔逊相关)l等级相关斯皮尔曼等级相关肯德尔W系数l质量相关点二列相关二列相关l品质相关四分相关相关第26页,
12、本讲稿共48页数据类型与相关类型数据类型与相关类型 二分数据二分数据等级数据等级数据等矩数据等矩数据人为二分型人为二分型真正二分型真正二分型二分二分数据数据人为人为二分型二分型四格相关四格相关相关相关二列相关二列相关列联系数列联系数二列相关二列相关真正真正二分型二分型相关相关相关相关点二列相点二列相关关列联系数列联系数点二列点二列相关相关等级数据等级数据二列相关二列相关列联系数列联系数点二列相关点二列相关列联系数列联系数等级相关等级相关交错系数交错系数相容系数相容系数等级相关等级相关多列相关多列相关等矩数据等矩数据二列相关二列相关点二列点二列相关相关等级相关等级相关多列相关多列相关积差相关积差
13、相关第27页,本讲稿共48页三、推断统计(一)正态分布l也称常态分布或常态分配,是连续随机变量概率分布的一种,是在数理统计的理论与实际应用中占有最重要地位的一种理论分布。l中间大,两端小,单峰对称,钟形 第28页,本讲稿共48页第29页,本讲稿共48页第30页,本讲稿共48页第31页,本讲稿共48页 99.74%-3 -2-+2+3 68.27%95.44%正态曲线下面积的分布规律由正态曲线下面积的分布规律由正态曲线下面积的分布规律由正态曲线下面积的分布规律由 和和和和 所决定所决定所决定所决定第32页,本讲稿共48页(二)假设检验(二)假设检验l在统计学中,通过样本统计量得出的差异作出作出一
14、般性结论,判断总体参数之间是否存在差异,这种推论过程称作假设检验。l推论的可靠性实验或科学研究过程中无关变量的控制数据处理的准确性样本的代表性第33页,本讲稿共48页两种假设两种假设l虚无假设(null hypothesis):无差假设、零假设、原假设,记为 。它总作为直接被检验的假设。l备择假设(alternative hypothesis):对立假设。记为 。l虚无假设与备择假设互相排斥且只有一个正确。虚无假设是统计推论的出发点。第34页,本讲稿共48页判断假设是否合理的依据判断假设是否合理的依据l小概率事件原理即小概率事件在一次试验中几乎不可能发生。l显著性水平(significance
15、 level)指估计总体参数落在某一区间时可能犯错误的概率,用符号表示。1为置信度或置信水平。第35页,本讲稿共48页单侧检验与双侧检验单侧检验与双侧检验l双侧检验(two-sided/two-tailed test)只强调差异而不强调方向性的检验l单侧检验(one-sided/one-tailed test)强调某一方向的检验l区别问题的提法不同建立假设的形式不同否定域不同第36页,本讲稿共48页假设检验的步骤假设检验的步骤1.根据问题要求,提出虚无假设和备择假设。2.选择适当的检验统计量。3.规定显著性水平。4.计算检验统计量的值。5.做出决策。根据显著性水平和统计量的分布,查相应的统计表
16、,查找接受域和拒绝域的临界值,用计算出的统计量的具体值域临界值相比较,作出接受虚无假设或拒绝虚无假设的决策。第37页,本讲稿共48页(三)常用的统计分析方法(三)常用的统计分析方法lZ检验与t检验两个平均数的比较l方差分析多个平均数的比较多个变量的效应检验第38页,本讲稿共48页(三)常用的统计分析方法(续)(三)常用的统计分析方法(续)l相关分析变量之间的关系探讨l回归分析一个或多个自变量对因变量的预测效应 第39页,本讲稿共48页(三)常用的统计分析方法(续)(三)常用的统计分析方法(续)l 检验计数数据的分析l因素分析结构效度把数个很难解释,而彼此有关的变量,转化成少数有概念化意义,而彼
17、此独立性大的因素。根据变量间彼此的相关,找出变量间潜在的关系结构,第40页,本讲稿共48页判断统计分析方法判断统计分析方法第41页,本讲稿共48页判断统计分析方法(续)判断统计分析方法(续)l为了对某门课的教学方法进行改革,某校对各方面情况相似的两个班进行教改试验,甲班45人,采用教师面授的教学方法,乙班36人,采用教师面授、学生讨论的方法。一学年后,用同一试题对两个班的学生进行测验,得到以下结果:甲班45人参加测验,平均分69.5分,标准差为8.35,乙班36人参加测验,平均分78.0分,标准差为16.5。试两种教学方法其效果是否有显著性差异(取0.01)。第42页,本讲稿共48页判断统计分
18、析方法(续)判断统计分析方法(续)l有3种小学语文实验教材,为检验其在不同教学方法中的教学效果,采用4种教学方法,即课堂系统讲授(B1)、通过典型课文进行重点讲授(B2)、课堂系统讲授结合学生游戏和活动(B3)、通过典型课文进行重点讲授结合学生游戏和活动(B4)。利用交叉分组的方法得到12个处理,经过一段教学后,在每个处理中抽取2名被试进行测试,得到数据如下表,试对实验结果分析处理。第43页,本讲稿共48页教学方法教学方法B1B2B3B4教材教材A183 8090 8698 9269 63661163176190132A270 6184 7886 8395 90647131 162169185
19、A390 9454 53 78 7987 89624184107157176478445516493第44页,本讲稿共48页l一位研究者想调查一下顾客对于快餐的偏好程度,以考察中式快餐和西式快餐哪种更受欢迎。他随机调查了300个不同年龄组的顾客,如下表所示。请问对快餐偏好程度是否与年龄有关?年龄年龄快餐种类快餐种类麦当劳麦当劳吉野家吉野家永和豆浆永和豆浆25岁或以下岁或以下80304025岁以上岁以上504060判断统计分析方法(续)判断统计分析方法(续)第45页,本讲稿共48页判断统计分析方法(续)判断统计分析方法(续)l随机抽取60名学生,询问他们在高中是否需要文理分科,赞成分科的39人,反对分科的21人,问他们对分科的意见是否有显著差异?第46页,本讲稿共48页判断统计分析方法(续)判断统计分析方法(续)l数学焦虑对数学投入动机是否有显著预测作用?l不同学生性别、数学焦虑、数学态度与数学投入动机等变量对数学成绩是否有显著预测作用?其预测力如何?第47页,本讲稿共48页随机现象l事前不可预言的现象,即在相同条件下重复进行试验,每次结果未必相同,或知道事物过去的状况,但未来的发展却不能完全肯定。第48页,本讲稿共48页
限制150内