《统计学考试笔记.doc》由会员分享,可在线阅读,更多相关《统计学考试笔记.doc(14页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第一章1.2.1 分类数据、顺序数据、数值型数据按照所采用的计量尺度的不同,可以将统计数据分为分类数据、顺序数据和数值型数据。 分类数据是:只能归于某一类别的非数字型数据、它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。例如:人口按照性别分为男、女两类:企业按行业属性分为医药企业、家电企业、纺织品企业等,这些均属于分类数据。为便于统计处理,对于分类数据,可以用数字代码来表示各个类别,比如,用表示“男性”,0表示“女性”;用1表示“医药企业”,2表示“家电企业”,3表示“纺织品企业”:等等。顺序数据是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别,但这些类别是有序的 比如将
2、产品分为一等品、二等品、三等品、次品等;考试成绩可以分为优、良、中、及格、不及格等;一个人的受教育程度可以分为小学、初中、高中、大学及以上;一个人对某一事物的态度可以分为非常同意、同意、保持中立、不同意、非常不同意;等等。同样,顺序数据也可以用数字代码来表示。比如,1非常同意,2同意,3保持中立,4不同意,5非常不同意。数值型数据是按数字尺度测量的观察值 其结果表现为具体的数值。现实中所处理的大多数是数值型数据。 例如:身高:165cm.特点:分类数据和顺序数据说明的是事物的品质特征 通常是用文字来表述的,其结果均表现为类别,因而也可统称为定性数据或品质数据。 数值型数据说明的是现象的数量特征
3、,通常是用数值来表现的,因此也可成为定量数据或数量数据。1.2 2观测数据和实验数据按照统计数据的收集方法, 可以将其分为观测数据和实验数据。观测数据是通过调查或观测收集到的数据 ,这类数据是在没有对事物人为控制的条件得到的;有关社会经济现象的统计数据几乎都是观测数据。实验数据则是在实验中控制实验对象而收集到的数据。 比如,对一种新药疗效的实验数据,对一种新的农作物品种的实验数据。自然科学领域的大多数数据为实验数据1.2.3截面数据和时间序列数据 按照被描述的现象与时间的关系。 可以将统计数据分为截面数据和时间序列数据。截面数据是在相同或近似相同的时间点上收集的数据,这类数据通常是在不同的空间
4、获得的,用于描述现象在某一时刻的变化情况。此如,2010年我国各地区的国内生产总值就是截面数据。时间序列数据是在不同时间收集到的数据,这类数据是按时间顺序收集到的,用于描述现象随时间变化的情况 比如2010-2012 年我国的国内生产总值就是时间序列数据。1.3统计中的几个基本概念1.3.1总体和样本总体是包含研究的全部个体(数据)的集合,它通常由所研究的一些个体组成,组成总体的每个元素称为个体总体根据其所包含的单位数目是否可数可以分为有限总体和无线总体。有限总体是指总体的范围能够明确确定,而且元素是有限可数的。无限总体是指总体所包括的元素是无限的、不可数的。样本是从总体中抽取的一部分元素的集
5、合,构成样本的因素的数目称为样本量。抽样的目的是根据样本提供的信息推断总体的特征。参数是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。通常有:总体平均数()、总体标准差()、总体比例()等。通常用希腊字母表示统计量是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个统计量,由于抽样是随机的,因此统计量是样本的函数。研究者关心的统计量主要有样本平均数(x)、样本标准差(s)、样本比例(p)等。用英文小写字母来表示。第二章2.1.1概率抽样和非概率抽样1.概率抽样概率抽样也称随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。特点:
6、抽样时按一定的概率以随机原则抽取样本,使每个单位都有一定的机会被抽中;其次,每个单位被抽中的概率是已知的,或是可以计算出来;最后,当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。(1)简单随机抽样特点:总体的数目有限;从总体中逐个抽取;不放回抽样;是等可能抽样。最常用的简单随机抽样方法有抽签法和随机数法。优点:简单直观,在抽样框完整时可以直接从中抽取样本。由于抽选的概率相同,用样本统计量对目标量进行估计及计算估计量误差都比较方便。缺点:当N很大时,构造这样的抽样框并不容易;采用这种方法抽出的单位很分散,给实施调查增加了困难;这种方法没有利用其他辅助信息以提高估计的效率。(2)
7、分层抽样将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机的抽取样本。(3)整群抽样讲总体中将若干个单位合并为组,这样的组称为群。抽样时直接抽取群,然后对中选群中所有单位全部实施调查。(4)系统抽样将总体中的所有单位按一定顺序排列,在规定的范围内随机抽取一个单位作为初始单位,然后按事先制定好的规则确定其他样本单位。(5)多阶段抽样首先抽取群,但并不是调查群内的所有单位,而是再进一步抽样,从选中的群中抽取出若干个单位进行调查。2.非概率抽样是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。(1)
8、方便调查调查过程中调查员依据方便的原则,自行确定作为样本的单位。(2)判断抽样是指研究人员根据经验、判断和对研究对象的了解,有目的的选择一些单位作为样本,实施时根据不同的目的有重点抽样、典型抽样、代表抽样等方式。(3)自愿抽样指被调查者自愿参加,成为样本中的一份子,向调查人员提供有关信息。(4)滚雪球抽样用于对稀少群体的调查。首先选择一组调查单位对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,继续进行调查。(5)配额抽样它是首先将总体中的所有单位按一定的标志分为若干类,然后在每个类中采取方便抽样或判断抽样的方式选取样本单位。类似于概率抽样中的分层抽样,在
9、市场调查中有广泛的应用。2.4数据的误差2.4.1抽样误差由抽样的随机性引起的样本结果与总体真值之间的差异。误差大小的影响因素:样本量的大小,样本量越大抽样误差越小;总体的变异性,总体的变异性越大,抽样误差也越大。2.4.2非抽样误差相对抽样误差而言的,是指除抽样误差之外的,由其他原因引起的样本观察结果与总体真值之间的差异。1.抽样框误差2.回答误差(1)理解误差(2)记忆误差(3)有意识误差3.无回答误差4.调查员误差5.测量误差2.4.3误差的控制抽样误差是由抽样的随机性带来的,只要采用概率抽样,抽样误差就不可避免。非抽样误差控制的重要方面是调查过程的质量控制。包括:调查员的挑选,调查员的
10、培训,督导员的调查专业水平,对调查过程进行控制的具体措施,对调查结果进行的检验、评估,对现场调查人员进行奖惩的制度等等。第三章数据的图表展示分类数据的图示(品质数据)(1)条形图用宽度相同的条形的高度或长度来表示数据多少的图形。反应分类数据的频数分布。(2)帕累托图按各类别数据出现的频数多少排序后绘制的条形图。主要用于展示分类数据的分布。(3)饼图用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本中各组成部分的数据占全部数据的比例。(4)环形图环形图与饼图类似但又有区别。环形图中间有一个“空洞”,每个样本用一个环来表示,样本中的每一部分数据用环中的一段表示。因此环形图可显示多个
11、样本各部分所占的相应比例,有利于对构成做比较研究。3.2.2顺序数据的整理与图示1.累计频数和累计频率累计频数:是将各有序类别或组的频数逐级累加起来得到的频数。方法有两种,一是从类别顺序的开始一方向类别顺序到最后一方累加频数,称为向上累积;二是从类别顺序的最后一方向类别顺序的开始累加频数,称为向下累积。累积频率或累积百分比是将各有序类别或组的百分比逐级累加起来,它也有向上累积和向下累积两种方法。数值型向上累积向下累计111945186111481983.3数值型数据的整理与图示3.3.数据分组单变量分组是把每个变量值作为一组,这种分组通常只适合离散变量,且在变量值较少的情况下使用。在连续变量或
12、变量值较多的情况下,通常采用组距分组。过程:确定组数(5-15)确定各组的组距(最大值-最小值)/组数根据分组编制频数分布表,需要遵循不重不漏的原则,可采用等距分组,也可采用不等距分组。3.3.2数值型数据的图示1.分组数据:直方图(大批量数据)2未分组数据(原始数据):茎叶图(小批量数据)和箱线图3.时间序列数据:线图主要用于反映现象随时间变化的特征。4.多变量数据的图示(1)散点图是用二维坐标展示两个变量之间关系的一种图形。(2)气泡图可用于展示三个变量之间的关系,将一个变量放在横轴,另一个变量放在纵轴,第三个变量则用气泡的大小来表示。(3)雷达图是显示多个变量的图示方法,也成为蜘蛛图。课
13、后思考题1.数据的预处理包括哪些内容?数据审核(对于原始数据:完整性和准确性;对于二手数据:实用性和实效性)、数据筛选和数据排序。2.分类数据和顺序数据的整理和图示方法各有哪些?分类数据:制作频数分布表,用比例、百分比和比率等进行描述性分析,可用条形图、帕累托图、饼图和环形图进行图示分析。顺序数据:制作频数分布表,用比例、百分比、比率、累计频数和累计频率等进行描述性分析,可用条形图、帕累托图、饼图、累计评书分布图和环形图进行分析。3.数值型数据的分组方法有哪些?简述组距分组的步骤。分组方法:单变量值分组和组距分组,组距分组又分为等距分组和异距分组。分组步骤:确定组数确定组距根据分组整理成频数分
14、布表。4.直方图与条形图有何区别?首先,条形图使用的长度表示各类别频数的多少,其宽度固定;直方图用面积表示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距,因此其高度与宽度均有意义。其次,由于分组数据具有连续性,直方图各矩形连续排列,而条形图分开排列。最后,条形图主要用于展示分类数据,而直方图主要展示数值型数据。5.绘制线图应注意哪些问题?时间在横轴,观测值在纵轴;一般是长宽比例10:7的长方形;纵轴下端一般从0开始,数据与0距离过大的话用折断符号折断。6.饼图和环形图有什么不同?环形图与饼图类似,但又有区别。饼图只能显示一个样本或总体各部分所占比例,环形图可以同时绘制多个样本或总体的
15、数据系列。7.茎叶图与直方图相比有什么优点?他们的应用场合是什么?茎叶图既能给出数据的分布情况,又能给出每个原始数据,即保留了原始数据的信息。而直方图虽然能很好的显示数据的分布,但不能保留原始的数据。茎叶图通常适用于小批量数据,直方图适用于大批量数据。8.鉴别图表优劣的准则有哪些?显示数据;有助于洞察问题的本质;使复杂的观点得到简明、确切、高效的阐述;快速高效地给读者提供大量的信息;多维的;表述数据的真实情况。9.制作统计表时应注意哪几个问题?合理安排统计表结构;表头一般包括表号、总标题和表中数据的单位等内容;再次,表中的上下两条横线,一般用粗线,中间的其他线用细线,这样看起来清楚醒目;在使用
16、统计表时,必要时可在下方加注释注明数据来源。第四章数据的概括性度量4.1集中趋势的度量集中趋势:定义:指一组数据向某一中心值靠拢的程度,反映了一组数据中心点的位置所在;不同类型的数据用不同的集中趋势测度值;低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据。4.1.1分类数据:众数众数是一组数据中出现次数最多的变量值,用表示;只有在数据量较大的情况下众数才有意义;它不受数据中极端值的影响;众数可能不存在,也可能有多个,众数具有不唯一性;众数主要用于测度分类数据的集中趋势,也可作为顺序数据以及数值型数据集中趋势的测度值。4.1.2顺序数
17、据:中位数和分位数1.中位数中位数是一组数据排序后处于中间位置上的变量值,用表示。不受极端值影响;主要用于测度顺序数据的集中趋势,当然也适用于测度数值型数据的集中趋势,但不适用于分类数据;各变量值与中位数的离差绝对值之和最小。2.四分位数定义:它是一组数据排序后处于25%和75%位置上的值。不受极端值的影响如果位置是整数,四分位数就是该位置(笔记)对应的值;如果是在0.5的位置上,则取该位置两侧值的平均数;如果是在0.25或0.75的位置上,则四分位数等于该位置的下侧值加上按比例分摊位置两侧数值的差值。笔记有例题4.1.3数值型数据:平均数平均数也称均值,它是一组数据相加后除以数据的个数得到的
18、结果。平均数在统计学中具有重要的地位,是集中趋势的最主要测度值,它主要适用于数值型数据,而不适用于分类数据和顺序数据;一组数据的均衡性特征;体现数据的必然性特征;易受极端值的影响。1.简单平均数和加权平均数根据未经分组数据计算的平均数称为简单平均数根据分组数据计算的平均数称为加权平均数4.1.4众数、中位数、平均数的比较从分布的角度看,众数始终是一组数据分布的最高峰值;中位数是处于一组数据中间位置上的字值;而平均数则是全部数据的算术平均。特点及应用场合(作业本)4.2离散程度的度量4.2.1分类数据:异众比率异众比率是指非众数组的频数占总频数的比例。主要用于衡量众数对一组数据的代表程度,异众比
19、率适合测度分类数据的离散程度,当然对于顺序数据以及数值型数据也可以计算异众比率。4.2.2顺序数据:四分位差四分位差也称为内距或四分间距,它是上四分位数和下四分位数之差。主要用于测度顺序数据的离散程度,对于数值型数据也可以计算四分位差,但它不适合分类数据;反映了中间50%的数据的离散程度;不受极值的影响;一定程度上说明了中位数对一组数据的代表程度。4.2.3数值型数据:方差和标准差1.极差一组数据的最大值与最小值之间称为极差;极差是最简单的描述数据离散程度的测度值。2.平均差也称平均绝对离差,它是各变量值与其平均数离差绝对值的平均数;它能全面准确地反映一组数据的离散情况。3.方差和标准差方差:
20、是各变量值与其平均数离差平方的平均数。方差的平方根称为标准差。能较好地反映出数据的离散程度,是应用最广的离散程度的测度值。与方差不同的是,标准差是有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚。因此在对实际问题进行分析时更多的使用标准差。公式:笔记自由度:n-14.2.4相对离散程度:离散系数离散系数也称为变异系数,它是一组数据的标准差与其相应的平均数之比离散系数是测度数据离散程度的统计量;消除变量值水平高低和计量单位不同对离散程度测度值的影响;平均水平不同或计量单位不同的不同组别的变量值。偏态它是对数据分布对称性的测度。如果一组数据的分布是对称的,则偏态系数等于0,如果偏态系数明
21、显不等于0,表明分布是非对称的。若偏态系数大于1或小于-1,称为高度偏态分布,若偏态系数在0.51或-1-0.5之间,则认为是中等偏态分布,偏态系数月越接近于0,偏斜程度就越小。峰态它是对数据平峰或尖峰程度的测度。正态分布的峰态系数为0K0为尖峰分布,数据的分布更集中K0为扁平分布(平峰分布),数据的分布越分散思考题1.一组数据的分布特征可以从哪几个方面进行测度?可以从数据分布的集中趋势、离散程度和分布的偏态与峰态三个方面进行测量。集中趋势反映了各数据向其中心支靠拢或聚集的程度;离散程度反映了各数据原理其中心值的趋势;偏态与峰态反映了数据分布的图像形状。2.简述众数、中位数和平均数的特点和应用
22、场合。(作业)众数是一组数据分布的峰值,不受极端值的影响,缺点是具有不唯一性。众数只有在数据量较多时才有意义。主要适合作为分类数据的集中趋势测度值。中位数是一组数据中间位置上的代表值,不受极端值影响,当数据分布的偏斜较大时,可以使用中位数。主要适合作为顺序数据的集中趋势测度值。平均是是针对数值型数据计算的,而且利用了全部数据信息。当数据呈对称分布或接近对称分布时,三个代表值相等或接近相等,这时应选平均数作为集中趋势的代表值。但平均数的主要缺点是易受极端值的影响;对于偏态分布的数据,平均数的代表性较差。3.简述异众比率、四分位差、方差或标准差的应用场合。(作业)异众比率主要用于测量分类数据的离散
23、程度;四分位差主要用于测量顺序数据的离散程度;方差或标准差主要用于测量数值型数据的离散程度。4.标准分数有哪些用途?标准分数给出了一组数据中各数值的相对位置。在对多个具有不同量纲的变量进行处理时,常需要对各变量进行标准化处理。它还可以用来判断一组数据是否有离群数据。5.为什么要计算离散系数?方差和标准差是反映数据离散程度的绝对值,一方面其数值大小受原变量值本身水平高低的影响;另一方面,他们与原变量的计量单位相同,采用不同计量单位的变量值,其离散程度的测度值也就不同。因此,对于平均水平不同或计量单位不同的不同组别的变量值,不能用标准差直接比较其离散程度,为消除变量值水平高低和计量单位不同对离散程
24、度测度值的影响,需要计算离散系数。6.测度数据分布形状的统计量有哪些?对于分布形状的测度有偏态和峰态。测度偏态的统计量是偏态系数;测度峰态的统计量是峰态系数。第5章概率与概率分布5.1.随机事件及其概率随机事件在同一组条件下,每次试验可能出现也可能不出现的事件,也叫偶然事件。必然事件在同一组条件下,每次试验一定出现的事件。不可能事件在同一组条件下,每次试验一定不出现的事件。如果一个事件不能分解成两个或更多个事件,则这个事件称为基本事件。5.1.2事件的概率1.概率的古典定义如果某一随机试验的结果有限,而且各个结果出现的可能性相等,则某一事件A发生的概率为该事件所包含的基本事件个数m与样本空间中
25、所包含的基本事件个数n的比值。记为P(A)=m/n结果有限;各个结果出现的可能性被认为是相同的。主观概率:一个决策者根据本人掌握的信息对某个事件发生可能性做出的判断。第6章统计量及其抽样分布抽样分布2分布性质:分布的变量值始终为正;分布的形状取决于其自由度的大小,通常为不对称的正偏分布,但随着自由度的增大,而逐渐趋于对称。t分布也可以称学生氏分布;一种类似正态分布的对称分布,它通常要比正态分布平坦和分散;一个特定的分布依赖于称之为自由度的参数,随着自由度的增大分布也逐渐趋于正态分布。F分布F分布与t分布的关系:如果随机变量X服从t(n)分布,则X2服从F(1,n)的F分布。(笔记)第7章参数估
26、计7.1参数估计的基本原理7.1.1估计量与估计值参数估计:就是用样本统计量去估计总体的参数估计量:在参数估计中,用来估计总体参数的统计量估计值:根据一个具体的样本计算出来的估计量的数值7.1.2点估计与区间估计点估计:就是用样本统计量的某个取值直接作为总体参数的估计值。区间估计:是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。置信区间:在区间估计中,由样本统计量所构造的总体参数的估计区间。置信水平:如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例称为置信水平,也称为置信度或置信系数。常用的置信水平的Z(a/2)值置信水平
27、aa/2z(a/2)90%0.100.051.64595%0.050.0251.9699%0.010.0052.587.2一个总体参数的区间估计7.2.1总体均值的区间估计(笔记)7.2.2总体比例的区间估计(笔记)7.2.3总体方差的区间估计(笔记)7.4样本量的确定样本量与置信水平成正比与总体方差成正比与估计误差的平方成反比与可靠性系数成正比。计算出的样本量不一定是整数,通常将样本量取成较大的整数,也就是将小数点后面的数值进位成整数,这就是样本量的圆整法则。7.4.1估计总体均值时样本量的确定(笔记)7.4.2估计总体比例时样本量的确定(笔记)第8章假设检验8.1.3两类错误第类错误是原假
28、设Ho为真却被我们拒绝了,犯这种错误的概率用a表示,所以也称a错误或弃真错误。第类错误是原假设为伪我们却没有拒绝,犯这种错误的概率用表示,所以也称错误。假设检验中各种可能结果的概率项目没有拒绝Ho拒绝HoHo为真1-a(正确决策)a(弃真错误)Ho为伪(取伪错误)1-(正确决策)在假设检验中a和此消彼长的关系;对于一定的样本量,不可能同时减少;增大样本量会使a和同时减小8.1.4假设检验的流程首先提出原假设和备择假设确定适当的检验统计量规定显著性水平计算检验统计量的值做出统计决策什么是显著性水平?是一个概率值;原假设为真时,拒绝原假设的概率(被称为抽样分布的拒绝域);常用a表示,常用的a值有0
29、.01,0.05,0.10;由研究者事先决定.8.1.4假设检验的流程根据小概率原理,我们就有理由拒绝原假设,P值越小,拒绝原假设的理由就越充分。P值的长处是它反映了观察到的实际数据与原假设之间不一致的概率值,与传统的拒绝域范围相比,P是一个具体的值,这样就提供了更多的信息。8.2一个总体参数的检验(笔记)8.2.2总体均值的检验(笔记)8.2.3总体比例的检验(笔记)8.2.4总体方差的检验(笔记)第10章方差分析方差分析:就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。因素或因子:在方差分析中,所要检验的对象。水平或处理:因素的不同表现观测值:在每个因子水平
30、下得到的样本数据组内误差:因素的同一水平下,样本可观察值之间的差异,这种来自水平内部的数据误差也称为组内误差。组内误差只含有随机误差。组间误差:不同水平之间的数据误差称为组间误差,组间误差是随机误差和系统误差的总和。总平方和SST:反映全部数据误差大小的平方和(在方差分析中,表示数据的误差)组内平方和SSE:反映组内误差大小的平方和,也称为误差平方和或残差平方和。组间平方和SSA:反映组间误差大小的平方和,也称为因素平方和SST(总误差)=SSE(组内误差)+SSA(组间误差)组内误差=随机误差组间误差=随机误差+系统误差方差分析的基本假定每个总体都应服从正态分布各个总体的方差必须相同观测值是
31、独立的问题的一般提法Ho:u1=u2=u3=u4 自变量对因变量没有显著影响H1:u1,u2,u3,u4不全相等 自变量对因变量有显著影响分析步骤(笔记)提出假设构造检验的统计量做出统计决策方差分析表ABCDEFG1误差来源平方和SS自由度df均方MSF值P值F临界值2组间SSAk-1MSA3组内SSEn-kMSE4总和SSTn-1均方:各平方和除以它们对应的自由度的结果(笔记)第11章一元线性回归函数关系函数关系是一一对应的确定关系;各观测点路在一条线上。相关关系:变量之间存在的不确定的数量关系变量间的关系不能用函数关系精确表达;一个变量的取值不能由另一个变量唯一确定;当变量x取某个值时,变量y的取值可能有几个;各观测点分布在直线周围。注:不相关的散点图是没有线性相关关系,而不是没有任何关系。相关系数是根据样本数据计算的度量两个变量之间线性关系强度的统计量。若相关系数是根据总体全部数据计算的,称为总体相关关系(),若是根据样本数据计算的,则称为样本相关系数()。取值范围(笔记)具有对称性。的数值大小与x和y的原点及尺度无关。仅仅是x和y之间线性关系的一个度量,它不能用于描述非线性关系。虽然是两个变量之间线性关系的一个度量,却不意味着x和y一定有因果关系。相关系数的显著性检验(t检验)可以用于小样本也可以用于大样本
限制150内