《统计学第五版.doc》由会员分享,可在线阅读,更多相关《统计学第五版.doc(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流统计学第五版.精品文档.统计学第一章1、什么是统计学:收集、处理、分析、解释数据并从数据中得出结论的科学2、分类数据:只能归于某一类别的非数字型数据,对事物进行分类的结果,数据表现为类别,用文字来表述3、顺序数据:只能归于某一有序类别的非数字型数据.对事物类别顺序的测度,数据表现为类别,用文字来表述4、数值型数据:按数字尺度测量的观察值.结果表现为具体的数值,对事物的精确测度分类数据和顺序数据说明事物的品质特征定性数据;数值型数据是说明事物的数量特征定量数据5、截面数据:在相同或近似相同的时间点上收集的数据,描述现象在某一时刻的变化情况6、时
2、间序列数据:在不同时间上收集到的数据,描述现象随时间变化的情况7、总体:所研究的全部个体(数据) 的集合,其中的每一个个体也称为元素8、样本:从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本容量或样本量9、参数:描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值10统计量:用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数第二章1、概率抽样:也称随机抽样2、特点:按一定的概率以随机原则抽取样本 抽取样本时使每个单位都有一定的机会被抽中 每个单位被抽中的概率是已知的,或是可以计算出来的 当用样本对总体目标量进行估计时,要考虑到每个样本单位被
3、抽中的概率3、常用的概率抽样:简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样4、非概率抽样:相对于概率抽样而言抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查5、常用的非概率抽样:方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样等方式 6、非抽样误差:相对抽样误差而言除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异(存在于所有的调查之中,包括概率抽样,非概率抽样,全面性调查)7、非抽样误差的类型:有抽样框误差、回答误差、无回答误差、调查员误差、测量误差第三章P43-50 3.2.1 分类数据的整理与图示频数:落
4、在各类别中的数据个数频数分布表:把各个类别及落在其中的相应频数全部列出,用表格形式表现出来比例:某一类别数据占全部数据的比值百分比:将对比的基数作为100而计算的比值比率:不同类别数值的比值1、 条形图:用宽度相同的条形的高度或长短来表示各类别数据的图形;有单式条形图、复式条形图等形式;主要用于反映分类数据的频数分布;绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图2、帕雷托图:按各类别数据出现的频数多少排序后绘制的柱形图 ;主要用于展示分类数据的分布3、 饼图:也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形;主要用于表示样本或总体中各组成部分所占的比例,用于研究结
5、构性问题;绘制圆形图时,样本或总体中各部分所占的百分比用圆内的各个扇形角度表示,这些扇形的中心角度,按各部分数据百分比占3600的相应比例确定 4、环形图:1、环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示 2、与饼图类似,但又有区别:a.饼图只能显示一个总体各部分所占的比例b.环形图则可以同时 绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环 3、用于结构比较研究 4、用于展示分类和顺序数据P55-63 3.3.2 数值型数据的图示1、 分组数据直方图:用于展示分组数据分布的一种图形;用矩形的宽度和高度来表示频数分布(本质上是用矩形的面积来表示频数分布)
6、;在直角坐标系中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图直方图与条形图的区别:A.条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的B.直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,.其高度与宽度均有意义C.直方图的各矩形通常是连续排列,条形图则是分开排列D.条形图主要用于展示分类数据,直方图则主要用于展示数值型数据2、未分组数据茎叶图:A用于显示未分组的原始数据的分布B由“茎”和“叶”两部分构成,其图形是由数字组成的C以该组数据的高位数值作树茎,低位数字作树叶D树叶上只保留
7、最后一位数字E对于n(20 n 300)个数据,茎叶图最大行数不超过 L = 10 lg n F 茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息直方图适用于大批量数据,茎叶图适用于小批量数3.箱线图未分组数据箱线图:用于显示未分组的原始数据的分布由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成绘制方法:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU);连接两个四分位数画出箱子,再将两个极值点与箱子相连接未分组数据
8、单批数据箱线图:未分组数据多批数据箱线图:4、时间序列数据线图:表示时间序列数据趋势的图形;时间一般绘在横轴,数据绘在纵轴;图形的长宽比例大致为10 : 7;一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断5、 两个变量间的关系二维散点图:展示两个变量之间的关系;用横轴代表变量x,纵轴代表变量y,每组数据(xi ,yi)在坐标系中用一个点表示,n组数据在坐标系中形成的个点称为散点,由坐标及其散点形成的二维数据图6.三个变量间的关系气泡图:显示三个变量之间的关系;图中数据点的大小依赖于第三个变量7、多变量数据雷达图:也称为蜘蛛图;显示
9、多个变量的图示方法;在显示或对比各变量的数值总和时十分有用;假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比;可用于研究多个样本之间的相似程度第四章P81-82 4.1.4 众数、中位数和平均数的比较1、 众数、中位数和均值的关系2、 众数、中位数和均值的特点和应用 众数:不受极端值影响; 具有不唯一性; 数据分布偏斜程度较大时应用中位数:不受极端值影 ;数据分布偏斜程度较大时应用平均数:易受极端值影响;数学性质优良;数据对称分布或接近对称分布时应用P84-88 4.2.3 数值型数据:方差和标准差 极差:一组数据的最大值与最小值之差;离散程度的最简单测度值;易受极端值影响
10、;未考虑数据的分布 计算公式为:R = max(xi) - min(xi)平均差:各变量值与其均值离差绝对值的平均数;能全面反映一组数据的离散程度; 数学性质较差,实际中应用较少 计算公式为:方差和标准差:数据离散程度的最常用测度值;反映了各变量值与均值的平均差异 根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差P89-90 4.2.4 相对离散程度:离散系数1.标准差与其相应的均值之比2.、对数据相对离散程度的测度3、消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较5. 计算公式为第七章P159 表7-1 常用置信水平的Z值置信水平aa
11、/2Z(a/2)90%0.100.051.64595%0.050.0251.9699%0.010.0052.58P169-172 1. 两个总体均值之差的估计:独立样本 (提示EXCEL生成的分析表)P178-180 7.4 样本量的确定第八章P196-199 8.2.2 总体均值的检验.大样本:使用z-统计量:小样本,已知,使用z-统计量: 未知,使用t统计量:P203-206 8.3.2 两个总体均值之差的检验 (提示EXCEL生成的分析表)1.总体标准差已知:1)假定条件两个样本是独立的随机样本两个总体都是正态分布若不是正态分布, 可以用正态分布来近似(n130和 n230)(2)原假设
12、:H0: u1- u2 =0;备择假设:H1: u1- u2 =/= 0(3)检验统计量为:第九章P220 列联分析的作用第十章P235 方差分析的作用P246 表10-4 方差分析表的一般形式P251-260 10.3 双因素方差分析 (提示EXCEL生成的分析表第十一章P270-272 2.相关系数1、度量变量之间关系强度的一个统计量2、对两个变量之间线性相关强度的度量称为简单相关系数3、若相关系数是根据总体全部数据计算的,称为总体相关系数,记为r4、若是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为 r。也称为线性相关系数 或称为Pearson相关系数 样本相关系数的计算公
13、式:性质1:r 的取值范围是 -1,1 |r|=1,为完全相关r =1,为完全正相关r =-1,为完全负正相关 r = 0,不存在线性相关关系 -1r0,为负相关0r1,为正相关|r|越趋于1表示关系越强;|r|越趋于0表示关系越弱性质2:r具有对称性。性质3:r数值大小与x和y原点及尺度无关,性质4:仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。这意为着, r=0只表示两 个变量之间不存在线性相关关系,并不说明变量之间没有任何关系性质5:r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系相关系数的经验解释: |r|0.8时,可视为两个变量之间高度相关0
14、.5|r|0.8时,可视为中度相关0.3|r|0.5时,视为低度相关|r|0.3时,说明两个变量之间的相关程度极弱,可视为不相关上述解释必须建立在对相关系数的显著性进行检验的基础之上P286 11.2.5 回归分析结果的评价1、所估计的回归系数的符号是否与理论或事先预期相一致2、如果理论上认为x与y之间的关系不仅是正的,而且是统计上显著的,那么所建立的回归方程也应该如此3、回归模型在多大程度上解释了因变量y取值的差异?可以用判定系数R2来回答这一问题4、考察关于误差项e的正态性假定是否成立。因为我们在对线性关系进行F检验和回归系数进行t检验时,都要求误差项e服从正态分布,否则,我们所用的检验程
15、序将是无效的。e正态性的简单方法是画出残差的直方图或正态概率图第十二章P302-303 例12.1P303-305 12.2 回归方程的拟合优度P305-308 12.3 显著性检验P308-311 12.4 多重共线性多重共线性:回归模型中两个或两个以上的自变量彼此相关多重共线性带来的问题有: 1、可能会使回归的结果造成混乱,甚至会把分析引入歧途 2、可能对参数估计值的正负号产生影响,特别是各回归系数的正负号有可能同我们预期的正负号相反 多重共线性的识别:1、检测多重共线性的最简单的一种办法是计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验通过自变量间的相关系数矩阵,若有一个
16、或多个相关系数显著,就表示模型中所用的自变量之间相关,存在着多重共线性(一般说来,相关系数超过0.9将会存在共线性问题;相关系数在0.8以上可能有问题)2、如果出现下列情况,暗示存在多重共线性a.型中各对自变量之间显著相关。b.当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不显著 c.回归系数的正负号同预期的相反。 3、 多重共线性(问题的处理)a.将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关b.如果要在模型中保留所有的自变量,则应避免根据 t 统计量对单个参数进行检验对因变量值的推断(估计或预测)的限定在自变量样本值的范围内c.增大样本量,有时可以部分解
17、决共线性问题。d.采用多种自变量筛选方法相结合的方式,建立一个最优的逐步回归方程。e.从专业的角度加以判断,人为去除在专业上较次要的,或缺失值较多、测量误差较大的共线性因子。f.进行主成分分析,用提取出的因子代替原变量进行回归分析。g.进行岭回归分析,可以有效的解决多重共线性问题。h.进行通经分析,采用结构方程,可以对应/自变量间复杂的关系加以精确刻画。名词解释6、残差;因变量的观测值yi与根据估计的回归方程求出的预测值yi之差,用e表示。对于第i个观测值,残差为ei=yi-yi7、多元回归模型:描述因变量 y 如何依赖于自变量 x1 , x2 , xp 和误差项的方程。 一般形式:8、独立样本:一个样本中的元素与另一个样本中的元素相互独立。9、相关关系:变量间关系存在的一种不确定的数量关系,一个变量的取值不能由另一个变量唯一确定10、置信水平:也称为置信度或置信系数,它是将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例
限制150内