《统计学》重点归纳.pdf

资源ID：74133753 资源大小：586.11KB 全文页数：12页
资源格式： PDF 下载积分：11.9金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要11.9金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

《统计学》重点归纳.pdf

1 统计学期末重点 1.统计学的类型和不同类型的特点统计数据；按所采用的计量尺度不同分；（1）（定性数据）分类数据：只能归于某一类别的非数字型数据，它是对事物进行分类的结果，数据表现为类别，用文字来表述；（2）（定性数据）顺序数据：只能归于某一有序类别的非数字型数据。它也是有类别的，但这些类别是有序的。（3）（定量数据）数值型数据：按数字尺度测量的观察值，其结果表现为具体的数值。统计数据；按统计数据都收集方法分；（4）观测数据：是通过调查或观测而收集到的数据，这类数据是在没有对事物人为控制的条件下得到的。（5）实验数据：在实验中控制实验对象而收集到的数据。统计数据；按被描述的现象与实践的关系分；（6）截面数据：在相同或相似的时间点收集到的数据，也叫静态数据。（7）时间序列数据：按时间顺序收集到的，用于描述现象随时间变化的情况，也叫动态数据。2.变量的题型第 10 页，习题 1.1（1）年龄：数值型变量（2）性别：分类变量（3）汽车产量：离散型变量（4）员工对企业某项改革措施的态度（赞成、中立、反对）：顺序变量（5）购买商品时的支付方式（现金、信用卡、支票）：分类变量 3.随机抽样（概率抽样）的抽样方式。（1）简单随机抽样（2）分层抽样：就是抽样单位按某种特征或者某种规则划分为不同的层，然后从不同的层中独立、随机地抽取样本。将各层的样本结合起来，对总体目标量进行估计。（3）整群抽样：（4）系统抽样（5）多阶段抽样 2 分层抽样与整群抽样的区别：分层抽样的层数就是样本容量；整群抽样的群中单位的个数就是样本容量 4.非概率抽样的几种类型（1）方便抽样（2）判断抽样（3）自愿样本（4）滚雪球抽样滚雪球抽样往往用于对稀少群体的调查。在滚雪球抽样中，首先选择一组调查单位，对其实施调查后，再请他们提供另外一些属于研究总特的调查对象，调查人员根据调查线索，进行此后的调查。这个过程持续下去，就会形成滚雪球效应。优点：容易找到那些属于特定群体的被调查者，调查成本也比较低。（5）配额抽样比较概率抽样和非概率抽样的特点，指出各自适用情况概率抽样：抽样时按一定的概率以随机原则抽取样本。每个单位别抽中的概率已知或可以计算，当用样本对总体目标量进行估计时，要考虑到每个单位样本被抽到的概率。技术含量和成本都比较高。如果调查目的在于掌握和研究对象总体的数量特征，得到总体参数的置信区间，就使用概率抽样。非概率抽样：操作简单，时效快，成本低，而且对于抽样中的统计学专业技术要求不是很高。它适合探索性的研究，调查结果用于发现问题，为更深入的数量分析提供准备。它同样使用市场调查中的概念测试（不需要调查结果投影到总体的情况）。5.数据预处理内容数据审核（完整性和准确性；适用性和实效性），数据筛选和数据排序。6.数据型数据的分组方法和步骤分组方法：单变量值分组和组距分组，组距分组又分为等距分组和异距分组。分组步骤：（1）确定组数（2）确定各组组距（3）根据分组整理成频数分布表 3 7.散点图与饼图的主要用途饼图是用圆形及圆内扇形的角度来表示数值大小的图形，它主要用于表示一个样本（或总体）中各组成部分的数据占全部数据的比例，对于研究结构性问题十分有用。散点图是描述变量之间关系的一种直观方法，从中可以大体上看出变量之间的关系形态及关系强度。8.举例说明开口组组中值的计算方法缺下限开口组组中值上限1/2 邻组组距缺上限开口组组中值下限+1/2 邻组组距 9.怎样理解平均数在统计学中的地位？平均数在统计学中具有重要的地位，是集中趋势的最主要的测度，主要适用于数值型数据，而不适用于分类数据和顺序数据。10.中位数与众数的区别众数：是一组数据中出现次数最多的变量值，用M0表示。众数主要用于测度分类数据的集中趋势，当然也适用于作为顺序数据以及数值型数据集中趋势的测度值。中位数：是一组数列排序后处于中间位置上的变量值，用Me。中位数主要用于测度顺序数据的集中趋势，当然也适用测度数值型数据的集中趋势，但不适用于分类数据。简述众数、中位数和平均数的特点和应用场合。众数是一组数据分布的峰值，不受极端值的影响，缺点是具有不唯一性。众数只有在数据量较多时才有意义，数据量较少时不宜使用。主要适合作为分类数据的集中趋势测度值。中位数是一组数据中间位置上的代表值，不受极端值的影响。当数据的分布偏斜较大时，使用中位数也许不错。主要适合作为顺序数据的集中趋势测度值。平均数对数值型数据计算的，而且利用了全部数据信息，在实际应用中最广泛。当数据呈对称分布或近似对称分布时，三个代表值相等或相近，此时应选择平均数。但平均数易受极端值的影响，对于偏态分布的数据，平均数的代表性较差，此时应考虑中位数或众数。4 11.标准差系数（离散系数或变异系数）的计算及其应用（第 89 页，第 96 页习题 4.8（1）xVss 为什么要计算离散系数？方差和标准差是反映数据分散程度的绝对值，一方面其数值大小受原变量值本身水平高低的影响，也就是与变量的平均数大小有关；另一方面，它们与原变量的计量单位相同，采用不同计量单位的变量值，其离散程度的测度值也就不同。因此，为消除变量值水平高低和计量单位不同对离散程度测度值的影响，需要计算离散系数。12.什么是次序统计量设X1，X2，Xn是从总体X中抽取的一个样本，Xi)(称为第i个次序统计量，它是样本XXXn，21满足如下条件的函数：每当样本得到一组观测值xxxn，21时，其由小到大的排序xxxxni)()()2()1(中，第i个值xi)(就作为次序统计量Xi)(的观测值，而XXXn)()2()1(，称为次序统计量。其中，XXn)()1(和分别为最小的的最大次序统计量。13.什么是自由度？自由度：随机变量所包含的独立变量的个数。14.偏态系数（SK）取值的不同意义如果一组数据的分布是对称的，则偏态系数等于 0；如果偏态系数明显不等于 0，表明分布是非对称的。若偏态系数大于 1 或小于-1，成为高度偏态分布；若偏态系数在 0.5-1 或-1-0.5 之间，被认为是中等偏态分布；偏态系数越接近 0，偏斜程度就越低。15.中心极限定理的内容设从均值方差为2的任意一个总体中抽取样本量为 n 的样本，当 n 充分大时，样本均值x的抽 5 样分布近似服从均值为，方差为n2的正态分布。16.评价估计量的标准（1）无偏性无偏性是指估计量抽样分布的数学期望等于被估计的总体参数。设总体参数为，所选择的估计量为，如果 E（）=，则称为的无偏估计量。（2）有效性有效性是指对同一整体参数的两个无偏估计量，有更小的标准的估计量更有效。在无偏估计的条件下，估计量的方差越小，估计也就越有效。（3）一致性一致性是指随着样本量的增大，估计量的指越来越接近被估计总体的参数。换而言之，一个大样本给出的估计量要比一个小样本给出的估计量更接近总体的参数。17.简述样本量与置信水平、总体方差、估计误差的关系样本量越大置信水平越高，总体方差和边际误差越小 18.大样本条件下总体均值的区间估计（1）大样本条件下，方差2已知，正态总体或非正态总体总体均值在-1置信水平下的置信区间为：nxz2（nxz2为置信下限；nxz2为置信上限，为事先确定的一个概率值，也称风险值，是总体均值不包括在置信区间的概率；-1为置信水平；z2是标准正态分布右侧面积为2时的 z 值；nz2是总体均值的估计误差）（2）大样本条件下，方差2未知，正态总体或非正态总体 6 总体均值在-1置信水平下的置信区间为：nsxz2（s2为样本方差，s 为样本标准差）19.置信区间可靠性与精确性的关系置信度又称置信水平是对总体参数进行区间估计时构造的随机区间包含参数真值的概率。精确度是对总体参数进行区间估计时构造的随机区间的平均长度。置信度和精确度是评价区间估计优劣的两个标准，置信度度和精确度都高则说明区间估计较好，但是二者是此消彼长的关系，提高置信度必将以降低精确度为代价。20.假设检验和参数估计有什么相同点和不同点？参数估计和假设检验是统计推断的两个组成部分，它们都是利用样本对总体进行某种推断，然而推断的角度不同。参数估计讨论的是用样本统计量估计总体参数的方法，总体参数在估计前是未知的。而在参数假设检验中，则是先对的值提出一个假设，然后利用样本信息去检验这个假设是否成立。21.假设检验的种类及假设的正确写法建设检验的一般流程：首先提出原假设和备择假设，分别为：:10HH 然后，确定适当的检验统计量，需要考虑样本量的多与少，总体标准差已知与否，等等。规定显著性水平检验统计量的确定：若是大样本条件下，采用 z 统计量，计算公式为：nxz0或nsxz0 若是小样本条件下，采用 t 统计量，计算公式为 nsxtnxt00或 7（t 统计量的自由度为 n-1）注：即使是小样本，若已知，仍可继续使用 z 统计量。最后，进行统计决策。比例问题的检验，z 统计量的计算公式为：npz)1(000（p 为样本比例；0为总体比例的假设值）（1）双侧检验在双侧检验中，只要0或0两者之中有一个成立，就可以拒绝原假设。以大样本条件下为例，双侧检验的决策准则为：。，拒绝若；，不拒绝若HzHzzz0202（z 的下标2表示双侧检验）不管双侧检验或是单侧检验，若使用P 值检验，HP0，拒绝；HP0，不能拒绝。（2）单侧检验左单侧检验（下限检验）希望所考查的数值越大越好右单侧检验（上限检验）希望所考查的数值越小越好 22.大样本条件下总体均值的假设检验（192 页例题）5.总体方差假设检验的方法 2221-ns）（若进行双侧检验，在确定的水平下，拒绝域分布在2统计量分布曲线的两边；8 若是单侧检验，拒绝域分布在2统计量分布曲线的一边。具体在左还是在右，需根据原假设和备择假设的情况而定。若样本统计量22)1n（，则拒绝原假设；若22)1n（，则不能拒绝原假设。23.假设检验中犯两类错误及其概率之间的关系假设检验的结果可能是错误的，所犯的错误有两种类型，一类错误是原假设 H0 为真却被我们拒绝了，犯这种错误的概率用表示，所以也称错误或弃真错误；另一类错误是原假设为伪我们却没有拒绝，犯这种错误的概论用表示，所以也称错误或取伪错误。两类错误之间存在什么样的数量关系：在假设检验中，与是此消彼长的关系。如果减小错误，就会增大犯错误的机会，若减小错误，也会增大犯错误的机会。故，二者是此消彼长的关系。24.列联表的概念及自由度的确定列联表是由两个以上的变量进行交叉分类的頻数分布表。自由度=（R-1）（C-1）简述列联表的构造与列联表的分布两个以上的变量进行交叉分类的頻数分布表，包括观察值的分布与期望值的分布。25.列联表检验的步骤(4 个），即计算2统计量步骤（1）计算ffe0（2）计算ffe02（3）计算fffee02（4）计算fffee022 26.相关系数的计算及性质 9 )(2222(yyxxnnyxxynr 简述相关系数性质：（1）r 的取值范围为-1 到 1，r=1 时，完全正线性相关 R=-1 时，完全负线性相关 R=0 时，不存在线性相关关系 0r=-1,负线性相关 0r=1,正线性相关 R 越趋近于+1，线性相关关系越密切 R 越趋近于 0，线性相关关系越不密切（2）r 具有对称性。x 与 y 之间的相关系数和 y 与 x 之间的相关系数相等。（3）r 数值大小与 x 和 y 的原点及尺度无关。（4）r 仅仅是 x 与 y 之间线性关系的一个度量，它不能用于描述非线性关系。（5）r 虽然是两个变量之间线性关系的一个度量，却不一定意味着 x 与 y 一定有因果关系。27.简述参数最小二乘估计的基本原理未知量的最可能值是使各项实际观测值和计算值之间差的平方乘以其精确度的数值以后的和为最小。28.简述判定系数的含义和作用回归平方和占总平方和的比例称为判定系数，判定系数是对估计得回归方程拟合优度的度量。1 0 yyyyyyyyRiiiiSSTSSR222221 三个平方和的关系为：总平方和（SST）=回归平方和（SSR）+残差平方和（SSE）判定系数 R测度了回归直线对观测数据的拟合程度。判定系数 R的取值范围是0，1。R越接近 1，表明回归平方和占总平方和的比例越大，回归直线各观测点越接近，用 x 的变化来解释 y 值变差的部分就越多，回归直线的拟合程度就越好；反之 R越接近 0，回归直线的拟合程度就越差。29.简单线性回归方程的计算 xyniinnxxyxyxniiniiniiinii1011)(212111 xyii10（0是估计的回归直线在 y 轴上的截距；1是直线的斜率，表示 x 每变动一个单位时，y 的平均变动值。）30.平稳序列与非平稳序列平稳序列是基本上不存在趋势的序列。非平稳序列是包含趋势、季节性或周期性的序列，它可能只含有其中一种成分，也可能含有几种成分的组合。31.简述时间序列的预测程序。第一步：确定时间序列所包含的成分，也就是确定时间序列的类型。第二步：找出适合此类时间序列的预测方法。1 1 第三步：对可能的预测方法进行评估，以确定最佳预测方案。第四步：利用最佳预测方案进行预测。32.简述复合型序列预测的步骤第一步：确定并分离季节成分，计算季节指数，以确定时间序列中的季节成分。然后将季节性因素从时间序列中分离出去，以便观察和分析时间序列的其他特征。第二步：对消除了季节成分的时间序列建立适当预测模型，并进行预测。第三步：计算出最后的预测值。用预测值乘以相应的季节指数，得到最终的预测值 33.简述季节指数的计算步骤（1）计算移动平均值(季度数据采用 4 项移动平均，月份数据采用 12 项移动平均)，并将其结果进行“中心化”处理 (将移动平均的结果再进行一次二项的移动平均，即得出“中心化移动平均值”(CMA)（2）计算移动平均的比值，也成为季节比率 (即将序列的各观察值除以相应的中心化移动平均值，然后再计算出各比值的季度(或月份)平均值，即季节指数)（3）季节指数调整 (各季节指数的平均数应等于 1 或 100%，若根据第二步计算的季节比率的平均值不等于 1 时，则需要进行调整。具体方法是：将第二步计算的每个季节比率的平均值除以它们的总平均值)34.什么是指数体系？它有什么作用？指数体系是指三个或三个以上的指数在一定的经济联系基础上所形成的整体，它们之间在数量上相互衔接和制约，形成一种乘积的关系。作用：（1）从数量方面研究分析社会经济现象总体变动中各个因素变动的影响程度和绝对效果，即进行因素分析。（2）利用指数之间的联系，进行必要的推算。1 2

注意事项

本文（《统计学》重点归纳.pdf）为本站会员（l***）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。