2023年统计学必知知识点归纳总结合集.pdf
统计学必知知识点合集 统计学知识点合集 1.试验与事件:对某事物或现象所进行的观察或实验叫试验,把结果叫事件。2.基本事件(elementary event):如果一个事件不能分解成两个或更多个事件,就称为基本事件。一次观察只能有一个基本事件。3.样本空间:一个试验中所有的基本事件的全体称为样本空间。4.古典概型:如果某一随机试验的结果有限,而且各个结果出现的可能性相等,则某一事件 A发生的概率为该事件所包含的基本事件个数 m 与样本空间中所包含的基本事件个数 n的比值。5.统计概型:在相同条件下随机试验 n 次,某事件 A 出现 m 次(mn),则 m/n 称为事件 A发生的频率。随着 n 增大,该频率围绕某一常数 p 上下波动,且波动幅度逐渐减小,趋于稳定,这个频率的稳定值就就是该事件的概率。6.概率加法:(1)两个互斥事件:P(A+B)=P(A)+P(B);任意两随机事件:P(A+B)=P(A)+P(B)-P(AB)。7.事件独立(independent):一个事件发生与否不会影响另一个事件发生的概率,公式为:P(AB)=P(A)P(B)。互斥(相依赖)一定不独立,不独立不一定互斥(相依赖)。8.全概率公式:根据某一事件发生的各种原因的概率,计算该事件的概率。计算公式为:n1iii)A|B(P)A(P)B(P。9.贝叶斯公式:在条件概率的基础上寻找事件发生的原因。计算公式为:n1iiiiii)A|B(P)A(P)A|B(P)A(P)B|A(P,分母就就是全概率公式。也称为逆概率公式。该公式就是在观察到事件 B已发生的条件下,寻找导致 A发生的每个原因 Ai的概率。P(Ai)称为验前概率,P(Ai|B)就是验后概率。10.0-1分布:1,0 x,qp)x(Px-1x。0-1分布也称为两点分布,即非 A即 B。关于就是否的概率统统就是 0-1分布。性别。11.二项分布:现实生活中,许多事件只就是具有两种互斥结果的离散变量。如男性与女性、某种化验结果的阴性阳性,这就就是二项分布。x-nxxnqpC)xX(P。参数为 n,p,记为 XB(n,p)。E(X)=np,D(X)=npq。当成功的概率很小,而试验次数很大时,二项分布接近泊松分布,此时=np。即 P0、25,n20,np5。二项定理近似服从正态分布。二项分布就是 0-1分布的 n 重实验,表示含量为 n 的样本中,有 X个所需结果的概率。12.二项分布的正态近似:)a(-)b(dte21qpC)xx(P2t-xxxbax-nxxn21221,其中a=npqnp-x1,b=npqnp-x2,q=1-p。13.超几何分布:nNm-nM-NnMCCC)2X(P。即二项分布中,无放回的情况。统计学必知知识点合集 14.泊松分布(poisson distribution):用来描述在一指定时间范围内或在指定的面积之内某事件出现的次数的分布。如某企业中每月发生的事故次数、单位时间内到达某一服务柜台需要服务的顾客人数、人寿保险公司每天收到的死亡声明个数、某种仪器每月出现故障的次数等。公式为:!xe)X(P-x,E(X)=,D(X)=。就是给定时间间隔内事件的平均数。15.期望:各可能值 xi与其对应概率 pi的乘积之与为该随机变量 X的期望,即n1iiipx。16.概率密度满足的条件:(1)f(x)0;(2)-1dx)x(f。连续型随机变量的概率密度就是其分布函数的倒数。ba)a(F-)b(F)x(f。-dx)x(xf)x(E;-22dx)x(fE(x)-x)x(D。17.正态分布(normal distribution):正态分布的概率密度为:222)-x(-e21)x(f,xR。记作 X(2,)。18.正态分布图形特点:(1)f(x)0,即整个概率密度曲线都在x轴上方;(2)f(x)相对于x=对称,并在 x=处取到最大值,最大值为21;(3)曲线的陡缓由决定,越大,越平缓,越小,曲线越陡峭;(4)当 x 趋于无穷时,曲线以 x 轴为渐近线。19.正态分布的例子:某地区同年龄组儿童的发育特征、某公司的销售量、同一条件下产品的质量以平均质量为中心上下摆动、特别差与特别好的都就是少数,多数在中间状态,如人群中的高个子与矮个子都就是少数,中等身材居多等。20.标准正态分布,即在正态分布中,=0,=1,有2x-2e21)x(f,即 XN(0,1)。用表示分布函数,表示概率密度。(-x)=1-(x)。21.方差:即每个随机变量取值与期望值的离差平方的期望值。随机变量的方差计算公式为:22i1i2i22)X(E-)X(Ep)X(E-x)X(E-X E)X(D。22.标准差:随机变量的方差的平方根为标准差,记)X(D。标准差与随机变量 X有相同的度量单位。23.期望、标准差、离散系数的使用:如果期望相同,那么比较标准差;如果期望不同,那么比较离散系数。24.3准则:由标准正态分布得:当 XN(0,1)时,P(|X|1)=2(1)-1=0、6826;P(|X|统计学必知知识点合集 2)=2(2)-1=0、9545;P(|X|3)=2(3)-1=0、9973、这说明 X的取值几乎全部集中在-3,3之间,超出这个范围的不到 0、3%。将结论推广到一般正态,即 XN(,)时,有 P(|X-|)=0、6826;P(|X-|2)=0、9545;P(|X-|3)=0、9973。可以认为 X的值一定落在(-3,+3)内。25.矩:(1)n1ikikXn1m为样本 k 阶矩,其反映出总体 k 阶矩的信息,当 k=1 时,即均值;(2)n1ikik)X-X(n1v为样本 k阶中心矩,它反映出总体 k 阶中心矩的信息,当 k=2时,即方差;(3)232n1ii3n1ii3))XX(()XX(n为样本偏度,它反映总体偏度的信息,偏度反映了随机变量密度函数曲线在众数两边的对称偏斜性;(4)3))X-X()X-X(nn1i22in1i4i4为样本峰度,它反映出总体峰度的信息,峰度反映密度函数曲线在众数附近的峰的尖峭程度。26.充分统计量:统计量加工过程中一点信息都不损失的统计量称为充分统计量。27.因子分解定理:充分统计量判定方法。当 X=(X1,X2,Xn)就是来自正态分布 N(,2)的一个 样本 时,若已知,则2n1ii)-X(就 是2的 充分统 计量,若 2已知,则n1iiXn1X就是的充分统计量。28.精确抽样分布与渐近分布:在总体 X的分布类型已知时,若对任一自然数 n,都能导出统计量 T=(X1,X2,Xn)的分布数学表达式,这种分布就就是精确抽样分布,包括卡方、F,t 分布;当 n 较大时,用极限分布作为抽样分布的一种近似,这种极限分布称为渐近分布,如中心极限定理。29.卡方分布:设随机变量 X1,X2,Xn相互独立,且 Xi服从标准正态分布 N(0,1),则它们的平方与n1i2iX服从自由度为 n 的2分布。E(2)=n;D(2)=2n;2具有可加性;当自由度增加到足够大时,2分布的概率密度曲线趋于对称,当 n 趋于无穷时,2的极限分布就是正态分布。30.t 分布:也称为学生氏分布。设随机变量 XN(0,1),Y2(n),且 X与 Y独立,则n/YXt,统计学必知知识点合集 其分布称为 t 分布,记为 t(n),n 就是自由度。t 分布的密度函数就是偶函数。当 n2时,E(t)=0,;当 n3 时,D(t)=n/(n-2)。t(n)的方差比 N(0,1)大一些。自由度为 1 的分布称为柯西分布,随着 n 增加,t 分布的密度函数越来越接近标准正态分布的密度函数。实际应用中,当 n30 时,t 分布于标准正态分布很接近。另有一个关于 t 分布的抽样分布:)1-n(tS)-X(n,称为服从自由度为(n-1)的 t 分布。31.F分布:设随机变量 Y与 Z独立,且 Y与 Z分别服从自由度为 m 与 n 的2分布,随机变量 X如下:mZnYn/Zm/YX。则成 X服从第一自由度为 m,第二自由度为 n 的 F 分布,记为XF(m,n)。E(X)=n/(n-2),n2;D(X)=)4-n)(2-n(m)2(n22nm,n4。32.t 分布与 F分布的关系:如果随机变量 X服从 t(n)分布,则 X2服从 F(1,n)的 F分布。这在回归系数显著性检验中有用。33.X的抽样分布(sampling distribution):当总体分布为正态分布时,X的抽样分布仍然就是正态分布,此时 E(X)=,D(X)=2/n,则),(NX2n。其说明当用样本均值去估计总体均值时,平均来说没有偏差(无偏性);当n越来越大时,X的散布程度越来越小,即用X估计越来越准确。34.中心极限定理(central limit theorem):不管总体的分布就是什么,只要总体的方差2有限且要求 n30,此时样本均值X的分布总就是近似正态分布,即XN(,2/n)。35.样本比例的抽样分布:如果在样本大小为 n 的样本中具有某一特征的个体数为 X,则样本比例为:)n)1(,(NnXp。就是总体比例,即 p=X/n=。36.两个样本均值之差的分布:若为两个总体,则:212121)X(E)X(E)X-X(E;2221212121nn)X(D)X(D)X-X(D;若就是两个样本,则:2121)p-p(E;22211121n)1(n)1()p-p(D。37.样本方差的分布:设X1,X2,Xn为来自正态分布的样本,则设总体分布为N(,2),则样本统计学必知知识点合集 方差 S2的分布为:)1-n(S)1-n(222。38.两个样本方差比的分布:设 X1,X2,Xn就是来自正态分布的样本,y1,y2,yn也就是来自正态分布的样本,且 Xi与 yi独立,则)1-n,1-n(F/S/S/S/S21222y212x22212y2x。39.参数估计(parameter estimation):用样本统计量去估计总体的参数。40.点估计(point estimate):用样本统计量的某个取值直接作为总体参数的估计值。41.区间估计(interval estimate):就是在点估计的基础上,给出总体参数估计的而一个区间范围,该区间通常由样本统计量加减估计误差得到。42.置信区间(confidence interval):在区间估计中,由样本统计量所造成的总体参数的估计区间称为置信区间。43.置信水平(confidence level):如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例为置信水平,也称为置信度或置信系数。其含义为:如果做了 100次抽样,大概有 95 次找到的区间包含真值,而不就是 95%的可能落在区间,因为统计量不涉及概率问题。44.无偏性(inbiasedenss):指估计量抽样分布的期望等于被估计的总体参数。设总体参数为,估计量为,如果 E()=,则称 为的无偏估计量。45.有效性(efficiency):指对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效。46.一致性(consistency):指随着样本量的增大,点估计量的值越来越接近被估总体的参数,换个说法,一个大样本给出的估计量要比一个小样本给出的估计量更接近总体参数。47.样本量与置信水平、总体方差与估计误差的关系:样本量与置信水平成正比,在其她条件不变的情况下,置信水平越大,所需的样本量也就越大;样本量与总体方差成正比,总体的差异越大,所要求的样本量也越大;样本量与估计误差的平方成反比,即可接受的估计误差的平方越大,所需的样本量就越小。48.圆整法则:将样本量取成较大的整数,也就就是将小数点后面的数值一律进位成整数。49.两类错误:一类就是原假设 H0为真却拒绝,这类错误用表示,称为弃真;另一类就是原假设为伪而我们却接受,这种错误用表示,也称存伪。50.两类错误的控制原则:如果减小错误,就会增大犯错误的机会;若减小错误,也会增大犯错误的机会。规则就是:首先控制错误,这就是因为原假设就是什么常常就是明确的,而备择假设就是什么则常常就是模糊的。51.P 值:P 值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。P 值越小,拒绝原假设的理由就越充分。P 值的长处就是它反映了观察到的实际数据与原假设之间不一致的概率值。52.双侧检验与单侧检验:双侧检验主要就是检验就是否相等,如 90 年的婴儿体重与 89 年婴儿体重就是否相等;另一种就是单侧检验,即关心的假设问题带有方向性,如灯泡的使用寿命,汽车行驶距离等;另一种就是数值越小越好,如废品率、生产成本等。53.统计量的选择:在一个总体参数的检验中,主要统计量有三个,z、t 与2。z 与 t 用于均值与比例检验,2用于方差检验。统计量选择步骤如下:(1)就是否就是大样本,如果就是,那么如果总体呈正态分布,样本统计量也呈正态分布;如果总体不呈正态分布,样本统计量渐统计学必知知识点合集 进服从正态分布;此时可以使用z统计量(2)如果就是小样本,那么观察,如果已知,样本统计量将服从正态分布,此时可以用 z 统计量(3)如果未知,则只能使用样本标准差,样本统计量服从 t 分布,应采用 t 统计量。t 统计量的精度不如 z 统计量,这就是总体信息未知所需要付出的代价。54.总体比例检验公式:n)-1(-pz000。P 为样本比例,0 就是总体比例的假设值。55.总体(population):包含所研究的全部个体的集合,组成总体的每一个元素称为个体。当总体的范围难以确定时,可根据研究的目的来定义总体。56.样本(sample):样本就是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量。57.参数(parameter):参数就是用来描述总体特征的概括性数字度量。58.统计量(statistic):统计量就是用来描述样本特征的概括性数字度量。抽样的目的就就是根据样本统计量估计总体参数。统计量中不能包含未知参数。59.变量(variable):说明现象某种特征的概念,特点就是从一次观察到下一次观察结果会呈现出差别或变化。变量分为分类变量、顺序变量、数值型变量,数值型变量又分为离散型变量与连续型变量。60.概率抽样(probability sampling):也称随机抽样,指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。概率抽样分为简单随机抽样、分层抽样、整群抽样、系统抽样与多阶段抽样。61.简单随机抽样(simple random sampling):从包括总体N个单位的抽样框中随机的一个一个的抽取 n 个单位作为样本,每个单位的入样概率就是相等的。62.非概率抽样(non-simple random sampling):指抽取样本时不依据随机原则,而就是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。包括方便抽样、判断抽样、自愿样本、滚雪球抽样与配额抽样。63.抽样误差(sampling error):指由于抽样的随机性引起的样本结果与总体真值之间的误差。64.频数(frequency):就是落在某一特定类别或组中的数据个数。把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来,称为频数分布。65.列联表(contingency table)与交叉表(cross table):由两个或两个以上变量交叉分类的频数分布表称为列联表。二维的列联表又称为交叉表。66.帕累托图(pareto chart):按各类别数据出现的频数多少排序后绘制的条形图。通过对条形图排序,容易瞧出哪类数据出现得多,哪类数据出现的少。67.饼图(pie chart):就是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本中各组成部分的数据站全部数据的比例,对于研究结构性问题十分有用。68.环形图(doughnut chart):把饼图叠在一起,挖去中间部分就就是环形图。环形图可显示多个样本部分所占的相应比例,从而有利于构成的比较研究。69.累积频数(cumulative frequencies):将各种有序类别或组的频数逐级累加起来得到的频数,通过累积频数可以很容易瞧出某一类别以下或某一类别以上的频数之与。70.组中值(class midpoint):就是每一组中下限值与上限值中间的值,组中值可以作为该组数据的一个代表值,但就是用组中值有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布,否则会产生误差。71.直方图(histogram):适用于展示分组数据分布的图形,用于大批量数据的分析。72.茎叶图(stem-and-leaf display):反映原始数据分布的图形,由茎叶两部分组成,其图形就是统计学必知知识点合集 由数字组成的。可以瞧出数据的分布形状及数据的离散情况且能保留原始信息,适用于小数据。73.箱线图(box-plot):由最大值、最小值、中位数、两个四分位数组成,主要用于反应原始数据分布的特征,还可以进行多组数据分布特征的比较。74.线图(line plot):主要用于反应现象随时间变化的特征。75.散点图(scatter diagram):用二维坐标展示两个变量之间关系的图形。76.气泡图(bubble chart):可用于展示三个变量之间的关系。一个变量就是横轴、一个变量就是纵轴、一个变量用气泡大小表示。77.雷达图(radar chart):也称蜘蛛图。设有n组样本S1,S2Sn,每个样本测得P个变量X1,X2XP,要绘制这P个变量的雷达图,具体做法就是,先画一个圆,然后将圆P等分,得到P个点,令这P 个点分别对应 P 个变量,再将这 P 个点与圆心连线,得到 P 个辐射状的半径,这 P 个半径分别作为 P 个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示,再将同一样本的值在 P 个坐标上的点连线。这样,n 个样本构成的 n 个多边形就就是雷达图。雷达图在显示或对比各变量的数值总与时十分有用,假定各变量的取值具有相同的正负号,则总的绝对值与图形所围成的区域成正比。此外,利用雷达图可以研究多个样本之间的相似度。78.众数(mode):一组数据中出现次数最多的变量值,用0M表示。主要用于测度分类数据、顺序数据、数值数据的集中趋势,不受极端值影响,一组数据分布的最高峰点所对应的数值即为众数。只有在数据量较大时,众数才有意义。79.中位数(median):中位数时一组数据排序后处于中间位置上的变量值,用eM表示。中位数主要用于测度顺序数据与数值型数据的集中趋势,但不适用于分类数据。中位数位置为:(n+1)/2;中位数的值为xx21,xM1)(n/2)n/2()2/)1((en。中位数就是一个位置代表值,其特点就是不受极端值影响,在研究收入分配时很有用。80.平均数也称为均值(mean),就是集中趋势的最主要测度值,主要适用于数值型数据,不适用于分类数据与顺序数据。平均数分为简单平均数与加权平均数,简单平均数(simple mean)的计算公式为:nxnxxxxn1iin21。根据分组数据计算的平均数称为加权平均数(weighted mean)。设原始数据被分为k组,各组的组中值分别用k21M,M,M表示,各组变量值出现的品数分别用k21f,f,f表示,则样本加权平均数的计算公式为:nfMnfMfMfMxn1iiinn2211,其中 n=if。平均数就是一组数据的重心所在,就是数据误差相互抵消后作用的结果。81.几何平均数(geometric mean):就是 n 个变量值乘积的 n 次方根,用 G 表示,计算公式统计学必知知识点合集 为:nn1iinn321xxxxxG。几何平均数主要用于计算平均率,当所掌握的变量值本身就是比率的形式时,采用几何平均法更合理。在实际中,几何平均数主要用于计算现象的平均增长率。82.异众比率(variation ratio):指非众数组的频数占总频数的比例,用rV表示,计算公式为:imimirff-1ff-fV。fm 就是众数组的频数,fi 就是变量值的总频数。异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;异众比率越小,非众数组的频数占总频数的比重越小,众数的代表性越好。异众比率可用于分类数据、顺序数据与数值型数据。83.四分位差(quartile deviation):也称为内距或四分间距(inter-quartile range):就是上四分位数与下四分位数之差,用dQ表示,计算公式为:LUdQ-QQ。四分位差反映了中间 50%数据的离散程度,其数值越小,中间的数越集中;数值越大,中间的数越分散。四分位数不受极值影响。可用于顺序数据与数值数据,但不能用于分类数据。84.极差(range):也称为全距,用 R 表示,指一组数据的最大值与最小值之差。计算公式为:)x(min-)x(maxRii。极差容易受极端值影响。85.平均差(mean deviation):也称为平均绝对离差(mean absolute deviation):就是各变量值与其平均数离差绝对值的平均数。用dM表示。平均差以平均数为中心,反应了每个数据与平均数的平均差异程度,能全面反应一组数据的平均差异程度,但由于为避免出现 0 而取绝对值,所以实际中应用较少。根据未分组数据计算平均差的公式为:nx-xMn1iid;根据分组数据计算平均差的公式为:nfx-MMk1iiid。86.方差(variance)与标准差(standard variance):方差就是各变量值与其平均数离差平方的平均数。方差的平方根就是标准差。设样本方差为2S,根据分组与未分组数据计算样本方差的公式为:1-nf)x-M(s,1-n)x-x(sk1ii2i2n1i2i2,其中 n-1就是自由度。标准差更具有实际意义。87.自由度(degree of freedom):自由度指附加各独立的观测值的约束或限制的个数。当样本数据的个数为 n 时,若样本平均数x确定后,则附加给 n 个观测值的约束个数就是 1 个,因统计学必知知识点合集 此只有 n-1个数据可以自由取值。例如,假定样本有 3 个数,2,4,9,则x=5,那么如果前两个值取 5 与 8,则第三个数必须取 2 才能使x=5,所以有一个数就是不能自由取值的,所以自由度就是 n-1。88.标准分数(standard score):就是变量值与其平均数的离差除以标准差后的值,也称为标准化值或 z 分数,计算公式为:sx-xzii。标准分数给出了一组数据中各数值的相对位置。比如,如果某个数值的标准分数为-1、5,就知道该数值低于平均数 1、5 倍的标准差。标准分数具有均值为 0,标准差为 1 的特性,实际上 z 分数只就是对数据进行了线性转换。用于数据标准化与检测离散数据。89.经验法估计数据的相对位置:当一组数据对称分布时,约有 68%的数据在平均数1 个标准差内;约有 95%的数据在平均数2 个标准差内;约有 99%的数据在平均数3 个标准差内。三个标准差之外的数据称为离群点。90.切比雪夫不等式(Chebyshevs inequality):经验法只适合对称分布数据,而切比雪夫不等式适用于任何分布的数据,但只给了下界,即所占比例至少就是多少。切比雪夫不等式公式为:2DX)EX-X(P。根据该公式可知,至少有(1-1/)个数据落在 k 个标准差之内,对于 k=2,该不等式的含义就是,至少有 75%的数据落在2 个标准差之内。91.离散系数:也称为变异系数(coefficient of variation),就是一组数据的标准差与其相应的平均数之比,计算公式为:xsvs。离散系数就是测度数据离散程度的相对统计量,主要就是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度大。离散系数就是比较平均水平不同或计量单位不同的不同组别的变量值的离散程度。92.离散测度总结:分类数据主要用异众比率来测度离散程度;顺序数据主要用四分位数来测度离散程度;数值数据主要用方差与标准差测度离散程度;而对于不同的样本数据,用离散系数比较离散程度。93.偏态(skewness):偏态就是对数据分布对称性的测度。测度偏态的统计量就是偏态系数(coefficient of skewness),记作 SK。根据未分组与分组的原始数据计算偏态系数的公式为:3k1ii3i33insf)x-M(SK,s)2)(1()x-x(nSKnn。如果一组数据的分布就是对称的,则偏态系数等于 0,表明分布就是对称的,若偏态系数大于 1 或小于-1,则称为高度偏态分布;若偏态系数在 0、51 或-1-0、5,则就是中等偏态分布。根据分组的 SK公式中,很明显就是将离差的三次方的平均数除以3s,就是将偏态系数转化为相对数。94.相对数:就是两个有联系的指标的比值,它可以从数量上反映两个相互联系的现象之间的对比关系。95.峰态(kurtosis):就是对数据分布平峰或尖峰程度的测度。测度峰态的统计量就是峰态系数(coefficient of kurtosis),记作 K。峰态通常与标准正态分布比较而言的。如果数据服从标统计学必知知识点合集 准正态分布,则峰度为 0,否则为平峰分布或尖峰分布。根据未分组与分组数据计算峰态系数的公式为:422i4is)3-n)(2-n)(1-n()1-n()x-x(3-)x-x()1n(nK,3-nsf)x-M(K4k1ii4i。当 K0时为尖峰分布,数据的分布更集中;当 K0、8,说明盖度相关;0、5-0、8 说明中度相关,0、3-0、5 说明低度相关,r0、3,说明不相关。133.r的 显 著 性 检 验 方 法:(1)提 出 假 设:H0:=0;H1:0;(2)计 算 检 验 的 统 计量:)2-n(tr-12-nrt2;(3)决策:根据给定的与 df=n-2,查 t 分布表,得出 t/2(n-2)的临界值。若|t|t/2,则拒绝零假设,表明总体的两个变量之间存在显著性管系。统计学必知知识点合集 134.斯皮尔曼相关系数(Spearman):该系数用来度量顺序水准变量间的线性相关关系。它就是利用两变量的秩次大小作线性分析。适用条件有二:第一,两个变量的变量值就是以等级次序表示的资料;(2)一个变量的变量值就是等级数据,另一个变量的变量值就是等距或比率数据,且两总体不要求就是正态分布,样本容量不一定大于 30。缺点就是计算精度不高。斯皮尔曼系数用 rR表示,公式为:)1-n(nD6-1r22R,其中 D 就是两个变量每对数据等级之差;n 就是两列变量值的对数。135.肯德尔系数(kendall):肯德尔等级相关系数用于反映分类变量相关性的指标,适用于两个变量均为有序分类的情况。这种指标采用非参数检验方法测度变量间的相关关系,利用变量的秩计算一致对数目与非一致对数目。如果两变量具有较强的正相关,则一致对数目 U较 大,否 则 一 致 对 数 目 与 非 一 致 对 数 目 应 该 相 近。肯 德 尔 系 数 计 算 公 式 如下:)1-n(n2)V-U(。136.偏相关分析:其就是在扣除其她因素的作用大小以后,重新来测度这两个因素间的关联程度。这种方法的目的在于消除其她变量关联性的传递效应。偏相关系数计算公式为:223213231312)3(12r-1r-1rr-rr。137.距离分析:距离分析就是对观测量之间或变量之间相似或不相似的程度的一种测度,根据变量的不同类型,可以有许多距离、相似程度测量指标供用户选择。但由于距离分析只就是一个预分析过程,所以距离分析不会给出 P 值,而只能给出各变量/记录间距离的大小,以供用户自行判断相似性。调用距离分析过程可对变量内部各观察单位间的数值进行距离相关分析,以考察相互间的接近程度,也可用于考察变量的相似程度。在距离分析中,主要利用变量间的相似性测度与不相似性测度度量研究对象之间的关系。138.回归分析:侧重于测度变量之间的关系强度,并通过一定数学表达式将这种关系描述出来,进而确定一个或几个变量(自变量)的变化对另一个特定变量(因变量)的影响程度。139.回归分析解决的问题:(1)确定变量之间的表达式;(2)对关系式的可信程度进行检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响就是显著的,那些就是不显著的;(3)预测。140.自变量与因变量:被预测或被解释的变量称为因变量;用来预测或用来解释因变量的变量称为自变量。如预测一定的贷款余额条件下的不良贷款就是多少,被预测的不良贷款,就是因变量,用来预测的就是贷款余额,就是自变量。141.一元线性回归:当回归中只涉及一个自变量时称为一元回归,若因变量 y 与自变量 x 之间的为线性关系时,就是一元线性回归。142.回归模型(regression model):描述因变量 y 如何依赖于自变量x与误差的方程称为回归模型。只涉及一个自变量的一元线性回归模型可表示为 y=0+1x+。143.误差项:就是一个服从正态分布的随机变量,且独立,即N(0,2)。独立性意味着对于一个特定的 x 值,它所对应的与其她 x 所对应的不相关。因此,对于一个特定的 x 值,它所对应的 y 值与其她 x 所对应的 y 值也不相关。这表明,在 x 取某个确定值的情况下,y的观察值非常靠近直线;当2较大时,y 的观察值将偏离直线。对于任何一个给定的 x 值,y都服从期望值为0+1x,方差为2的正态分布,且对于不同的 x 都具有相同的方差。144.回归方程(regression equation):描述因变量 y 的期望值如何依赖于自变量 x 的方程。一元统计学必知知识点合集 线性回归方程为:E(y)=0+1x。145.估计的回归方程(estimated regression equation):用样本统计量0与1代替回归方程中未知参数0与1,即估计的回归方程。0表示回归直线在纵轴上的截距;1就是回归系数。146.最小二乘估计:用最小化图中垂直方向的离差平方与来估计参数0与1,根据这一方法确定模型参数0与1的方法称为最小二乘法,也称最小平方法。它就是通过使用因变量的观察值 yi与估计值iy之间的离差平方与达到最小来估计0与1的方法。公式为。在回归分析中对截距0不赋予任何意义。147.拟合优度(goodness of fit):回归直线与各观测点的接近程度称为回归直线对数据的拟合优度。为说明直线的拟合优度,需要计算判定系数。148.判定系数:判定系数就是对估计的回归方程拟合优度的度量。149.变差:因变量 y 的取值就是不同的,y 取值的这种波动称为变差。变差产生的原因有两个:第一,由自变量x的取值不同造成的;第二,除x以外的其她因素(非线性影响或测量误差等)的影响。对一个具体的观测值来说,变差的大小可以用实际观测值 y 与其均值y之差(y-y)来表示。而 n 次观察值的总变差可由这些离差的平方与表示,称为总平方与,记为 SST,即22i2i)y-y()y-y()y-y(SST。在该公式中,等号右边后半部分反映 y 的总变差中由于 x 与 y 之间的线性关系引起的 y 的变化部分,它就是可以由回归直线来解释的 yi 变差部分,称为回归平方与,记为 SSR;另一部分就是各实际观测点与回归值的残差的平方与,它就是除x对y的线性影响之外的其她因素对y的变差作用,就是不能由回归直线来解释的 yi 变差部分,称为残差平与与或误差平方与,记为 SSE。回归直线拟合的好坏取决于(SSR/SST),各点越靠近直线,比例越大,直线拟合越好。该比例称为判定系数,记为2R。150.判定系数的判定:若所有观测点都落在直线上,残差平方与 SSE=0,2R=1,拟合就是完全的;如果 y 的变化与 x 无关,x 完全无助于解释 y 的变差,此时,2R=0、2R越接近于 1,回归平方与占总平方与的比率越大。151.估计标准误差(standard error of estimate):度量各实际观测点在直线周围的散布状况的一个统计量,它就是均方残差的平方根,用 SE表示,其计算公式为:统计学必知知识点合集 MSE2-nSSE2-n)y-y(S2iie。估计标准误差就是对误差项的标准差的估计,它可以瞧作在排除了 x 对 y 的线性影响后,y 随机波动大小的一个估计量。从估计标准误差的实际意义瞧,它反映了用估计的回归方程预测因变量 y 时预测误差的大小,若各观测点越靠近直线 SE越小,回归直线对各观测点的代表性就越好,根据估计的回归方程进行预测也就越准确;若各观测点全部落在直线上,则 SE=0。152.回归分析的检验有两个内容:一就是线性关系检验,二就是回归系数检验。前者检验 x 与y 之间的线性关系就是否显著,后者就是检验 x 对 y 的影响就是否显著。153.线性关系检验的步骤:(1)提出假设:H0:1=0,即两个变量之间的线性关系不显著;(2)计算检验统计量 F:)2-n(/SSE1/SSRF;(3)决策:确定显著性水平,并根据分子的 df=1 与分母的 df=n-2查 F分布表,找到响应的临界值 F。若 FF,拒绝 H0,表明两个变量之间的线性关系显著;否则,不拒绝 H0,表明没有证据表明两个变量之间线性关系就是显著的。154.回归系数检验步骤:(1)提出假设:H0:1=0,即回归系数1=0;(2)计算检验统计量:1St1,其中2i2ie)x(n1-xsS1,Se就是的估计值;(3)决策:确定显著性水平,并根据分子的 df=n-2查 t 分布表,找到响应的临界值 t/2。若|t|t/2,拒绝 H0,否则接受 H0,表明没有证据表明两个变量之间线性关系就是显著的。在一元线性回归中,线性的检验与回归的检验就是等价的。155.点估计:对于 x 的一个特定值 x0,求出 y 的一个估计值就就是点估计。点估计可以分为两种:一就是平均值的点估计,二就是个别值的点估计。前者就是对总体参数的估计,后者就是对因变量的某个具体取值估计。156.平均值点估计与个别值点估计:平均值点估计就是利用估计的回归方程,对于 x 的一个特定值 x0,求出 y 的平均值的一个估计值 E(y0);个别值点估计就是利用估计的回归方程,对于x 的一个特定值 x0,求出 y 的一个个别值0y。在点估计条件下,对于同一个 x0,平均值的点估计与个别值的点估计的结果就是一样的,但在区间估计中不同。157.区间估计:利用估计的回归方程,对于 x 的一个特定值 x0,求出 y 的一个估计值的区间就就是区间估计。区间估计有两种:一就是置信区间估计,它就是对 x 的一个特定值 x0,求出 y的平均值的估计区间,这一区间称为置信区间;二就是预测区间估计,它就是对 x 的一个给定值 x0,求出 y 的一个个别值的估计区间,这一区间称为预测区间。158.置信区间估计(confidence interval estimate)计算步骤:(1)计算点估计值;(2)计算 t/2(n-2);(3)根据残差计算如下公式:n1i2i20e2/0)x-x()x-x(n1sty,即得区间。当xx0时,估计最精确,否则,y 的平均值的置信区间就越宽,越不精确。159.预测区间估计(prediction interval estimate):方法与置信区间估计相似,但公式变成了统计学必知知识点合集 n1i2i20e2/0)x-x()x-x(n11sty,多了一个 1,因此预测区间要比置信区间宽。160.四种估计举例:(1)平均值点估计:估计贷款余额为 100 亿元,所有分行不良贷款的平均值;(2)个别值点估计:估计贷款余额为 72、8 亿元的那个分行的不良贷款;(3)置信区间估计:估计贷款余额为 100 亿元,建立不良贷款的 95%的置信区间;(4)预测区间估计:估计贷款余额为 72、8 亿元的那个分行的不良贷款的 95%的置信区间。161.一元线性回归的注意:不能用样本数据之外的 x 值去预测相应的 y 值。162.残差分析(residual):确定有关的假定就是否成立的方法之一就是残差分析。163.标准化残差(standardized residual):对正态性假定的检验,也可通过对标