《商务与经济统计关键术语与重要公式(共10页).doc》由会员分享,可在线阅读,更多相关《商务与经济统计关键术语与重要公式(共10页).doc(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上关键术语统计学(Statistics)收收集、分析、表述和解释数据的艺术和科学。数据( Data)收被收集、分析和解释的事实与数字。数据集(Data set)收一特定研究中所有收集的数据。个体( Elements )收从中收集数据的实体。变量( Variable)收个体的某种令人感兴趣的属性。观测值( Observation )收为单个个体获取的度量集。品质数据(Qualitative data)收为一个体的性质提供标记或名称的数据。品质数据可能是非数值或数值型的。品质变量(Qualitative variable)收有关品质数据的变量。数量数据(Quantitati
2、ve data)收表明某事多少的数据。数量数据总是数值型的。数量变量(Quantitative variable)收有关数量数据的变量。截面数据(Cross-sectional data)收在同时或近似相同时点收集的数据。时间序列数据( Time series data)收在几个连续期间收集的数据。描述统计学(Descriptive statistics)收用于汇总数据的表、图和数值方法。总体(Population )收一特定研究中所有感兴趣个体的集合。样本( Sample )收总体的一个子集。统计推断(Statistical inference)收利用从一个样本获得的数据对总体性质进行估计或
3、假设检验的过程。频数分布(Frequency distribution) 对一数据集的表格汇总法,显示若干无重叠组别中每一组的项目频数(或个数)。相对频数分布(Relative frequency distribution) 一数据集的表格汇总法,显示在若干无重叠组别中每一组的项目总数的相对频数,即分数或比例。百分数频数分布(Percent frequency distribution) 一数据集的表格汇总法,显示几个无重叠组别中每一组的项目总数的百分率。条形图(Bar graph) 一种图形方法,描述在品质数据的频数分布、相对频数据分布或百分数频数分布中表示的信息。饼形图(Pie chart
4、) 一种描述品质数据汇总的图形方法,建立于把一个圆细分成与每一组的相对频数相对应的扇型的基础上。直方图(Histogram) 一种通过在横轴上放置组间隔,在纵轴上放置频数来描述数量数据的频数分布、相对频数分布或百分数频数分布。累积频数分布(Cumulative frequency distribution) 对数量数据集的表格法汇总,显示数值小于或等于每一组组上限的项目数。累积相对频数分布(Cumulative relative frequency distribution) 对数量数据的表格法汇总,显示数值小于或等于每一组组上限的项目分数或比例。累积百分数频数分布(Cumulative pe
5、rcent frequency distribution) 对数量数据的表格法汇总,显示数值小于或等于每一组组上限的项目的百分率。组中值(Class midpoint) 每一组中在组下限和组上限正中间的值。茎叶显示(Stem-and-leaf display) 一种同时排列数量数据顺序并提供分布形态的深入信息的探索性数据分析技术。交叉分组列表(Crosstabulation) 对两个变量数据的表格汇总。一个变量的组用行来描述,另一变量的组用列来描述。散点图(Scatter diagram) 表示两个数量变量之间关系的图形方法。一个变量列在横轴上,另一个变量列在纵轴上。总体参数(Populati
6、on parameter) 用来概括总体数据的量度的数值(如总体平均数,总体方差2,总体标准差)。样本统计量(Sample statistic) 用来概括样本数据的量度的数值(如样本平均数,样本方差s2,样本标准差s)。平均数( Mean ) 衡量数据集中心位置的量度。用所有数据值相加的和除以项数计算。中位数( Median ) 衡量数据集中心位置的量度。中位数的值将所有的数据分为两个相等部分,一部分的值都大于或等于它,而另一部分的值都小于或等于它。众数( Mode ) 用以衡量数据的位置的量度,定义为发生频数最高的数据值。百分位数(Percentile) 至少有p的数据项小于等于这个值,且至
7、少有( 1 0 0-p)的数据项大于等于这个值。第5 0百分位数即为中位数。四分位数( Quartiles ) 第2 5、第5 0和第7 5百分位数分别即为第1、第2、第3四分位数。四分位数将数据集分为4个部分,每一部分含有2 5的数据。临界点( Hinges) 下端临界点约等于第1四分位数或第2 5百分位数。上端临界点约等于第3四分位数或第75百分位数。由于计算约定的不同,临界点的值与四分位数的值会稍有不同。全距( Range ) 用以衡量变异程度的量度,定义为最大值减最小值的差。四分位点内距(Interquartile range, IQR) 用以衡量变异程度的量度,定义为第3四分位数与第
8、1个四分位数之差。方差( Variance ) 用以衡量数据集变异程度的量度,是建立在距平均数离差的平方值的基础上的。标准差(Standard deviation) 用以衡量数据集变异程度的量度,取方差的正的平方根。标准差系数( Coefficient of variation) 衡量数据集相对变异程度的量度,以标准差除以平均数再乘以100得到。Z分数(Z-score) 以距平均数的离差除以标准差s所得的值。Z分数是标准化的数值,指数据值xi距离平均数的标准差的个数。切贝谢夫定理( Chebyshers theorem) 这一定理可以用于任何数据集,用来描述与平均数的距离在特定数目个标准差范围
9、之内的数据项的百分比。经验法则(Empirical rule) 这一法则适用于山峰形或钟形分布的数据,用以描述与平均数的距离在1个、2个、3个标准差范围之内的数据项的百分比。异常值( outlier) 异常大或异常小的数据值。五数概括法(Five-number summary) 是一种探索性数据分析的技术。用五个数据值:最小值、第1四分位数、平均数、第3四分位数和最大值来概括数据集。盒形图(Box plot) 一种用图形概括数据的方法。用一个以第1和第3四分位数为边界的方盒来表明在中心位置的5 0的数据。以一条横线(称为须线)从方盒两侧延伸以表明大于第3四分位数和小于第1四分位数的数据值的位置
10、。所有异常值的位置也予以标明。协方差( Covariance) 用以衡量两变量间线性相关关系的数值量度。正值表示正相关,负值表示负相关。相关系数(Correlation cofficient ) 用以衡量两变量间线性相关关系的数值量度。其取值从- 1到+ 1。接近+ 1的值表示强的正线性相关,接近- 1的值表示强的负线性相关,接近零的值表示几乎无线性相关关系。加权平均数( Weighted mean) 将每一个数据值予以一个权重以反映其在数据集中的重要程度。由此获得的平均数即为加权平均数。分组数据(Grouped data) 将数据分为若干个组并配以频数分布,而不记录原始数据的个体值。概率(
11、probability)衡衡量某一事件发生可能性的数值量度。试验( Experient)衡任何可以产生明确定义的结果的过程。试验结果用符号Ei表示。样本点(Sample point)衡单一的试验结果。样本空间(Sample space)衡所有可能的样本点(试验结果)的集合。树形图( Tree diagram)衡一种用于多步骤试验样本点的定义的辅助图形工具。概率的基本条件(Basic requirements of probability)衡概率分配方式必须满足两个基本条件:a. 对于任意一个试验结果Ei,必须有0P(Ei)1。b. 所有的k个试验结果满足P(Ei)= 1。古典法(Classic
12、al method)衡一种概率分配的方法,它假设试验结果都是等可能发生的。相对频数法(Relative frequency method)衡一种以试验或历史数据为基础的概率分配方法。主观法(Subjective method)衡一种以主观判断为基础的概率分配方法。事件( Event)衡一个样本点的集合。事件A的补(Complement of event A)衡由所有不包含在A的样本点构成的事件。文氏图( Venn diagram)衡一种抽象表明样本空间和事件运算的辅助图形工具。事件A和事件B的并(Union of A and B)衡所有的属于A或B或同时属于二者的样本点构成的事件。A和B的并记
13、作AB。事件A和事件B的交(Intersection of A and B)衡同时属于A和B的样本点构成的事件。A和B的交记作AB。加法公式(Addition law)衡加法公式用于计算事件的并的概率,即P(AB)。公式为P(AB)=P(A)+P(B)-P(AB)。对于互斥事件,由于P(AB)= 0,该公式简化为P(AB)=P (A)+P(B)。互斥事件(Mutually exclusive events)衡两个事件没有公共的样本点;即AB为空且P(AB)= 0。条件概率(Conditional probability)衡给定其他事件发生的条件下某个事件发生的概率。给定事件B下A的概率为P(A
14、 | B)=P(AB)/P(B)。独立事件(Independent events)衡两个事件A和B有P(A|B)=P(A)或P(B|A)=P(B);也就是说,事件间相互没有影响。乘法公式(Multiplication law)衡用于计算两事件交的概率P(AB)的概率公式。可以写成P (AB)= P(A)P(B|A)或者P(AB)=P(B)P(A|B)。对于独立事件,简化为P(AB)= P(A)P(B)。先验概率(Prior probabilities)衡事件的初始估计概率。后验概率(Posterior probabilities)衡根据另外的信息而得到的事件的修正概率。贝叶斯定理( B a y
15、 e s theorem)衡一种用来计算后验概率的方法。随机变量(Random variable)试试验结果的数值性描述。离散型随机变量(Discrete random variable)试可取一个有穷或无穷数列的值的随机变量。连续型随机变量(Continuous random variable)试可取一个区间或一系列区间的任何值的随机变量。概率分布(Probability distribution)试一个表示概率怎样在随机变量可能值间分布的描述。概率函数(Probability function)试一个函数,用f(x)标记,提供了离散型随机变量x取特定值的概率。离散均匀概率函数(Discre
16、te uniform probability function)试用来定义具有相等概率的离散型概率分布的函数。数学期望(Expected value)试度量随机变量平均值或中心位置的量度。方差( Variance )试度量随机变量的差异性,或离散性的量度。标准差(Standard deviation)试方差的正平方根。二项试验(Binomial experment)试具有5 . 4节中4个属性的概率试验。二项概率分布(Binomial probability distribution)试表示二项试验中n次试验有x次成功的概率分布。二项概率函数(Binomial probability func
17、tion)试用来计算二项试验的概率的函数。泊松概率分布(Poisson probability distribution)试表示在一段特定时间或空间中一个事件发生x次的概率的概率分布。泊松概率函数(Poisson probability function)试用来计算泊松概率的函数。超几何概率函数( Hypergeometric probability function)试用来计算在各次试验非独立时, n次试验有x次成功的概率的函数。均匀概率分布(Uniform probability distribution)一一种连续型概率分布,其随机变量在等长度的每一区间上取值的概率都相同。概率密度函数(
18、Probability density function)一定义连续型随机变量的概率分布的函数。正态概率分布(Normal Probability distribution)一一种连续型概率分布,其概率密度函数呈钟型,由均值和标准差确定。标准正态概率分布(Standard normal probability distribution)均值为0、标准差为1的正态分布。连续修正因子(Continuity correction factor)一当用连续正态概率分布来近似离散二项概率分布时,从x值加减的0.5值。指数概率分布(Exponential probability distribution)
19、一一种连续型概率分布,在计算一个事件两次发生之间的时间或空间的概率时有用参数(Parameter) 总体的一个数值特征,如总体均值、总体标准差、总体比率p 等等。简单随机抽样(Simple random sampling) 有限总体:选择一个样本, n个样本点中每一个等概率被选到。无限总体:选取的样本,其中每一个元素来自同一总体并且是独立的。无放回抽样(Sampling without replacement) 一个元素一旦选入样本,就从总体中剔除,不能再次被选入。放回抽样(Sampling with replacement) 一个元素一旦选入样本,仍被放回总体中。先前被选入的元素可能再次被选
20、,并且在样本中可出现多次(多于一次)。样本统计量(Sample Statistic) 一种样本特征,如:样本均值,样本标准差s,样本比率等等。样本统计量用于估计总体的参数值。抽样分布(Sampling distribution) 样本统计量所有可能值构成的概率分布。点估计(Point estimate) 用做总体参数估计量的值。点估计量(Pointestimator) 提供总体参数点估计的样本统计量,如: 、s 或。有限总体修正系数(Finite population correction factor) 对自有限总体而非无限总体抽样时,系数用于和的公式中。经验法则是当n /N0 . 0 5时
21、,一般可忽略有限总体修正系数。标准误差(Standard error) 点估计量的标准差。中心极限定理(Central Limit theorem) 当样本容量大的时候,用正态概率分布近似和的抽样分布。无偏性(Unbiasedness) 点估计量的一个性质,点估计量的数学期望等于所估总体参数的值。相对有效性(Relative efficiency) 对同一总体参数的两个无偏点估计量,有更小标准差的点估计量更有效。一致性(Consistency) 点估计量的一个性质,样本容量越大,所得的点估计值与总体参数越接近。分层简单随机抽样(Stratified simple random sampling
22、) 一种概率抽样方式,总体先分成层,然后从每层中抽取简单随机样本。整群抽样(Cluster sampling) 一种概率抽样方式,总体先分成群,然后从中抽取一个或更多个群。系统抽样(Systematic sampling) 一种概率抽样方式,从头k 个元素中随机选一个,然后依次往后选第k个元素。方便抽样(Covenience sampling) 一种非概率抽样方式,其中基于简便选择样本中的元素。判断抽样(Judgement sampling) 一种非概率抽样方式,其中基于研究人员的判断选择元素为样本。区间估计(Interval estimate) 总体参数估计值的一个范围,确信该范围包括参数的
23、值在内。抽样误差(Sampling error) 无偏估计值(如样本均值)与所估计的总体参数值(如样本比率p)之差的绝对值。总体均值的抽样误差为| - |,总体比率的抽样误差为| -p|。精度( Precision ) 抽样误差的概率解释。置信水平(Confidence Level) 与区间估计相联系的置信度。例如,如果某一区间估计程序所得出的全部区间中有95%包括总体参数在内,则我们称该区间估计的构造是基于95%的置信水平。其中,0.95称作置信系数。边际误差(Margin error) 置信区间中从点估计值中所加上或减去的值。t分布(t Distribution) 概率分布的一族,当总体是
24、正态或者近似正态概率分布,并且总体标准差未知的情况下,对总体均值进行区间估计时常用到该分布。自由度(Degrees of freedom) t分布的参数,计算总体均值的区间估计中所用到的t分布的自由度为n-1,其中n是简单随机样本的样本容量。原假设(Null hypothesis) 在假设检验的程序中,最初假定为真的假设。备择假设(Alternative hypothesis) 当原假设被拒绝时,却被认为是真的假设。第一类错误( Type I error) 当H0为真却拒绝了H0时所发生的错误。第二类错误( Type II error) 当H0为假却接受了H0时所发生的错误。临界值(Criti
25、cal value) 与检验统计量相比,用于确定是否拒绝H0的值。显著性水平(Level of significance) 所允许的发生第一类错误的最大概率值。单边检验(One tailed test) 假设检验的一种,当检验统计量的值在抽样分布的某一侧时,拒绝原假设。双边检验( Two-tailed test) 假设检验的一种,当检验统计量的值在抽样分布两侧的任一侧时,拒绝原假设。p-值(p-value) 当原假设为真时,所获得的样本结果至少与实测结果不同的概率值,它通常又被称为实测显著性水平。功效( Power ) 当H0为假时做出拒绝H0的正确结论的概率。功效曲线(Power curve) 是一种用于拒绝H0的概率曲线图,由所有不满足总体参数原假设的值构成。合并方差(Pooled variance)基基于组合两个(或两个以上)样本资料的一个总体方差的估计。无论是否假设两个(或两个以上)总体的方差相等,合并方差估计都是合适的。独立样本(Independent samples)基组成其中一个样本的元素与组成其他样本的元素是相互独立选取的、来自两个(或两个以上)总体的样本。匹配样本(Matched samples)基一个样本中每个数据值与另一个样本的对应数据值相匹配的样本。重要公式专心-专注-专业
限制150内