基本统计分析..ppt
《基本统计分析..ppt》由会员分享,可在线阅读,更多相关《基本统计分析..ppt(43页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第4 4章章 基本统计分析基本统计分析o Frequencies 频数分析表频数分析表o Descriptive 描述性统计分析过程描述性统计分析过程o Explore 探索分析过程探索分析过程o Crosstabs 列联表分析过程列联表分析过程本章主要内容本章主要内容数据分布的特征集中趋势集中趋势集中趋势集中趋势 (位置位置位置位置)偏态和峰态偏态和峰态偏态和峰态偏态和峰态(形状)(形状)(形状)(形状)离中趋势离中趋势离中趋势离中趋势 (分散程度分散程度分散程度分散程度)集中趋势(Central tendency)1.1.一一组数据向其中心值靠拢的倾向和程度组数据向其中心值靠拢的倾向和程
2、度2.2.测度集中趋势就是寻找数据水平的代表值或中心值测度集中趋势就是寻找数据水平的代表值或中心值3.3.不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值4.4.低层次数据的测度值适用于高层次的测量数据,但高层次低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据数据的测度值并不适用于低层次的测量数据1均值均值(Mean):2众数众数(Mode):出现频率最高的数:出现频率最高的数3中位数中位数(Median):将数据排序后位于正中间:将数据排序后位于正中间的数值。适合于所有分布类型的数据的数值。适合于所有分布类型的数据4总和总和(S
3、um)基本描述统计量基本描述统计量众数(mode)1.出现次数最多的变量值2.不受极端值的影响3.一组数据可能没有众数或有几个众数4.主要用于分类数据,也可用于顺序数据和数值型数据众数(不唯一性)o无众数无众数原始数据:10 5 9 12 6 8一个众数一个众数原始数据:6 5 9 8 5 5多于一个众数多于一个众数原始数据:25 28 28 36 42 42中位数(median)1.排序后处于中间位置上的值MMe e50%50%2.不受极端值的影响不受极端值的影响3.主要用于顺序数据,也可用数值型数据,但不能主要用于顺序数据,也可用数值型数据,但不能用于分类数据用于分类数据4.各变量值与中位
4、数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即数值型数据的中位数(9个数据的算例)o【例例】:9个家庭的人均月收入数据o原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630o排排 序序:750 780 850 960 1080 1250 1500 1630 2000o位位 置置:1 2 3 4 5 6 7 8 9中位数中位数 1080数值型数据的中位数(10个数据的算例)o【例例】:10个家庭的人均月收入数据o排排 序序:660 750 780 850 960 1080 1250 1500 1630 2000o位位 置置:1 2
5、 3 4 5 6 7 8 9 10 四分位数(quartile)1.排序后处于25%,50%和75%位置上的值2.不受极端值的影响3.主要用于顺序数据,也可用于数值型数据,但不能用于分类数据QQL LQQMMQQU U25%25%25%25%数值型数据的四分位数(9个数据的算例)o【例例】:9个家庭的人均月收入数据o原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630o排排 序序:750 780 850 960 1080 1250 1500 1630 2000o位位 置置:1 2 3 4 5 6 7 8 9数值型数据的四分位数(10个数据的算例)o
6、【例例】:10个家庭的人均月收入数据o排排 序序:660 750 780 850 960 1080 1250 1500 1630 2000o位位 置置:1 2 3 4 5 6 7 8 9 10 均值(mean)1.集中趋势的最常用测度值2.一组数据的均衡点所在3.体现了数据的必然性特征4.易受极端值的影响5.用于数值型数据,不能用于分类数据和顺序数据均值(数学性质)1.各变量值与均值的离差之和等于零 2.各变量值与均值的离差平方和最小众数、中位数和均值的关系左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对
7、称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值=中位数中位数中位数中位数中位数中位数=众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值众数、中位数和均值的特点和应用1.众数n不受极端值影响n具有不唯一性n数据分布偏斜程度较大时应用2.中位数n不受极端值影响n数据分布偏斜程度较大时应用3.均值n易受极端值影响n数学性质优良n数据对称分布或接近对称分布时应用离散趋势1.数据分布的另一个重要特征数据分布的另一个重要特征2.反映各变量值远离其中心值的程度(离散程度)反
8、映各变量值远离其中心值的程度(离散程度)3.从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度4.不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值标准差标准差(StdDev):方差方差(Variance):最小值、最大值最小值、最大值(Maxium,Minimum)均值标准误均值标准误(S.E.of.Mean):样本均值的标准差样本均值的标准差极差极差(Range):数据最大值减去最小值:数据最大值减去最小值基本描述统计量基本描述统计量极差(range)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考
9、虑数据的分布7 7 8 8 9 910107 7 8 8 9 9 1010 R R =max(=max(x xi i)-min()-min(x xi i)5.计算公式为计算公式为方差和标准差(variance and standard deviation)1.数据离散程度的最常用测度值2.反映了各变量值与均值的平均差异3.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差4 6 8 10 124 6 8 10 12 x x=8.38.3偏态与峰态扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布偏态偏态偏态偏态峰态峰态峰态峰态左偏分布左偏分布左偏分
10、布左偏分布右偏分布右偏分布右偏分布右偏分布与正态分布与正态分布与正态分布与正态分布比较!比较!比较!比较!偏度系数:偏度系数:Skewness,当分布对称时,当分布对称时,偏度系数为偏度系数为0。当偏度系数为正值,。当偏度系数为正值,可以判断为右偏可以判断为右偏(正偏正偏),反之,判断为左偏,反之,判断为左偏(负(负偏)。偏)。基本描述统计量基本描述统计量峰度系数:峰度系数:Kurtosis,是对数据分布平峰,是对数据分布平峰或尖峰程度的测度。峰度是针对正态分布或尖峰程度的测度。峰度是针对正态分布而言的。峰度系数为而言的。峰度系数为0,表明数据为正态分布。,表明数据为正态分布。若峰度系数大于若
11、峰度系数大于0,则数据为尖峰分布;反之为,则数据为尖峰分布;反之为平峰分布。平峰分布。基本描述统计量基本描述统计量标准分数(standard score)1.也称标准化值2.对某一个值在一组数据中相对位置的度量3.可用于判断一组数据是否有离群点4.用于对变量的标准化处理5.计算公式为标准分数(性质)1.均值等于02.方差等于1频数分析表频数分析表一、目的一、目的 可对数据按组进行归类整理,形成可对数据按组进行归类整理,形成变量不同水平的频数分布表和图形,对数变量不同水平的频数分布表和图形,对数据的分布趋势进行初步分析。据的分布趋势进行初步分析。频数分析表频数分析表二、二、Frequencies
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基本 统计分析
限制150内