数据统计分析和描述.ppt
《数据统计分析和描述.ppt》由会员分享,可在线阅读,更多相关《数据统计分析和描述.ppt(46页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于数据的统计分析与描述第一张,PPT共四十六页,创作于2022年6月目的目的2、掌握用数学软件包求解统计问题。、掌握用数学软件包求解统计问题。1、直观了解统计基本内容。、直观了解统计基本内容。第二张,PPT共四十六页,创作于2022年6月2023/4/53统计的基本概念统计的基本概念参数估计参数估计假设检验假设检验数数据据的的统统计计描描述述和和分分析析第三张,PPT共四十六页,创作于2022年6月STATSTAT1.1.总体与样本总体与样本 总总体体(population):总总体体是是指指所所研研究究对对象象的的全全体体组组成成的的集合。集合。样样本本(sample):样样本本是是指指从
2、从总总体体中中抽抽取取的的部部分分对对象象(个个体体)组组成成的的集集合合。样样本本中中包包含含个个体体的的个个数数称称为为样样本本容容量量。容容量量为为n的的样样本本常常用用n个个随随机机变变量量X1,X2,Xn表表示示,其其观观测测值值(样样本本数数据据)则则表表示示为为x1,.,xn,为为简单起见,有时不加区别。简单起见,有时不加区别。第四张,PPT共四十六页,创作于2022年6月STATSTAT2.2.参数与统计量参数与统计量 参参数数(parameter):参参数数是是用用来来描描述述总总体体特特征征的的概概括括性性值值。如如总总体体平平均均值值()、总总体体方方差差(2)、总总体体
3、比比例例()等。)等。统统计计量量(statistics):统统计计量量是是用用来来描描述述样样本本特特征征的的概概括括性性值值。如如样样本本均均值值()、样样本本方方差差(s2)、样样本本比比例例(P)等。)等。第五张,PPT共四十六页,创作于2022年6月STATSTAT表示数据集中趋势的统计量表示数据集中趋势的统计量 如如果果要要用用简简单单的的数数字字来来概概括括一一组组观观测测数数据据x1,.,xn,可可以以使使用用“位位置置统统计计量量”来来作作为为数数据据的的总总体体代代表表,常常见的位置统计量有:均值、中位数、分位数、众数等。见的位置统计量有:均值、中位数、分位数、众数等。1.
4、1.均值(均值(MeanMean)均均值值是是所所有有观观测测值值的的平平均均值值,是是描描述述数数据据取取值值中中心心位位置的一个度量:置的一个度量:第六张,PPT共四十六页,创作于2022年6月STATSTAT2.2.中位数(中位数(MedianMedian或或MedMed)中中位位数数是是描描述述观观测测值值数数据据中中心心位位置置的的统统计计量量,大大体体上上比比中中位位数数大大(小小)的的数数据据为为观观测测值值的的一一半半。中中位位数数的的一一个个优优点点是是它它不不受受个个别别极极端端数数据据的的影影响响,具具有有稳稳健健性性。中中位位数数的的计计算算方方法法是是:首首先先将将数
5、数据据从从小小到到大大排排序序为为:x(1),.,x(n),然后计算,然后计算第七张,PPT共四十六页,创作于2022年6月STATSTAT3.3.众数(众数(ModeMode)观观测测值值中中出出现现最最多多的的数数称称为为众众数数。众众数数用用得得不不如如均均值值和和中中位位数数普普遍遍。在在属属性性变变量量分分析析中中,常常需需考考虑虑频频数数,因因此众数用得多些。此众数用得多些。4.4.百分位数(百分位数(PercentilePercentile)分分位位数数也也是是描描述述数数据据分分布布和和位位置置的的统统计计量量。0.5分分位位数数就就是是中中位位数数,0.75分分位位数数和和0
6、.25分分位位数数又又分分别别称称为为上上、下四分位数,并分别记为下四分位数,并分别记为Q3和和Q1。第八张,PPT共四十六页,创作于2022年6月STATSTAT表示数据离散程度的统计量表示数据离散程度的统计量1.1.极差(极差(RangeRange)与半极差()与半极差(Interquartile rangeInterquartile range)极差就是数据中的最大值和最小值之间的差:极差就是数据中的最大值和最小值之间的差:极差极差=maxxi minxi 上上、下下四四分分位位数数之之差差Q3 Q1称称为为四四分分位位极极差差或或半半极极差,它描述了中间半数观测值的散布情况。差,它描述
7、了中间半数观测值的散布情况。2.2.方差(方差(VarianceVariance或或VarVar)方方差差是是由由各各观观测测值值到到均均值值距距离离的的平平方方和和除除以以观观测测量量减减1:第九张,PPT共四十六页,创作于2022年6月STATSTAT3.3.标准差(标准差(Standard deviationStandard deviation或或Std DevStd Dev)方差的开方称为标准差:方差的开方称为标准差:标准差的量纲与原变量一致。标准差的量纲与原变量一致。4.4.变异系数(变异系数(Coefficient of VariationCoefficient of Variat
8、ion或或CVCV)变变异异系系数数是是将将标标准准差差表表示示为为均均值值的的百百分分数数,是是观观测测数数据据分分散散性性的的一一个个度度量量,它它在在比比较较用用不不同同单单位位测测量量的的数数据据的分散性时是有用的:的分散性时是有用的:第十张,PPT共四十六页,创作于2022年6月STATSTAT表示数据分布形状的统计量表示数据分布形状的统计量 偏度和峰度是描述数据分布形状的指标。偏度和峰度是描述数据分布形状的指标。1.1.偏度(偏度(skewnessskewness)偏度是刻画数据对称性的指标。偏度的计算公式为:偏度是刻画数据对称性的指标。偏度的计算公式为:在在SAS中:中:关于均值
9、对称的数据其偏度为关于均值对称的数据其偏度为0;左侧更为分散的数据,其偏度为负,称为左偏;左侧更为分散的数据,其偏度为负,称为左偏;右侧更为分散的数据,其偏度为正,称为右偏。右侧更为分散的数据,其偏度为正,称为右偏。第十一张,PPT共四十六页,创作于2022年6月STATSTAT2.2.峰度(峰度(kurtosiskurtosis)峰峰度度描描述述数数据据向向分分布布尾尾端端散散布布的的趋趋势势。峰峰度度的的计计算算公公式为:式为:利利用用峰峰度度研研究究数数据据分分布布的的形形状状是是以以正正态态分分布布为为标标准准(假假定定正正态态分分布布的的方方差差与与所所研研究究分分布布的的方方差差相
10、相等等)比比较较两端极端数据的分布情况,若两端极端数据的分布情况,若 近似于标准正态分布,则峰度接近于零;近似于标准正态分布,则峰度接近于零;尾部较正态分布更分散,则峰度为正,称为轻尾;尾部较正态分布更分散,则峰度为正,称为轻尾;尾部较正态分布更集中,则峰度为负,称为厚尾。尾部较正态分布更集中,则峰度为负,称为厚尾。第十二张,PPT共四十六页,创作于2022年6月STATSTAT其它统计量其它统计量1.1.均均值值的的标标准准误误(Std Std Error Error MeanMean或或Std Std MeanMean或或Std Std errorerror)2.2.校正平方和(校正平方和
11、(Corrected sum of squaresCorrected sum of squares)第十三张,PPT共四十六页,创作于2022年6月STATSTAT3.3.未校正平方和(未校正平方和(Uncorrected sum of squaresUncorrected sum of squares)4.4.k k阶原点矩阶原点矩其中其中A1即为均值即为均值 。5.5.k k阶中心矩阶中心矩第十四张,PPT共四十六页,创作于2022年6月STATSTAT区间估计区间估计1.1.点估计和区间估计点估计和区间估计 参数的估计方法主要有两种:点估计和区间估计。参数的估计方法主要有两种:点估计和区
12、间估计。点估计:用样本的观测值估计总体未知参数的值。点估计:用样本的观测值估计总体未知参数的值。区区间间估估计计:在在点点估估计计的的基基础础上上,给给出出总总体体参参数数的的一一个个范围。范围。第十五张,PPT共四十六页,创作于2022年6月STATSTAT2.2.参数的置信区间和置信水平参数的置信区间和置信水平置信区间:由样本统计量所构造的总体参数的估计区间。置信区间:由样本统计量所构造的总体参数的估计区间。置信区间是一个随机区间,它依赖与样本。置信区间是一个随机区间,它依赖与样本。如如果果将将构构造造置置信信区区间间的的步步骤骤重重复复多多次次,置置信信区区间间中中包包含含总体参数真值的
13、次数所占的比例,称为置信水平。总体参数真值的次数所占的比例,称为置信水平。置置信信水水平平为为1 的的含含义义是是随随机机区区间间(1,2)以以1 的的概概率包含了参数率包含了参数。置置信信水水平平为为90 时时0.1,为为正正态态曲曲线线下下右右侧面积为侧面积为/2=0.05时的时的Z值。值。第十六张,PPT共四十六页,创作于2022年6月STATSTAT3.3.正态总体均值和方差的置信区间正态总体均值和方差的置信区间正态总体参数的各种置信区间见表正态总体参数的各种置信区间见表5-1。被估参数条件枢轴量及其分布参数的置信区间单正态总体2已知2未知2已知未知第十七张,PPT共四十六页,创作于2
14、022年6月STATSTAT4.4.总体比例与比例差的置信区间总体比例与比例差的置信区间 实实际际应应用用中中经经常常需需要要对对总总体体比比例例进进行行估估计计,如如产产品品的的合合格格率率、大大学学生生的的就就业业率率和和手手机机的的普普及及率率等等。记记和和P分分别别表表示示总总体体比比例例和和样样本本比比例例,则则当当样样本本容容量量n很很大大时时(一一般般当当nP和和n(1 P)均均大大于于5时时,就就可可以以认认为为样样本本容容量量足足够够大大),样样本本比比例例P的的抽抽样样分分布布可可用用正正态态分分布布近近似似。总体比例与比例差的置信区间如表总体比例与比例差的置信区间如表5-
15、2所示。所示。待估参数枢轴量及其分布参数的置信区间总体比例两总体比例差1-2其中P1,P2为两个样本比例 第十八张,PPT共四十六页,创作于2022年6月STATSTAT要用到的3个分布:正态概率分布有以下重要特征:(1)正态分布是对称分布,对称轴是x=。(2)当x=时,正态概率密度最大。(3)正态分布的图形由和决定。(4)当为定值时,的变化引起正态概率密度曲线在横轴上平行移动。(5)当为定值时,的变化将引起正态概率密度曲线的形状变得尖峭或偏平。第十九张,PPT共四十六页,创作于2022年6月STATSTAT第二十张,PPT共四十六页,创作于2022年6月STATSTAT第二十一张,PPT共四
16、十六页,创作于2022年6月STATSTAT假设检验假设检验1.1.假设检验的基本概念和原理假设检验的基本概念和原理假假设设检检验验:先先对对总总体体参参数数提提出出某某种种假假设设,然然后后利利用用样样本本信息判断假设是否成立的过程。信息判断假设是否成立的过程。备择假设:研究者想通过收集证据以支持的假设记为备择假设:研究者想通过收集证据以支持的假设记为H1 原假设:原假设:研究者想通过收集证据以反对的假设记为研究者想通过收集证据以反对的假设记为H0a:当原假设为真时拒绝原假设的概率,为显著性水平。当原假设为真时拒绝原假设的概率,为显著性水平。检检验验统统计计量量:对对原原假假设设和和备备择择
17、假假设设作作出出决决策策的的某某个个样样本本统计量。统计量。拒拒绝绝域域:能能够够拒拒绝绝原原假假设设的的检检验验统统计计量量的的所所有有可可能能值值的的集合。集合。第二十二张,PPT共四十六页,创作于2022年6月STATSTAT对对总总体体参参数数进进行行假假设设检检验验时时,首首先先要要给给定定一一个个原原假假设设H0,H0是是关关于于总总体体参参数数的的表表述述,与与此此同同时时存存在在一一个个与与H0相相对对立立的的备备择择假假设设H1,H0与与H1有有且且仅仅有有一一个个成成立立;经经过过一一次次抽抽样样,若若发发生生了了小小概概率率事事件件(通通常常把把概概率率小小于于0.05的
18、的事事件件称称为为小小概概率率事事件件),可可以以依依据据“小小概概率率事事件件在在一一次次实实验验中中几几乎乎不不可可能能发发生生”的的理理由由,怀怀疑疑原原假假设设不不真真,作作出出拒拒绝绝原原假假设设H0,接接受受H1的的决决定定;反反之之,若若小小概概率率事事件件没没有有发发生生,就就没没有有理理由由拒拒绝绝H0,从从而而应应作作出出拒拒绝绝H1的的决定。决定。第二十三张,PPT共四十六页,创作于2022年6月STATSTAT2.2.假设检验的步骤假设检验的步骤 1)根据问题确立原假设根据问题确立原假设H0和备选假设和备选假设H1;2)确确定定一一个个显显著著性性水水平平,它它是是衡衡
19、量量稀稀有有性性(小小概概率率事件)的标准,常取为事件)的标准,常取为0.05;3)选选定定合合适适的的检检验验用用统统计计量量W(通通常常在在原原假假设设中中相相等等成成立立时时,W的的分分布布是是已已知知的的),根根据据W的的分分布布及及 的的值值,确定确定H0的拒绝域。的拒绝域。4)由由样样本本观观测测值值计计算算出出统统计计量量W的的观观测测值值W0,如如果果W0落落入入H0的的拒拒绝绝域域,则则拒拒绝绝H0;否否则则,不不能能拒拒绝绝原原假假设设H0。第二十四张,PPT共四十六页,创作于2022年6月STATSTAT 注注意意:在在SAS系系统统中中,是是由由样样本本观观测测值值计计
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 统计分析 描述
限制150内