《非参数统计引言精选文档.ppt》由会员分享,可在线阅读,更多相关《非参数统计引言精选文档.ppt(50页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、非参数统计引言本讲稿第一页,共五十页目目 录录第一章第一章 引言引言第二章第二章 单样本检验单样本检验第三章第三章 两样本位置和尺度检验两样本位置和尺度检验第四章第四章 多样本检验多样本检验第五章第五章 尺度检验尺度检验第六章第六章 相关和回归相关和回归第七章第七章 分布检验和拟合优度检验分布检验和拟合优度检验第八章第八章 列联表列联表第九章第九章 非参数密度估计和非参数回归非参数密度估计和非参数回归本讲稿第二页,共五十页第一章第一章 引引 言言本讲稿第三页,共五十页主要内容主要内容1.统计的实践统计的实践2.非参数统计方法简介非参数统计方法简介 3.参数统计过程与非参数统计的比较参数统计过程
2、与非参数统计的比较4.非参数统计的历史非参数统计的历史5.必要的准备知识必要的准备知识本讲稿第四页,共五十页1.统计的实践统计的实践本讲稿第五页,共五十页我们周围的世界我们周围的世界符号和数据就是整个世界。符号和数据就是整个世界。数据繁衍,信息匮乏:观察数据激增,设计数据细数据繁衍,信息匮乏:观察数据激增,设计数据细分。分。数据的复杂性和不确定性的特点更为突出。数据的复杂性和不确定性的特点更为突出。数据分析方法和手段不足。数据分析方法和手段不足。本讲稿第六页,共五十页统计的方法论统计的方法论就方法论而言,统计分析主要解决两方面的问题:就方法论而言,统计分析主要解决两方面的问题:寻找数据内部差异
3、中共同的特征。寻找数据内部差异中共同的特征。寻找数据之间本质的差异。寻找数据之间本质的差异。统计分析的目标是从数据中发现比数据本身更为有用统计分析的目标是从数据中发现比数据本身更为有用的知识的知识本讲稿第七页,共五十页2.非参数统计方法简介非参数统计方法简介本讲稿第八页,共五十页参数方法参数方法定义:样本被视为从分布族的某个参数族抽取出来的总定义:样本被视为从分布族的某个参数族抽取出来的总体的代表,而未知的仅仅是总体分布具体的参数值,推体的代表,而未知的仅仅是总体分布具体的参数值,推断问题就转化为对分布族的若干个未知参数的估计问题,断问题就转化为对分布族的若干个未知参数的估计问题,用样本对这些
4、参数做出估计或者进行某种形式的假设检用样本对这些参数做出估计或者进行某种形式的假设检验,这类推断方法称为验,这类推断方法称为参数方法参数方法参数方法参数方法。比如:比如:(1)研究保险公司的索赔请求数时,可能假定索赔请求数来)研究保险公司的索赔请求数时,可能假定索赔请求数来自泊松分布自泊松分布P(a);(2)研究化肥对农作物产量的影响效果时,平均意义之下,每)研究化肥对农作物产量的影响效果时,平均意义之下,每测量单元(可能是)产量服从正态分布测量单元(可能是)产量服从正态分布N(a,b).本讲稿第九页,共五十页一个典型的参数检验过程一个典型的参数检验过程1.总体参数总体参数Example:Po
5、pulation Mean2.假定数据的形态为假定数据的形态为 Whole Numbers or Fractions Example:Height in Inches(72,60.5,54.7)3.有很强的假定有很强的假定Example:正态分布正态分布4.例子例子:Z Test,t Test,2 Test本讲稿第十页,共五十页一个例子:一个例子:对两组学生进行语法测试,如何比较两组学生的成绩是否存在差异?本讲稿第十一页,共五十页非参数检验过程非参数检验过程1.不涉及总体的分布不涉及总体的分布Example:Probability Distributions,Independence2.数据的
6、形态各异数据的形态各异定量数据定量数据定序数据定序数据Example:Good-Better-Best名义数据名义数据Example:Male-Female本讲稿第十二页,共五十页在不知总体分布的情况下如何利用数据所包含的信在不知总体分布的情况下如何利用数据所包含的信息呢息呢?一组数据的最基本的信息就是次序如果可一组数据的最基本的信息就是次序如果可以把数据点按大小次序排队,每一个具体数目都以把数据点按大小次序排队,每一个具体数目都有它的在整个数据中有它的在整个数据中(从最小的数起从最小的数起)的位置或次序,的位置或次序,称为该数据的秩称为该数据的秩(rank)非参数统计的名字中的非参数统计的名
7、字中的“非参数非参数(nonparametric)”意味着其方法不涉及描述总体分布的有关参数;它意味着其方法不涉及描述总体分布的有关参数;它被称为和分布无关被称为和分布无关(distributionfree),是因为其,是因为其推断方法和总体分布无关;不应理解为与所有分布推断方法和总体分布无关;不应理解为与所有分布(例如有关秩的分布例如有关秩的分布)无关无关 非参数方法非参数方法本讲稿第十三页,共五十页3.参数统计与非参数统计比较参数统计与非参数统计比较本讲稿第十四页,共五十页对总体假定较少,有广泛的适用性,对总体假定较少,有广泛的适用性,结果稳定性较好。结果稳定性较好。1.假定较少假定较少2
8、.不需要对总体参数的假定不需要对总体参数的假定3.与参数结果接近与参数结果接近针对几乎所有类型的数据形态。针对几乎所有类型的数据形态。容易计算容易计算在计算机盛行之前就已经发展起来。在计算机盛行之前就已经发展起来。非参数检验的优点本讲稿第十五页,共五十页1.可能会浪费一些信息可能会浪费一些信息特别当数据可以使用参数模型的时候。特别当数据可以使用参数模型的时候。Example:Converting Data From Ratio to Ordinal Scale2.大样本手算相当麻烦大样本手算相当麻烦3.一些表不易得到一些表不易得到非参数检验的弱点本讲稿第十六页,共五十页非参数统计的主要内容内容
9、内容非参数检验非参数检验相应的参数检验相应的参数检验2独立样本中位数检验秩和检验独立样本t检验2 配对样本/单一样本符号检验Wilcoxon 检验成对样本 t-检验2独立样本Kruskal-Wallis 检验单一因素ANOVA两因素Friedman检验双因素ANOVA相关性检验Spearman秩相关Pearson相关性检验 分布的检验Kolmogorov-Smirnov本讲稿第十七页,共五十页4.非参数统计的历史非参数统计的历史本讲稿第十八页,共五十页非参数统计的历史非参数统计的历史非参数统计的形成主要归功于非参数统计的形成主要归功于20世纪世纪40年代年代50年代化学家年代化学家F.Wilc
10、oxon等人的工作。等人的工作。Wilcoxon于于1945年提出两样本秩和检验,年提出两样本秩和检验,1947年年Mann和和Whitney二人将结果推广到两组样本量不等的一二人将结果推广到两组样本量不等的一般情况;般情况;Pitman于于1948年回答了非参数统计方法相对于参年回答了非参数统计方法相对于参数方法来说的相对效率方面的问题;数方法来说的相对效率方面的问题;本讲稿第十九页,共五十页非参数统计的历史(续)非参数统计的历史(续)60年代中后期,年代中后期,Cox和和Ferguson最早将非参数方法应用于生存最早将非参数方法应用于生存分析。分析。70年代到年代到80年代,非参数统计借助
11、计算机技术和大量计算年代,非参数统计借助计算机技术和大量计算获得更稳健的估计和预测,以获得更稳健的估计和预测,以P.J.Huber以及以及 F.Hampel为代为代表的统计学家从计算技术的实现角度,为衡量估计量的表的统计学家从计算技术的实现角度,为衡量估计量的稳定性提出了新准则。稳定性提出了新准则。90年代有关非参数统计的研究和应用主要集中在非参数回年代有关非参数统计的研究和应用主要集中在非参数回归和非参数密度估计领域,其中较有代表性的人物是归和非参数密度估计领域,其中较有代表性的人物是Silverman和和J.Fan。本讲稿第二十页,共五十页5.必要的基础知识必要的基础知识(1)假设检验)假
12、设检验(2)顺序统计量)顺序统计量(3)秩检验统计量)秩检验统计量(4)U统计量统计量(5)数据处理)数据处理本讲稿第二十一页,共五十页(1)假设检验回顾假设检验回顾问题:问题:(a)新引进的生产过程是否优于旧过程?新引进的生产过程是否优于旧过程?(b)几种不同的肥料哪一种更有效?)几种不同的肥料哪一种更有效?(c)大学生的就业率与城市失业率之间是否存在)大学生的就业率与城市失业率之间是否存在关系?关系?本讲稿第二十二页,共五十页内容内容(a)假设的真正涵义和作用)假设的真正涵义和作用(b)如何选择零假设和备择假设)如何选择零假设和备择假设(c)检验的)检验的p-值和显著性水平的作用值和显著性
13、水平的作用(d)两类错误)两类错误(e)置信区间和假设检验之间的关系)置信区间和假设检验之间的关系本讲稿第二十三页,共五十页单边检验和双边检验的单边检验和双边检验的p值值?本讲稿第二十四页,共五十页顺序统计量顺序统计量本讲稿第二十五页,共五十页 顺序统计量:顺序统计量:本讲稿第二十六页,共五十页 基于顺序统计量的统计量:基于顺序统计量的统计量:本讲稿第二十七页,共五十页 顺序统计量的分布:顺序统计量的分布:设总体的分布函数F(x),则第r个顺序统计量的分布函数为:本讲稿第二十八页,共五十页秩检验统计量秩检验统计量本讲稿第二十九页,共五十页无结点秩的定义无结点秩的定义例题:某学院本科三年级有例题
14、:某学院本科三年级有9个专业组成,统计每个专业学生每月个专业组成,统计每个专业学生每月消费数据如下,求消费数据的秩和顺序统计量的现值:消费数据如下,求消费数据的秩和顺序统计量的现值:300 230 208 580 690 200 263 215 520 本讲稿第三十页,共五十页本讲稿第三十一页,共五十页2.有结数据的秩有结数据的秩设样本设样本 取自总体取自总体X的简单随机抽样,将数的简单随机抽样,将数据排序后据排序后,相同的数据点组成一个相同的数据点组成一个“结结”,称重复数,称重复数据的个数为结长。据的个数为结长。例例1:3.8 3.2 1.2 1.2 3.4 3.2 3.23.8 3.2
15、1.2 1.2 3.4 3.2 3.2解:结长为解:结长为3 3。本讲稿第三十二页,共五十页本讲稿第三十三页,共五十页线性秩统计量线性秩统计量本讲稿第三十四页,共五十页 线性符号秩统计量:线性符号秩统计量:本讲稿第三十五页,共五十页 线性秩统计量:线性秩统计量:本讲稿第三十六页,共五十页 正态记分线性秩统计量:正态记分线性秩统计量:本讲稿第三十七页,共五十页U统计量统计量本讲稿第三十八页,共五十页核的概念核的概念例:总体期望有无偏估计例:总体期望有无偏估计X1,总体期望是可估的,总体期望是可估的,X1是总体期望是总体期望的核。的核。本讲稿第三十九页,共五十页对称核和对称核和U统计量的概念统计量的概念本讲稿第四十页,共五十页本讲稿第四十一页,共五十页U统计量的特征计算统计量的特征计算本讲稿第四十二页,共五十页数据处理数据处理 本讲稿第四十三页,共五十页SPSS SAS R S-Plus 直方图直方图盒形图盒形图茎叶图茎叶图Q-Q图图 本讲稿第四十四页,共五十页数据处理数据处理 本讲稿第四十五页,共五十页本讲稿第四十六页,共五十页数据处理数据处理 本讲稿第四十七页,共五十页本讲稿第四十八页,共五十页本讲稿第四十九页,共五十页本讲稿第五十页,共五十页
限制150内