《统计是科学精品文稿.ppt》由会员分享,可在线阅读,更多相关《统计是科学精品文稿.ppt(14页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计是科学第1页,本讲稿共14页统计是科学是科学(science)(science)科学的基本特征是其方法论:对世界的认识源于观测或实验的信息(或者数据),总结信息时会形成模型(亦称为假说或理论),模型会指导进一步的探索,直到遇到这些模型无法解释的现象,这就导致对这些模型的更新和替代。只有用科学方法进行的探索才能称为科学。第2页,本讲稿共14页统计是科学(science)科学的理论完全依赖于实际。统计方法则完全依赖于实际数据。统计可以定义为“收集、分析、展示和解释数据的科学”,或者称为数据科学(science of data)。统计应用于几乎所有领域。第3页,本讲稿共14页统计的思维方式是归纳
2、(induction),也就是从数据所反映的现实得到稍微一般的模型,希望以此解释数据所代表的那部分世界。这和以演绎(deduction)为主的数学思维方式相反。演绎则是在一些人为的假定(比如一个公理系统)之下,推导出各种结论.统计是科学(science)第4页,本讲稿共14页统计是科学(science)统计发展前期,没有计算机,只能在对数据加上一些数学假定后,建立一些假定的数学模型,推导出结果的性质,诸如置信区间,假设检验的p值,相合性等等。在数据分布与假定的正态分布相差甚远的情况,人们又利用诸如中心极限定理或大样本定理得到渐近正态的结果。据此又得到大样本时的各种性质,包括置信区间或置信带,p
3、值,相合性等等。统计的发展方式,给统计打上了很深的数学烙印。第5页,本讲稿共14页统计是科学(science)历史痕迹:“模型驱动”的研究模式,课程的名称和主要内容,一些数理统计杂志的文章。学生毕业后只会推导一些课本上的公式,却不会处理真实数据.一些人对于有穷样本,也假装认为是大样本的。一些人想象出来一些他们感觉很好的数学模型,然后再在世界上到处寻求“适合”他们模型的数据来“证明”他们模型的确有意义。第6页,本讲稿共14页统计是科学(science)统计在某种程度上成为自我封闭、自我欣赏及自我评价的系统。最近三十年,统计丢掉了许多属于数据科学的领域,也失去了许多人才。第7页,本讲稿共14页统计
4、是科学(science)随着时代的前进,院系现在也出现了诸如数据挖掘、机器学习等课程,统计杂志也开始逐渐重视这些研究。这些算法模型大都不是用封闭的数学公式来描述,而是体现在计算机算法或程序上。对于结果的风险也不是用假定的分布(或渐近分布)所得到的p值来描述,而是用没有参加建模训练的测试集的误差来描述。那些不懂统计或概率论的人也能够完全理解结果(这也是许多有“知识垄断欲”的人很难接受的现实)。现在,无论承认与否,如果不会计算机编程或者不与编程人员合作,则不会产生任何有意义的成果。第8页,本讲稿共14页数据分析实践数据收集。数据收集。首先要根据实际目的。有数据不一定能够得到需要的结论,我们需要的是
5、与所关心问题充分有关的变量的数据。数据预处理。数据预处理。寻找适合的模型。寻找适合的模型。第9页,本讲稿共14页数据分析实践比比较模型的模型的标准准.u传统统计中:各种判别准则(各种检验、一些统计量的临界值等等)。都是在对数据分布及描述变量之间关系的模型所做的假定之下得到的。u在使用算法模型时,由于没有传统模型的那些假定,判断模型好坏通常都用交叉验证(cross validation)对结果的解果的解释.选择模型并不是目的,目的是解释模型所产生的结果,而结果必须是应用领域的结果,必须有实际意义.仅仅用统计术语说某个模型较好,某个变量显著之类的话是不够的。第10页,本讲稿共14页数据的形式以及可
6、能用到的模型横截面数据横截面数据:因因变量量为实轴上的数量上的数量变量量误差项独立同正态分布的线性回归。加权回归,稳健回归,偏最小二乘回归,lasso回归,岭回归,主成份回归,Box-Cox变换(或其他变换),多项式回归,分位数回归等模型,判断方法,诸如最优子集,逐步回归,回归诊断等等.非线性回归,非参数回归,广义线性模型,随机效应混合模型,半参数模型,可加模型,广义可加模型等等.生存分析也包含了回归的内容。近年来,神经网络,决策树的回归树,boosting,bagging,最近邻方法,随机森林,支持向量机等算法模型也广泛应用于回归中。第11页,本讲稿共14页数据的形式以及可能用到的模型横截面
7、数据横截面数据:因变量为分类变量或者频数因变量为分类变量或者频数因变量是二分变量,logistic回归和probit回归线性判别分析(自变量是数量型正态变量),决策树的分类树,神经网络,boosting,bagging,随机森林,最近邻方法,支持向量机。频数数据,比如列联表数据.把这些频数作为关注的因变量:多项分布对数线性模型,多项logit模型及Poisson对数线性模型。dispersion情况。“非正统”的机器学习的方法关联规则分析第12页,本讲稿共14页数据的形式以及可能用到的模型纵向数据向数据(多水平数据多水平数据,重复重复观测数据数据)名称:多层模型,随机效应混合模型等线性随机效应混合模型 广义线性随机效应混合模型决策树的应用及纵向生存分析等第13页,本讲稿共14页数据的形式以及可能用到的模型多元分析:主成份分析,因子分析,聚类分析,典型相关分析,对应分析。经典(多元正态分布)现代可视化(多重变量,带有分类变量)路径模型路径模型/结构方程模型构方程模型PLS方法协方差方法多元多元时间序列数据序列数据单位根检验及协整检验VAR状态空间模型第14页,本讲稿共14页
限制150内