统计建模与数据分析精品文稿.ppt
《统计建模与数据分析精品文稿.ppt》由会员分享,可在线阅读,更多相关《统计建模与数据分析精品文稿.ppt(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计建模与数据分析第1页,本讲稿共26页参考书籍:参考书籍:复杂数据统计方法复杂数据统计方法基于基于R R的应用,吴喜之编著,中的应用,吴喜之编著,中国人民大学出版社国人民大学出版社第2页,本讲稿共26页主要内容引引 言言横截面数据:因变量为实数轴上的数量变量横截面数据:因变量为实数轴上的数量变量横截面数据:因变量为分类变量及因变量为计数变量的情横截面数据:因变量为分类变量及因变量为计数变量的情况况纵向数据(多水平数据、面板数据)纵向数据(多水平数据、面板数据)多元分析(不分因变量和自变量)多元分析(不分因变量和自变量)路径建模(结构方程建模)数据的路径建模(结构方程建模)数据的PLSPLS分
2、析分析多元时间序列数据多元时间序列数据第3页,本讲稿共26页引 言第4页,本讲稿共26页统计是科学统计是科学?统计是科学?科学的基本特征是其方法论:对世界的认识源于观测或实科学的基本特征是其方法论:对世界的认识源于观测或实验的信息验的信息(或者数据或者数据),),总结信息时会形成模型总结信息时会形成模型(亦称为假说或亦称为假说或理论理论),),模型会指导进一步的探索模型会指导进一步的探索,直到遇到这些模型无法解直到遇到这些模型无法解释的现象释的现象,这就导致对这些模型的更新和替代这就导致对这些模型的更新和替代.统计可以定义为统计可以定义为 收集、分析、展示和解释数据的科学收集、分析、展示和解释
3、数据的科学,或或者称为数据科学者称为数据科学(science of data).(science of data).统计应用于几乎所有领域统计应用于几乎所有领域.第5页,本讲稿共26页统计与数学、计算机的关系统计的思维方式是归纳统计的思维方式是归纳(induction),(induction),也就是从数据所反映的现也就是从数据所反映的现实得到稍微一般的模型实得到稍微一般的模型,希望以此解释数据所代表的那部分希望以此解释数据所代表的那部分世界世界.这和以演绎这和以演绎(deduction)(deduction)为主的数学思维方式相反为主的数学思维方式相反,演绎则是在一些人为的演绎则是在一些人为
4、的假定假定(比如一个公理系统比如一个公理系统)之下之下,推导推导出各种结论出各种结论.第6页,本讲稿共26页在统计发展的前期在统计发展的前期,没有计算机没有计算机,只能在对数据加上一只能在对数据加上一些数学假定后些数学假定后,建立一些假定的数学模型建立一些假定的数学模型,推导出结果推导出结果的性质的性质,诸如置信区间诸如置信区间,假设检验的假设检验的p p值值,相合性等等相合性等等.在数据分布与假定的正态分布相差甚远的情况在数据分布与假定的正态分布相差甚远的情况,人们又人们又利用诸如中心极限定理或大样本定理得到渐近正态的结利用诸如中心极限定理或大样本定理得到渐近正态的结果果.据此又得到大样本时
5、的各种性质据此又得到大样本时的各种性质,包括置信区间或置信带包括置信区间或置信带,p,p值值,相合性等等相合性等等.统计的这种发展方式统计的这种发展方式,给统计打上了很深的数学烙印给统计打上了很深的数学烙印.第7页,本讲稿共26页在现成的数学模型无法处理大量的复杂数据的情况下,计在现成的数学模型无法处理大量的复杂数据的情况下,计算机领域的研究人员和部分概率论及统计学家开发了许多算机领域的研究人员和部分概率论及统计学家开发了许多计算方法,处理了传统统计无法解决的大量问题。诸如人计算方法,处理了传统统计无法解决的大量问题。诸如人工神经网络、决策树、工神经网络、决策树、boostingboostin
6、g、随机森林、支持向量机等、随机森林、支持向量机等大量大量算法模型。算法模型。统计研究逐步由数据或者问题驱动,创造模型的目的是适统计研究逐步由数据或者问题驱动,创造模型的目的是适应现实数据。应现实数据。第8页,本讲稿共26页随着时代的前进随着时代的前进,院系现在也出现了诸如数据挖掘、机器学院系现在也出现了诸如数据挖掘、机器学习等课程习等课程,统计杂志也开始逐渐重视这些研究统计杂志也开始逐渐重视这些研究.这些算法模型大都不是用封闭的数学公式来描述这些算法模型大都不是用封闭的数学公式来描述,而是体现而是体现在计算机算法或程序上在计算机算法或程序上.参考书籍:参考书籍:The Elements of
7、 Statistical Learning:Data Mining,Inference,and The Elements of Statistical Learning:Data Mining,Inference,and Prediction.Second Edition.Prediction.Second Edition.Trevor Hastie,Robert Tibshirani,Jerome Friedman,SpringerTrevor Hastie,Robert Tibshirani,Jerome Friedman,Springer第9页,本讲稿共26页学术期刊Top Top 期刊
8、期刊The Annals of Statistics.The Annals of Statistics.Journal of the Royal Statistical Society,Series B.Journal of the Royal Statistical Society,Series B.Journal of the American Statistical Association.Journal of the American Statistical Association.Biometrika.Biometrika.Journal of Machine Learning Re
9、searchJournal of Machine Learning ResearchEconometrika Econometrika BiostatisticsBiostatistics第10页,本讲稿共26页文献检索文献检索的一点经验文献检索的一点经验No sweat,No sweet.第11页,本讲稿共26页数据分析的实践数据收集数据收集.首先要根据实际目的.有数据不一定能够得到需要的结论,我们需要的是与所关心问题充分有关的变量的数据.数据预处理数据预处理.缺失值寻找适合的模型:寻找适合的模型:为了寻找模型,首先要对数据进行探索性分析,利用图形、各种统计量、或者比较复杂的探索方法来查看数
10、据的关联性、线性性、异方差性、多重共线性、聚类特征、分布形状等。有了对数据的粗略认识之后,就寻找合适的模型。第12页,本讲稿共26页数据分析的实践比较模型的标准比较模型的标准.传统统计中:各种判别准则(各种检验、一些统计量的临界值等等).都是在对数据分布及描述变量之间关系的模型所做的假定之下得到的.在使用算法模型时,由于没有传统模型的那些假定,判断模型好坏通常都用交叉验证(cross validation)。对结果的解释对结果的解释.选择模型并不是目的,目的是解释模型所产生的结果,而结果必须是应用领域的结果,必须有实际意义.仅仅用统计术语说某个模型较好,某个变量显著之类的话是不够的.第13页,
11、本讲稿共26页R软件入门R软件的安装http:/ xsample(x,20)#sample(x,20)#从从1,.,1001,.,100中随机不放回地抽取中随机不放回地抽取2020个值作为样本个值作为样本set.seed(0);sample(1:10,3)#set.seed(0);sample(1:10,3)#先设随机种子再抽样先设随机种子再抽样.z=sample(1:200000,10000)#z=sample(1:200000,10000)#从从1,.,2000001,.,200000中随机不放回地抽取中随机不放回地抽取1000010000个值作为样本个值作为样本z1:10z1:10#方括
12、号中为向量方括号中为向量z z的下标的下标y=c(1,3,7,3,4,2)y=c(1,3,7,3,4,2)zy#zy#以以y y为下标的为下标的z z的元素值的元素值(z=sample(x,100,rep=T)#(z=sample(x,100,rep=T)#从从x x放回地抽取放回地抽取100100个随机样本个随机样本(z1=unique(z)(z1=unique(z)length(z1)#zlength(z1)#z中不同的元素个数中不同的元素个数xz=setdiff(x,z)#xxz=setdiff(x,z)#x和和z z之间的不同元素之间的不同元素-集合差集合差sort(union(xz,
13、z)#sort(union(xz,z)#对对xzxz及及z z的并的元素从小到大排序的并的元素从小到大排序setequal(union(xz,z),x)#setequal(union(xz,z),x)#对对xzxz及及z z的并的元素与的并的元素与x x是否一样是否一样intersect(1:10,7:50)#intersect(1:10,7:50)#两个数据的交两个数据的交sample(1:100,20,prob=1:100)#sample(1:100,20,prob=1:100)#从从1:1001:100中不等概率随机抽样中不等概率随机抽样,#各数目抽到的概率与各数目抽到的概率与1:100
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 建模 数据 分析 精品 文稿
限制150内