统计学基础与的实现幻灯片.ppt
《统计学基础与的实现幻灯片.ppt》由会员分享,可在线阅读,更多相关《统计学基础与的实现幻灯片.ppt(83页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计学基础与的实现第1页,共83页,编辑于2022年,星期二在那个温暖的夏日午后在那个温暖的夏日午后第2页,共83页,编辑于2022年,星期二女士品茶试验女士品茶试验o试验:试验:8 8杯奶茶,先加奶(杯奶茶,先加奶(MTMT),和先加茶),和先加茶(TMTM)各半(比例告诉该女士),测试结各半(比例告诉该女士),测试结果。果。o零假设零假设:该女子没有分辨能力;即说对说错:该女子没有分辨能力;即说对说错完全随机。完全随机。第3页,共83页,编辑于2022年,星期二设设x x为说对的杯数为说对的杯数o则则x x的取值只能为的取值只能为0 0,2 2,4 4,6 6,8 8。o取统计量取统计量T
2、 Tx x为猜对的杯数,为猜对的杯数,T T越大说明越能否定越大说明越能否定零假设。则零假设。则x x的概率分布为:的概率分布为:X X值值8 86 64 42 20 0概率概率1/701/7016/7016/7036/7036/7016/7016/701/701/70第4页,共83页,编辑于2022年,星期二对可能结果的解释对可能结果的解释第5页,共83页,编辑于2022年,星期二什么是统计学?什么是统计学?第6页,共83页,编辑于2022年,星期二统计学的统计学的定义定义o大英百科全书大英百科全书:“统计学是一门收集数统计学是一门收集数据、分析数据据、分析数据,并根据并根据数据数据进行进行
3、推断推断的的科学科学和和艺术艺术。最初与政府收集的数据有关。最初与政府收集的数据有关,现在现在包括了范围广泛的方法和理论。包括了范围广泛的方法和理论。”o统计科学百科全书统计科学百科全书:“统计学统计学”这个术这个术语表示语表示“涉及收集、表示和分析涉及收集、表示和分析数据数据的的普遍普遍方法和原理的领域方法和原理的领域”。第7页,共83页,编辑于2022年,星期二收集和分析的收集和分析的对象对象o“数据!数据!数据!数据!数据!数据!”他不耐烦地叫嚷他不耐烦地叫嚷着,着,“没有黏土,我可做不出砖头。没有黏土,我可做不出砖头。”歇洛克歇洛克福尔摩斯(铜山毛榉案)福尔摩斯(铜山毛榉案)o“Dat
4、a!data!data!Data!data!data!”he cried impatiently.he cried impatiently.“I canI cant make t make bricks without clay.bricks without clay.”Sherlock Holmes Sherlock Holmes(The Adventure of The Adventure of the Copper Beechesthe Copper Beeches)第8页,共83页,编辑于2022年,星期二两种数据两种数据o没有变异的数据没有变异的数据汇总分析和数值分析汇总分析和数值分
5、析o有变异的数据有变异的数据概率论与数理统计概率论与数理统计第9页,共83页,编辑于2022年,星期二统计学的统计学的定义定义o在终极的分析中,一切的知识都是历史;在在终极的分析中,一切的知识都是历史;在抽象的基础上,一切的科学都是数学;在理抽象的基础上,一切的科学都是数学;在理性的意义下,所有的判断都是统计学。(性的意义下,所有的判断都是统计学。(C.C.R.RaoR.Rao)o统计学是仅有的系统地研究推断的科学。统计学是仅有的系统地研究推断的科学。(EfronEfron)第10页,共83页,编辑于2022年,星期二研究规律的方法论研究规律的方法论o世界上有三种谎言:谎言,该死的谎言,世界上
6、有三种谎言:谎言,该死的谎言,统统计数据计数据。Benjamin DisraeliBenjamin DisraelioThere are three kinds of lies:lies,damned lies,and There are three kinds of lies:lies,damned lies,and statisticsstatistics.第11页,共83页,编辑于2022年,星期二统计学的统计学的两个性质两个性质o中立的工具:靠中立的工具:靠数据数据说话,而不是说话,而不是理论理论;o分析结果是分析结果是“关系关系”,而不是,而不是“因果因果”。(Association
7、 is not causation.Association is not causation.)第12页,共83页,编辑于2022年,星期二两种研究方案两种研究方案实验实验与与观察观察o对照实验对照实验不同于不同于观察研究。观察研究。o在一个对照试验中,是在一个对照试验中,是研究者决定研究者决定谁将在处谁将在处理组和谁将在对照组。理组和谁将在对照组。o与此相反,在观察研究中,正是与此相反,在观察研究中,正是实验对象自实验对象自己安排己安排他们自己到不同的组去,而他们自己到不同的组去,而研究者只研究者只是观察是观察所发生的情况。所发生的情况。第13页,共83页,编辑于2022年,星期二两种研究方
8、案两种研究方案实验实验与与观察观察o如果没有不可检验的假定的话,根据观察研如果没有不可检验的假定的话,根据观察研究进行因果推断是不可能的。究进行因果推断是不可能的。HollandHollando你在那里所经历的不是一个实验,而是一种你在那里所经历的不是一个实验,而是一种经验。经验。R.A.FisherR.A.Fisher第14页,共83页,编辑于2022年,星期二几个基本概念几个基本概念o观察单位(观察单位(observed unitobserved unit)o总体(总体(populationpopulation)与样本()与样本(samplesample)o观测(观测(observatio
9、nobservation)与变量()与变量(variablevariable)第15页,共83页,编辑于2022年,星期二变量的类型变量的类型o连续型变量(连续型变量(Continuous VariableContinuous Variable)、定)、定量资料(量资料(quantitative variablequantitative variable)o离散型变量(离散型变量(Discrete VariableDiscrete Variable)、分类)、分类变量(变量(Categorical Variable Categorical Variable)或称定性)或称定性资料(资料(qua
10、litative variablequalitative variable)n二分类(二分类(binary variablebinary variable)n离散计数(离散计数(discrete quantitydiscrete quantity)n顺序(顺序(ordinal variableordinal variable)n名义(名义(nominal variablenominal variable)第16页,共83页,编辑于2022年,星期二实例:凤凰城比马印第安人糖尿病的数据实例:凤凰城比马印第安人糖尿病的数据o共共768768个观测,个观测,9 9个变量:个变量:npregnant
11、pregnant 怀孕次数(连续型)怀孕次数(连续型)nglucose glucose 餐后血糖餐后血糖 (连续型)(连续型)nDiastolic Diastolic 舒张压(连续型)舒张压(连续型)nTriceps Triceps 上臂围(连续型)上臂围(连续型)ninsulin insulin 胰岛素剂量(连续型)胰岛素剂量(连续型)nbmi bmi 体质指数(连续型)体质指数(连续型)nDiabetes Diabetes 糖尿病谱系指数(连续型)糖尿病谱系指数(连续型)nAge Age 年龄(连续型)年龄(连续型)ntest test 糖尿病检测结果(离散型)糖尿病检测结果(离散型)第1
12、7页,共83页,编辑于2022年,星期二第一步:审视你的数据第一步:审视你的数据描述性统计描述性统计(descriptive descriptive statisticsstatistics)进来的是垃圾,出去的还是垃圾!进来的是垃圾,出去的还是垃圾!(Garbage in,garbage out!Garbage in,garbage out!)第18页,共83页,编辑于2022年,星期二连续型变量连续型变量o集中趋势(集中趋势(central tendencycentral tendency)n均值(均值(meanmean)n中位数(中位数(medianmedian)n众数(众数(modem
13、ode)第19页,共83页,编辑于2022年,星期二连续型变量连续型变量o离散趋势(离散趋势(tendency of dispersiontendency of dispersion)n极差(极差(rangerange)n百分位数(百分位数(percentilepercentile)、上下四分位数()、上下四分位数(Q QU U,Q QL L)n四分位间距(四分位间距(Inter-quartile rangeInter-quartile range)n方差(方差(variancevariance)与标准差()与标准差(standard standard deviationdeviation)n
14、变异系数(变异系数(coefficient of variationcoefficient of variation)第20页,共83页,编辑于2022年,星期二分类变量的数量化分类变量的数量化 .第21页,共83页,编辑于2022年,星期二分类变量的数量化分类变量的数量化 .第22页,共83页,编辑于2022年,星期二分类变量分类变量o相对数相对数o率率o构成比构成比第23页,共83页,编辑于2022年,星期二Epi InfoEpi Info的实现的实现o数据表:数据表:AnalysisAnalysis模块中的模块中的listlist,meansmeans,frequenciesfreque
15、ncies,summarizesummarize命令;命令;o图:图:AnalysisAnalysis模块中的模块中的graphgraph命令:直方图命令:直方图(histogramhistogram)、条图()、条图(barbar)、饼图)、饼图(piepie)、盒须图()、盒须图(box-whiskerbox-whisker)等)等o(请在本子上记下(请在本子上记下“不好不好”的数据)的数据)第24页,共83页,编辑于2022年,星期二第二步:对异常值的清理第二步:对异常值的清理数据清洗(数据清洗(data cleaningdata cleaning)第25页,共83页,编辑于2022年,
16、星期二数据清洗数据清洗o修改变量值修改变量值o将无价值的数据删除将无价值的数据删除o将某些值重新编码(如缺失值)将某些值重新编码(如缺失值)第26页,共83页,编辑于2022年,星期二Epi InfoEpi Info的实现的实现oAnalysisAnalysis模块中的模块中的listlist(allow updatesallow updates),),assignassign,ifif,delete recodedelete recode命令命令第27页,共83页,编辑于2022年,星期二重复第一、二步重复第一、二步第28页,共83页,编辑于2022年,星期二第三步:定义新的分析变量第三步:
17、定义新的分析变量可能会贯穿你的分析过程的全部!可能会贯穿你的分析过程的全部!第29页,共83页,编辑于2022年,星期二定义新变量定义新变量o将人群按舒张压是否高于将人群按舒张压是否高于9595分为是否高血压分为是否高血压(HPHP,1 1是,是,2 2否)否)o将人群按将人群按bmibmi是否高于是否高于2525分为是否肥胖(分为是否肥胖(fatfat,1 1是,是,2 2否)否)o将人群按年龄分组(将人群按年龄分组(agegageg,2121,3030,4040,5050,6060,7070)o将人群按怀孕次数分组(将人群按怀孕次数分组(pgpg,0 0,1 1,2 2,5 5,1010)
18、第30页,共83页,编辑于2022年,星期二Epi InfoEpi Info的实现的实现oAnalysisAnalysis模块中的模块中的definedefine,assignassign,ifif,recoderecode命令命令第31页,共83页,编辑于2022年,星期二对新变量进行第一、二步对新变量进行第一、二步第32页,共83页,编辑于2022年,星期二第四步:找出变量间的关系第四步:找出变量间的关系统计推断统计推断(inferential statisticsinferential statistics)关系:关系:区别和联系区别和联系第33页,共83页,编辑于2022年,星期二区别
19、(各组间是否不同)区别(各组间是否不同)o连续型变量:连续型变量:nt t检验与检验与u u检验(或称检验(或称z z检验)检验)n方差分析方差分析n秩和检验秩和检验o离散型变量:离散型变量:n2 2检验检验n精确概率精确概率第34页,共83页,编辑于2022年,星期二联系(变量间变化是否一致)联系(变量间变化是否一致)o回归:回归:n线性回归模型;线性回归模型;n对数线性模型;对数线性模型;n其它广义线性模型;其它广义线性模型;第35页,共83页,编辑于2022年,星期二几个基本概念几个基本概念o零假设(零假设(null hypothesisnull hypothesis)与备择假设)与备择
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 基础 实现 幻灯片
限制150内