医疗行业统计基础知识培训24157.pptx
《医疗行业统计基础知识培训24157.pptx》由会员分享,可在线阅读,更多相关《医疗行业统计基础知识培训24157.pptx(78页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、本课内容包含本课内容包含统计回顾统计回顾方差分析方差分析主成分分析和因子分析主成分分析和因子分析聚类分析聚类分析判别分析判别分析典型相关分析典型相关分析对应分析对应分析列联表列联表Logistic回归回归Poisson对数线性模型对数线性模型时间序列分析时间序列分析。统计基本概念回顾随机性和规律性现实中的随机性和规律性现实中的随机性和规律性从中学起,我们就知道自然科学的许多定律,例从中学起,我们就知道自然科学的许多定律,例如物理中的牛顿三定律,物质不灭定律以及化学如物理中的牛顿三定律,物质不灭定律以及化学中的各种定律等等。中的各种定律等等。但是在许多领域,但是在许多领域,很难用如此确定的公式或
2、论述很难用如此确定的公式或论述来描述一些现象。来描述一些现象。比如,人的寿命是很难预先确比如,人的寿命是很难预先确定的。一个吸烟、喝酒、不锻炼、而且一口长荤定的。一个吸烟、喝酒、不锻炼、而且一口长荤的人可能比一个很少得病、生活习惯良好的人活的人可能比一个很少得病、生活习惯良好的人活得长。得长。因此,可以说,活得长短是有一定随机性的因此,可以说,活得长短是有一定随机性的(randomness)。这种随机性可能和人的经历、基。这种随机性可能和人的经历、基因、习惯等因、习惯等无数说不清的因素无数说不清的因素都有关系。都有关系。现实中的随机性和规律性现实中的随机性和规律性但是从总体来说,我国公民的平均
3、但是从总体来说,我国公民的平均年龄却是非常稳定的。而且女性的年龄却是非常稳定的。而且女性的平均年龄也稳定地比男性高几年。平均年龄也稳定地比男性高几年。这就是这就是规律性规律性。一个人可能活过这个平均年龄,也一个人可能活过这个平均年龄,也可能活不到这个年龄,这是可能活不到这个年龄,这是随机的随机的。但是总体来说,平均年龄的稳定性,但是总体来说,平均年龄的稳定性,却说明了却说明了随机之中有规律性随机之中有规律性。这种。这种规律就是统计规律。规律就是统计规律。概率和机会概率和机会你可能经常听到概率(你可能经常听到概率(probability)这个)这个名词。例如在天气预报中会提到降水概名词。例如在天
4、气预报中会提到降水概率。大家都明白,如果降水概率是百分率。大家都明白,如果降水概率是百分之九十,那就很可能下雨;但如果是百之九十,那就很可能下雨;但如果是百分之十,就不大可能下雨。分之十,就不大可能下雨。因此,从某种意义说来,因此,从某种意义说来,概率描述了某概率描述了某件事情发生的机会。件事情发生的机会。显然,这种概率不可能超过百分之百,显然,这种概率不可能超过百分之百,也不可能少于百分之零。换言之,也不可能少于百分之零。换言之,概率概率是在是在0和和1之间的一个数之间的一个数,说明某事件发,说明某事件发生的机会有多大。生的机会有多大。有些概率是无法精确推断的有些概率是无法精确推断的比如你对
5、别人说你下一个周末去公园比如你对别人说你下一个周末去公园的概率是百分之八十。但你无法精确的概率是百分之八十。但你无法精确说出为什么是百分之八十而不是百分说出为什么是百分之八十而不是百分之八十四或百分之七十八。之八十四或百分之七十八。其实你想说的是你很可能去,但又没其实你想说的是你很可能去,但又没有完全肯定。有完全肯定。实际上,到了周末,你或者去,或者实际上,到了周末,你或者去,或者不去;不可能有分身术把百分之八十不去;不可能有分身术把百分之八十的你放到公园,而其余的放在别处。的你放到公园,而其余的放在别处。有些概率是可以估计的有些概率是可以估计的比如掷骰子。只要没有人在骰子上做比如掷骰子。只要
6、没有人在骰子上做手脚,你得到手脚,你得到6 6点的概率应该是六分之点的概率应该是六分之一。得到其他点的概率也是一样。一。得到其他点的概率也是一样。得到得到6 6的概率或者机会是可以知道的,的概率或者机会是可以知道的,但掷骰子的结果还但掷骰子的结果还只可能是六个数目只可能是六个数目之一。之一。这个已知的规律就反映了规律性,而这个已知的规律就反映了规律性,而得到哪个结果则反映了随机性。得到哪个结果则反映了随机性。如果你掷如果你掷10001000次骰子,那么,大约有次骰子,那么,大约有六分之一的可能会得到六分之一的可能会得到6 6;这也是随机这也是随机性呈现有规律的一个体现。性呈现有规律的一个体现。
7、变量变量做任何事情都要有做任何事情都要有对象对象。比如一个班上注册。比如一个班上注册的学生有的学生有200人,这是一个固定的数目,称为人,这是一个固定的数目,称为常数(常数(constant)或者常量。或者常量。但是,如果猜测今天这个班有多少人会来上但是,如果猜测今天这个班有多少人会来上课,那就没准了。这有随机性。课,那就没准了。这有随机性。可能有请病可能有请病假或事假的,也可能有逃课的。这样,就要假或事假的,也可能有逃课的。这样,就要来上课的人数是个来上课的人数是个变量变量(variable)。另外对于某项政策同意与否的回答,也有另外对于某项政策同意与否的回答,也有“同意同意”、“不同意不同
8、意”或者或者“不知道不知道”三种可三种可能值;这也是变量,只不过能值;这也是变量,只不过不是数量不是数量而已。而已。变量变量当变量按照随机规律所取的值是数量时该变量称当变量按照随机规律所取的值是数量时该变量称为为定量变量或数量变量定量变量或数量变量(quantitative variable););因为是随机的,也称为随机变量(因为是随机的,也称为随机变量(random variable)。)。象性别,观点之类的取非数量值的变量就称为象性别,观点之类的取非数量值的变量就称为定定性变量或属性变量或分类变量性变量或属性变量或分类变量(qualitative variable,categorical
9、 variable)。)。这些定性变量也可以由随机变量来描述,比如男这些定性变量也可以由随机变量来描述,比如男性和女性的数目,同意某政策人数的比例等等。性和女性的数目,同意某政策人数的比例等等。只有当变量用数量来描述时,才有可能建立数学只有当变量用数量来描述时,才有可能建立数学模型,才可能使用计算机来分析。模型,才可能使用计算机来分析。数据数据有了变量的概念,什么是数据呢?拿掷骰子来说,掷骰有了变量的概念,什么是数据呢?拿掷骰子来说,掷骰子会得到什么值,是个随机变量;而每次取得子会得到什么值,是个随机变量;而每次取得1至至6点中点中任意点数的概率它在理论上都是六分之一(如果骰子公任意点数的概率
10、它在理论上都是六分之一(如果骰子公平)。这依赖于在掷骰子背后的理论或假定;而在实际平)。这依赖于在掷骰子背后的理论或假定;而在实际掷骰子过程中,如果掷掷骰子过程中,如果掷100次,会得到次,会得到100个由个由1至至6点组点组成的数字串;再掷成的数字串;再掷100次,又得到一个数字串,和前一次,又得到一个数字串,和前一次的结果多半不一样。这些试验结果就是数据。所以说次的结果多半不一样。这些试验结果就是数据。所以说,数据是关于变量的观测值数据是关于变量的观测值.通过数据可以验证有关的理论或假定通过数据可以验证有关的理论或假定(比如每一次得到(比如每一次得到每个点的概率是不是每个点的概率是不是1/
11、6等等)。对于顾客是否喜欢某等等)。对于顾客是否喜欢某种饮品的调查也类似,但这里不象掷骰子那样事先可以种饮品的调查也类似,但这里不象掷骰子那样事先可以大致猜测顾客喜欢与否的概率。在问了大致猜测顾客喜欢与否的概率。在问了1000人之后,可人之后,可能有能有364人说喜欢,而人说喜欢,而480人说不喜欢,其余的人可能不人说不喜欢,其余的人可能不回答,或说不知道,或从来没有喝过这种饮料。这些数回答,或说不知道,或从来没有喝过这种饮料。这些数目就是数据。当然,它仅仅反映了目就是数据。当然,它仅仅反映了1000个被问到的人的个被问到的人的观点;但这对于估计整个消费群体的观点还是有用的。观点;但这对于估计
12、整个消费群体的观点还是有用的。统计和计算机统计和计算机 现现代代生生活活越越来来越越离离不不开开计计算算机机了了。最最早早使使用计算机的统计当然更离不开计算机了。用计算机的统计当然更离不开计算机了。事事实实上上,最最初初的的计计算算机机仅仅仅仅是是为为科科学学计计算算而而建建造造的的。大大型型计计算算机机的的最最早早一一批批用用户户就就包包含含统统计计。而而现现在在统统计计仍仍然然是是进进行行数数字字计计算最多的用户。算最多的用户。计计算算机机现现在在早早已已脱脱离离了了仅仅有有计计算算功功能能的的单单一模式,而成为一模式,而成为百姓生活的一部分百姓生活的一部分。计计算算机机的的使使用用,也也
13、从从过过去去必必须须学学会会计计算算机机语语言言到到只只需需要要“傻傻瓜瓜式式”地地点点击击鼠鼠标标。结结果果也也从从单单纯纯的的数数字字输输出出到到包包括括漂漂亮亮的的表表格格和图形的各种形式。和图形的各种形式。统计软件统计软件统计软件的发展,也使得统计从统计统计软件的发展,也使得统计从统计学家的圈内游戏变成了大众的游戏。学家的圈内游戏变成了大众的游戏。只要你输入你的数据,点几下鼠标,只要你输入你的数据,点几下鼠标,做一些选项,马上就得到令人惊叹的做一些选项,马上就得到令人惊叹的漂亮结果了。漂亮结果了。你可能会问,是否傻瓜式的统计软件你可能会问,是否傻瓜式的统计软件使用可以代替统计课程了?使
14、用可以代替统计课程了?当然不是。数据的整理和识别,方法当然不是。数据的整理和识别,方法的选用,计算机输出结果的理解都不的选用,计算机输出结果的理解都不象使用傻瓜相机那样简单可靠。象使用傻瓜相机那样简单可靠。统计软件统计软件有些诸如法律和医学方面的软件都有不少警告,有些诸如法律和医学方面的软件都有不少警告,不时提醒你去咨询专家。不时提醒你去咨询专家。但统计软件则不那么负责。只要数据格式无误、但统计软件则不那么负责。只要数据格式无误、方法不矛盾而且不用零作为除数就一定给你结果,方法不矛盾而且不用零作为除数就一定给你结果,而且而且没有任何警告没有任何警告。另外,统计软件另外,统计软件输出的结果太多输
15、出的结果太多;即使是同样的;即使是同样的方法,不同软件输出的内容还不一样;有时同样方法,不同软件输出的内容还不一样;有时同样的内容名称也不一样。这就使得使用者大伤脑筋。的内容名称也不一样。这就使得使用者大伤脑筋。即使是统计学家也不一定能解释所有的输出。因即使是统计学家也不一定能解释所有的输出。因此,就应该特别留神,明白自己是在干什么。此,就应该特别留神,明白自己是在干什么。不不要在得到一堆毫无意义的垃圾之后还沾沾自喜要在得到一堆毫无意义的垃圾之后还沾沾自喜。统计软件统计软件统计软件的种类很多。有些功能齐统计软件的种类很多。有些功能齐全,有些价格便宜;有些容易操作,全,有些价格便宜;有些容易操作
16、,有些需要更多的实践才能掌握。还有些需要更多的实践才能掌握。还有些是专门的软件,只处理某一类有些是专门的软件,只处理某一类统计问题。面对太多的选择往往给统计问题。面对太多的选择往往给决策带来困难。这里介绍最常见的决策带来困难。这里介绍最常见的几种。几种。统计软件统计软件SPSS:这这是是一一个个很很受受欢欢迎迎的的统统计计软软件件;它它容容易易操操作作,输输出出漂漂亮亮,功功能能齐齐全全,价价格格合合理理。对对于于非非统统计计工工作作者者是是很好的选择。很好的选择。Excel:它它严严格格说说来来并并不不是是统统计计软软件件,但但作作为为数数据据表表格格软软件件,必必然然有有一一定定统统计计计
17、计算算功功能能。而而且且凡凡是是有有Microsoft Office的的计计算算机机,基基本本上上都都装装有有Excel。但但要要注注意意,有有时时在在装装Office时时没没有有装装数数据据分分析析的的功功能能,那那就就必必须须装装了了才才行行。当当然然,画画图图功功能能是是都都具具备备的的。对对于于简简单单分分析析,Excel还还算算方方便便,但但随随着着问问题题的的深深入入,Excel就就不不那那么么“傻傻瓜瓜”,需需要要使使用用函函数数,甚甚至至根根本本没没有有相相应应的的方方法法了了。多多数数专专门门一一些些的的统统计计推推断断问问题题还还需需要要其其他他专专门门的的统统计计软软件来
18、处理。件来处理。SAS:这这是是功功能能非非常常齐齐全全的的软软件件;尽尽管管价价格格不不菲菲,许许多多公公司司还还是是因因为为其其功功能能众众多多和和某某些些美美国国政政府府机机构构认认可可而而使使用用。尽尽管管现现在在已已经经尽尽量量“傻傻瓜瓜化化”,仍仍然然需需要要一一定定的的训训练才可以进入。对于基本统计课程则不那么方便。练才可以进入。对于基本统计课程则不那么方便。统计软件统计软件S-plus:这这是是统统计计学学家家喜喜爱爱的的软软件件。不不仅仅由由于于其其功功能能齐齐全全,而而且且由由于于其其强强大大的的编编程程功功能能,使使得得研研究究人人员员可可以以编编制制自自己己的的程程序序
19、来来实实现现自自己己的的理理论论和和方方法法。它它也也在在进进行行“傻傻瓜瓜化化”以以争争取取顾顾客客。但但仍仍然以编程方便为顾客所青睐。然以编程方便为顾客所青睐。R软软件件:这这是是一一个个免免费费的的,由由志志愿愿者者管管理理的的软软件件。其其编编程程语语言言与与S-plus所所基基于于的的S语语言言一一样样,很很方方便便。还还有有不不断断加加入入的的各各个个方方向向统统计计学学家家编编写写的的统统计计软软件件包包。同同时时从从网网上上可可以以不不断断更更新新和和增增加加有有关关的的软软件件包包和和程程序序。这这是是发发展展最最快快的的软软件件,受受到到世世界界上上统统计计师师生生的的欢欢
20、迎迎。是是用用户户量量增增加加最最快快的的统统计计软软件件。对对于于一一般般非非统统计计工工作作者者来来说说,主主要要问问题题是是它没有它没有“傻瓜化傻瓜化”。统计软件统计软件Minitab:这这个个软软件件是是很很方方便便的的功功能能强强大大而而又又齐齐全全的的软软件件,也也已已经经“傻傻瓜瓜化化”,在在我我国国用用的的不不如如SPSS与与SAS那那么普遍。么普遍。Statistica:也也是是功功能能强强大大而而齐齐全全的的“傻傻瓜瓜化化”的的软软件件,在我国用的也不如在我国用的也不如SAS与与SPSS那么普遍。那么普遍。Eviews:这是一个主要处理回归和时间序列的软件。这是一个主要处理
21、回归和时间序列的软件。GAUSS:这这是是一一个个很很好好用用的的统统计计软软件件,许许多多搞搞经经济济的的喜喜欢欢它它。主主要要也也是是编编程程功功能能强强大大。目目前前在在我我国国使使用用的的人人不多。不多。FORTRAN:这这是是应应用用于于各各个个领领域域的的历历史史很很长长的的非非常常优优秀秀的的编编程程软软件件,功功能能强强大大,也也有有一一定定的的统统计计软软件件包包。计计算算速速度度比比这这里里介介绍绍的的都都快快得得多多。但但需需要要编编程程和和编编译译。操操作不那么容易。作不那么容易。MATLAB:这这也也是是应应用用于于各各个个领领域域的的以以编编程程为为主主的的软软件件
22、,在在工工程程上上应应用用广广泛泛。编编程程类类似似于于S和和R。但但是是统统计计方法不多。方法不多。统计软件统计软件当当然然,还还有有其其他他的的软软件件,没没有有必必要要一一一一罗罗列列。其其实实,聪聪明明的的读读者者只只要要学学会会使使用用一一种种“傻傻瓜瓜式式”软软件件,使使用用其其他他的的仅仅仅仅是是举举一一反反三三之之劳劳;最最多多看看看看帮帮助助和和说说明明即即可可。如如果果只只有有英英文文帮帮助助,那那还还可可以以顺顺便提高你的英文阅读能力。便提高你的英文阅读能力。想想看想想看举出你所知道的统计应用例子。举出你所知道的统计应用例子。举举出出日日常常生生活活中中随随机机性性和和规
23、规律律性性的的例子。例子。你你使使用用过过统统计计软软件件或或者者利利用用过过其其他他软软件件中中的的统统计计功功能能吗吗?你你有有什什么么经经验和体会?验和体会?数据的收集二手数据二手数据每天翻开报纸或打开电视,就可以看每天翻开报纸或打开电视,就可以看到各种数据。比如高速公路通车里程、到各种数据。比如高速公路通车里程、物价指数、股票行情、外汇牌价、犯物价指数、股票行情、外汇牌价、犯罪率、房价、流行病的有关数据(确罪率、房价、流行病的有关数据(确诊病例、疑似病例、死亡人数和出院诊病例、疑似病例、死亡人数和出院人数等等);当然还有国家统计局定人数等等);当然还有国家统计局定期发布的各种国家经济数
24、据、海关发期发布的各种国家经济数据、海关发布的进出口贸易数据等等。从中可以布的进出口贸易数据等等。从中可以选取对自己有用的信息。选取对自己有用的信息。这些间接得到的数据都是这些间接得到的数据都是二手数据二手数据。第一手数据第一手数据获得第一手数据并不象得到二手数据那么轻松。获得第一手数据并不象得到二手数据那么轻松。某某些些在在华华的的外外资资企企业业每每年年至至少少要要花花三三四四千千万万元元来来收集和分析数据。收集和分析数据。他他们们调调查查其其产产品品目目前前在在市市场场中中的的状状况况和和地地位位并并确确定其竞争对手的态势;定其竞争对手的态势;他他们们调调查查不不同同地地区区,不不同同阶
25、阶层层的的民民众众对对其其产产品品的的认认知知程程度度和和购购买买意意愿愿以以改改进进产产品品或或推推出出新新品品种种争争取新顾客;取新顾客;他他们们还还收收集集各各地地方方的的经经济济交交通通等等信信息息以以决决定定如如何何保保住住现现有有市市场场和和开开发发新新市市场场。市市场场信信息息数数据据对对企企业是至关重要的。业是至关重要的。他他们们很很舍舍得得在在这这方方面面花花钱钱。因因为为这这是是企企业业生生存存所所必需的,绝不是可有可无的。必需的,绝不是可有可无的。观测数据观测数据和和试验数据试验数据上面所说的数据是在上面所说的数据是在自然的未被控制的自然的未被控制的条件下观测到的,称为观
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医疗 行业 统计 基础知识 培训 24157
限制150内