属性(定性)数据分析_SPSS应用方法(第一部分).pdf
《属性(定性)数据分析_SPSS应用方法(第一部分).pdf》由会员分享,可在线阅读,更多相关《属性(定性)数据分析_SPSS应用方法(第一部分).pdf(60页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1研究方法研究方法IIII郑郑 明明郁郁 文文第一章:数据的描述第一章:数据的描述统计学统计学是研究怎样去有效地是研究怎样去有效地 收集收集、整理整理和和分析分析带有带有随机性的数据随机性的数据,以对所考察,以对所考察的问题做出的问题做出推断推断或或预测预测,直至为采取一,直至为采取一定的决策和行动定的决策和行动提供依据和建议提供依据和建议。理解统计学,了解统计基本概念、基本理解统计学,了解统计基本概念、基本方法;方法;熟悉统计语言;熟悉统计语言;并知道如何评价统计结果。并知道如何评价统计结果。珍惜您的数据珍惜您的数据信息技术的发展使企业的各级管理人员都信息技术的发展使企业的各级管理人员都面临
2、面临巨大数量的数据巨大数量的数据现代化的现代化的管理管理离不开科学地离不开科学地积累和利用积累和利用企企业内外的各项数据业内外的各项数据了解和充分利用您的数据是企业管理水平了解和充分利用您的数据是企业管理水平的的重要标志重要标志利用您的数据就是要分析您的数据,将利用您的数据就是要分析您的数据,将数数据据中的中的信息信息变成有用的变成有用的知识知识,为,为决策支持决策支持服务服务2纽约时报(2009年8月6日)统计是未来10年最炙手可热(性感)的专业,即每10个工作岗位中9个岗位需要统计。Google的高管明确数据分析的目的明确数据分析的目的一项数据分析任务在计划阶段就要明确以一项数据分析任务在
3、计划阶段就要明确以下几方面:下几方面:分析的目的分析的目的明确对象(总体)明确对象(总体)确定数据的由来,是否要抽样,要记录确定数据的由来,是否要抽样,要记录哪些指标哪些指标采用的分析方法采用的分析方法Example:1936 U.S.presidential election,Alf Landon vs Franklin RooseveltOctober 1936,Literary Digest conducted largest poll in history(10 million voters).They predicted that Landon would win by 4:3 in
4、 share of popular vote.One month later,Roosevelt was re-elected with the largest majority in U.S.history.The magazine went bankrupt soon after.What happened?A Failed Survey观测数据和实验数据观测数据和实验数据数据收集有两种主要的方法:观测数据(Observational data):仅凭观测而非通过操作或控制事物所得到的数据。例环境的数据,民意测验数据和证券交易的数据实验数据(Experimental data):在实验中控
5、制实验对象而收集到的变量的数据。如:新药试验中各阶段的临床实验数据3分析的对象数据表在一项研究中,数据被收集后(不管是实验或观测的),由于它记录了许多对象的各种属性,通常以表格的形式存放。每一行表示一个个体(对象,观测)每一列表示一个变量(属性,指标)分析的对象数据表通常企业的数据往往存放在不同的数据表中(尤其是记录日常运行的数据)。这时为了进行分析就必须将不同表中有用的数据拼接到新的一张表中。这项工作是必须的。而且往往需要花费很多精力。发现和剔除例外数据在数据分析开始之前和过程中,发现(或剔除)例外数据(Outlier)是保证数据分析质量的重要环节。例外数据是指个别观测有别于其它多数数据其取
6、值特别的大或特别小分析的不同阶段可能发现不同的例外数据例外数据需认真对待:记录错误的要剔除,有的例外数据正是改进分析方法的依据数据的缺失值在数据的收集过程中,有时无法得到关心对象的所有项目的记录。这时在汇总数据表中某些记录的字段无法填入。通常用某些特殊符号表示。也称它们为缺失值(missing value)。在数据处理和分析中给以特殊的处理。413变量的类型数据表中各变量由其记录的形式来看可粗分为数值的(价格)和字符的(行业)各变量由其表示的内容可分为定性的(地区)和定量的(交易量)由其在分析中的作用又可分为区间型(interval)和分类型(Categorical)(包括有序的(Ordina
7、l)和名义型(nominal)区间型(Interval)数量型(Metric)(连续型)有序的(Ordinal)顺序型(Rank)(p.204)名义型(Nominal)分类型(Categorical)变量的类型变量按其含义来看可作如下分类:定量的(Quantitative)定性的(Qualitative)分类的(Categorical)连续(区间)的(Continuous或Interval)连续的(Continuous)离散的(Discrete)有序的(Ordinal)名义的(Nominal)变量的类型定量的:连续的(Continuous):取值充满区间。例产值、交易量、体重等离散的(Disc
8、rete):只取不多的几个数值。例年龄、事故次数、每周的第几个交易日等定性的:有序的(Ordinal):取值有自然的次序关系。例型号、疗效等名义的(Nominal):取值无自然的次序关系。例性别、省份、品种等变量的类型名义型变量的值之间无逻辑次序可按任何次序排序编码变量:饮料的种类5变量的类型有序型变量:饮料杯的型号小中大有序变量的值有明确的逻辑次序,但各个值之间的距离并不清楚变量的类型区间型变量:饮料的体积区间(连续)型变量的值有逻辑次序,且它们之间的距离也是有意义的变量的类型区间型和名义型数值型字符型区间型(连续型)分类型(名义型,有序型)以连续变化尺度测量具有可进行分析的数值区间型(In
9、terval)有数值或字符值用于作分类变量名义型(Nominal)有序型(Ordinal)数据的描述用数字描述数据详细数据:数据表本身汇总数据:名义型:不同类别的频数(个数)区间型:频数、均值、最大值等指标用图形描述数据详细数据:枝页图、散点图汇总数据:名义型:条形图、饼图、拼花图区间型:直方图、盒型图6数据的描述频数统计对数据表中的变量,要概括地描述它取不同数值的情况,就要给出:变量可能取到什么值取不同值的比例是多少这两者也称为变量取值的分布22数据的描述频数统计在频数统计中可以得到变量可能取什么值以及取不同值的频数(frequency)、百分数(percent)、累积频数(cumulati
10、ve frequency)和累积百分数(cumulative percent)数据的描述频数统计对于名义型变量其频数分布是仅有的最全面的统计特征对于区间型变量详细的频数分布并不适用,常用的是按变量取值分组后统计频数数据的描述用图形表示频数统计各种条形图和饼图是表示频数统计的图形工具。在这些图里都有一个区分不同类别的分类变量。该变量的每个值对应一个类别在条形图里,一个水平或垂直的“条”代表一个类别,条的长度表示频数或百分数在饼图中,饼的一角表示一个类别,一角饼的角度大小表示频数或百分数7数据的描述用图形表示频数统计26数据的描述分组统计频数和直方图对于区间(连续)型变量详细的频数分布并不适用。更
11、多地是使用直方图直方图将连续变量的取值范围(均匀)地分为若干个组,然后统计变量在不同的组取值的频数,按这一过程制作的条形图常称为直方图数据不多时分组方式会影响直方图的形态数据的描述用图形表示频数统计与直方图类似的显示数据分布的还有盒型图、茎叶图、点线图等盒型图直方图茎叶图频数分布可以完整地描述数据取值的分布。但它需要用多个值来描述。有时需要用少数几个数值来描述变量取值的某一方面的特征。这就是要计算变量取值的汇总统计量。从功能看,最常用的有:描述中心位置的、描述数据变差的等从计算的类型看:矩型、基于顺序统计量等数据的描述计算汇总统计量8数据的描述计算汇总统计量从功能看,最常用的有:描述中心位置的
12、、描述数据变差的等从计算的类型看:矩型、基于顺序统计量等中心位置分散度其 它矩型均值基于分位数其它30数据的描述计算汇总统计量各种中心位置变量值(样本):XXXn12,.4,3,11,3,1 5,8niinXnnXXX111.:)(测个数 所有观测值相加除以观均值 Mean0.57/)85131134(x数据的描述计算汇总统计量各种中心位置中位数是描述数据取值中心位置的一个指标。它将观测值分为个数相同的两组,使一半观测值小于等于这个数,另一半大于等于这个数。均值中位数数据的描述计算汇总统计量各种中心位置4,3,11,3,1 5,8变量值:1,3,3,4,5,8,11排序:中位数(Median)
13、49数据的描述计算汇总统计量各种中心位置在茎叶图可以直接算出中位数盒型图直方图茎叶图数据的描述计算汇总统计量各种中心位置中位数:很好地代表了一组数据的中点它的计算较为简单(基于数据的排序)它不受个别极端数据的影响它没有利用数据所有的信息均值:它利用了变量的每个观测值在多数情况下均值可用于进一步的分析数据的描述计算汇总统计量各种中心位置众数(mode,峰值)就是在变量数据中出现次数最多的值。也就是在频数统计中对应频数(或百分数)最大的(分类变量的)值数据的描述计算汇总统计量各种中心位置描述中心位置的统计量除了均值、中位数和众数外还有其他各种平均:加权平均修削平均(稳健性)观测值(x)权数(w)x
14、*w10.50.520.40.830.10.31.612789212578981278921252278921211010数据的描述计算汇总统计量描述数据的变差仅用数据的某个中心位置概括数据是不够的。还需要考虑数据的分散程度。数据的描述计算汇总统计量描述数据的变差常用的描述数据分散程度的统计量有:极差(Range)方差(Variance)、标准差(Standard Deviation)四分位距(IQRInterquartile range)极差就是数据中最大值和最小值之差数据的描述计算汇总统计量描述数据的变差极差就是数据中最大值和最小值之差XXXn12,.4,3,11,3,1 5,8变量值:最
15、大值=Max(Xi)=11,最小值=Min(Xi)=1极差=最大值-最小值=10极差给出了数据变化范围的大小极差便于计算极差只受极端数据的影响Xi-5-1-26-2-403数据的描述计算汇总统计量描述数据的变差Xi43113158 5XiXi-5(Xi-5)24-113-24116363-241-416500839均值:570Var=11.67Std=3.42-niiXXnS122)(11 :)(Variance方差-niiXXnSS122)(11 :)(deviation Standard标准差XYXYiiSaSSaSbaXY|,22211数据的描述计算汇总统计量描述数据的变差方差和标准差是
16、统计分析中最常用的描述数据分散程度的统计量方差是数据各个观测值相对与均值偏差平方的一种平均标准差就是方差的开方方差和标准差都是非负的数。两者为零表示变量的每个观测值只取同一个数值数据的描述计算汇总统计量描述数据的变差-niiniinXXiXXSnSXXS121211)(:)(2 :)(%100 :)(:)()(:)(CSSUSSCVError StdDev Std校正平方和未校平方和变异系数标准误标准差数据的描述计算汇总统计量描述数据的变差有时还用下列变异系(coefficient of variation)数来描写数据的分散程度%100 :XSCV变异系数 它是一个没有量纲的数数据的描述计算
17、汇总统计量描述数据的变差为了对不同变量的数据比较各个观测在整个数据中的位置,有时就将每个变量的数据分别进行标准化:Yi 又称为Xi 的标准得分(Standard Score)标准化后的数据的均值为0,方差和标准差都是1XiiSXXY-12数据的描述计算汇总统计量分位数p 分位数(Quantile)是这样的一个数,使小于或等于p-分位数的样本数约占样本总数的100p%,而大于等于p-分位数的样本数约占样本总数的100(1-p)%0.4分位数第40个百分数数据的描述计算汇总统计量分位数0.5-分位数即中位数0.25-分位数称下四分位数(Q1)0.75-分位数称上四分位数(Q3)样本观测值:4,3,
18、11,3,1,5,8(1,3,3,4,5,8,11)438(或其它)四分位距(IQR-Interquartile range):Q3-Q1 5四分位距也是描写数据分散程度的一个统计量数据的描述计算汇总统计量分位数盒型图形象地展示了与分为数有关的各种信息100908070605040302010-盒外不超过1.5IQR的最大点IQR:Q3-Q1四分位距盒外不超过1.5IQR的最小点盒外超过1.5IQR的点+25th百分数,下四分位数75th百分数,上四分位数50th百分数,中位数数据的描述计算汇总统计量偏度和峰度偏度:(Skewness)1313nSXXiin()-精确地nnnSXXiin()(
19、)()-12331数数频频偏向右偏向右数数频频对对 称称数数频频MIDPRICEMIDPRICEMIDPRICE偏向左偏向左 0=013细尾细尾正态正态粗尾粗尾数据的描述计算汇总统计量偏度和峰度峰度:(Kurtosis)13441nSXXiin()-精确地n nnnnXXSnnniin()()()()()()()-11233123412 0 00,称为一致对(concordant)(xi-xj)(yi-yj)0,称为不一致对(discordant)(xi-xj)(yi-yj)=0,称为平分对(tied)YX121III2IIIIVI,IV中的对为一致的II,III中的对为不一致的其它的对为平分
20、的3关联性的度量对有序变量关联性的度量对有序变量关联性的度量对有序变量)11(,)()(Gamma-DCDC,)(KendallbCRwwDC-jjCiiRnnwnnw,2222),min(,/)1()(Stuart 2CRmmmnDCc-RwDCRCD/)()|(Somers-iijjnnsWnjCiRr,/)()()(Spearman 22秩相关,)()()(,2/)1()(3333121-jjiiiikknnnnWjjCinniR列的刻度为第 行的刻度,为第 1第二章:定性数据分析第二章:定性数据分析-列联表分析列联表分析(3)(3)关联性的度量相对风险和优比率相对风险和优比率对22列联
21、表,还有相对风险(relative risk)和优比(Odds ratio)两个量是常用的有无行和A(常锻炼)35465500B(不常锻炼)50450500 有无心血管疾病锻炼与否前瞻性研究(prospective,cohort)不同组的选择在获得响应之前A组有心血管病的百分率=35/500=7%B组有心血管病的百分率=50/500=10%RR(相对风险)=0.07/0.10=0.70关联性的度量相对风险和优比对 22列联表:12An11n12Bn21n22观测结果组别122212121211)2(,)1(nnnnRRnnnnRR估计:0 RR 1,A组更可能发生结果1OR(1)1,B组更可能
22、发生结果1可以做进一步的假设检验关联性的度量相对风险和优比是否抽烟发病控制是172173否90346合计262519心肌梗塞4分层分析有无单身23032已婚6145151心血管疾病婚姻状况优比率=1.6有无单身34120154已婚73037心血管疾病婚姻状况优比率=1.2经常锻炼不经常锻炼有无单身36150186已婚13175188心血管疾病婚姻状况优比率=3.2不分层数据:1976年至年至1977年美国佛罗里达州年美国佛罗里达州29个地区凶杀个地区凶杀案件中凶手肤色和被判死刑的案件中凶手肤色和被判死刑的326个犯人的情个犯人的情况:况:凶手凶手白人白人黑人黑人死死 刑刑 判判 决决是否死刑判
23、决的比例死刑判决的比例19171411490.1190.102凶手的肤色和是否被判死刑的犯人的情况若考虑凶手的肤色,还考虑被害人的肤色,若考虑凶手的肤色,还考虑被害人的肤色,得到下列三维列联表:得到下列三维列联表:死刑判决比例死刑判决比例被害人被害人凶手凶手死死 刑刑 判判 决决是是否否白人白人黑人黑人白人白人黑人黑人白人白人黑人黑人191320.12611520.1750690.000970.058若被害人是白人若被害人是白人,白人凶手被判死刑的比例白人凶手被判死刑的比例为为12.6%,而黑人凶手被判死刑的比例为而黑人凶手被判死刑的比例为17.5%。若被害人是黑人若被害人是黑人,白人凶手被判
24、死刑的比例为白人凶手被判死刑的比例为0,而黑人凶手被判死刑的比例为而黑人凶手被判死刑的比例为5.8%。这说明这说明,无无论被害人是白人还是黑人论被害人是白人还是黑人,白人凶手被判死刑的白人凶手被判死刑的比例都比黑人凶手被判死刑的比例低比例都比黑人凶手被判死刑的比例低,因此死刑因此死刑判决与被害人的肤色有关判决与被害人的肤色有关。相比之下相比之下,被害人是被害人是白人时白人时,无论凶手是白人还是黑人无论凶手是白人还是黑人,都判得严都判得严,而当被害人是黑人时而当被害人是黑人时,不论凶手是白人还是黑人不论凶手是白人还是黑人,都判得不严都判得不严。说明法院的判决有种族歧视说明法院的判决有种族歧视。S
25、impson 悖论5考虑呼吸与吸烟的关系:考虑呼吸与吸烟的关系:合计合计呼吸呼吸吸烟吸烟不不吸吸年龄年龄40正常正常不正常不正常正常正常不正常不正常5678741441142842328 278011086870Chi-Square检验的结果:男性吸烟与呼吸是不独立的小于40岁的男性吸烟与呼吸是条件独立的大于40岁的男性吸烟与呼吸不是条件独立的性别与录取的关系性别与录取的关系男生男生女生女生录取录取是否录取比例录取比例73342892698544.2%30.3%专业 性别 录取列联表1A2A3A专业录取人数未录取人数性别合计录取比例男生女生4A5A男生女生男生女生男生女生男生女生4233396
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 属性 定性 数据 分析 _SPSS 应用 方法 第一 部分
限制150内