《统计学原理》学生讲义.pdf
统计学原理统计学原理 学生讲义学生讲义 目目 录录 1.第一讲第一讲 运用统计学进行决策简介运用统计学进行决策简介 2.第二讲第二讲 统计研究方案设计和抽样方法统计研究方案设计和抽样方法 3.第三讲第三讲 用图形描述数据用图形描述数据 4.第四讲第四讲 对数据进行数值汇总对数据进行数值汇总 5.第五讲第五讲 利用概率估计不确定事件利用概率估计不确定事件 6.第六讲第六讲 为决策中的不确定性建立模型为决策中的不确定性建立模型 7.第七讲第七讲 两个变量之间关系的测度两个变量之间关系的测度 8.第八讲第八讲 评估样本结果评估样本结果 9.第九讲第九讲 从样本到总体从样本到总体 统计推断统计推断 10.第十讲第十讲 在某一置信水平下进行决策在某一置信水平下进行决策 假设检验假设检验 11.第十一讲第十一讲 比较均值比较均值 方差分析方差分析 12.第十二讲第十二讲 类型数据分析类型数据分析 1第一讲第一讲 运用统计学进行决策简介运用统计学进行决策简介 目的目的 本讲结束后,学生们应能够:描述构成决策过程的统计要素;熟悉描述统计学和推断统计学;区分被研究变量的各种性质;确认数据收集过程中所采用的测量指标;了解一些主要的统计学概念,在以后各章节中我们将对这些概念进行详细讲解、运用和讨论。1.1 用统计学语言描述决策过程用统计学语言描述决策过程 统计学这门学科是专门研究数据的,我们可以将其描述为 。事实上,统计学可以运用于商业环境的诸多方面。无论我们将统计学运用于何种领域,统计决策过程都包含以下四步:定义问题、阐述理论?收集数据?分析数据和汇总结果?解释结果并做出决策 这是一项重复性的学习过程。根据所收集到数据我们知道某个理论现在是有效的,但是,这一理论在将来某个时点上还要接受检验。2 定义 总体 样本 统计推断 注意,我们在统计决策过程中主要关心“总体”的特征。但是,由于总体数目太多,我们无法进行研究来验证所阐述理论的正确性,因此,我们就收集有关“样本”的数据,在对数据分析之后,我们可以进行“统计推断”来观察有关数据是否支持理论。接着就可以做出决策,这一过程也可以用下列步骤来表示:步骤 1:定义问题、阐述理论 步骤 2:收集数据 步骤3:分析数据和汇总结果 步骤4:解释结果并做出决策 今天,统计学及其运用已经构成了我们日常生活的一部分。本单元旨在阐述统计学的多方面作用(例如描述信息、作为分析工具、作为得出结论的手段),以便帮助我们进行决策。1.2 对比描述统计学和推断统计学对比描述统计学和推断统计学 根据统计学侧重的功能不同,我们可以进一步将统计学分为描述统计学和推断统计学。定义 3描述统计学 推断统计学 定义 单位(或基本单位)观察值 样本统计量 测量到的样本特征.总体参数 总体的数值特征.描述统计学:在描述统计学中,我们对收集到的数据进行简单的汇总。例如,推断统计学:在推断统计学中,我们不仅仅限于描述数据,而且还要根据样本观察到的数据对总体的某些特征进行推断。例如,1.3 变量的各种性质变量的各种性质 在我们理解所收集数据的含义之前,我们需要了解变量的性质。定义 变量 对象(或单位)的特征 例如,我们想研究对象的性别、身高或他所持有的定期大额存单数量。在本案例中,性别、身高或定期大额存单数量是我们关心的所有变量。那么这些变量之间是否有很大的差别呢?4 变量分为定性变量和定量变量。定性 变量类型 离散 定量 连续 定性变量:定性变量不一定是 变量,但却可以归到 。定性变量的数值没有数学意义。定性变量得到的观察值常常称为 。定量变量:定量变量表现为数值型变量。这些数值有数学意义。定量变量分为两类:即离散 变量和连续变量。离散变量 如果得到的一组可能结果是 ,那么我们称这种定量变量为离散变量。连续变量 如果得到的一组可能结果是 ,那么我们称这种定量变量为连续变量。5例子:(a)邮局信件的重量?(b)小轿车的牌子?(c)镭射唱片总的播放时间?(d)镭射唱片所含的歌曲数量?(e)中午的温度?(f)某个季节的降雨量?(g)一个人的宗教信仰?(h)绳子长度?(i)某个班不同学生的生日日期?(j)上个季节某大学患感冒的大学生 人数?1.4 测量指标测量指标 测量值表示变量的 。当我们测量某个变量时,可以从以下四种尺度中选取其中一种来表示测量结果:名义尺度、顺序尺度、间隔尺度、比例尺度。定性变量可以采用“名义尺度”或“顺序尺度”来测量。名义尺度:数值属于不同的类型。这些数值没有任何数学意义或者排列顺序没有任何意义。例如,顺序尺度:当我们把数值归为不同类型时,排列顺序有意义。也就是说,这些数值暗示了类型的级别、偏好和顺序。例如,6 定量变量可以采用“比例尺度”或“间隔尺度”来测量。间隔尺度:由于有测量单位,但是,数值之间的比例没有任何意义,“零”这个数值没有内在的含义。例如,比例尺度:由于有测量单位,数值之间的比例有意义,而且“零”这个数值有内在的含义。例如,总结总结 作为一项决策工具和辅助手段,统计方法已经被广泛运用于商业的诸多领域。我们不仅介绍了构成决策过程的统计要素,而且还帮助学生在头脑中建立统计决策过程的总体画面。本单元对这个总体画面的细节部分进行了一一介绍。本单元介绍了统计学的一些基本术语,如总体、样本、单位等。统计学可分为两类:即描述统计学和推断统计学。变量可分为两类:即定量变量和定性变量。定量变量可以再细分为两类:即离散变量和连续变量。当我们测量某个变量时,可以从以下四种尺度中选取其中一种来表示测量结果:名义尺度、顺序尺度、间隔尺度、比例尺度。当我们在确定合适的数据描述和数据分析方法时,采用哪种尺度来表示测量值将起非常关键的作用。7辅导辅导 1 第第 I 部分部分:1.每个星期的新闻都会对一些研究或调查的结果进行报道。从近期报纸或杂志上找一篇含有图表和汇总数据的研究或调查文章,并对以下事项进行评论:调查或研究所关心的是什么变量?变量是属于定性变量还是定量变量?是否恰当选择了文章的图表?是否对有关信息进行了清楚表达?在描述数据特征时,文章的汇总数据选择是否恰当?请在答案中附上文章的完整复印件。2.一家研究公司发现通过有线体育频道观看节目的男性人数是女性人数的两倍。这一信息属于描述统计学还是推断统计学?为什么?3.1996 年 45%的美国公共图书馆提供上网服务。这一信息属于描述统计学还是推断统计学?4.在下列叙述中,指出所关心的变量属于定性变量还是定量变量?属于离散变量还是连续变量?A.你是否有驾驶执照?B.本年度有多少学生登记学习学位课程。C.婚姻状况 D.优质樱桃在美国每公斤销售多少价格。E.从家里到学校的路上要花多少时间。5.在下列事项中采用什么测量指标能够最好地描述相关信息?8A.一家移动电话公司最近宣布它将从东南亚运营机构裁减 80 名职员。B.天气预报说,昨天下午 1 点 53 分观察到的温度值突破了新加坡的历史记录。C.一家大公司的人力资源管理部门想要调查员工是否对在职培训感到满意。D.一家市场研究机构想要调查行人是否注意到新加坡的大片岛屿安装了新的交通信号灯系统(LED)。6.考察以下变量,这些变量代表了新加坡 390 所学校的情况:该地区的学生数量、学校名称、每名学生花费的金额、教师的平均工资水平、学生的智商。(a)哪些变量属于定性变量?哪些变量属于定量变量?(b)确定每种变量的测量指标。9第二讲第二讲 统计研究方案设计和抽样方法统计研究方案设计和抽样方法 目的目的 本讲结束后,学生们应能够:了解决策中采用的各种研究策略 了解采用哪种方式进行观察研究 了解试验设计和试验操作的基本原理 简要描述各种抽样方法 了解哪些原因会引起数据偏差 解释参数和统计量之间的区别 2.1 定义术语定义术语 定义 单位(或基本单位)观察值 总体 样本 统计调查 参数 统计量 2.2 统计研究设计:对比观察和试验统计研究设计:对比观察和试验 我们可以通过观察或试验手段获得有关信息。定义 观察研究 研究人员只需简单地在样本中观察自己所关心的变量,不 10用控制反应过程 试验 为了观察反应或结果,研究人员需要积极对单位施加一些影响 从上述定义可以看出,观察研究是被动地获取信息,而试验是 获取信息。既然试验可以主动地获取信息,那么是否意味着它是一种较好的研究设计手段呢?让我们思考一下这个问题!例如,我们想了解一下吸烟和肺癌之间的关系,这时你会选择何种方式来设计试验?如果采用试验手段,这意味着你要把试验对象分成吸烟和不吸烟两组人群,以便观察这些人以后是否会死于肺癌。在这种情形下进行试验是否合理?定义 反应变量 它测量研究的结果,在研究设计中有时也被称为“因变量”说明性变量 这一变量是对反应变量观察到的结果进行解释,有时也被称为“独立变量”举例:11 确认以下例子中哪些属于说明性变量,哪些属于反应变量:(a)V1:利用兼职工作挣到的金钱(用金额来表示)?V2:工作时间(用小时来表示)?(b)V1:包裹重量?V2:邮费?(c)V1:中学老师的工资?V2:教学经验(用年份来表示)?了解观察研究了解观察研究 在观察研究中,研究人员只能简单地观察变量,而不能主动对说明性变量施加影响。观察研究主要有两种类型。(1)对过去事件进行回顾性分析研究 首先根据自己关心的 ,确认一组试验对象。接着采取回顾方式找出潜在的风险系数(或 变量)。这种研究方式的实施费用相对较低。由于是 ,因此结论的可靠性常常值得怀疑。(2)远景研究 首先确认 ,并记录样本试验对象的相应状况。在将来相当长的一段时间内,跟踪并观察所有的试验对象并相应记录他们的各自 情况。这种研究方式耗时很长而且费用很高。12无论采取哪类观察研究,我们都会遇到一个主要问题即大部分观察研究都采用 ,而这种方法选取的样本可能无法代表总体的特征。了解试验设计了解试验设计 在试验过程中,变量的不同水平(常被称为 )会对被研究的对象产生积极的影响。在规划试验设计时会遇到许多问题,包括将处理分配给对象,对处理进行管理等。这些已经超出了本单元的范围,我们在此不打算深究这些问题。但是,本教材将对试验设计的一些基本原理进行简要的介绍。举例:我们做一项试验来研究温度和烤炉型号对金属夹具部件寿命的影响。为此选择四种烤炉类型和三种温度水平。将烤炉类型和温度的各个组合值随机分配给两个金属夹具部件。(a)为什么这是一项试验,而不是观察研究?(b)对于本试验而言,(1)试验单位是?(2)反应变量是?(3)说明性变量是?(4)包含多少处理??(5)需要进行多少次试验??2.3 为什么要抽样为什么要抽样?抽样方法抽样方法 13我们想要了解总体的某些特征,例如所有学生的平均身高(比如本单元的全体学生人数为 100)。从总体当中计算出来的平均身高是一个参数。但是,由于总体太大,我们无法从中检验和获得相关信息。因此我们只好采取抽样方法,并利用样本所包含的信息来估计总体的相应参数。也就是说,我们可能会随机选取一些学生(比如 20 名学生),并利用这 20 名学生的平均身高来估计所有学生的平均身高。样本属于总体的一部分。不同样本会导致不同的统计值。统计量是指一组相关的数据。由于我们是对总体感兴趣,那么为什么不把全部总体作为样本看待?为什么不对总体进行调查?一般而言,由于调查工作不仅花费巨大而且耗时较长,因此进行调查并不符合我们的最大利益。在大部分情形下,选取样本比进行总体调查更为有效。通过样本我们可以较快地了解总体的特征。既然我们常常利用样本统计值来估计总体的参数,那么为了得到准确的数据,我们应当如何选择总体的一部分?这就是我们要讨论的核心内容。如果样本选择不当,会发生什么情况?首先,样本不能准确代表总体,在研究设计中会出现 。定义 偏差 如果抽样方法得到的结果与总体的真实情况存在 ,那么我们说这种抽样方法存在偏差 选择性偏差 无反应偏差 反应偏差 举例:电视节目就枪支控制问题进行了一项民意调查。电视观众被邀请就这一问题发 14表自己的意见。你认为民意调查结果值得信赖吗?举例:电话调查 如果随机从电话簿上选取电话及其号码进行某项调查,请问是否会产生偏差?举例:邮件调查 在大部分邮件调查中,较低和较高的社会阶层一般不愿意对调查做出回答,这表明调查结果过于代表了中层阶级的观点。举例:一名心理学家想要研究夫妇之间的分居问题。此时你会遇到这样一个问题,“心理学家发现分居会削弱夫妇之间的感情。正如一句俗语所说,眼不见,心不想。你能够想像为什么会这样吗?”受访者对结果并不感到奇怪。这名心理学家在不同的时间对另一组受访者又进行了同样的调查,“心理学家发现分居会增强夫妇之间的感情。正如一句俗语所说,分离使爱心更浓。你能够想像为什么会这样吗?”受访者同样对结果并不感到奇怪。由于 ,因此调查结果出现了 偏差。15非概率抽样方法常常容易导致偏差。“方便抽样”和“自愿抽样”就属于这种抽样方法。定义 方便抽样 样本观察值 。自愿抽样 只有 观察值才被包括在样本中。除了非概率抽样方法之外,我们在进行统计推断时应当优先考虑采用随机抽样方法。下面我们将讨论一些随机抽样方法。简单随机抽样简单随机抽样 简单随机抽样是指 1)总体的每个观察值被抽取到的概率都 ;2)每个观察值在被抽取时是相互 ,与其他观察值没有关系 由于总体的每个观察值被抽取到的概率都相同,因此简单随机抽样就显得非常公正而且不会产生偏差。为了确保每个观察值在被抽取时是相互独立的,简单随机抽样应当尽可能获得更多的独立信息。简单随机抽样也有缺点,如果总体容量非常大,进行简单随机抽样就非常耗费时间而且几乎不可行。系统抽样系统抽样 虽然系统抽样在概念方面与简单随机抽样很相似,但这种方法在实践中更加容易实施。这种方法是以 从总体中抽取观察值。例如,从拥有 6000 个元素的总体中抽取 100 个元素作为一个样本,我们可以在 1 至 60 之间随机选取一个元素,然后把这个元素的观察值包括在样本中,然后每隔 60 个元素选取一个元素并记录其观察值,直到我们获得一个理想的样本容量。16系统抽样存在的一个潜在问题是 。虽然周期性并不常见,但在进行系统抽样时应当考虑到这个问题。分层随机抽样分层随机抽样 在分层随机抽样中,首先将总体分成若干层,然后从每一层中抽取一个简单随机样本。每一层抽取的观察值数量不仅能够代表样本的百分比,而且能够代表总体的百分比。同一层的观察值应当有相同的特征。不同层的观察值会表现出不同的特征。当我们对所关心变量进行观察时,如果不同层之间得到的结果有很大差异,那么就很有必要采用分层随机抽样方法。整群抽样整群抽样 整群抽样是把总体分成若干个组(或群)。每一组就好像是总体的 。然后从这些群中抽取若干群作为一个简单随机样本,或者对被抽中群的所有个体进行全面调查。17 命名抽样方法#1 对 1000 瓶香水进行检验某个商人收到一批瓶装的科隆香水(重量单位:盎司)货物。这批货物在运输时分成 50 箱,每箱有 20 瓶香水。从中随机抽取 5 箱货物进行检验,于是可以得到 100 瓶香水的平均含量。?;#2 一名教师想从本校 1600 名学生当中抽取一个样本,他现在手里有一份名单,上面列出了这 1600 名学生的身份证号码。教师先随机从名单的前 16学生当中抽取一个身份证号码,然后每隔 16 学生抽取一个身份证号码,直至获得所需要的样本。?;#3 一名教师想从本校 1600 名学生当中抽取一个样本。他决定面试下周一早上进入教室的前 100 名学生。?。总结总结 本专题重点讲述如何获取数据。可以通过观察或试验手段获得数据。大部分研究设计试图要说明性变量与反应变量之间存在某种关系。观察研究是从反应变量到说明性变量,而试验是从说明性变量到反应变量。观察研究可以分为回顾性研究和远景研究两种类型。除了讲述收集信息的研究设计之外,我们还介绍了产生数据的方法即抽样方法。我们倾向于采用无偏差的样本,以便样本能够代表总体的特征,这样我们就可以依据样本统计量来推断总体参数的特征。另外,还介绍了偏差的各种来源和几种不同的随机抽样方法。每种方法都有自己的优点和缺点。至于在统计过程中选择哪种研究设计和抽样方法,这要视数据性质和研究目的而定。18辅导辅导 2 第第 I 部分部分:多项选择问题多项选择问题 1.总体的特征(例如总体的平均值或比例)被称为 a.参数 b.标准误差 c.统计量 d.整体 (答案:)2.在把总体分成若干个组之后,我们随机抽取一些组并将各组观察到的结果构成一个样本或者对被抽中组的所有个体进行全面调查,这属于以下哪个例子 a.整群抽样 b.分层抽样 c.系统抽样 d.方便抽样 (答案:)3.下列哪种抽样方法估计到了样本统计量与总体参数之间存在的最大抽样误差?a.方便抽样 b.自愿抽样 c.非概率抽样 d.简单随机抽样 (答案:)第第 II 部分部分:191.一个农民在四个果园中种植了苹果树,这些果园分别位于农场的不同地方。每个果园种植了 200 棵苹果树,为了跟踪这些果树的情况,农民对它们按 1 至 800 进行了编号。现在,这名农民想了解这些苹果树是否受到某类昆虫的侵害,如果证明苹果树的确受到昆虫侵害的话,他就要请虫害防治专家来对这些果树喷洒农药。为此,他并没有检查所有 800 棵苹果树的情况,而是决定从中选取 80 棵果树进行检查。他打算采用以下三种抽样方案:方案 A:从 800 棵苹果树中随机抽取 80 棵果树 方案 B:在编号为 1 至 10 的苹果树中随机抽取 1 棵果树,然后每隔 10 棵果树抽取 1 棵果树 方案 C:从 4 个果园中随机抽取 2 个果园,并从被挑中的每个果园中随机抽取40 棵果树 (a)对上述打算采用的 抽样方法进行命名 (b)你建议采用哪种抽样方案?为什么?2.一名研究人员想要估计新加坡家庭的平均人口状况。他打算采用以下两种抽样方案:方案 A:把所有新加坡人当成一个大样本并询问他们家庭的人口状况。方案 B:选取一些家庭作为样本并观察这些家庭的人口状况。你喜欢采用哪种抽样方案?为什么?3.一名大学校长非常关心有多少比例的学生通过了熟练技能考试。为此,他从2000 名男生当中抽取 250 名男生作为一个简单随机样本,然后从 1600 名女生当中抽取 200 名女生作为另一个简单随机样本。请问可以采用何种抽样方法获得450 名学生的样本?4.Allegra 是一种新式药方,它不属于镇静抗组胺药物。与其他过敏性药品不同,Allegra 能够在不催眠的情况下缓解你的过敏症。过敏性反应专家在测试这类新药 20时发现,病人服用 Allegra 和安慰剂(传统过敏性药品)均会产生催眠而且情形非常相似,病人产生催眠的比例分别为 1.3%和 0.9%。请问这项研究属于观察研究还是试验?答案:5.假设你想进行一项研究设计以观察人们是喜欢 Burger King 的油炸食品还是喜欢麦当劳的油炸食品。你采用哪类研究设计?进行观察还是进行试验?答案:采用试验手段更为合适。6.为了从去年的发票当中选取一个样本,会计员使用计算机选取了乘数为 13 的所有发票号码。如果发票号码是按顺序从 1 开始编号的,请问这代表了哪种抽样方法?答案:21第三讲第三讲 用图形描述数据用图形描述数据 目的目的 本讲结束后,学生们应能够:将原始数据转换成分组数据形式;构造频数分布、相对频数分布和累积频数分布;采用茎叶图形显示原始数据;构造各种图形;采用适当图形显示数据。3.1 整理数据整理数据 统计决策过程的一个重要步骤是收集数据。但是,如果不对数据进行整理并按有特定意义的方式加以排列,数据就没有什么用途。定义 原始数据 我们介绍两种整理原始数据的基本方法 数据阵列 频数分布 详细内容如下:数据阵列:数据阵列是指按数值的升序或降序排列数据。采用这种方式排列数据,我们可以很容易地看出 1.数据集中哪个观察值最大,哪个观察值最小。222.确认 。3.很容易发现 。频数分布:相对于数据阵列而言,频数分布是采用一种更加有效的方式整理数据。通过将数据转化为频数分布,我们可以很容易发现数据的图形特点并进一步了解所包含的信息。3.2 频数分布频数分布 现在,我们主要讨论如何从一组试验对象中选出某一变量,并得出这一变量各个值的频数分布。那么,什么是分布呢?定义 分布 当数据集为小型时,各个试验对象之间的差异很容易观察出来。但是,随着数据集变为中型或大型,变量的特性一般表现得越来越不明显。如果我们不以某种有意义的方式来整理数据,我们就不清楚到底能从数据中获得什么信息。所以,最好将数据转换成频数分布表。列出各个组并显示每一组的相关频数或相对频数,就可以得到频数分布。这种数据整理方法对于定性变量和定量变量均有效。下面是频数分布的一些主要术语 23 定义 组 频数 组限 组宽 那么如何将数据转换成频数分布表?哪些重要或必要的信息应当包括在内?一般而言,我们需要预先确定表中应采用多少组数和组宽。有些要素必须包含在频数分布中,基本的频数分布至少应当包括组(或组限)和频数,但是,有时采用累积频数、相对频数或 相对累积频数来表示频数分布。累积频数:累积频数显示 。相对频数:相对频数描述每组范围内观察值所占的 。相对累积频数:相对累积频数显示每组范围内或其下观察值所占的 。对于定性变量而言,最明显的方式是 。例如,为了研究本班 100 名学生的性别,我们将结果转换成频数分布:频数 累积频数 24男性 60 女性 40 100 在研究 100 名学生的身高时,情况又如何呢?结果不会进行自然分类。组数和频数分布的组宽有时是任意加以确定的组的选择取决于研究人员和数据的范围。在此,我们讲解一下制表过程中应当遵循哪些基本原则来选择组:1.各个组必须是 。2.各个组必须 。3.组数 K 应当满足 2K n,此处 n 代表数据集的样本大小,这仅仅是一条经验法则。4.各组之间的宽度最好相等,但这并不是必要条件。当组宽相等时,W KW 最小观察值最大观察值 5.无论何时应当 。6.组宽最好是 。在此举一个例子,讲述如何对 100 名学生的身高数据进行整理。我们预先确定将整个数据分成 5 组,每组宽度相等,组宽为 10 厘米,于是可以将数据制成如下表格:身高(厘米)频数 累积频数 相对频数 相对累积频数 140 150 6 150 160 23 160 170 36 170 180 28 180 190 7 25 100 举例:以下数据样本表示一个当地咖啡馆进行的 30 笔交易 14 64 15 34 75 24 81 67 19 25 48 57 69 62 41 46 35 27 72 64 48 51 77 64 51 50 26 42 83 38 答案:组数:组宽:3.3 茎叶图形茎叶图形 为了了解原始数据实际数值的分布特点,我们可以构造一个“茎叶”图形。数据必须按照 序排列。为了构造图形,我们将数值的第一个数字作为 。茎叶排列使我们可以通过图形来了解数据的分布。下面我们通过一个例子来讲解茎叶图形的绘制方法。比例说,有一个数据集包含了 12 家最大汽车制造商的研发费用,我们想构造该数据集的茎叶图形。研发费用占销售额百分比的情况如下:4.4 3.6 4.4 3.7 7.6 3.9 3.6 3.5 3.0 4.5 3.8 2.2 茎叶图形为 26 3.4 用直观方式显示定量变量用直观方式显示定量变量 定量变量是用数值刻度来测量的。最好能将数据转换成频数分布表,尤其对于大型数据集而言更应如此。我们还将介绍直方图、频数多边形和分布曲线三种图形显示方式。直方图:通过显示各个范围内的计数频数或百分比频数,直方图可以显示定量变量的分布情况。绘制直方图:应当将数据转换成 。轴 代 表 变 量 的 数 值,核 对 符 号 代 表 每 一 组(或 间 距)的 。轴代表计数频数或百分比频数。每个条形图的高度与每一组(或间距)的 相对应。每个条形图的宽度与每一组(或间距)的宽度相对应。例如,我们在本单元中想通过绘制直方图来表示 100 名学生的身高分布。身高185.0175.0165.0155.0145.0本例采用计数来衡量403020100 27直方图中所采用的组数和组宽会影响所披露信息的质量。在构造直方图时,我们应遵循与构造频数分布相同的原则来选择组数和组宽。频数多边形:用线段将各组中点和频数(或相对频数)的交叉点连接起来,就可以得到频数多边形图形。身高190.0180.0170.0160.0150.0本例采用计数来衡量403020100200.0140.0 分布曲线:分布曲线这一图形显示方式使我们可以了解每一组的累积频数或相对累积频数。它可以用“小于”或“大于”来表示。28身高190.0180.0170.0160.0150.0本例采用计数来衡量806040200140.0100 3.5 用直观方式显示定性变量用直观方式显示定性变量 定性变量常常用非数值刻度来测量,对这些变量可以进行分类。可以采用两种最为常见的图形(即饼图和条形图)来概括定性变量的分布状况。饼图 饼图的圆圈代表了 。根据 将饼图分成几个部分。饼图每一部分的大小与每一类型的 。例如,我们可以用饼图来描述学生的性别分布状况。男性60%女性40%29条形图 对于定性变量而言,条形图表示每一类型的 。每个条形图的高度代表每一类型的 。条形图的宽度没有意义,所有类型的宽度均相同。例如,我们可以用条形图来描述男生和女生的计数频数。3.6 SPSS统计软件给我们的工作带来了方便统计软件给我们的工作带来了方便(选讲内容选讲内容)SPSS 被设计成一种相对全面的数据分析软件包,并可以运用于研究和商业。我们知道,有时处理的信息量非常多。如果不借助有效的工具,进行数据分析有时非常费时而且没有效率。因此,为了加快统计决策过程,我们在此介绍如何使用SPSS。通过点击下拉式菜单“图形”方法,可以了解饼图、条形图和直方图的绘制方法。通过点击下拉式菜单“分析”方法选项,可以了解茎叶图形的绘制方法。饼图:图形?饼图?对各组情形进行总结 条形图:图形?条形图?简单条形图/对各组情形进行总结 直方图:010203040506070男性女性 30 图形?直方图?选择关心的变量 茎叶图形:分析?描述统计学?寻找?选择绘图选项 总结总结 我们在本讲开头学习了整理数据的方法。简而言之,数据阵列是指保留原有的数据值并按照升序或降序方式排列数据。为了更直观地了解所收集数据的特点,我们学会了如何将数据转换成频数分布表。除了通过频数分布对数据进行汇总之外,我们还学会了如何用图形来表现数据的特点。介绍了各种图形。对于定量变量而言,我们可以用直方图、频数多边形或分布曲线来描述数据,对于定性变量而言,我们可以用饼图和条形图来描述数据。在本讲末尾我们提到了 SPSS。虽然 SPSS 不是本单元的重点,但它在汇总数据过程中能提供一些非常有效的方法。尤其是遇到大型数据集的时候,这种软件能发挥很好的作用。31辅导辅导 3 第第 I 部分部分:多项选择问题多项选择问题 1.在频数分布中,一个给定的数据值只应当落在某一个组中,即各个组应当 a.将所有数据均包括在内 b.相互排斥 c.完全将数据包括在内 d.非常确定 (答案:)2.如果我们知道了下列哪项,就能够构造原有的频数分布 a.分布曲线 b.累积频数分布 c.直方图 d.包括以上所有各项 (答案:)3.数据集中的最大值为 192,最小值为 50。如果将数据分成宽度相等的 7 组,那么在构造频数分布时组宽应为多少?a.7 b.10 c.20 d.21 e.22 (答案:)4.当用图形来表示绝对频数分布和相对频数分布时,它们之间有什么区别 a.沿水平轴是否标有规定的极限值 b.总体上能否显示图形的基本形状 32c.垂直轴上是否标有刻度 d.上述均正确 e.上述均不正确 (答案:)5.在研究古代文明时,为了确定某一地区人们的身体特征,人类学家常常测量人体残骸的骨头。在意大利的某个地方,人类学家发现了大量颅骨并测量了颅骨的宽度(用毫米来表示)。如果规定组限为 125-129、130-134、135-139、140-144、145-149、150-154 和 155-159,那么对于第二组间距而言,它的实际组限是 a.130-134 b.129.5-134 c.129.9-134.9 d.129.5-134.5 (答案:)第第 II 部分部分:1.在网吧里我们观察了 30 位网民上网的情况,这些人花在网上的时间(用分钟来表示)如下:75 54 62 79 79 53 67 60 60 105 58 51 69 65 90 98 82 93 60 93 74 77 42 84 88 69 74 73 64 114 A.构造频数分布(包括相对频数和累积频数);B.构造茎叶图形;C.构造数据的直方图;D.绘制分布曲线;E.构造频数多边形。332.一家小型医药公司正在对 2002 年的研究项目进行资金预算,已知它对资金做了如下分配:饮食/健康 204,000 元 美容/化妆品 60,000 元 遗传项目 1,457,200 元 其他 15,000 元 A.这家公司关心的变量是什么?B.构造一张适当的图形来显示数据,并说明你选择该图形的理由。3.在下列茎叶图形中,茎代表 10 位数字,叶代表 1 位数字。是否能从茎叶图形中得出原有数据集的准确数值?如果可以,列出这些数据值,如果不能,说明理由。2|002278 3|011359 4|1344 5|47 4.在用图形描述数据时,为什么一般不采用开口组?34第四讲第四讲 对数据进行数值汇总对数据进行数值汇总 目的目的 本讲结束后,学生们应能够:用多种方式测度集中趋势;用多种方式测度离中趋势;采用最适合的数值测度方法来描述数据集;根据数值测度和图形表达方法来描述数据分布。在本讲中,我们将利用统计度量对一些典型的数值以及数据的离散程度进行数值汇总。这些度量被称为集中趋势测度和离中趋势测度。4.1 集中趋势测度集中趋势测度:未分组数据未分组数据 根据变量的不同性质,我们常常采用不同的方法来确定变量的中心位置。在此我们介绍三种确定变量中心位置的方法,即均值、中位数和众数。定义 均值 指平均值。中位数 所有观察值中位于最中心位置的那个值。众数 出现最频繁的数据值。均值均值 35总体均值 NNX总体中所有观察值之和 样本均值 nnxx样本中所有观察值之和 请看下面这个例子,Kim 是一名中等学校的学生,她上星期进行了 5 次测验,成绩分别如下 7 98 25 19 26 Kim 测验的平均成绩等于 上述例子中,你认为“均值”是否能很好地代表中心位置呢?中位数中位数 它是指位于 那个观察值,这与我们对中心位置的直觉概念是一样的。为了计算中位数(Md):1.将 n 个观察值按 排列。2.如果观察值个数是奇数,则中位数就是位于最中心位置的那个观察值。363.如果观察值个数是偶数,则中位数就是 ,即数据集中的 。举例举例:有 6 名工人组成一个样本,请找出他们每周工资的中位数 151 179 163 142 180 195 众数众数 众数(Mo),顾名思义,它是指出现最频繁的数据值。对于定量变量而言,并不经常用众数来测度其中心位置。但是,众数适用于定性变量,而众数不具有唯一性。如果数据集中正好存在两个众数,我们就说数据是 。如果数据集中的众数超过两个,我们就说数据是 。当然,如果数据集中的所有数值都只出现一次,此时,我们说数据集中不存在众数。举例举例:找出下例样本中每周工资的众数:?151 179 163 142 180 195?151 180 163 142 180 195?142 180 163 142 180 195?在某一天,我们对滞留在一家宾馆的两个旅行团的小孩年龄进行了数据调查,以下是调查结果:第第 1组组 年龄:14,17,11,10,11,14,9,12,8,10,9 均值:37 中位数:众数:第第2组组 年龄:9,14,8,10,13,7,9,11,16,10,12,9 均值:中位数:众数:均值、中位数和众数之间的关系:(a)对称分布(均值=Md=Mo)(b)倾向左侧(均值 Md Md Mo)4.2 集中趋势测度集中趋势测度:分组数据分组数据 38 有时,我们无法获得原始数据,而只能以频数分布形式(即通常所说的“分组数据”)来显示有关信息。由于不能获得数据的原始值,因此只能借助频数分布来估计集中趋势测度。均值均值:为了计算分组数据的均值 计算每一组的 ;假设观察值都落在各组的 上;总体均值 Nfx f:每组的频数 x:每组的中点 样本均值 nfxX :下列频数分布显示了某家公司 50 名工人的每周工资收入,估计每周工资的平均水平。每周工资收入 工人人数(f)中点(x)fx 140 149 4 150 159 6 160 169 9 170 179 12 180 189 9 190 199 7 200 209 3 Nfx 中位数中位数:为了计算分组数据的中位数 39 计算每一组的 ;包括 观察值的那一组就是“中位数组”ddMMdfcnwLM2 LMd:fMd:w:n:c::继续讨论前面的例子,即 50 名工人的每周工资收入 每周工资收入 实际组限 工人人数(f)c.f.140 149 139.5 149.5 4 150 159 149.5 159.5 6 160 169 159.5 169.5 9 170 179 169.5 179.5 12 180 189 179.5 189.5 9 190 199 189.5 199.5 7 200 209 199.5 209.5 3 中位数组?ddMMdfcnwLM2 众数众数:出现 那一组就是“众数组”40 211dddwLMoMo LMo:w:d1:d2:每 周 工 资收入 实际组限 工人人数(f)140 149139.5 149.54 150 159149.5 159.56 160 169159.5 169.59 170 179169.5 179.512 180 189179.5 189.5 9 190 199 189.5 199.57 200 209199.5 209.53 众数组?d1=d2=211dddwLMoMo 4.3 离中趋势测度离中趋势测度:未分组数据未分组数据 测度中心位置虽然非常有用,但常常只能对数据进行不完整的解释。让我们看一个例子:下面有两列数据 第 1 列:55,56,57,58,59,60,60,60,61,62,63,64,65 41 第 2 列:35,40,45,50,55,60,60,60,65,70,75,80,85 为了更好地了解数据分布,我们需要将离中趋势测度包括在内。我们将介绍测度离中趋势最常用的三种方法,即全距、标准差和变异系数。全距:指数据集的范围,定义为最大观察值减去最小观察值。它是测度离中趋势最简单的方法,非常易于计算和解释。全距 =但全距有两个主要缺点。首先,它对数据集中的 显得非常敏感;另外,由于全距等于最大值减去最小值,因此有可能出现这样的情况:即两个数据集的全距相同,但它们的变化特性却相差很大。:有 5 名工人组成一个样本,请找出他们每周工资的全距 151 179 163 142 180 标准差:标准差可以让我们大致了解数据值距离均值有多远。它是测度离中趋势最常采用的方法。总体标准差 Nx2)(42样本标准差 1)(2nXxs 标准差常常采用与原始数据值相同的单位。计算标准差的其他公式?总体标准差:?样本标准差:s 举例:有5名工人组成一个总体,请找出他们每周工资的标准差:151 179 163 142 180 X X (X )2 151 179 163 142 180 =NX=5815=NX2)(=当数据集接近对称分布时,均值和标准差可以使我们大致了解数据分布的图形特点。经验法则:43 大约%的数据落在均值的 1 倍标准差范围内%的数据落在均值的 2 倍标准差范围内%的数据落在均值的 3 倍标准差范围内 变异系数(CV):变异系数测量数据相对于均值的离中趋势,其定义如下:%100均值标准差CV 这是一种相对离中趋势测度。例如,我们想比较 1993 年 2 月至 1994 年 1 月期间黄金和锌块的价格波动情况,黄金和锌块每月的平均价格和标准差计算如下:黄