《统计学原理》学生讲义.pdf
《《统计学原理》学生讲义.pdf》由会员分享,可在线阅读,更多相关《《统计学原理》学生讲义.pdf(157页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 统计学原理统计学原理 学生讲义学生讲义 目目 录录 1.第一讲第一讲 运用统计学进行决策简介运用统计学进行决策简介 2.第二讲第二讲 统计研究方案设计和抽样方法统计研究方案设计和抽样方法 3.第三讲第三讲 用图形描述数据用图形描述数据 4.第四讲第四讲 对数据进行数值汇总对数据进行数值汇总 5.第五讲第五讲 利用概率估计不确定事件利用概率估计不确定事件 6.第六讲第六讲 为决策中的不确定性建立模型为决策中的不确定性建立模型 7.第七讲第七讲 两个变量之间关系的测度两个变量之间关系的测度 8.第八讲第八讲 评估样本结果评估样本结果 9.第九讲第九讲 从样本到总体从样本到总体 统计推断统计推断
2、10.第十讲第十讲 在某一置信水平下进行决策在某一置信水平下进行决策 假设检验假设检验 11.第十一讲第十一讲 比较均值比较均值 方差分析方差分析 12.第十二讲第十二讲 类型数据分析类型数据分析 1第一讲第一讲 运用统计学进行决策简介运用统计学进行决策简介 目的目的 本讲结束后,学生们应能够:描述构成决策过程的统计要素;熟悉描述统计学和推断统计学;区分被研究变量的各种性质;确认数据收集过程中所采用的测量指标;了解一些主要的统计学概念,在以后各章节中我们将对这些概念进行详细讲解、运用和讨论。1.1 用统计学语言描述决策过程用统计学语言描述决策过程 统计学这门学科是专门研究数据的,我们可以将其描
3、述为 。事实上,统计学可以运用于商业环境的诸多方面。无论我们将统计学运用于何种领域,统计决策过程都包含以下四步:定义问题、阐述理论?收集数据?分析数据和汇总结果?解释结果并做出决策 这是一项重复性的学习过程。根据所收集到数据我们知道某个理论现在是有效的,但是,这一理论在将来某个时点上还要接受检验。2 定义 总体 样本 统计推断 注意,我们在统计决策过程中主要关心“总体”的特征。但是,由于总体数目太多,我们无法进行研究来验证所阐述理论的正确性,因此,我们就收集有关“样本”的数据,在对数据分析之后,我们可以进行“统计推断”来观察有关数据是否支持理论。接着就可以做出决策,这一过程也可以用下列步骤来表
4、示:步骤 1:定义问题、阐述理论 步骤 2:收集数据 步骤3:分析数据和汇总结果 步骤4:解释结果并做出决策 今天,统计学及其运用已经构成了我们日常生活的一部分。本单元旨在阐述统计学的多方面作用(例如描述信息、作为分析工具、作为得出结论的手段),以便帮助我们进行决策。1.2 对比描述统计学和推断统计学对比描述统计学和推断统计学 根据统计学侧重的功能不同,我们可以进一步将统计学分为描述统计学和推断统计学。定义 3描述统计学 推断统计学 定义 单位(或基本单位)观察值 样本统计量 测量到的样本特征.总体参数 总体的数值特征.描述统计学:在描述统计学中,我们对收集到的数据进行简单的汇总。例如,推断统
5、计学:在推断统计学中,我们不仅仅限于描述数据,而且还要根据样本观察到的数据对总体的某些特征进行推断。例如,1.3 变量的各种性质变量的各种性质 在我们理解所收集数据的含义之前,我们需要了解变量的性质。定义 变量 对象(或单位)的特征 例如,我们想研究对象的性别、身高或他所持有的定期大额存单数量。在本案例中,性别、身高或定期大额存单数量是我们关心的所有变量。那么这些变量之间是否有很大的差别呢?4 变量分为定性变量和定量变量。定性 变量类型 离散 定量 连续 定性变量:定性变量不一定是 变量,但却可以归到 。定性变量的数值没有数学意义。定性变量得到的观察值常常称为 。定量变量:定量变量表现为数值型
6、变量。这些数值有数学意义。定量变量分为两类:即离散 变量和连续变量。离散变量 如果得到的一组可能结果是 ,那么我们称这种定量变量为离散变量。连续变量 如果得到的一组可能结果是 ,那么我们称这种定量变量为连续变量。5例子:(a)邮局信件的重量?(b)小轿车的牌子?(c)镭射唱片总的播放时间?(d)镭射唱片所含的歌曲数量?(e)中午的温度?(f)某个季节的降雨量?(g)一个人的宗教信仰?(h)绳子长度?(i)某个班不同学生的生日日期?(j)上个季节某大学患感冒的大学生 人数?1.4 测量指标测量指标 测量值表示变量的 。当我们测量某个变量时,可以从以下四种尺度中选取其中一种来表示测量结果:名义尺度
7、、顺序尺度、间隔尺度、比例尺度。定性变量可以采用“名义尺度”或“顺序尺度”来测量。名义尺度:数值属于不同的类型。这些数值没有任何数学意义或者排列顺序没有任何意义。例如,顺序尺度:当我们把数值归为不同类型时,排列顺序有意义。也就是说,这些数值暗示了类型的级别、偏好和顺序。例如,6 定量变量可以采用“比例尺度”或“间隔尺度”来测量。间隔尺度:由于有测量单位,但是,数值之间的比例没有任何意义,“零”这个数值没有内在的含义。例如,比例尺度:由于有测量单位,数值之间的比例有意义,而且“零”这个数值有内在的含义。例如,总结总结 作为一项决策工具和辅助手段,统计方法已经被广泛运用于商业的诸多领域。我们不仅介
8、绍了构成决策过程的统计要素,而且还帮助学生在头脑中建立统计决策过程的总体画面。本单元对这个总体画面的细节部分进行了一一介绍。本单元介绍了统计学的一些基本术语,如总体、样本、单位等。统计学可分为两类:即描述统计学和推断统计学。变量可分为两类:即定量变量和定性变量。定量变量可以再细分为两类:即离散变量和连续变量。当我们测量某个变量时,可以从以下四种尺度中选取其中一种来表示测量结果:名义尺度、顺序尺度、间隔尺度、比例尺度。当我们在确定合适的数据描述和数据分析方法时,采用哪种尺度来表示测量值将起非常关键的作用。7辅导辅导 1 第第 I 部分部分:1.每个星期的新闻都会对一些研究或调查的结果进行报道。从
9、近期报纸或杂志上找一篇含有图表和汇总数据的研究或调查文章,并对以下事项进行评论:调查或研究所关心的是什么变量?变量是属于定性变量还是定量变量?是否恰当选择了文章的图表?是否对有关信息进行了清楚表达?在描述数据特征时,文章的汇总数据选择是否恰当?请在答案中附上文章的完整复印件。2.一家研究公司发现通过有线体育频道观看节目的男性人数是女性人数的两倍。这一信息属于描述统计学还是推断统计学?为什么?3.1996 年 45%的美国公共图书馆提供上网服务。这一信息属于描述统计学还是推断统计学?4.在下列叙述中,指出所关心的变量属于定性变量还是定量变量?属于离散变量还是连续变量?A.你是否有驾驶执照?B.本
10、年度有多少学生登记学习学位课程。C.婚姻状况 D.优质樱桃在美国每公斤销售多少价格。E.从家里到学校的路上要花多少时间。5.在下列事项中采用什么测量指标能够最好地描述相关信息?8A.一家移动电话公司最近宣布它将从东南亚运营机构裁减 80 名职员。B.天气预报说,昨天下午 1 点 53 分观察到的温度值突破了新加坡的历史记录。C.一家大公司的人力资源管理部门想要调查员工是否对在职培训感到满意。D.一家市场研究机构想要调查行人是否注意到新加坡的大片岛屿安装了新的交通信号灯系统(LED)。6.考察以下变量,这些变量代表了新加坡 390 所学校的情况:该地区的学生数量、学校名称、每名学生花费的金额、教
11、师的平均工资水平、学生的智商。(a)哪些变量属于定性变量?哪些变量属于定量变量?(b)确定每种变量的测量指标。9第二讲第二讲 统计研究方案设计和抽样方法统计研究方案设计和抽样方法 目的目的 本讲结束后,学生们应能够:了解决策中采用的各种研究策略 了解采用哪种方式进行观察研究 了解试验设计和试验操作的基本原理 简要描述各种抽样方法 了解哪些原因会引起数据偏差 解释参数和统计量之间的区别 2.1 定义术语定义术语 定义 单位(或基本单位)观察值 总体 样本 统计调查 参数 统计量 2.2 统计研究设计:对比观察和试验统计研究设计:对比观察和试验 我们可以通过观察或试验手段获得有关信息。定义 观察研
12、究 研究人员只需简单地在样本中观察自己所关心的变量,不 10用控制反应过程 试验 为了观察反应或结果,研究人员需要积极对单位施加一些影响 从上述定义可以看出,观察研究是被动地获取信息,而试验是 获取信息。既然试验可以主动地获取信息,那么是否意味着它是一种较好的研究设计手段呢?让我们思考一下这个问题!例如,我们想了解一下吸烟和肺癌之间的关系,这时你会选择何种方式来设计试验?如果采用试验手段,这意味着你要把试验对象分成吸烟和不吸烟两组人群,以便观察这些人以后是否会死于肺癌。在这种情形下进行试验是否合理?定义 反应变量 它测量研究的结果,在研究设计中有时也被称为“因变量”说明性变量 这一变量是对反应
13、变量观察到的结果进行解释,有时也被称为“独立变量”举例:11 确认以下例子中哪些属于说明性变量,哪些属于反应变量:(a)V1:利用兼职工作挣到的金钱(用金额来表示)?V2:工作时间(用小时来表示)?(b)V1:包裹重量?V2:邮费?(c)V1:中学老师的工资?V2:教学经验(用年份来表示)?了解观察研究了解观察研究 在观察研究中,研究人员只能简单地观察变量,而不能主动对说明性变量施加影响。观察研究主要有两种类型。(1)对过去事件进行回顾性分析研究 首先根据自己关心的 ,确认一组试验对象。接着采取回顾方式找出潜在的风险系数(或 变量)。这种研究方式的实施费用相对较低。由于是 ,因此结论的可靠性常
14、常值得怀疑。(2)远景研究 首先确认 ,并记录样本试验对象的相应状况。在将来相当长的一段时间内,跟踪并观察所有的试验对象并相应记录他们的各自 情况。这种研究方式耗时很长而且费用很高。12无论采取哪类观察研究,我们都会遇到一个主要问题即大部分观察研究都采用 ,而这种方法选取的样本可能无法代表总体的特征。了解试验设计了解试验设计 在试验过程中,变量的不同水平(常被称为 )会对被研究的对象产生积极的影响。在规划试验设计时会遇到许多问题,包括将处理分配给对象,对处理进行管理等。这些已经超出了本单元的范围,我们在此不打算深究这些问题。但是,本教材将对试验设计的一些基本原理进行简要的介绍。举例:我们做一项
15、试验来研究温度和烤炉型号对金属夹具部件寿命的影响。为此选择四种烤炉类型和三种温度水平。将烤炉类型和温度的各个组合值随机分配给两个金属夹具部件。(a)为什么这是一项试验,而不是观察研究?(b)对于本试验而言,(1)试验单位是?(2)反应变量是?(3)说明性变量是?(4)包含多少处理??(5)需要进行多少次试验??2.3 为什么要抽样为什么要抽样?抽样方法抽样方法 13我们想要了解总体的某些特征,例如所有学生的平均身高(比如本单元的全体学生人数为 100)。从总体当中计算出来的平均身高是一个参数。但是,由于总体太大,我们无法从中检验和获得相关信息。因此我们只好采取抽样方法,并利用样本所包含的信息来
16、估计总体的相应参数。也就是说,我们可能会随机选取一些学生(比如 20 名学生),并利用这 20 名学生的平均身高来估计所有学生的平均身高。样本属于总体的一部分。不同样本会导致不同的统计值。统计量是指一组相关的数据。由于我们是对总体感兴趣,那么为什么不把全部总体作为样本看待?为什么不对总体进行调查?一般而言,由于调查工作不仅花费巨大而且耗时较长,因此进行调查并不符合我们的最大利益。在大部分情形下,选取样本比进行总体调查更为有效。通过样本我们可以较快地了解总体的特征。既然我们常常利用样本统计值来估计总体的参数,那么为了得到准确的数据,我们应当如何选择总体的一部分?这就是我们要讨论的核心内容。如果样
17、本选择不当,会发生什么情况?首先,样本不能准确代表总体,在研究设计中会出现 。定义 偏差 如果抽样方法得到的结果与总体的真实情况存在 ,那么我们说这种抽样方法存在偏差 选择性偏差 无反应偏差 反应偏差 举例:电视节目就枪支控制问题进行了一项民意调查。电视观众被邀请就这一问题发 14表自己的意见。你认为民意调查结果值得信赖吗?举例:电话调查 如果随机从电话簿上选取电话及其号码进行某项调查,请问是否会产生偏差?举例:邮件调查 在大部分邮件调查中,较低和较高的社会阶层一般不愿意对调查做出回答,这表明调查结果过于代表了中层阶级的观点。举例:一名心理学家想要研究夫妇之间的分居问题。此时你会遇到这样一个问
18、题,“心理学家发现分居会削弱夫妇之间的感情。正如一句俗语所说,眼不见,心不想。你能够想像为什么会这样吗?”受访者对结果并不感到奇怪。这名心理学家在不同的时间对另一组受访者又进行了同样的调查,“心理学家发现分居会增强夫妇之间的感情。正如一句俗语所说,分离使爱心更浓。你能够想像为什么会这样吗?”受访者同样对结果并不感到奇怪。由于 ,因此调查结果出现了 偏差。15非概率抽样方法常常容易导致偏差。“方便抽样”和“自愿抽样”就属于这种抽样方法。定义 方便抽样 样本观察值 。自愿抽样 只有 观察值才被包括在样本中。除了非概率抽样方法之外,我们在进行统计推断时应当优先考虑采用随机抽样方法。下面我们将讨论一些
19、随机抽样方法。简单随机抽样简单随机抽样 简单随机抽样是指 1)总体的每个观察值被抽取到的概率都 ;2)每个观察值在被抽取时是相互 ,与其他观察值没有关系 由于总体的每个观察值被抽取到的概率都相同,因此简单随机抽样就显得非常公正而且不会产生偏差。为了确保每个观察值在被抽取时是相互独立的,简单随机抽样应当尽可能获得更多的独立信息。简单随机抽样也有缺点,如果总体容量非常大,进行简单随机抽样就非常耗费时间而且几乎不可行。系统抽样系统抽样 虽然系统抽样在概念方面与简单随机抽样很相似,但这种方法在实践中更加容易实施。这种方法是以 从总体中抽取观察值。例如,从拥有 6000 个元素的总体中抽取 100 个元
20、素作为一个样本,我们可以在 1 至 60 之间随机选取一个元素,然后把这个元素的观察值包括在样本中,然后每隔 60 个元素选取一个元素并记录其观察值,直到我们获得一个理想的样本容量。16系统抽样存在的一个潜在问题是 。虽然周期性并不常见,但在进行系统抽样时应当考虑到这个问题。分层随机抽样分层随机抽样 在分层随机抽样中,首先将总体分成若干层,然后从每一层中抽取一个简单随机样本。每一层抽取的观察值数量不仅能够代表样本的百分比,而且能够代表总体的百分比。同一层的观察值应当有相同的特征。不同层的观察值会表现出不同的特征。当我们对所关心变量进行观察时,如果不同层之间得到的结果有很大差异,那么就很有必要采
21、用分层随机抽样方法。整群抽样整群抽样 整群抽样是把总体分成若干个组(或群)。每一组就好像是总体的 。然后从这些群中抽取若干群作为一个简单随机样本,或者对被抽中群的所有个体进行全面调查。17 命名抽样方法#1 对 1000 瓶香水进行检验某个商人收到一批瓶装的科隆香水(重量单位:盎司)货物。这批货物在运输时分成 50 箱,每箱有 20 瓶香水。从中随机抽取 5 箱货物进行检验,于是可以得到 100 瓶香水的平均含量。?;#2 一名教师想从本校 1600 名学生当中抽取一个样本,他现在手里有一份名单,上面列出了这 1600 名学生的身份证号码。教师先随机从名单的前 16学生当中抽取一个身份证号码,
22、然后每隔 16 学生抽取一个身份证号码,直至获得所需要的样本。?;#3 一名教师想从本校 1600 名学生当中抽取一个样本。他决定面试下周一早上进入教室的前 100 名学生。?。总结总结 本专题重点讲述如何获取数据。可以通过观察或试验手段获得数据。大部分研究设计试图要说明性变量与反应变量之间存在某种关系。观察研究是从反应变量到说明性变量,而试验是从说明性变量到反应变量。观察研究可以分为回顾性研究和远景研究两种类型。除了讲述收集信息的研究设计之外,我们还介绍了产生数据的方法即抽样方法。我们倾向于采用无偏差的样本,以便样本能够代表总体的特征,这样我们就可以依据样本统计量来推断总体参数的特征。另外,
23、还介绍了偏差的各种来源和几种不同的随机抽样方法。每种方法都有自己的优点和缺点。至于在统计过程中选择哪种研究设计和抽样方法,这要视数据性质和研究目的而定。18辅导辅导 2 第第 I 部分部分:多项选择问题多项选择问题 1.总体的特征(例如总体的平均值或比例)被称为 a.参数 b.标准误差 c.统计量 d.整体 (答案:)2.在把总体分成若干个组之后,我们随机抽取一些组并将各组观察到的结果构成一个样本或者对被抽中组的所有个体进行全面调查,这属于以下哪个例子 a.整群抽样 b.分层抽样 c.系统抽样 d.方便抽样 (答案:)3.下列哪种抽样方法估计到了样本统计量与总体参数之间存在的最大抽样误差?a.
24、方便抽样 b.自愿抽样 c.非概率抽样 d.简单随机抽样 (答案:)第第 II 部分部分:191.一个农民在四个果园中种植了苹果树,这些果园分别位于农场的不同地方。每个果园种植了 200 棵苹果树,为了跟踪这些果树的情况,农民对它们按 1 至 800 进行了编号。现在,这名农民想了解这些苹果树是否受到某类昆虫的侵害,如果证明苹果树的确受到昆虫侵害的话,他就要请虫害防治专家来对这些果树喷洒农药。为此,他并没有检查所有 800 棵苹果树的情况,而是决定从中选取 80 棵果树进行检查。他打算采用以下三种抽样方案:方案 A:从 800 棵苹果树中随机抽取 80 棵果树 方案 B:在编号为 1 至 10
25、 的苹果树中随机抽取 1 棵果树,然后每隔 10 棵果树抽取 1 棵果树 方案 C:从 4 个果园中随机抽取 2 个果园,并从被挑中的每个果园中随机抽取40 棵果树 (a)对上述打算采用的 抽样方法进行命名 (b)你建议采用哪种抽样方案?为什么?2.一名研究人员想要估计新加坡家庭的平均人口状况。他打算采用以下两种抽样方案:方案 A:把所有新加坡人当成一个大样本并询问他们家庭的人口状况。方案 B:选取一些家庭作为样本并观察这些家庭的人口状况。你喜欢采用哪种抽样方案?为什么?3.一名大学校长非常关心有多少比例的学生通过了熟练技能考试。为此,他从2000 名男生当中抽取 250 名男生作为一个简单随
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学原理 统计学 原理 学生 讲义
限制150内