《管理定量分析之抽样方法与抽样分布.pptx》由会员分享,可在线阅读,更多相关《管理定量分析之抽样方法与抽样分布.pptx(94页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 2000年的美国总统选举一波三折,出现了前所未有的激烈场面,爆出了“难产”的世纪大新闻。11月7日美国第54届大选投票后,本应在第2天宣布大选结果, 却因两党总统候选人对决定胜负的佛罗里达州的计票结果发生严重争执,双方由政治竞争发展到“对簿公堂”,大小官司打了50多场,从地方法院,州法院,巡回法院,一直打到联邦最高法院,从而使大选战火四处蔓延,美国上下沸沸扬扬,全世界都在注视佛州关于选票所引起的混乱。只是联邦最高法院12月12日对佛州人工重新计票问题作出最后裁决,戈尔14日发表“退出”竞选之后,大选才有了最终结果。大举结果显然变成了审判的结果。因此,不少政治评论家认为,布什总统不是选出来的,
2、而是“判”出来的。与此同时,共和党以“极其微弱的优势”继续控制国会参众两院。这是1954年以来,共和党首次同时控制白宫和国会。美政治分析家认为,共和党在这次大选中获得了“全面胜利”。管理定量分析管理定量分析第第3章:抽样技术章:抽样技术 猜想一下,这些民意调查专家访问了多少受访者,使其对大约一亿选民的行为预测的误差不超过两个百分点? 不超过2000! 概率抽样与非概率抽样 抽样就是悬着观察对象的过程,比如在繁忙的街道上每隔10人就访问一个人就可以称为抽样。 抽样调查与总统选举。 抽样调查的历史来源。 无法选择概率样本的情形下采用非概率抽样: 例:要研究无家可归者,不但没有一份所有无家可归者的现
3、成名单,也不可能造一份这样的名册。 就近抽样 目标式或判断式抽样 滚雪球抽样 配额抽样 定义:是指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为调查对象,或者仅仅选择那些离得最近的、最容易找到的人作为调查对象。 为了调查某市的交通情况,研究者到离他们最近的公共汽车站,把当时正在那里等车的人选作调查对象。 在街口拦住过往行人进行调查; 在图书馆阅览室对当时正在阅读的读者进行调查; 在商店门口、展览大厅、电影院等公众场所向进出往来的顾客、观众进行的调查; 利用报刊杂志向读者进行调查; 老师以他所教的班级的学生作为调查样本的调查等等。 判断抽样又称“立意抽样”或“目标式抽样”,是指根据调查
4、人员的主观经验从总体样本中选择那些被判断为最能代表总体的单位作样本的抽样方法。 例如:要对福建省旅游市场状况进行调查,有关部门选择厦门、武夷山、泰宁金湖等旅游风景区做为样本调查,这就是判断抽样。 定义:滚雪球抽样是指先随机选择一些被访者并对其实施访问,再请他们提供另外一些属于所研究目标总体的调查对象,根据所形成的线索选择此后的调查对象。 例如,要研究退休老人的生活,可以清晨到公园去结识几位散步老人,再通过他们结识其朋友,不用很久,你就可以交上一大批老年朋友。但是这种方法偏误也很大,那些不好活动、不爱去公园、不爱和别人交往、喜欢一个人在家里活动的老人,你就很难把雪球滚到他们那里去,而他们却代表着
5、另外一种退休后的生活方式。 滚雪球抽样主要用于估计十分稀有的人物特征,例如名字不能公开的信息,可利用政府或社会服务的人员;特别的群体,如私家车车主等。 滚雪球抽样的主要优点是可以大大增加接触总体中所需群体的可能性。而且可以根据某些样本特征对样本进行控制,适用于寻找一些在总体中十分稀少的人物。此外还可以使调查费用大大减少,不过这种成本的节约是以调查质量的降低为代价的。 配额抽样也称“定额抽样”,是指调查人员将调查总体样本按一定标志分类或分层,确定各类(层)单位的样本数额,在配额内任意抽选样本的抽样方式。 例如市场调查中消费者的具有性别、年龄、收入、职业、文化程度等等方面的特征。按各个控制特性,分
6、配样本数额。 配额抽样从建立描述目标总体特征的矩阵或表格开始。 举例来说,研究者必须事先知道,目标总体中男性占多少比例,女性占多少比例;在不同的年龄阶层、还有教育水准、种族团体等不同类别中,男女比例又是如何?这样的矩阵一旦建立起来,就可以进行配额抽样。 矩阵中的每一个格子(cell)就有了相应的比例,此时研究者就根据研究目的从不同的格子中选择样本并收集资料,而代表每一个格子出现的人,则按照这些格子相对于总体的比例,给予加权。 有意识与无意识的抽样误差 举例:“随机”访问遇到的100名学生 概率抽样是根据概率理论来选择样本的方法的总称。一些随机选择机制就是典型。其背后的基本观念是:要对总体进行有
7、用的描述,从该总体中抽样出来的样本必须包含总体的各种差异特征。 总体 (population):是一个统计问题中所涉及个体的全体。 样本(sample):按一定程序从总体中抽取的一组个体。 均值 (mean):表示一系列数据或统计总体的平均特征的值。 样本容量(Sample size):样本中所含个体的数量。 标准差也称均方差,是各数据偏离平均数的距离的距离,用表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。标准差计算公式 样本1: 样本2: 75707369816876779989448679672510012=73.625XX1=4.472=
8、26.82 抽样框又称“抽样框架”、“抽样结构”,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。 常见的抽样框:大学学生花名册、城市黄页里的电话列表、工商企业名录、街道派出所里居民户籍册、意向购房人信息册。 抽样框存在偏误,会对预测结果造成很大影响,因此,需要对抽样框误差来源进行分析。 也被称为“涵盖不足”,是指抽样框没有覆盖全部目标总体单位,有些目标单位没有在抽样框中出现,因而也就没有机会被选入样本,这些单位成为丢失目标单位。 对丢失的总体单位不能发现并纠正会造成调查中对总量的估计偏低。(未装电话) 是指抽样框中包含了一些不属于研究对象的非目标总体单位。 这
9、种偏差的影响很大,但是潜在威胁却通常会小一些。因为可以在调查中辨认出非目标元素并把它们剔除。 一般情况下,由于抽样框中存在非目标总体单位,容易造成估计量的高估。(单位电话) 是指在抽样框中既有丢失目标单位,也有包含非目标单位。 在实际调查中,丢失目标单位不易被查觉和发现,具有较大的隐蔽性,相比之下,包含非目标单位的抽样框误差的威胁性要小些。因为在调查过程中,非目标单位容易被发现,并予以剔除。 如果丢失目标单位和包含 非目标单位数量相当,也相互抵消,估计量是否会产生偏差也难以断定。这要取决于丢失目标单位和非目标单位的数量特征是否有显著差异。 是指抽样框单元与目标总体单元不完全一一对应,而是存在一
10、对多、多对一或是多对多模式的现象。 在前一种模式中,若进行简单随机抽样,能保证每个目标总体单位以同等的可能性被抽中。 在后两种模式中进行简单随机抽样,每个目的总体单位被抽中的概率是不同的,从而使估计量产生偏斜。 例如:若某银行想了解其客户的情况进行一次抽样调查,则该行所有客户构成目的总体。选择的抽样框是银行的来往帐目,这就构成了多对一模式。若在这个框中进行抽样,则来往帐目多的客户被抽中的可能性则较大,反之来往帐目少的客户被抽中的可能性很小,而两种客户通常会有较大差异,从而造成样本的偏斜,使估计量产生偏差。 又称为“抽样框过时”或“不准确的抽样框”,是指随着时间的推移,抽样总体与目标总体产生极大
11、的偏差,即原来的抽样框不符合实际情况,必须进行更新。最典型的例子,就是随着城市建设的大规模展开,许多地区已被改造,地址发生了变化,如果仍按以前的抽样框去抽样,那么精度就会难以控制。 第一,在抽选样本之前,要对抽样框加以检查,发现可能存在的问题,进行识别、处理,并采取一定措施加以补救。第二,连接遗漏单位法,就是指把抽样样本遗漏的个体和抽样样本中的某个值相连接,其链接规则必须在调查前明确规定。例如:要调查居民对某项公共政策的态度,要从100户居民家庭中抽选10户居民代表抽选样本。具体步骤如下: 第一步:将100户居民家庭编号,每一户家庭一个编号,即0100。(每户居民编号为2数,00代表100),
12、第二步:在附录的随机数表随机确定抽样的起点和抽样的顺序。假定从第1行,第9列开始抽,抽样顺序从左往右抽。第三步:依次抽出号码分别是:92、45、42、05、94、96、05、37、36、02,共10个号码。由于05号码被抽了两次。再补充1个号码:22。由此产生10个样本单位号码为:92、45、42、05、94、96、37、36、02、22。编号为这些号码的居民家庭就是抽样调查的对象。 系统抽样 ( systematic sampling)是系统化地选择完整名单中的每第K个要素组成样本。如果名册包含10000个要素,而需要1000个样本时,选择每第10个要素作为样本。 例一, 研究人员从名册中每
13、隔10个士兵抽出一个来进行研究。然而士兵的名册是依下列的组织方式来编排的:首先是中士,接着是下士,其后才是二等兵;用一班一班的方式进行编排,每个班10个人。 因此,此名册中每隔10个便是一位中士。如此系统抽样可能会取得一个完全是中士的样本,同样的理由,此方式也可能会取得一个完全不含中士的样本。 假设我们想在一栋公寓建筑物内选择公寓样本。 如果样本是从每个公寓的编码(如101,102,103,104 ,201,202等等)中抽出的话,那么所使用的抽样间隔,可能刚好等于每层楼的户数或是每层楼户数的倍数。如此所选到的样本有可能都是属于西北角的公寓或都是接近电梯的公寓。 假设这些形态的公寓有一些共同的
14、特性(如月租费较高),样本就会产生偏误。 分层抽样是在抽样之前将总体分为同质性的不同群。 原理: 抽样设计中有两个因素可以减少抽样误差。 首先,大样本比小样本产生的抽样误差小。 其次,从同质(homogeneous)总体中抽取样本比从异质(heterogeneous)总体中抽取样本所产生的抽样误差要小。分层抽样便是基于上述抽样理论第二个影响因素的方法。 首先将总体分成互不交叉的层,然后按一定的比例,从各层次独立地抽取一定数量的个体,将各层次取出的个体合在一起作为样本。 分层抽样的特点是将科学分组法与抽样法结合在一起,分组减小了各抽样层变异性的影响,抽样保证了所抽取的样本具有足够的代表性。 一个
15、单位的职工有500人,其中不到35岁有125人,35岁至49岁的有280人,50岁以上的有95人.为了了解这个单位职工与身体状况有关的某项指标,要从中抽取一个容量为100的样本,由于职工年龄与这项指标有关,决定采用分层抽样方法进行抽取.因为样本容量与总体的个数的比为1:5,所以在各年龄段抽取的个数依次为125/5,280/5,95/5,即25,56,19。 前面讨论了直接从要素名单中进行抽样的方法。然而许多研究都需要从一个不易获得抽样名单的总体中抽样。 例如:一个城市、一个国家的人口、全国的大学生等等。在这些例子当中,抽样的设计必定更加复杂,通常必须先进行整群要素抽样,然后再从这些群中抽取要素
16、。 要对一个总体区域例如城市的人口进行抽样的时候,虽然没有整个城市的人口名册,但是人们居住在这个城市中的不同街道,因此可以先对城市中的不同街道进行抽样,然后列出抽选出来的每个街道的住户名单,再对这些住户进行抽样,之后列出抽选出来的住户人口名册,最后再对这些人口名册进行抽样。 使用多级整群抽样方法,能够对全市的人口进行抽样,而不需要整个城市的人口名册。 概率理论研究者提供了抽样技术和分析样概率理论研究者提供了抽样技术和分析样本结果的工具。本结果的工具。 例:概率理论使得调查机构能够从大约包例:概率理论使得调查机构能够从大约包含含2000个投票人的样本来推测总体个投票人的样本来推测总体1亿人的亿人
17、的投票行为投票行为而且还能够明确指出该估测而且还能够明确指出该估测的可能误差。的可能误差。 假设一个群体中有10个人,每个人的口袋里都有一定数量的钱。假设其中一人身无分文,一人有1元,另一人有2元,依此类推到有9元的那个人。 问题: 1、每个人平均有多少钱? 2、如何通过抽样方法知道这一点? 假设要研究某大学的学生对校方拟实行的一套学生管理条例的态度。研究总体为2 0000名该校注册学生。样本要素则为该大学的每个学生,此研究所考察的变量为对校规的态度,这是一个二项式变量:同意与不同意。我们将随机抽取其中100名学生为样本以估计总体的情况。 离散变量:是指采用记数的方法,如0,1,2,3,来描述
18、具体事物的数量特征。 例如,一个机构的职务分类数,一个部门的从业人数等等。这些都是离散变量的例子。 连续变量:在一个给定的区间内有无数多个变量值,例如,温度、气压、身高、体重、时间以及距离等等。注意,这些变量的共同特点是都可以用小数表示。 正态分布是用来描述连续变量的分布 1.以平均数为中心,并在平均数所在位置形成一个单峰的山形分布。 2.曲线完全对称的, 3.绝大部分数值集中在平均数的附近。 4.正态曲线由其平均数和标准差完全确定 。正态曲线由其平均数和标准差完全确定 。在正态分布中,约有6826的变量值分布在以平均数为中心的 一个标准差范围内;主讲人:刘兰剑 约有9544的变量值分布在以平
19、均数为中心的两个标准差范围内; 在正态分布中,只有约5的数值落在以平均 数为中心的两个标准差范围之外(1-0.95440.0456),主讲人:刘兰剑 约有9972的变量值分布在以平均数为中心的三个标准差范围内。 只有约025的数值落在以平均数为中心的三个标准差范围之外(1-0.997 20002 8)。主讲人:刘兰剑 在正态分布中,约有6827的变量值分布在以平均数为中心的1个标准差范围内; 约有95%的数据分布在以平均数为中心的1.96个标准差范围内; 约有99%的数据分布在以平均数为中心的2.58个标准差范围内。 z分数分数是用来衡量我们所感兴趣的变量值和平均数之间的距离是多少个单位标准差
20、的统计量。 我们可以利用z分数将原始数据变换为与均值相联系的发生概率。主讲人:刘兰剑 z分数分数确定一个变量与数据平均数之间的距离有多少个单位的标准差,用公式表示为:主讲人:刘兰剑 查Z分数表(附表),所得数值为对应X与均值 之间所有取值发生的概率。 例:Z1,查表得0.3413,说明有34.的数据落在平均数与平均数左侧一个标准差单位的变量区间内 。主讲人:刘兰剑 在正态分布中,有百分之多少的数值落在平均数与z=133之间? 得到0.408 2。 有40.82的数值落在平均数与1.33个标准差之间。主讲人:刘兰剑 计算有百分之多少的数值落在大于z=1.33的范围内? 用0.5-平均数和z为1.
21、33之间的概率 得到0.091 8。 因此,有9.18的数值落在大于z=1.33的范围内。主讲人:刘兰剑 计算有百分之多少的数值落在小于z=1.33的范围内? 两种思路: (1)1-z大于等于1.33的概率 (2)0.5+平均数与z之间的概率主讲人:刘兰剑 警察局对所有应聘者进行了一次警务知识考试。这次考试的成绩服从平均数为100,标准差为10的正态分布。 问题:假设本次招聘的主考官要对一名考分为1192的考生进行审查。现在我们需要知道这一考生的成绩在本次考试中处于什么水平。 首先将各个考试成绩与其平均数相减,然后再除以其标准差,用公式表示为: 本例中,用我们所感兴趣的变量值1192减去本次考
22、试的平均成绩100,得到192;然后用192除以标准差10,得到192。 1.92相应的概率为0.472 6。这意味着有47.26的应试者其考试成绩介于平均数(100)和z=1.92(119.2分)之间。因为有50(一半)的应试者其考试成绩低于平均成绩,因此共有97.26的成绩低于119.2。 用概率语言来表达,就是从所有的警察局警务考试的应试者中随机抽取一人,其成绩不低于119.2的概率为0.027 4(1- 0.972 6)。 假设警察局局长要知道在本次考试中,成绩介于100106之间的应聘者在总人数中所占的比重有多少。 因为本次考试成绩的平均数为100(标准差为10),因此这一问题也等价
23、于:在本次考试中,成绩居于106和平均数之间的应聘者在总人数中所占的比重为多少。 结果为0225 7。因此,在这次考试中,约有226的应聘者其成绩居于100-106之间。 在这次考试中,成绩介于88-112之间的应聘者所占的比重是多少? 如果我们根据平均数所在位置,将这一区间分为两个部分,则这一问题的解决将会变得简单。首先,成绩介于平均数100-112之间的应聘者所占的比重是多少? 成绩介于平均数和z之间的应聘者所占的比重是0.384 9。因此,在本次警务知识考试中,有38.49的应聘者其成绩介于100-112之间。 第二部分:成绩介于88到平均数100之间的应聘者所占的比重是多少?注意到88
24、到平均数之间的距离和112到平均数之间的距离相同,只是方向相反。因此,88和112的z值绝对值相等,符号相反,等于-120,但其相应的概率相同,也为 0.384 9,将这两个概率相加,就得到成绩介于88-112之间的应聘者所占的比重,等于77(0.384 9+0.384 9=0.769 8), 在警察局的这次考试中,随机抽取一个应聘者,其成绩介于117122之间的概率是多少? 在正态分布表中查找z等于1.70和2.20所对应的概率。这两个概率分别显示了在正态曲线下介于平均数和170之间的面积为0.455 4,平均数和2.20之间的面积为0.486 1。变量值介于117-122之间的概率等于这两
25、个概率之差,即0.030 7(0.4861-0.455 4)。 如果警察局只想录用在这次考试中成绩居于前20的应聘者,则根据原始数据,分数线该怎么划定? 因为考试成绩最高的20应聘者和考试成绩最低的80应聘者对应着同一个z分数,而确定后80的z分数比确定前20的z分数要容易。 因此,我们将要寻找后80的考生对应的z分数。我们从正态分布曲线知道,在后80的考生中,有50的人成绩低于其平均数100,另外30的应聘者其成绩介于平均数和划定的分数线之间。为了确定与分数线相对应的z分数,先在正态分布表中找到030这一概率,然后查看最左边的一列和最上面的一行,确定与这一概率所对应的z值。 z值仅仅代表我们
26、所关心的变量值与其平均数之间的距离是多少个标准差单位。 我们需要与z=0.85相对应的原始数值,因此,将z值乘以标准差(10),得到8.5,即我们所关心的分位数比平均数多8.5。最后将这一数值与平均数相加,结果为100+8.5=108.5。 所以,如果警察局只录用成绩在全部应聘者中居于前20的应聘者,则只有那些成绩不低于108.5的应聘者才可以被录取,108.5分就是录取线。 陆军部队要从大学招募军官。为了能进入军官预备学校,参加考试的大学毕业生的成绩必须名列前75。 去年,平均考试成绩为80分,标准差为6,并且考试成绩服从正态分布,那么如果只招收成绩排在前75的应聘者,最低录取分数线应该定为
27、多少? 有50的应聘者其成绩在80分以上,因此,要求的分数线应低于平均数,且落入平均数与分数线之间的分数比例为25。在正态分布表中查找概率025,发现与其最为接近的概率是0.248 6,它所对应的z值为0.67。因为我们所感兴趣的变量值小于平均数,因此,我们在这里要求的z值应该为-0.67。 将z等于-067转化为原始数据,最后得到最低录取分数线为76分(-0676)+80。 如果知道某一学生考试得了87分,那么我们几乎无法判断该成绩是好是坏。因为考试的题目的难度,学生的现有知识水平、以及评分标准都会影响到学生的得分。87可以说很高,也可以说很低; 但如果我们知道了学生的Z分数,我们就可以了解
28、该学生这次考试是低于平均分还是高于平均分以及在全班(或者总体)的一个什么位置。 试利用Z分数分析该考生的成绩(均值88. 标准差 6) 自由度是“未知量的数目减去连接这些未知量的等式的数目”。 假设有两个变量(x和y),两个两个自由度。 如果:x+y=30。一个自由度 如果三个未知变量x,y,z,三个自由度。 如果知道x+y+z=50,两个自由度 2 分布分布 定义 设随机变量X1, X2, , Xn彼此独立且都服从标准正态分布 N(0, 1),则随机变量2iXY服从自由度为服从自由度为n的的 2分布,记为分布,记为2( )Yn 性质 2 分布随机变量的取值范围为(0,) 若Y1 2 (n),
29、Y2 2 (m),且相互独立,则 Y1 Y2 2 (n m) 2 分布为非对称分布,其分布曲线的形状由自由度决定,自由度越大,分布越趋于对称 当 n , 2 (n) N(n, 2n) 2 分布上侧分位数表:附表(p.277))(2XPt 分布分布t 分布与正态分布的比较分布与正态分布的比较 定义 设Z N(0, 1),Y 2 (n),且相互独立,则 nYZt 服从自由度为服从自由度为n-1的的 t 分布,记为分布,记为 t( -1)tn 性质 与标准正态分布相似 关于 t = 0对称 只有一个峰,峰值在t = 0 分布曲线受自由度影响,自由度越小,离散程度越大 当 n ,t(n) N(0, 1
30、) t分布双侧分位数表:附表(p. 279))(1tttP 定义 若 X 2 (m),Y 2 (n),且相互独立,则nYmXF 服从自由度为服从自由度为m(第一自由度)(第一自由度)和和n(第(第二自由度)的二自由度)的 F 分布,记为分布,记为),(FnmF 性质 F分布随机变量的取值范围为(0,) F分布的分布曲线受两个自由度的影响 若F F(m, n),则 1/F F(n, m) 若X t(n),则 X2 F(1, n) F分布的上侧分位数表:附表(p.281))(FFP样本平均数的期望和方差样本平均数的期望和方差设样本来自均数为设样本来自均数为 ,方差为,方差为 2的总体的总体设样本为
31、简单随机样本设样本为简单随机样本ixnx1 期望nnnxxxEnxnExEnix1)(1)(1)1()(21nnnnxxxVarnxnVarxVarnix222222221221)(1)(1)1()(方差方差标准差标准差nx(平均数的标准误)(平均数的标准误) 正态总体样本平均数的分布 设样本来自正态总体 N( , 2),则样本平均数也服从正态分布,其总体均数为 ,方差为 2/n。),(N2X),(N2nx) 1 , 0(N2nxZ 无论样本所来自的总体是否服从正态分布,无论样本所来自的总体是否服从正态分布, 只要样本足够大,样本平均数就近似服从正只要样本足够大,样本平均数就近似服从正态分布,样本越大,近似程度越好。态分布,样本越大,近似程度越好。所需的样本含量随原总体的分布而异,但只所需的样本含量随原总体的分布而异,但只要样本含量要样本含量 30,无论原总体是何分布,都,无论原总体是何分布,都足以满足近似的要求。足以满足近似的要求。设原总体的期望为设原总体的期望为 ,方差为,方差为 2,则样本平,则样本平均数的期望为均数的期望为 ,方差为,方差为 2 /n。 本章到此结束! 谢谢各位!
限制150内