欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    社会统计学期末复习题与答案整理(共25页).doc

    • 资源ID:5912425       资源大小:361.50KB        全文页数:26页
    • 资源格式: DOC        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    社会统计学期末复习题与答案整理(共25页).doc

    精选优质文档-倾情为你奉上社会统计学期末复习训练一、单项选择题 (20=2×10)1.为了解IT行业从业者收入水平,某研究机构从全市IT行业从业者随机抽取800人作为样本进行调查,其中44%回答他们的月收入在6000元以上,30%回答他们每月用于娱乐消费在1000元以上。此处800人是样本 2.某地区政府想了解全市332.1万户家庭年均收入水平,从中抽取3000户家庭进行调查,以推断所有家庭的年均收入水平。这项研究的总体是 332.1户家庭的年均收入 3.学校后勤集团想了解学校22000学生的每月生活费用,从中抽取2200名学生进行调查,以推断所有学生的每月生活费用水平。这项研究的总体是 22000名学生的每月生活费用 4.为了解地区的消费,从该地区随机抽取5000户进行调查,其中30%回答他们的月消费在5000元以上,40%回答他们每月用于通讯、网络的费用在300元以上。此处5000户是 样本5从变量分类看,下列变量属于定序变量的是 产品等级 6下列变量属于数值型变量的是工资收入 7.从含有N个元素的总体中,抽取n个元素作为样本,同时保证总体中每个元素都有相同的机会入选样本,这样的抽样方式称为简单随机抽样 8某班级有60名男生,40名女生,为了了解学生购书支出,从男生中抽取12名学生,从女生中抽取8名学生进行调查。这种调查方法属于分层抽样 9.先将总体按某标志分为不同的类别或层次,然后在各个类别中采用简单随机抽样或系统抽样的方式抽取子样本,这样的抽样方式称为分层抽样10某班级有100名学生,为了了解学生消费水平,将所有学生按照学习成绩排序后,在前十名学生中随机抽出成绩为第3名的学生,后面依次选出第13、23、33、43、53、63、73、83、93九名同学进行调查。这种调查方法属于 系统抽样11在频数分布表中,某一小组中数据个数占总数据个数的比例称为频率12在频数分布表中,将各个有序类别或组的百分比逐级累加起来称为累积频率 13在频数分布表中,频率是指各组频数与总频数之比 14在频数分布表中,比率是指不同小组的频数之比15如果用一个图形描述比较两个或多个样本或总体的结构性问题时,适合选用环形图 16某地区2001-2010年人口总量(单位:万人)分别为98,102,103,106,108,109,110,111,114,115,下列哪种图形最适合描述这些数据 线图17当我们用图形描述甲乙两地区的人口年龄结构时,适合选用哪种图形环形图 18在某市随机抽取10家企业,7月份利润额(单位:万元)分别为72.0、63.1、20.0、23.0、54.7、54.3、23.9、25.0、26.9、29.0,那么这10家企业7月份利润额均值为 39.19 19某班级10名同学期末统计课考试分数分别为76、93、95、80、92、83、88、90、92、72,那么该班考试成绩的中位数是 89 20.某企业职工的月收入水平分为五组:1)1500元及以下;2)1500-2000元;3)2000-2500元;4)2500-3000元;5)3000元及以上,则3000元及以上这一组的组中值为 3250元21为了解某行业12月份利润状况,随机抽取5家企业,12月份利润额(单位:万元)分别为65、23、54、45、39,那么这5家企业12月份利润额均值为 45.222某专业共8名同学,他们的统计课成绩分别为86、77、97、94、82、90、83、92,那么该班考试成绩的中位数是 8823.某班级学生平均每天上网时间可以分为以下六组:1)1小时及以下;2)1-2小时;3)2-3小时;4)3-4小时;5)4-5小时;6)5小时及以上,则5小时及以上这一组的组中值近似为5.5小时24对于左偏分布,平均数、中位数和众数之间的关系是众数>中位数>平均数25对于右偏分布,平均数、中位数和众数之间的关系是平均数>中位数>众数26离散系数的主要目的是比较多组数据的离散程度27两组数据的平均数不相等,但是标准差相等。那么 平均数大的,离散程度小28已知某单位平均月收入为3500元,离散系数为0.2,那么他们月收入的标准差为700 29一班学生的平均体重均为55千克,二班学生的平均体重为52千克,两个班级学生体重的标准差均为5千克。那么 二班学生体重的离散程度大30已知某单位平均月收入标准差为700元,离散系数为0.2,那么他们月收入的均值为350031. 正态分布中,值越小,则 离散趋势越小32已知某单位职工平均每月工资为3000元,标准差为500元。如果职工的月收入是正态分布,可以判断月收入在2500元3500元之间的职工人数大约占总体的68% 33如果一组数据中某一个数值的标准分值为-1.5,这表明该数值比平均数低1.5个标准差34某班级学生期末英语考试平均成绩为75分,标准差为10分。如果已知这个班学生的考试分数服从正态分布,可以判断成绩在65-85之间的学生大约占全班学生的68%35经验法则表明,当一组数据正太分布时,在平均数加减2个标准差的范围之内大约有 95%的数据36期中考试中,某班级学生统计学平均成绩为80分,标准差为4分。如果学生的成绩是正太分布,可以判断成绩在72分-88分之间的学生大约占总体的95% 37如果一组数据中某个数值的标准分值为1.8,这表明该数值比平均数高出1.8个标准差38某班级学生期末统计学考试平均成绩为82分,标准差为5分。如果已知这个班学生的考试分数服从正态分布,可以判断成绩在77-87之间的学生大约占全班学生的68%39经验法则表明,当一组数据正态分布时,在平均数加减1个标准差的范围之内大约有 68%的数据40用样本统计量的值直接作为总体参数的估计值,这种方法称为点估计41用样本统计量的值构造一个置信区间,作为总体参数的估计,这种方法称为区间估计42某单位对该厂第一加工车间残品率的估计高达10%,而该车间主任认为该比例()偏高。如果要检验该说法是否正确,则假设形式应该是:0.1;:<0.1 43某单位对该厂第一加工车间残品率估计高达13%,而该车间主任认为该比例()偏高。如果要检验该说法是否正确,则假设形式应该为:0.13;:<0.1344在假设检验中,不拒绝虚无假设意味着没有证据证明虚无假设是错误的45在假设检验中,虚无假设和备择假设有且只有一个成立46在假设检验中,如果所计算出的P值越大,那么检验的结果 越不显著47在假设检验中,如果所计算出的P值越小,那么检验的结果 越显著48根据一个具体的样本求出的总体均值90%的置信区间以90%的概率包含总体均值49根据一个样本均值求出的90%的置信区间表明总体均值有90%的概率会落入该区间内 50根据一个具体的样本求出的总体均值95%的置信区间以95%的概率包含总体均值51用于说明回归方程中拟合优度的统计量主要是判定系数52两个定类变量之间的相关分析可以使用系数 53判断下列哪一个不可能是相关系数1.254判断下列哪一个不可能是相关系数1.32 55如果收入与支出之间的线性相关系数为0.92,那么二者之间存在着高度相关56如果物价与销售量之间的线性相关系数为-0.87,而且二者之间具有统计显著性,那么二者之间存在着高度相关57. 某项研究中欲分析受教育年限每增长一年,收入如何变化,下列哪种方法最合适 回归58在回归方程中,若回归系数等于0,这表明自变量x对因变量y的影响是不显著的59对消费的回归分析中,学历、年龄、户口、性别、收入都是因变量,其中收入的回归系数为0.8,这表明 消费每增加1元,收入增加0.8元60在因变量的总离差平方和中,如果回归和所占的比例越大,则两变量之间相关程度越高 61回归平方和(SSR)反映y的总变差中由于x与y之间的线性关系引起的y的变化部分62对于线性回归,在因变量的总离差平方和中,如果残差平方和所占比例越大,那么两个变量之间相关程度越小 63对于线性回归,在因变量的总离差平方和中,如果回归平方和所占比例越大,那么两个变量之间相关程度越大64在因变量的总离差平方和中,如果回归平方和所占的比例越小,则自变量和因变量之间相关程度越低65方差分析的目的是研究各分类自变量对数值型因变量的影响是否显著66下面哪一项不是方差分析中的假定各总体的方差等于067下列哪种情况不适合用方差分析年龄对收入的影响68从两个总体中各选取了6个观察值,得到组间平方和为234,组内平方和为484,则组间方差和组内方差分别为234,48.4 69从两个总体中共选取了8个观察值,得到组间平方和为432,组内平方和为426,则组间均方和组内均方分别为432,7170在方差分析中,某一水平下样本数据之间的误差称为组内误差二、名词解释 1离散变量与连续变量 P10(1) 离散变量 如果一个变量的变量值是间断的,可以一一列举的,这种变量称为离散变量。例如,某人兄弟姐妹数、结婚次数、工厂生产产品的数量等,其变量值的取值是0,1,2,3。离散变量的取值是有限个值,而且其取值都是以整数位断开的,是有最小计量单位的。例如,某人的兄弟姐妹数,只能是1个、2个、3个等,而不能是1.3个、2.5个等。 (2)连续变量 如果一个变量的变量值是连续不断的,即可以取无数多个数值,这种变量称为连续变量。例如,年龄、温度、灯泡的寿命等,它们的取值是连续不断的。连续变量可以取无数多个值,其取值是连续不断,不可以一一列举的,而且,它们没有最小计量单位。例如,年龄可以是1岁整,也可以是1.2岁、1.45岁、2.544岁等。 2总体与样本 P11总体是构成它的所有个体的集合,个体则是构成总体的最基本的单位。样本就是从总体中按照一定方式抽取的一部分个体的集合。 例如,要从某省所有育龄妇女中抽取1000人进行调查进行调查,那么,该省所有育龄妇女就是研究总体,其中每一位育龄妇女就是个体,而抽取出的1000名育龄妇女就构成为了该总体的一个样本。 3抽样单位与抽样框 P11抽样单位就是一次直接的抽样所使用的基本单位。抽样单位有时与构成总体的个体是相同的,有时是不同的。例如对育龄妇女的调查,当直接抽取育龄妇女时,两者是相同的;当我们从总体中一次直接抽取户时,以抽中的户中的育龄妇女作为样本时,抽样单位(户)与个体(育龄妇女)就不相同了。 抽样框是指一次直接抽样时样本中所有抽样单位的名单。例如,从某校中抽取200名学生进行就业观的调查,那么这所学校的所有学生的名单就是这次抽样的抽样框。但是,当我们先抽取班级,以抽中班级中的所有学生作为样本时,这所学校所有班级的名单就是这次抽样的抽样框。 4普查与抽样调查 P12(1)普查 普查是一种专门的调查,它是为了某种特定的目的而对总体中所有的个体进行的一次全面调查。例如,我们历年进行的人口普查、工业普查、农业普查、第三产业普查、经济普查、统计基本单位普查等。 (2)抽样调查 抽样调查是从总体中选取部分个体组成样本进行调查的一种方式,其目的在于根据样本的调查结果推断总体特征。根据抽取样本的方法不同,抽样调查可以分为:概率抽样和非概率抽样。 5普查 P12普查是一种专门的调查,它是为了某种特定的目的而对总体中所有的个体进行的一次全面调查。例如,我们历年进行的人口普查、工业普查、农业普查、第三产业普查、经济普查、统计基本单位普查等。6概率抽样 P13概率抽样就是按照随机原则进行的抽样,总体中每个个体都有一定的、非零的概率入选样本,并且入选样本的概率都是已知的或可以计算的。包括:简单随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样。 7众数 P681、众数众数是一组数据中出现频数最多的数值,用Mo表示。例如,一个城市有多种产业,但如果以旅游业为最多,那么旅游业就是众数,这个城市也被称为旅游城市。8中位数 P732、中位数中位数是中心趋势的一种测量,是将一组数据排序后,处于中间位置的变量值,用Me表示。中位数处于中间位置,前后每部分均包括50%的数据,而且前面部分小于中位数、后面部分大于中位数。例如,在职工收入水平差异比较大的单位,要了解职工收入的一般水平,用职工收入分布的中位数作为收入水平的代表值要比用算术平均数更恰当,因为它排除了极端数据的影响。9均值 P784、均值均值是集中趋势最主要的测量值,它是将全部数据进行加总然后除以数据总个数,也称为算数平均数。均值包含一组数据中所有数值,它是先将所有数值进行加总,然后进行平均,在均值中所有数值都有所体现。因而,我们说均值是集中趋势最主要的测量值。10方差与标准差 P956、方差方差是各数值与均值离差平方的平均数,它是数值型数据离散趋势最主要的测量值。与平均差不同的是,方差采用平方的方式避免避免正、负抵消带来的问题,但是采用平方的方式给方差的解释带来一定的困难。7、标准差标准差是方差的平方根,用于测量数值型数据离散趋势。标准差克服了方差面临的夸大离散程度、不容易解释的问题。与方差相比,标准差是有量纲的,它与变量值的单位相同,容易解释。在实际中,标准差使用更为普遍。11离散系数 P1008、离散系数离散系数是一组数据的标准差与该组数据均值之比,也称为变异系数。离散系数是测量数据离散程度的相对指标,通常用Vs适用于数值型数据离散程度的测量。12正态分布 P103 1、正态分布连续性随机变量中重要的分布是钟型概率分布,就是正态分布(normal distribution),也称为常态分布,是一种连续型随机变量的概率分布。学生的身高、体重、成绩等都是正态分布常见的例子,很高、很矮的都比较少,多数处于正常身高;很胖、很瘦的也较少,多数是正常体重;成绩很高和很低的是少数,多数同学属于中等成绩。13参数与统计量 P127,P128 4、参数与统计量参数是研究者想要了解的总体的某种特征值。通常情况下,我们关心的总体的参数主要有总体平均数()、标准差()、比例()等。统计量是根据样本数据计算出来的一个量。样本统计量主要有样本平均数(X)、样本标准差(S)、样本比例(P)等。与参数不同,统计量是根据样本数据计算出来的、有关样本的特征值,因而统计量是知道的、可以计算的,是估计总体参数的依据。14抽样分布 P1295、抽样分布抽样分布是指样本统计量的概率分布,它是在重复选取容量为n的样本时,由每个样本计算出来的统计量数值的相对频数分布。例如样本均值的分布、样本比例分布等。15. 中心极限定理 P130 1、中心极限定理中心极限定理具体内容为:不论总体分布是否服从正态分布,从均值为、方差为2的总体中,抽取容量为n的随机样本,当n充分大时(通常要求n30),样本均值的抽样分布近似服从均值为、方差为2/n的正态分布。16区间估计 P134区间估计是在估计总体参数时给出的不是一个数值,而是一个区间,是根据统计量的抽样分布的特点进行估计,同时给出总体参数落入这一区间的可能性大小。也就是要在给定值的前提下,去寻找两个统计量和,使其满足上述不等式。从而知道落在区间内的概率为,故也称为的区间估计。17置信水平 P135置信水平就是将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例。18. 假设检验 P140假设检验是首先对总体参数建立一个假设,然后根据样本信息区检验这一假设是否正确。假设检验和参数估计都是建立在抽样分布的基础上。例如,某品牌灯泡的寿命X服从正态分布(,125),厂方说它的平均工作寿命是1800小时。随机测试16次,得到的平均工作温度是1750度。样本结果与厂方所说的是否有显著差异?厂方的说法是否可以接受?这就是假设检验要解决的问题。19. 虚无假设与替换假设 P140 P141将需要通过样本信息来推断其正确与否的命题称为虚无假设,也成为原假设或者零假设,通常用表示。如果虚无假设不成立,我们就拒绝虚无假设,需要在另个一假设中进行选择,这就是替换假设,替换假设通常用表示。上面例子中,虚无假设为:=1800替换假设为:1800a20二维表 P152二维表二维表就是行列交叉的表格,将两个变量一个分行排放,一个分列排放,行列交叉处就是同属于两个变量的不同类的数据,也称为列联表。例如,对某单位职工学历进行分析,随机抽取262名进行调查,性别、学历二维表如下所示:对某项政策态度的调查结果男女合计初中及以下243256高中354075专科342155本科及以上542276合计14711526221误差减少比例 P158 1、误差减少比例在预测变量Y的值时,知道变量X的值时所减少的误差()与总误差的比值称为误差减少比例(proportional reduction of error),简称PRE。取值范围为01,PRE值越大,说明用变量X去预测变量Y是能够减少的误差所占的比例越大,即变量X与变量Y之间的相关性越大。公式为:PRE=例如,PRE=0.7,说明以变量X预测变量Y时能减少70%的误差,说明二者之间关系较强。22散点图 P165 散点图散点图是在坐标系中,用X轴表示自变量x,用Y轴表示因变量y,而变量组(x,y)则用坐标系中的点表示,不同的变量组在坐标系中形成不同的散点,用坐标系及其坐标系中的散点形成的二维图就是散点图。散点图是描述变量关系的一种直观方法,从散点图中直观的看出两个变量之间是否存在相关关系、是正线性相关还是负线性相关,也可以大致看出变量之间关系强度如何,但是对于具体关系强度则需要相关系数来判断。23相关系数 P170 相关系数就是对变量之间相关关系程度和方向的度量。当研究两个变量之间的相关关系时我们称之为简单相关系数。总体相关系数用表示,样本相关系数一般用r表示。24最小二乘法 P180 对于变量x和y的观察值,有多条直线可以描述,其中距离各观测值最近的一条直线对x与y之间的关系的描述与实际的误差最小。最小二乘法是使因变量的观察值与估计值之间的离差平方和达到最小来求参数合的方法,即使得:25独立样本与配对样本 P207,P203独立样本独立样本(independent sample)是指我们得到的样本总体之间是相互独立的。比如我们要研究一个地区百姓的生活水平,要同时考察家庭的子女数x,父母的教育水平y,这就可以看做是独立样本。两个样本容量和都小于30,或其中一个小于30的两独立样本为独立小样本。当总体标准差和未知时,独立小样本均值之差的检验采用t检验。配对样本配对样本(matched sample)就是一个样本中的数据与另一个样本中的数据相对应的两个样本。配对样本可以消除由于样本指定的不公平造成的差异。在选择配对样本时,可以将两种同质对象分别接受两种不同的处理。26. 组内均方 P218 组内误差的自由度为全部观察值个数减去因素水平个数,即nk,其中n为全部观察值个数,k为因素水平的个数。SSE的均方记作MSE,称为组内均方。其计算公式为:MSE=三、简答题 1举例简要说明社会研究过程。 P4系统、完整的社会研究通常遵循着比较固定的过程,一般包括五个主要过程:提出问题、形成假设、收集数据、分析数据、检验假设。 1、提出问题:是社会研究的第一步,研究者应首先明确要做什么,或者说进行研究的目的是什么。 2、形成假设:研究问题往往是无法直接检验的,而是要把研究问题形成假设才可以进行检验。也就是对两个变量间关系进行尝试性回答。 3、收集数据:是社会研究的关键步骤。 4、分析数据:对收集的原始数据进行系统的审核、整理、归类、统计和分析。 5、检验假设:完成对数据的统计分析后,我们要开始进行最后一步根据对数据的分析来检验我们之前的假设和理论。2按测度水平,变量可分为哪几类?并举例说明。 P7变量分类(按测度水平): (1)定类变量 当变量值的含义仅表示个体的不同类别,而不能说明个体的大小、程度等其它特征时,这种变量称为定类变量。定类变量是最低层次的变量。在社会调查中,定类变量有很多,如性别、婚姻状态、民族、地区、职业.等。 性别可以分为男、女两类,我们可以用1表示男性,用2表示女性。民族可以分为汉族和少数民族,我们可以用1表示汉族,用2表示少数民族。 (2)定序变量 当变量值的含义不仅表示个体的不同类别,还可以区分个体之间大小、程度等序次差异时,这种变量称为定序变量。社会调查中,受教育程度是定序变量,可以分为文盲、小学、初中、高中、大专及以上等;人们对某种制度的态度可以分为非常同意、同意、中立、不同意、非常不同意等。 我们也可以用不同的数值1、2、3等表示不同的类别,但是这时候1、2、3等是包含大小的比较意义的,例如,用“1”表示文盲,用“2”表示小学,用“3”表示初中,用“4”表示高中,用“5”表示大专及以上。此处,数字1、2等不仅仅表示文化程度的分类,还表示文化程度的高低,1还代表最低的文化程度,2表示的文化程度要高于1,5表示最高的文化程度。 (3)定距变量 当变量值不仅可以将个体区分为不同类型并进行排序,而且可以确定不同类别之间的数量差别和间隔差距时,这样的变量称为定距变量。定距变量具有测量单位,这些测量单位具有不变的相等区间的标准,使个体之间的比较更具客观性。智商、温度等都是定距变量。 定距变量的变量值是用数值表示的,同一度量单位之间我们可以准确的计算出个体之间的差值。例如,地区甲的温度是0°,地区乙的温度是8°,则甲的温度比乙的温度低8°,而在定类和定序变量中则不能这样。在定距变量中,0的选取只是为了方便或习惯,0只表示一个数值,而不表示该现象不存在。如地区乙的温度=0°,并不是说地区乙没有温度;一个人的智商=0,并不是说这个人没有智商。 (4)定比变量 除了上述三种变量的全部特征外,还可以计算两个变量值之间的比值时,这样的变量称为定比变量。定比变量是最高层次的变量。在社会调查中,很多情况下我们使用的都是定比变量,例如身高、年龄、收入、一个地区的人口数、某产品的生产量等。 定比变量的变量值也是用数值表示,但是与定距变量相比,两者的唯一区别是,定比变量有绝对零点,即定比变量中的“0”是有实际意义的数值。例如,一个人的身高是0米,则表示这个人不存在;一个人的收入是0元,则表示这个人没有收入。同样,由于定比变量中有绝对零点,除可以进行“”或“”、“”或“”比较外,它还可以进行“”、“”、“×”、“÷”运算。例如,职工甲每月收入是7500元,职工乙每月收入是2500元,我们可以说职工甲比职工乙每月多收入5000元,也可以说职工甲每月的收入是职工乙的3倍。 3判断以下随机变量是定性变量还是定量变量,如果是定量变量,确定是离散变量还是连续变量。(1)网络供应商的姓名 定性变量(2)每月的网络服务费 定量变量 连续变量(3)每月上网时间 定量变量 连续变量(4)上网的主要目的 定性变量(5)上周收到的电子邮件数量 定量变量 离散变量(6)每月用于网上购物的金额 定量变量 连续变量(7)上月网上购物的次数 定量变量 离散变量(8)使用的电脑的品牌 定性变量(9)上网是否玩游戏 定性变量(10)电脑是否带有光盘刻录机 定性变量4判断以下随机变量是定性变量还是定量变量,如果是定量变量,确定是离散变量还是连续变量。(1)考研辅导班参加者的姓名 定性变量(2)家庭月消费 定量变量 连续变量(3)温度 定量变量 连续变量(4)上个月外出吃饭的次数 定量变量 离散变量(5)产品等级 定性变量5举例说明什么是自变量和因变量,二者之间是什么关系? P10变量分类(按变量间关系)自变量与因变量 两个变量之间,如果一个变量的变化能引起其他变量变化则称之为自变量,而将由于其他变量的变化而导致自身发生变化的变量称为因变量。 自变量与因变量之间的关系既有时间上的先后关系,即现因后果,同时还有因果关系,即因变量的变化是以自变量的变化为前提。例如我们常说的“小树长高,我也长高”,但是不能说“我长高”是因变量,“小树长高”是自变量,两者只是有时间上的先后关系,而没有必然联系。自变量与因变量之间还必须是例如,受教育程度增加,收入增加,这两者就是因果关系,受教育程度是自变量,收入是因变量。 6举例说明什么是离散变量和连续变量。 P10(1)离散变量 如果一个变量的变量值是间断的,可以一一列举的,这种变量称为离散变量。例如,某人兄弟姐妹数、结婚次数、工厂生产产品的数量等,其变量值的取值是0,1,2,3。离散变量的取值是有限个值,而且其取值都是以整数位断开的,是有最小计量单位的。例如,某人的兄弟姐妹数,只能是1个、2个、3个等,而不能是1.3个、2.5个等。 (2)连续变量 如果一个变量的变量值是连续不断的,即可以取无数多个数值,这种变量称为连续变量。例如,年龄、温度、灯泡的寿命等,它们的取值是连续不断的。连续变量可以取无数多个值,其取值是连续不断,不可以一一列举的,而且,它们没有最小计量单位。例如,年龄可以是1岁整,也可以是1.2岁、1.45岁、2.544岁等。 7概率抽样方法主要包括哪几种?答:概率抽样主要的方式有:简单随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样等。8调查方法主要包括哪几种?简要说明各种方法的优缺点。 P16(1)问卷法问卷法是调查者根据一定的目的和要求,采用事先设计好的问卷,向被调查者了解情况,征询意见的一种方法。问卷法广泛应用于社会学、人口学、教育学、管理学、心理学等领域中。(2)访谈法访谈法是指由调查员直接对被调查员进行访问和交谈,并记录调查结果的方法。访谈法是以口头语言为中介、调查者与被调查者面对面的交谈和互动的过程。(3)观察法观察法是指研究者深入到所要研究对象的生活背景中,在实际参与研究对象的日常生活的过程中直接记录研究对象的有关资料的方法。(4)典型组讨论典型组讨论是由812个具有某些共同特征或经历的人,在一个经过专门培训主持人的引导下、围绕着某一专门话题进行互动小组讨论的一种定性调查方式。目前有地方使用的电话典型组、网络典型组、视频典型组都是典型组讨论的方式之一。9数据分析中的归纳法和演绎法分别是什么? P19数据分析法 (1)归纳法与演绎法 归纳法与演绎法是社会研究的两种基本推理方式。归纳法是从特殊到一般,也就是从一组具体的观察结果推导出一般性的规律或法则;演绎法则与归纳法正好相反,是从一般到特殊,也就是研究者从想要检验的一般性理论开始,然后去观察、收集资料,通过这些资料来检验这个理论。 10SPSS主要有哪些功能? P25统计分析功能和数据管理功能。11在SPSS中如何定义变量属性? P30变量属性 SPSS中变量有三种基本类型:数值型、字符型、日期型。 (1)数值型变量 数值型变量是SPSS中最常用的变量类型。数值型变量包括标准数值型、逗号数值型、圆点数值型、科学计数法型、美元数值型、自定义型。 (2)字符型变量 字符型变量也是SPSS中比较常用的数据类型,默认长度为8。例如姓名、地点等都可以定义为字符型变量,字符型变量不能参与运算。 (3)日期型变量 日期型变量可以用来表示日期,也可以表示时间,例如调查时间、出生日期等都可以定义为日期型变量。 12等距分组和不等距分组有什么区别?请举例说明。 P46在分组时,如果分组组距相等,就是等距分组,如:学生平均每天上网时间:组距设3,分成3-6,6-9,9-12,12-15共4个小组。如果分组组距不相等,就是不等距分组。如:人口分析,分婴幼儿组(0-6),少儿组(7-17),中青年组(18-59),老人组(60-130),组距不相等。13统计表主要由哪几部分构成?答:统计表主要有标题、标目、线条、数字四部分构成,有些统计表还有备注。14条形图和直方图有什么区别? P63(1)条形图:用宽度相同的条形的高度或者长短来表示数据多少的图形。条形图既可以横置也可以纵置,纵置时也可以称为柱形图。条形图的绘制在绘制条形图时,如果将类别放在纵轴,即条形图横置,称为条形图;如果将类别放在横轴,即纵置,称为柱形图。绘制条形图是既可以绘制成二维平面图,也可以绘制成三维立体图。直方图的定义直方图:就是用矩形的宽度和高度来表示频数分布的图形。在平面直角坐标系中,我们用横轴表示数据分组,用纵轴表示频数或频率,各个组的频数与频率形成一个小矩形,就是直方图。15. 简述众数、中位数和平均数作为测量中心趋势的指标所适用的数据类型。P82,P83众数只与变量值出现的次数有关,适用于定序数据、定类数据和数值型数据中心趋势的测量。但主要适用于定类数据中心趋势的测量,中位数只与变量值的排序有关,因而它适用于定序数据和数值型数据中心趋势的测量。但主要适用于定序数据中心趋势的测量,平均数是将所有数据加总后除以数据总个数得出的。主要适用于数值型数据中心趋势的测量。数值型数据也可以用众数和中位数测量中心趋势,但均值最佳。16. 简述定类变量、定序变量和数值型变量集中趋势测量的方法。与第二题一样 P83的表格数据类型定类数据定序数据数值型数据适用的测量值众数中位数均值分位数中位数众数分位数众数17简述相关系数的取值与意义。 P174相关系数相关系数就是对变量之间相关关系程度和方向的度量。当研究两个变量之间的相关关系时我们称之为简单相关系数。总体相关系数用表示,样本相关系数一般用r表示。1、符号:如果为正号,则表示正相关,如果为负号,则表示负相关。通俗点说,正相关就是变量会与参照数同方向变动,负相关就是变量与参照数反向变动;2、取值为0,这是极端,表示不相关;3、取值为1,表示完全正相关,而且呈同向变动的幅度是一样的;4、如果为-1,表示完全负相关,以同样的幅度反向变动;5、取值范围:-1,1.相关系数的绝对值越大,相关程度越强,相关系数的绝对值越小,相关程度越弱。18. 什么是回归分析?其作用是什么? P177 4、回归分析回归分析是通过一定的数学表达式将变量间的关系进行描述,确定一个变量或几个变量的变化对另一个特定变量的影响,是进行估计或预测的一种方法,侧重于考察变量之间的数量伴随关系。回归分析的作用是从一组数据出发确定某些变量之间的定量关系式,对变量间这些关系式进行统计检验。并从影响某一个变量的多个变量中找出影响显著的变量利用所求出的关系式,根据一个变量或多个变量取值估计或预测另一个特定变量的取值。19. 什么是简单一元线性回归分析?其作用是什么? P178 一元线性回归就是对具有线性相关关系的两个变量之间(其中一个为自变量)数量变化的一般关系进行预测,确定相应的数学关系式,以便进行估计或预测。通常将描述因变量y如何依赖自变量x和误差项e的方程称为回归模型。一元线性回归模型表达式为:20. 一元线性回归模型中有哪些基本假定 P179一元回归模型的三个基本假定(1)误差项是一个期望值为0的随机变量,即E()=0。在一个回归模型中,和都是常数,因而,对于一个特定的x值,y的期望值为E(y)= 。(2)对于所有的x值,的方差都是相同的。(3)误差项是一个服从正态分布的随机变量,而且互相独立,即N(0,1)。21如何对配对样本进行t检验。 P203(1)配对样本T检验方法配对样本检验主要是判断不同的处理或试验结果是否有差异。配对样本T检验(PairedSample T test)用于检验两个相关的样本(配对样本)是否来自具有相同均值的总体,因此针对配对样本我们可以首先计算出两个样本每个对应变量间的差值,然后再检验其差值的均值是否为零,若均值接近于零(即在给定的置信区间内),说明两个样本均值在给定的置信水平上没有差异;若均值在给定置信区间以外,说明两个样本均值在给定的置信水平上有差异。(2)利用SPSS进行配对样本T检验在SPSS主菜单选中Analyze>Compare Means>PairedSample T Test,出现图114所示窗口。“Paired Variables”框中的变量作为分析变量,总是成对出现,指定要检验的两个变量到“Paired Variables”输入栏里的“Variable1”和“Variable2”中,在“Current Selections”栏中就会显示被选中的成对变量,在“Options”选项中可以进行置信水平和缺失值的设置,同单样本T检验。22 简要举例说明在分析双变量的关系时,t检验和卡方检验的主要区别。 P207 T检验(T Test)是最常见的一种假设检验类型,主要验证总体均值间是否存在显著性差异。T检验属于参数假设检验,所以它适用的范围是数值型的数据,在网站分析中可以是访问数、独立访客数、停留时间等,电子商务的订单数、销售额等。T检验还需要符合一个条件总体符合正态分布。卡方检验(chi-square test),也就是2检验,用来验证两个总体间某个比率之间是否存在显著性差异。卡方检验属于非参数假设检验,适用于布尔型或二项分布数据,基于两个概率间的比较,早期用于生产企业的产品合格率等,在网站分析中可以用于转化率、Bounce Rate等所有

    注意事项

    本文(社会统计学期末复习题与答案整理(共25页).doc)为本站会员(飞****2)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开