书签分享收藏举报版权申诉 / 17

立即下载

当前位置：首页 > 教育专区 > 教案示例 > 统计建模课程复习与练习(1)剖析(共17页).doc

统计建模课程复习与练习(1)剖析(共17页).doc

上传人：飞****2

文档编号：16810615

上传时间：2022-05-19

格式：DOC

页数：17

大小：1.10MB

( 4.5 )

《统计建模课程复习与练习(1)剖析(共17页).doc》由会员分享，可在线阅读，更多相关《统计建模课程复习与练习(1)剖析(共17页).doc（17页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、精选优质文档-倾情为你奉上统计建模复习题1. 统计建模的主要步骤有哪些？1明确问题 2数据收集 3数据预处理 4模型构建 5模型估计 6模型检验 7结果分析8撰写论文2. 试列举至少5个常用的统计数据库？例如，中经网统计数据库。1国家统计数据库2中国经济网数据中心3 OECD数据库4国研网数据库5国家发改委6世界银行7中国统计年鉴、WIND数据库、BvD数据库3. 试列举至少4项国内广泛使用的微观数据库？并简要说明。1CHIP数据（中国农村和城市居民家庭收入分配）2CHNS（中国健康与营养调查）3CHARLS（中国健康与养老追踪调查）4CFPS（中国家庭动态调查）5CHFS（China Hea

2、lth and Fertility Survey ）中国健康与生育调查4. 常见的模型估计方法有哪些？试列举之。最小二乘（OLS）法、极大似然估计、广义矩（GMM）法、分位数回归方法、贝叶斯估计5. 在完成统计模型的参数估计后，通常需要进行哪几类检验？试列举之。定性检验，T检验，f检验，拟合优度检验，预测精度检验6. 著名统计学家博克斯（George Box）说过：所有的模型都是错的，但其中有一些模型是有用的！你对这句话如何理解？模型只能是客观世界的一种近似，是现实的简单化或理想化。有用的模型能抓住并凸显现象中与分析目的最相关的特征，能抓住问题的本质。7. 简述结构方程模型和普通回归模型的区

3、别？结构方程模型，是一种建立、估计和检验多个变量之间的因果关系模型的方法。模型中既包含有可观测的显变量，也可能包含无法直接观测的潜变量。普通回归模型属于单方程模型方法，结构方程模型属于联立方程模型方法，回归分析只能处理显性变量，而结构方程模型可以发现潜在变量。普通回归一般只有一个因变量，而且是单向的，SEM则是可单，可双，普通回归是基础，SEM是后来的发展和完善8. 和普通回归模型相比，结构方程模型有哪些优点？1允许回归方程的自变量含有测量误差2可以同时处理多个因变量3.可以在一个模型中同时处理因素的测量和因素之间的结构。4.允许更具弹性的模型设定。9. 结构方程模型的构建包括哪几步？1.模型

4、假设: SEM是一种验证性的方法，必须有理论支撑。在进行模型估计之前，要先根据理论分析或以往研究成果来设定初始理论模型。2.模型识别: 确定所设定的模型是否能够对其估计求解。3.模型估计: 极大似然法（Maximum likelihood）和广义最小二乘法（Generalized least square）4.模型评价: 对模型的整体和参数的估计值进行评价。如果模型拟合效果不佳，对模型进行修正后重新估计和评价。10. 观察变量、潜在变量测量变量：也叫观察变量或显变量（显示变量），是可以直接测量的指标。潜变量：无法直接观测，其测量是通过一个或几个可观察指标来间接完成的。11. 测量模型、结构模

5、型、测量模型典型的SEM模型图示12. 外生变量、内生变量外生变量：在模型或系统中，只影响其他变量，而不受其它变量的影响。在路径图中，只有指向其他变量的箭头，没有箭头（不考虑残差项）指向它的变量内生变量：在模型或系统中，受其他变量（外生变量或内生变量）的影响，而不受其它变量的影响。在路径图中，有其它变量的箭头指向它。13. 因果关系、相关关系因果关系：一个变量对另外一个变量的直接影响。用单向箭头表示。相关关系：双向曲线箭头表示。但这种相关关系不代表有因果关系。因果关系需要更严密的证明。例如，常吃鱼的学生学习成绩更好。二者是相关关系，但不一定具有因果关系。14. 直接效应、间接效应和总效应

6、直接效应：反映原因变量（外生变量或内生变量）对结果变量（内生变量）的直接影响。其大小等于原因变量到结果变量的路径系数。间接效应：反映原因变量通过一个或者多个中间变量对结果变量所产生的影响。间接效应是所有从原始变量出发，通过中间变量，结束于结果变量的路径系数乘积之和。总效应：原因变量对结果变量效应的总和，包括直接效应和间接效应。15. 饱和模型与非饱和模型预设模型（Default model）：所建立的模型。饱和模型（Saturated model）：对参数间关系最无限制的模型，各个变量间都假设相关或有因果关系。独立模型（Independence model）：指模型中所有变量完全独立。只估

7、计观测变量的方差。也叫零模型。如果“预设模型”拟合的比“独立模型”还差，就应该拒绝预设模型。通常预设模型的拟合优度在独立模型和饱和模型之间。16. 简述内生变量和外生变量的区别。内生变量是由模型系统决定的,同时也对模型系统产生影响，外生变量影响系统但不受系统影响.外生变量一般是经济变量,条件变量,政策变量,虚变量17. 简述路径系数和载荷系数的区别。：潜变量与潜变量间的回归系数称为路径系数，潜变量与可观测变量间的回归系数称为载荷系数。18. 在结构方程模型中，Default model（预设模型）、Saturated model（饱和模型）、 Independence model（独立模型）三

8、类模型有什么区别，并举例说明。预设模型（Default model）：所建立的模型。饱和模型（Saturated model）：对参数间关系最无限制的模型，各个变量间都假设相关或有因果关系。独立模型（Independence model）：指模型中所有变量完全独立。只估计观测变量的方差。也叫零模型。如果“预设模型”拟合的比“独立模型”还差，就应该拒绝预设模型。通常预设模型的拟合优度在独立模型和饱和模型之间。19. 比较验证性因子分析（CFA）与探索性因子分析（EFA）的区别。探索性因子分析（CFA）：针对已有数据，探索模型中变量之间的关系。目的在于探索。样本量应超过100，应该为观测变量的5-

9、10倍以上（Hair, 1998）验证性因子分析（Confirmatory Factor Analysis, EFA）：验证根据理论预设的模型中，若干变量之间的关系是否成立。目的在于验证。样本量至少150个(Rigdon, E. , 2005)，至少为观测变量数目的10-15倍以上（Thompson, 2000）20. 简述PLS-PM模型与SEM模型的区别，比较二者的优缺点。PLS-PM不对数据做任何分布假定, 而SEM必须假定数据为多元正态分布。但学界往往忽视此点，误用SEM模型。在实际应用中, 往往统计不显著也都判定显著, 这是因为数据很难满足正态性假定。在正态假定下, PLS估计是有偏

10、的；但在非正态条件下，PLS-PM优于SEM。PLS-PM适用于小样本；SEM样本量必须较大。PLS-PM假定所有隐变量都是相关的（即使在图中它们之间无箭头），而SEM假定，只要隐变量之间无箭头, 就认为它们之间的相关为零；PLS-PM用全部数据建模，而SEM由于假定了分布, 只要有各变量的协方差矩阵就可以计算。例如，4个观测变量，只需协方差及样本量n，共11个数就可以得到大量输出结果，这意味着先验假定对结果影响较大。由于软件支持，而且只要有协方差阵即可计算, 社会学、心理学、教育学等学者偏好SEM方法。PLS-PM和SEM的检验评价指标不同；PLS-PM适用于关注隐变量得分的情况（例如满意度

11、指数），各国计算满意度指数都用PLS-PM方法。SEM无法直接得到隐变量得分。PLS-PM收敛速度快, 适用于较大、较复杂的模型, 计算效率比SEM更高。PLS-PM无商业软件支持，知名度低；SEM有LISREL、AMOS等软件支持，知名度高。21. 季节调整的分解方式包括哪几种模型？22. 在季节调整过程中，什么时候选择取对数？什么时候不取对数？乘法模型取对数，加法模型不取对数针对某个序列而言，数据波动明显取对数，数据波动平稳不取存在异方差的时候必须取对数23. 指数平滑包括哪几种常用的方法，并指出每一种指数平滑方法的适用条件。（1）单指数平滑（一个参数）这种单指数平滑方法适用于序列值在一个

12、常数均值上下随机波动的情况，无趋势及季节要素。（2）双指数平滑（一个参数）这种方法是将单指数平滑进行两次（使用相同的参数）。适用于有线性趋势的序列。（3）Holt-Winters 无季节趋势（两个参数）这种方法适用于具有线性时间趋势、无季节变差的情形。这种方法与双指数平滑法一样以线性趋势无季节成分进行预测。双指数平滑法只用了一个参数，这种方法用两个参数。（4）Holt-Winters加法模型（三个参数）该方法适用于具有线性时间趋势和加法模型的季节变差。(5) Holt-Winters 乘法模型该方法适用于具有线性时间趋势和乘法模型的季节变差24. 在机器学习中，常用的分类方法有哪些？p监督

13、学习 :1. K近邻 2. 回归 3.支持向量机回归（SVM） 4 .决策树 5. 朴素贝叶斯6.人工神经网络非监督学习：1.聚类 2.Apriori 3.FP-growth25. 举例说明决策树的基本思想及其优势。基本思想：决策树学习采用的是自顶向下的递归方法，其基本思想是以信息熵为度量构造一棵熵值下降最快的树，到叶节点处的熵值为零，此时每个叶节点中的实例都属于同一类。优点：1决策树模型可以读性好，具有描述性，有助于人工分析； 2 效率高，决策树只需要一次构建，反复使用，每一次预测的最大计算次数不超过决策树的深度。26. 交叉验证的基本思想是什么？常见的交叉验证方法有哪些？基本思想：将原始

14、数据进行分组，一部分做为训练集(train set)，另一部分做为验证集(validation set)。首先，用训练集进行训练，然后，利用验证集来测试训练得到的模型，以此来做为评价分类器的性能指标。主要分类 : Hold-Out方法、lK折交叉验证、留一交叉验证27. 结合图形，解释Adaboost和Bagging方法的原理，并比较二者的区别。AdaBoost 算法原理：boosting提升法的一种特例，试试调节抽样权重的过程bagging回归的做法：l不断放回地对训练样本进行再抽样，样本量和原来样本量相同；l对每个自助样本都建立一棵回归树；l对于每一个观测，每棵树给一个预测；l将这些值进行

15、投票（分类问题）或者求平均值（回归问题）作为最终的预测值。AdaBoost和bagging都是在若干分类器基础上的一种集成算法，区别在于，如果一个训练样本在前一个分类器中分类犯错，那么在下一次抽样过程中，它的权重会被加重；相应地，被正确分类的样本的权重会下降。28. 比较随机森林分类算法和决策树算法的区别，解释随机森林的原理。变量又进行了随机抽样原理：从样本集中用自助法选出n个样本；选择最佳分割属性作为节点建立决策树。这些决策树的每一个树节点的分割变量不是由所有的自变量竞争产生的，而是从随机选取的少数变量中产生的。重复以上两步m次，即建立了m棵决策树。这m个决策树形成随机森林，通过投票表决结果

16、，决定数据属于哪一类。随机森林的特点：决策树的样本是随机的，每棵树的每个节点的产生也是随机的。29. 结合图形，解释支持向量机（SVM）方法的原理。把图弄明白找出两块边界，最宽的平行线上的点叫支持向量在线性可分情况下，在原空间寻找两类样本的最优分类超平面。在线性不可分的情况下，加入了松弛变量进行分析，通过使用非线性映射将低维输入空间的样本映射到高维属性空间使其变为线性情况，从而使得在高维属性空间采用线性算法对样本的非线性进行分析成为可能，并在该特征空间中寻找最优分类超平面。其次，它通过使用结构风险最小化原理在属性空间构建最优分类超平面，使得分类器得到全局最优，并在整个样本空间的期望风险以某个

17、概率满足一定上界。30. Bootstrap的定义。bootstap（自助、自举、鞋襻）：一种从给定训练集中等概率、有放回的进行重复抽样，也就是说，每当选中一个样本，它等可能地被再次选中，并被再次添加到训练集中。31. 结构方程模型。关于结构方程模型的内容，请认真学习两个案例“超市满意度模型”和“收入满意度模型”。画出两个图，标准化和非标准化的结果图，并给出部分文本输出结果：图 1图 2Estimates (Group number 1 - Default model)Scalar Estimates (Group number 1 - Default model)Maximum Likeli

18、hood EstimatesRegression Weights: (Group number 1 - Default model)EstimateS.E.C.R.PLabel个体状况-收入状况.000.000-2.651.008社会状况-收入状况-.001.000-3.600*亲友状况_1-个体状况1.000家庭环境_1-个体状况回归系数1.203.1418.536*个性状况_1-个体状况1.882.1989.519*地位满意_1-社会状况1.000公正安逸_1-社会状况1.211.09912.215*收入满意_1-社会状况1.124.09711.556*期望收入_1-收入状况1.000资产

19、1_1-收入状况.630.01251.412*收入1_1-收入状况.108.00255.311*目前快乐_1-社会状况-1.851.192-9.622*目前快乐_1-个体状况-.308.342-.900.368目前快乐_1-收入状况.000.000.442.658健康环境_1-个体状况1.865.1999.374*工作满意_1-社会状况.898.04818.622*Standardized Regression Weights: (Group number 1 - Default model)Estimate个体状况-收入状况-.105社会状况-收入状况-.142亲友状况_1-个体状况.353

20、家庭环境_1-个体状况.508个性状况_1-个体状况.795地位满意_1-社会状况.784公正安逸_1-社会状况.446收入满意_1-社会状况.421期望收入_1-收入状况.966资产1_1-收入状况.902收入1_1-收入状况.921目前快乐_1-社会状况-.544目前快乐_1-个体状况-.048目前快乐_1-收入状况.013健康环境_1-个体状况.696工作满意_1-社会状况.702Covariances: (Group number 1 - Default model)EstimateS.E.C.R.PLabele12e13.136.0178.129*e5e9-.144.424-.339

21、.734e7e138.3301.3766.052*Correlations: (Group number 1 - Default model)Estimatee12e13.667e5e9-.013e7e13.310Variances: (Group number 1 - Default model)EstimateS.E.C.R.PLabele1125915.4011299.84419.937*e12.108.0224.957*e13.386.03112.492*e1.767.03720.820*e2.455.02319.571*e3.226.02011.072*e4.247.01912.74

22、9*e52.321.11420.315*e62.304.11220.506*e71876.554240.2457.811*e82360.156139.37916.933*e953.5223.54315.106*e103.031.16118.837*e14.404.02615.533*e15.326.02016.188*Squared Multiple Correlations: (Group number 1 - Default model)R2Estimate收入状况.000社会状况.020个体状况.011工作满意_1.493健康环境_1.485目前快乐_1.335收入1_1.849资产1_

23、1.813期望收入_1.932收入满意_1.177公正安逸_1.199地位满意_1.615个性状况_1.632家庭环境_1.258亲友状况_1.125Model Fit SummaryCMINModelNPARCMINDFPCMIN/DFDefault model3191.41347.0001.945Saturated model78.0000Independence model124858.12066.00073.608RMR, GFIModelRMRGFIAGFIPGFIDefault model2.015.984.974.593Saturated model.0001.000Indepe

24、ndence model1887.425.507.418.429Baseline ComparisonsModelNFIDelta1RFIrho1IFIDelta2TLIrho2CFIDefault model.981.974.991.987.991Saturated model1.0001.0001.000Independence model.000.000.000.000.000Parsimony-Adjusted MeasuresModelPRATIOPNFIPCFIDefault model.712.699.706Saturated model.000.000.000Independe

25、nce model1.000.000.000NCPModelNCPLO 90HI 90Default model44.41321.11975.501Saturated model.000.000.000Independence model4792.1204567.1275023.774FMINModelFMINF0LO 90HI 90Default model.097.047.023.080Saturated model.000.000.000.000Independence model5.1795.1094.8695.356RMSEAModelRMSEALO 90HI 90PCLOSEDef

26、ault model.032.022.041.999Independence model.278.272.285.000AICModelAICBCCBICCAICDefault model153.413154.284303.602334.602Saturated model156.000158.192533.896611.896Independence model4882.1204882.4584940.2584952.258ECVIModelECVILO 90HI 90MECVIDefault model.164.139.197.164Saturated model.166.166.166.

27、169Independence model5.2054.9655.4525.205HOELTERModelHOELTER.05HOELTER.01Default model657744Independence model1719Execution time summaryMinimization:.016Miscellaneous:.077Bootstrap:.000Total:.093由输出结果回答下面的问题：未标准化的系数是要的箭头指向谁谁是y（1）写出某观测变量以及内生依变量模型的具体形式。其可决系数R2是多少？sq非标准化个体*1.00+e1=亲友满意（2）模型中包含哪些可观测的

28、内生变量、不可观测的内生变量、不可观测的外生变量？试分别列举出来。12可观测内生 3椭圆不可观测内生15e不可观测外生（3）“收入状况”对“目前快乐”的总影响？其中，直接影响是多少？间接影响是多少？标准化总=直接+间接：=【（-0.105）*（-0.048）+（-0.0142）*（-0.544）】+0.013（4）“收入状况”、“个体状况”和“收入状况”的方差分别是多少？非标准化v收入e11=25915.401 个体状况e12=0.108 社会状况e13=0.386（5）“个体状况”和“社会状况”对“目前快乐”的影响，谁大谁小？提示：主要考核标准化系数的效果看绝对值个体状况-0.048 社

29、会状况-0.54 社会状况影响大！（6）综合来看，该结构方程模型能否通过各项检验。简述其理由。看CR系数相当于t检验绝对值应该大于2，P值小于0.0525.修正指数和CR系数的应用。实验模型修正 MI值 CR修正系数用于模型扩展，是指对于模型中某个受限制的参数，若允许自由估计，整个模型改良时将会减少的最小卡方值。MI最大的进行修正，在之间加双箭头可降低卡方值。CR系数（临界比率）用于模型限制，计算模型中有一对待估计参数（路径或载荷系数）估计值之差，并除以相应参数标准差之差构造的统计量。比较系数和系数之间有没有相等的关系，0.05说明不具有相等关系。26.假设你需要帮助某银行设计一套方法来甄别

30、恶意信用卡使用，请陈述你将如何做。可供你分析的数据有：100万条记录，其中有已识别的恶意使用记录5000条，占比0.5%；这些记录包含交易的商家、交易发生时间（time stamp），金额等。（1）数据预处理，对某些字段进行离散化或归一处理。（2）将恶意与正常交易记录分布按一定比例分成两堆，对应结合一起后形成训练样本和测试样本。（3）对训练样本中正常交易记录进行聚类分析，形成K个类，类与训练样本的恶意交易记录结合形成K个子训练样本。（4）对每个子样本使用Adaboost算法，弱分类器选择支持向量（5）分别评价第四步得到的分类结果（6）用测试样本测试最终组合分类器，最终分类结果可以使用投票或结合

31、权重进行判断（7）评价模型，可以采用准确率、召回率或一类、二类错误等指标进行32. 随着信息化的发展，大数据的时代已经到来。海量的文本、图片、视频数据存在于互联网和生活上，请结合所学的统计学知识和个人兴趣，探讨机器学习在统计学中的应用。互联网挖掘数据、检测垃圾邮件、探测金融市场的变化趋势、银行信贷客户的审批网易云音乐通过对平常听歌的“风格”，“种类”等进行统计，系统会计算出你可能喜欢的曲目并且推荐给你，根据你在每日推荐歌曲中的听歌情况会再次计算，越来愈加趋近你的喜好。33. 能够根据决策树的图形结果，进行分析和总结。经济含义34. 选题与摘要写作。要求：用词准确、逻辑清晰、简明扼要。专心-专注-专业

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 统计建模课程复习练习剖析 17

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：统计建模课程复习与练习(1)剖析(共17页).doc
链接地址：https://www.taowenge.com/p-16810615.html