大数据财务决策习题及答案ch03.docx
第三章大数据财务决策常用方法一、什么是聚类分析?财务业务中主要用聚类分析做什么?聚类分析是关于分组或划分数据的方法,目的是发现隐藏在数据中的潜在结构。聚类分 析作为从数据中获取知识的重要途径,是数据挖掘和机器学习的一个重要研究领域。在财务领域,基于大数据的聚类分析是根据财务大数据的内在性质将数据分成一些聚合 类,每一聚合类中的元素尽可能具有相同的特性,不同聚合类之间的特性差别尽可能大的一 种分类方式。二、简述基于决策树的数据分类、基于支持向量机的数据分类和基于逻辑回归的 分类方法的差异。决策树算法是一种常用的数据挖掘算法,它是从机器学习领域中逐渐发展起来的一种分 类函数逼近方法。基于决策树的分类模型已经广为人们采用。支持向量机(Support Vector Machine, SVM)是一种有监督的机器学习算法,是用于分 类的一种经典算法。它使用一种称为核技巧的技术来转换数据,然后根据这些转换在可能的 输出之间找到一个最佳边界。在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变 量(预测器)之间的关系。在大数据条件下,数据是大规模并且存在病态的,常用回归方法通 常表现得不尽人意。三、简述基于大数据的回归分析的实施步骤。L求解大数据正则化逻辑回归分析的步骤随机梯度下降法求解&范数正则化的逻辑回归问题的实施步骤,如算法1所示。算法1 随机梯度下降法求解。范数正则化的逻辑回归问题输入:步长序列4向初始化:%owR, RwRP对f = 1,2,3,抽样计算%=%兽f1 + e +片ho-从go对 j = l,2,3,p 区八广片结束向前向后分裂法求解4范数正则化的逻辑回归问题的实施步骤,如算法2所示。算法2向前向后分裂法求解。范数正则化的逻辑回归问题输入:步长序列从4初始化:&)=A.oWR、0i=AwRP对31,2,3,抽样。=(乙,切)计算g0=且Mg-必1 + e ,+c A+lo A,o - tSo"+1.0 一七 一£%1,0对 J = l,2,3,p kj - SS内XggcM)鼠)一£%-备"+”结束2 .求解大数据的正则化逻辑回归问题的RCSUM和RPSUM步骤 ©RCSUM求解人范数正则化逻辑回归问题的实施步骤,如算法3所示。算法 3 RCSUM for G regularized logistic regression initialization左一0 : choose w° e rP”While not converged do©Choose ik s1,2,3,« uniformlyOr choose ik form a random permutation of 1,2,3, y;“ Gy应、t+-7=2V21 + e i N 好一7Ex城 /Y />1J8S(科 J' /+(. _垮)/If k | p then限-M+技>六篇)77 /-i l + e% x J©else端end if 4一"1©end whileRPSUM求解勺范数正则化逻辑回归问题的实施步骤,如算法4所示。算法 4 RPSUM for Logistic Regression with 储 regularization InitializationSet 风=0,2=Op,where 0p represent a p dimension vector whose elements are all 0©While not converged doIn parallel on q processors©Choose j = 1,2,/? uniformly at random 4 1 <z; , where z; are defined as above but use 风,ft1 where AppropriateFor those coordinates (js) that arc not chose, 咛 4U + lend while四、在财务领域,关联规则分析主要有哪些应用?1 .客户画像分析2 .产品销售预测3 .风险预测五、财务中利用离群点分析能够做什么?1 .内部审计中的大数据孤立点分析在金融内部审计里,使用大数据孤立点分析能对异常信用贷款与正常信用贷款之间的规 律展开分析,揭示金融企业信用贷款风险分类的相关规律;进行撒网式搜索,全方位对比综 合发现审计的可疑点,可以减少审计的检查风险,提高审计工作的质量。2 .在可疑金融交易识别的应用一个典型的洗钱交易过程包括入账、分账、融合3个阶段。入账是指将非法钱财存入金 融机构;分账是通过一系列多层次复杂的转账交易,使这笔钱财脱离其来源;融合是指将非 法钱财与合法所得融为一体。其中分账过程是数据分析的主要对象,通过对多个交易,及账 户进行汇总比较分析可以发现有价值的线索。