数据分析岗位笔试题目总结(共17页).docx
精选优质文档-倾情为你奉上阿里巴巴1、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值.常见的异常值检验方法如下:l 基于统计的方法l 基于距离的方法l 基于密度的方法l 基于聚类的方法l 基于偏差的方法l 基于深度的方法t检验:按照t分布的实际误差分布范围来判别异常值,首先剔除一个可疑值,然后按t分布来检验剔除的值是否为异常值。狄克逊检验法:假设一组数据有序x1<x2<<xn,且服从正态分布,则异常值最有可能出现在两端x1和xn。格拉布斯检验法:与狄克逊检验法思想一样,其检验公式为:指数分布检验:SPSS和R语言中通过绘制箱图可以找到异常值,分布在箱边框外部;2、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。 聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。 常见的聚类方法有:K-pototypes算法,K-Means算法,CLARANS算法(划分方法),BIRCH算法(层次方法),CURE算法(层次方法),DBSCAN算法(基于密度的方法),CLIQUE算法(综合了基于密度和基于网格的算法);k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 其流程如下: (1)从 n个数据对象任意选择 k 个对象作为初始聚类中心; (2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分; (3)重新计算每个(有变化)聚类的均值(中心对象); (4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。 优点:本算法确定的K 个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为 O(NKt),其中N是数据对象的数目,K是聚类中心,t是迭代的次数。缺点:1. K 是事先给定的,但非常难以选定;2. 初始聚类中心的选择对聚类结果有较大的影响。 3.数据标准化技术是将数据按比例缩放,使之落入一个小的特定区间。去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。常用的方法有:(1)总和标准化。分别求出各要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即 4.缺失值处理方法1) 直接丢弃含缺失数据的记录如:个案剔除法,这种方法却有很大的局限性。它是以减少样本量来换取信息的完备,会造成资源的大量浪费,丢弃了大量隐藏在这些对象中的信息。当缺失数据所占比例较大,特别是当缺数据非随机分布时,这种方法可能导致数据发生偏离,从而得出错误的结论。2)补缺A. 用平均值来代替所有缺失数据:均值替换法,均值替换法也是一种简便、快速的缺失数据处理方法。使用均值替换法插补缺失数据,对该变量的均值估计不会产生影响。但这种方法是建立在完全随机缺失(MCAR)的假设之上的,而且会造成变量的方差和标准差变小。B. K -最近距离邻居法:先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。C.用预测模型来预测每一个缺失数据:该方法最大限度地利用已知的相关数据,是比较流行的缺失数据处理技术。如:回归替换法,该方法也有诸多弊端,第一,容易忽视随机误差,低估标准差和其他未知性质的测量值,而且这一问题会随着缺失信息的增多而变得更加严重。第二,研究者必须假设存在缺失值所在的变量与其他变量存在线性关系,很多时候这种关系是不存在的。 5.Apriori算法和信息熵信息熵是数学中一个抽象的概念,他表示了信息源的不确定度,这里不妨把信息熵理解成某种特定信息的出现概率,当一种信息出现概率更高的时候,表明它被传播得更广泛,或者说,被引用的程度更高。我们可以认为,从信息传播的角度来看,信息熵可以表示信息的价值。支持度:Support(A->B)=P(A U B)。支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小,说明A与B的关系不大;如果A与B同时出现的非常频繁,则说明A与B总是相关的。置信度(Confidence)的公式式:Confidence(A->B)=P(A | B)。置信度揭示了A出现时,B是否也会出现或有多大概率出现。如果置信度度为100%,则A和B可以捆绑销售了。如果置信度太低,则说明A的出现与B是否出现关系不大。H(x) = EI(xi) = E log(2,1/p(xi) = -p(xi)log(2,p(xi) (i=1,2,.n),单位是bit.其中,x表示随机变量,与之相对应的是所有可能输出的集合,定义为符号集,随机变量的输出用x表示。P(x)表示输出概率函数。变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大.以频繁项集I1,I2,I3为例产生强关联规则,最小置信度为40%(1) 频繁项集I1,I2,I3的非空子集有I1,I2,I1,I3,I2,I3,I1,I2,I3(2) 产生强关联规则I1,I2=>I3 confidence=support(I1,I2,I3)/support(I1,I2)=2/4=0.5I1,I3=>I2 confidence=support(I1,I2,I3)/support(I1,I3)=2/4=0.5I2,I3=>I1 confidence=support(I1,I2,I3)/support(I2,I3)=2/4=0.5I1=>I2,I3 confidence=support(I1,I2,I3)/support(I1)=2/6=0.33I2=>I1,I3 confidence=support(I1,I2,I3)/support(I2)=2/7=0.29I3=>I1,I2 confidence=support(I1,I2,I3)/support(I3)=2/6=0.33则强关联规则为:I1,I2=>I3;I1,I3;I2,I3=>I13、根据要求写出SQL (没有学习过,之后的学习中需要补)表A结构如下: Member_ID (用户的ID,字符型) Log_time (用户访问页面时间,日期型(只有一天的数据) URL (访问的页面地址,字符型) 要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致) 参考答案: create table B as select Member_ID, min(Log_time), URL from A group by Member_ID ; 5、用户调研 某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题: a) 试验需要为决策提供什么样的信息? c) 按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。 a) 试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。 b) 根据三类客户的数量,采用分层比例抽样; 需要采集的数据指标项有:客户类别,改进计划前周消费次数,改进计划后周消费次数; 选用统计方法为:分别针对A、B、C三类客户,进行改进前和后的周消费次数的,两独立样本T-检验6.常见的抽样方法有哪些?常用的有以下六种类型:简单抽样(Simple sampling)即简单随机抽样,指保证大小为n的每个可能的样本都有相同的被抽中的概率。例如:按照“抽签法”、“随机表”法抽取访问对象,从单位人名目录中抽取对象。优点:随机度高,在特质较均一的总体中,具有很高的总体代表度;是最简单的抽样技术,有标准而且简单的统计公式。缺点:未使用可能有用的抽样框辅助信息抽取样本,可能导致统计效率低;有可能抽到一个“差”的样本,使抽出的样本分布不好,不能很好地代表总体。系统抽样(Systematic random sampling)将总体中的各单元先按一定顺序排列,并编号,然后按照不一定的规则抽样。其中最常采用的是等距离抽样,即根据总体单位数和样本单位计算出抽样距离(即相同的间隔),然后按相同的距离或间隔抽选样本单位。例如:从1000个电话号码中抽取10个访问号码,间距为100,确定起点(起点间距)后每100号码抽一访问号码。优点:兼具操作的简便性和统计推断功能,是目前最为广泛运用的一种抽样方法。如果起点是随机确定的,总体中单元排列是随机的,等距抽样的效果近似简单抽样;与简单抽样相比,在一定条件下,样本的分布较好。缺点:抽样间隔可能遇到总体中某种未知的周期性,导致“差”的样本;未使用可能有用的抽样框辅助信息抽取样本,可能导致统计效率低。分层抽样(Stratified random sampling)是把调查总体分为同质的、互不交叉的层(或类型),然后在各层(或类型)中独立抽取样本。例如:调查零售店时,按照其规模大小或库存额大小分层,然后在每层中按简单随机方法抽取大型零售店若干、中型若干、小型若干;调查城市时,按城市总人口或工业生产额分出超大型城市、中型城市、小型城市等,再抽出具体的各类型城市若干。优点:适用于层间有较大的异质性,而每层内的个体具有同质性的总体,能提高总体估计的精确度,在样本量相同的情况下,其精度高于简单抽样和系统抽样;能保证“层”的代表性,避免抽到“差”的样本;同时,不同层可以依据情况采用不同的抽样框和抽样方法。缺点:要求有高质量的、能用于分层的辅助信息;由于需要辅助信息,抽样框的创建需要更多的费用,更为复杂;抽样误差估计比简单抽样和系统抽样更复杂。整群抽样(Cluster sampling)(层层深入抽样,不断缩小抽样的范围)是先将调查总体分为群,然后从中抽取群,对被抽中群的全部单元进行调查。例如:入户调查,按地块或居委会抽样,以地块或居委会等有地域边界的群体为第一抽样单位,在选出的地块或居委会实施逐户抽样;市场调查中,最后一级抽样时,从居委会中抽取若干户,然后调查抽中户家中所有18岁以上成年人。优点:适用于群间差异小、群内各个体差异大、可以依据外观的或地域的差异来划分的群体。缺点:群内单位有趋同性,其精度比简单抽样为低。前面谈到抽样方法的一些基本分类和各自特点,需要注意的是,在实际的运用中,一个调查方案 常常不是只局限于使用某一种抽样方式,而根据研究时段的不同采用多种抽样方法的组鸽为实现不同的研究目的,有时甚至在同一时段综合运用几种抽样方法。例如,设计一个全国城市的入户项目,在抽样上可以分为几个不同的步骤,包括:1)在项目正式开始前,可以采用判断抽样法选出某一城市先作试点,在问卷设计初期可以采用任意抽样法选出部分人群进行问卷试访。2)采用分层随机抽样法,确定全国要分别在多少个超大型市、多少个中型市、多少个小型市实施(先分出城市的几个层次,再依据研究需要在各层用PPS法选取具体城市)3)采用简单抽样法或PPS抽样法,确定抽出城市中应抽的地块或居委会;4)采用整群抽样法,确定抽出地块或居委会应访问的家庭户;5)在项目后期,可以采用判断抽样法选取某城市进行深入研究。8.置信度与置信区间P(x1<x<x2)=1-a,称1-a为置信度,x1,x2为置信区间置信度越大,置信区间越宽;置信区间越宽,置信度越大;置信度越小,置信区间越窄9.ROC曲线及含义ROC曲线指受试者工作特征曲线(receiver operating characteristic curve), 是反映和的,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。10.数据挖掘步骤 理解数据和数据的来源(understanding)。 获取相关知识与技术(acquisition)。 整合与检查数据(integration and checking)。 去除错误或不一致的数据(data cleaning)。 建立模型和假设(model and hypothesis development)。 实际数据挖掘工作(data mining)。 测试和验证挖掘结果(testing and verfication)。 解释和应用(interpretation and use)。11.如何评估促销活动?11. Bayes公式(全概率公式)探索在已知结果的情况下,是由哪种原因引起的概率;12. 逻辑回归(分类问题)逻辑回归适合求解哪些问题:逻辑回归本质上解决的是分类问题,Logistic回归的主要用途:· 寻找危险因素:寻找某一疾病的危险因素等;· 预测:根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大;· 判别:实际上跟预测有些类似,也是根据模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。11. 线性回归线性回归(一元和多元)中对误差的假设都是假定服从均值为0方差为定值的正态分布,拟合系数的求解方法可以有最小二乘法梯度下降法等。关于残差的假设为:零均值,同方差,正态性,不相关,样本随机。回归分析的自变量为连续性变量,而方差分析的自变量为离散型分类变量;广义线性回归于线性回归的最大区别是随机误差的分布不一定是正态分布,与非线性模型的最大区别是非线性回归无明确的随机误差分布假定。12. 过拟合现象以及避免的方法所谓过拟合问题:过拟合反映的是在学习训练中,模型对训练样本达到非常高的逼近精度, 为了能够对样本完全正确的分类,使得它的构造如此精细复杂,规则如此严格,以至于任何与样本数据稍有不同的文档它全都认为不属于这个类别,在测试数据上往往显示出很差的效果.产生过拟合是因为:1.由于对样本数据,可能存在隐单元的表示不唯一,即产生的分类的决策面不唯一.2.权值学习迭代次数足够多(Overtraining),拟合了训练数据中的噪声和训练样例中没有代表性的特征.过度拟合解决方法:1.权值衰减. 它在每次迭代过程中以某个小因子降低每个权值 ,此方法的动机是保持权值较小,避免weight decay,从而使学习过程向着复杂决策面的反方向偏。2. 减少特征的数量,有人工选择,或者采用模型选择算法3.验证数据 一个最成功的方法是在训练数据外再为算法提供一套验证数据,应该使用在验证集合上产生最小误差的迭代次数,不是总能明显地确定验证集合何时达到最小误差.4.Cross-validation with some patterns 交叉验证方法在可获得额外的数据提供验证集合时工作得很好,但是小训练集合的过度拟合问题更为严重. k-fold交叉方法: 把训练样例分成k份,然后进行k次交叉验证过程,每次使用不同的一份作为验证集合,其余k-1份合并作为训练集合.每个样例会在一次实验中被用作验证样例,在k-1次实验中被用作训练样例;5.正则化方法正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化项就越大,正则化方法的作用是:保留所有特征但减小参数的取值。13. 监督学习与非监督学习有监督学习:对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。因此,训练样本的岐义性低。所有的分类回归算法都是有监督算法,常见的算法有:SVM,KNN,决策树算法,朴素Bayes算法,神经网络,最小平方拟合,最大熵等。无监督学习:对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识。这里,所有的标记(分类)是未知的。因此,训练样本的岐义性高。聚类就是典型的无监督学习,常见的无监督学习算法:聚类,PCA,关联规则算法Aprior,FP-Growth等。14.分位数3原则3原则:在区间上的概率密度曲线之下的面积占总面积的99.7%,对于标准正态分布有。15.常见分布的密度函数均值和方差16. 常见的区间估计以及假设检验表对于均值的检验,方差已知一般采用U检验(标准正太分布),方差未知采用T检验(t分布);关于方差的检验,一般都采用卡方检验,若是两个正太总体采用F检验;17.假设检验P值(P value)是一个概率,就是当原假设为真时所得到的样本观察结果或更极端结果出现的几率。如果P值很小,说明原假设发生的概率很小,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。总之,P值越小,表明结果越显著,一般以P < 0.05 为显著, P<0.01 为非常显著。Sig值是显著性指标,一般大于0.05拒绝原假设,否则接受原假设,一般大于0.05表示差异不显著,小于0.05表示差异显著,小于0.01表示差异极显著。a:第一类错误是原假设真时拒绝了原假设(弃真);b:第二类错误是原假设错误时接受了原假设(取误);c=1-b:检验功效是原假设错误拒绝原假设;第一类错误与第二类错误互相矛盾的,检验功效越大越好即犯第二类错误的概率竟可能的小。18.数据分析的基本流程 专心-专注-专业