数据分析岗位笔试题目总结.docx
《数据分析岗位笔试题目总结.docx》由会员分享,可在线阅读,更多相关《数据分析岗位笔试题目总结.docx(19页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据分析岗位笔试题目总结 阿里巴巴 1、异样值是指什么?请列举1种识别连续型变量异样值的方法? 异样值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值. 常见的异样值检验方法如下: l l l l l l 基于统计的方法 基于距离的方法 基于密度的方法 基于聚类的方法 基于偏差的方法 基于深度的方法 t检验:根据t分布的实际误差分布范围来判别异样值,首先剔除一个可疑值,然后按t分布来检验剔除的值是否为异样值。 狄克逊检验法:假设一组数据有序x1 格拉布斯检验法:与狄克逊检验法思想一样,其检验公式为:
2、 指数分布检验: SPSS和R语言中通过绘制箱图可以找到异样值,分布在箱边框外部; 2、什么是聚类分析?聚类算法有哪几种?请选择一种具体描述其计算原理和步骤。 聚类分析(cluster analysis)是一组将探讨对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(claification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(densi
3、ty-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。 常见的聚类方法有:K-pototypes算法,K-Means算法,CLARANS算法(划分方法),BIRCH算法(层次方法),CURE算法(层次方法),DBSCAN算法(基于密度的方法),CLIQUE算法(综合了基于密度和基于网格的算法); k-means 算法的工作过程说明如下:首先从n个数据对象随意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则依据它们与这些聚类中心的相像度(距离),分
4、别将它们安排给与其最相像的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中全部对象的均值);不断重复这一过程直到标准测度函数起先收敛为止。一般都采纳均方差作为标准测度函数.k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 其流程如下: (1)从 n个数据对象随意选择 k 个对象作为初始聚类中心; (2)依据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并依据最小距离重新对相应对象进行划分; (3)重新计算每个(有改变)聚类的均值(中心对象); (4)循环(2)、(3)直到每个聚类不再发生改变为止(标准测量函数收敛)。 优点:本算
5、法确定的K 个划分到达平方误差最小。当聚类是密集的,且类与类之间区分明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的困难度为 O(NKt),其中N是数据对象的数目,K是聚类中心,t是迭代的次数。 缺点:1.K 是事先给定的,但特别难以选定;2.初始聚类中心的选择对聚类结果有较大的影响。 3.数据标准化技术 是将数据按比例缩放,使之落入一个小的特定区间。去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。常用的方法有: (1)总和标准化。分别求出各要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即 4.缺失值处理方法 1
6、) 干脆丢弃含缺失数据的记录 如:个案剔除法,这种方法却有很大的局限性。它是以削减样本量来换取信息的完备,会造成资源的大量奢侈,丢弃了大量隐藏在这些对象中的信息。当缺失数据所占比例较大,特殊是当缺数据非随机分布时,这种方法可能导致数据发生偏离,从而得出错误的结论。 2)补缺 A.用平均值来代替全部缺失数据:均值替换法,均值替换法也是一种简便、快速的缺失数据处理方法。运用均值替换法插补缺失数据,对该变量的均值估计不会产生影响。但这种方法是建立在完全随机缺失(MCAR)的假设之上的,而且会造成变量的方差和标准差变小。 B.K -最近距离邻居法:先依据欧式距离或相关分析来确定距离具有缺失数据样本最近
7、的K个样本,将这K个值加权平均来估计该样本的缺失数据。 C.用预料模型来预料每一个缺失数据:该方法最大限度地利用已知的相关数据,是比较流行的缺失数据处理技术。如:回来替换法,该方法也有诸多弊端,第一,简单忽视随机误差,低估标准差和其他未知性质的测量值,而且这一问题会随着缺失信息的增多而变得更加严峻。其次,探讨者必需假设存在缺失值所在的变量与其他变量存在线性关系,许多时候这种关系是不存在的。 5.Apriori算法和信息熵 信息熵是数学中一个抽象的概念,他表示了信息源的不确定度,这里不妨把信息熵理解成某种特定信息的出现概率,当一种信息出现概率更高的时候,表明它被传播得更广泛,或者说,被引用的程度
8、更高。我们可以认为,从信息传播的角度来看,信息熵可以表示信息的价值。 支持度:Support(A-B)=P(A U B)。支持度揭示了A与B同时出现的概率。假如A与B同时出现的概率小,说明A与B的关系不大;假如A与B同时出现的特别频繁,则说明A与B总是相关的。 置信度(Confidence)的公式式:Confidence(A-B)=P(A | B)。置信度揭示了A出现时,B是否也会出现或有多也许率出现。假如置信度度为100%,则A和B可以捆绑销售了。假如置信度太低,则说明A的出现与B是否出现关系不大。 H(x) = EI(xi) = E log(2,1/p(xi) = -p(xi)log(2,
9、p(xi) (i=1,2,.n),单位是bit.其中,x表示随机变量,与之相对应的是全部可能输出的集合,定义为符号集,随机变量的输出用x表示。P(x)表示输出概率函数。变量的不确定性越大,熵也就越大,把它搞清晰所须要的信息量也就越大. 以频繁项集I1,I2,I3为例产生强关联规则,最小置信度为40% (1) 频繁项集I1,I2,I3的非空子集有I1,I2,I1,I3,I2,I3,I1,I2,I3 (2) 产生强关联规则 I1,I2=I3 confidence=support(I1,I2,I3)/support(I1,I2)=2/4=0.5 I1,I3=I2 confidence=support
10、(I1,I2,I3)/support(I1,I3)=2/4=0.5 I2,I3=I1 confidence=support(I1,I2,I3)/support(I2,I3)=2/4=0.5 I1=I2,I3 confidence=support(I1,I2,I3)/support(I1)=2/6=0.33 I2=I1,I3 confidence=support(I1,I2,I3)/support(I2)=2/7=0.29 I3=I1,I2 confidence=support(I1,I2,I3)/support(I3)=2/6=0.33 则强关联规则为:I1,I2=I3;I1,I3;I2,I3
11、=I1 3、依据要求写出SQL (没有学习过,之后的学习中须要补) 表A结构如下: Member_ID (用户的ID,字符型) Log_time (用户访问页面时间,日期型(只有一天的数据) URL (访问的页面地址,字符型) 要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一样) 参考答案: create table B as select Member_ID, min(Log_time), URL from A group by Member_ID ; 5、用户调研 某公司针对A、B、C三类客户,提出了一种统一的改进安排,用于提升客户的周消费次数
12、,须要你来制定一个事前试验方案,来支持决策,请你思索下列问题: a) 试验须要为决策供应什么样的信息? c) 根据上述目的,请写出你的数据抽样方法、须要采集的数据指标项,以及你选择的统计方法。 a) 试验要能证明该改进安排能显著提升A、B、C三类客户的周消费次数。 b) 依据三类客户的数量,采纳分层比例抽样; 须要采集的数据指标项有:客户类别,改进安排前周消费次数,改进安排后周消费次数; 选用统计方法为:分别针对A、B、C三类客户,进行改进前和后的周消费次数的,两独立样本T-检验 6.常见的抽样方法有哪些? 常用的有以下六种类型: 简洁抽样(Simple sampling) 即简洁随机抽样,指
13、保证大小为n的每个可能的样本都有相同的被抽中的概率。例如:根据“抽签法”、“随机表”法抽取访问对象,从单位人名书目中抽取对象。 优点: 随机度高,在特质较均一的总体中,具有很高的总体代表度;是最简洁的抽样技术,有标准而且简洁的统计公式。 缺点: 未运用可能有用的抽样框协助信息抽取样本,可能导致统计效率低;有可能抽到一个“差”的样本,使抽出的样本分布不好,不能很好地代表总体。 系统抽样(Systematic random sampling) 将总体中的各单元先按肯定依次排列,并编号,然后根据不肯定的规则抽样。其中最常采纳的是等距离抽样,即依据总体单位数和样本单位计算出抽样距离(即相同的间隔),然
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 岗位 笔试 题目 总结
限制150内