数据分析岗位笔试题目总结 (1).docx
《数据分析岗位笔试题目总结 (1).docx》由会员分享,可在线阅读,更多相关《数据分析岗位笔试题目总结 (1).docx(17页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、阿里巴巴1、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值.常见的异常值检验方法如下:l 基于统计的方法l 基于距离的方法l 基于密度的方法l 基于聚类的方法l 基于偏差的方法l 基于深度的方法t检验:按照t分布的实际误差分布范围来判别异常值,首先剔除一个可疑值,然后按t分布来检验剔除的值是否为异常值。狄克逊检验法:假设一组数据有序x1x2B)=P(A U B)。支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小,说明A与B的
2、关系不大;如果A与B同时出现的非常频繁,则说明A与B总是相关的。置信度(Confidence)的公式式:Confidence(A-B)=P(A | B)。置信度揭示了A出现时,B是否也会出现或有多大概率出现。如果置信度度为100%,则A和B可以捆绑销售了。如果置信度太低,则说明A的出现与B是否出现关系不大。H(x) = EI(xi) = E log(2,1/p(xi) = -p(xi)log(2,p(xi) (i=1,2,.n),单位是bit.其中,x表示随机变量,与之相对应的是所有可能输出的集合,定义为符号集,随机变量的输出用x表示。P(x)表示输出概率函数。变量的不确定性越大,熵也就越大,
3、把它搞清楚所需要的信息量也就越大.以频繁项集I1,I2,I3为例产生强关联规则,最小置信度为40%(1) 频繁项集I1,I2,I3的非空子集有I1,I2,I1,I3,I2,I3,I1,I2,I3(2) 产生强关联规则I1,I2=I3 confidence=support(I1,I2,I3)/support(I1,I2)=2/4=0.5I1,I3=I2 confidence=support(I1,I2,I3)/support(I1,I3)=2/4=0.5I2,I3=I1 confidence=support(I1,I2,I3)/support(I2,I3)=2/4=0.5I1=I2,I3 con
4、fidence=support(I1,I2,I3)/support(I1)=2/6=0.33I2=I1,I3 confidence=support(I1,I2,I3)/support(I2)=2/7=0.29I3=I1,I2 confidence=support(I1,I2,I3)/support(I3)=2/6=0.33则强关联规则为:I1,I2=I3;I1,I3;I2,I3=I13、根据要求写出SQL (没有学习过,之后的学习中需要补)表A结构如下: Member_ID (用户的ID,字符型) Log_time (用户访问页面时间,日期型(只有一天的数据) URL (访问的页面地址,字符型
5、) 要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致) 参考答案: create table B as select Member_ID, min(Log_time), URL from A group by Member_ID ; 5、用户调研 某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题: a) 试验需要为决策提供什么样的信息? c) 按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。 a) 试验要能证明该改进计划能
6、显著提升A、B、C三类客户的周消费次数。 b) 根据三类客户的数量,采用分层比例抽样; 需要采集的数据指标项有:客户类别,改进计划前周消费次数,改进计划后周消费次数; 选用统计方法为:分别针对A、B、C三类客户,进行改进前和后的周消费次数的,两独立样本T-检验6.常见的抽样方法有哪些?常用的有以下六种类型:简单抽样(Simple sampling)即简单随机抽样,指保证大小为n的每个可能的样本都有相同的被抽中的概率。例如:按照“抽签法”、“随机表”法抽取访问对象,从单位人名目录中抽取对象。优点:随机度高,在特质较均一的总体中,具有很高的总体代表度;是最简单的抽样技术,有标准而且简单的统计公式。
7、缺点:未使用可能有用的抽样框辅助信息抽取样本,可能导致统计效率低;有可能抽到一个“差”的样本,使抽出的样本分布不好,不能很好地代表总体。系统抽样(Systematic random sampling)将总体中的各单元先按一定顺序排列,并编号,然后按照不一定的规则抽样。其中最常采用的是等距离抽样,即根据总体单位数和样本单位计算出抽样距离(即相同的间隔),然后按相同的距离或间隔抽选样本单位。例如:从1000个电话号码中抽取10个访问号码,间距为100,确定起点(起点间距)后每100号码抽一访问号码。优点:兼具操作的简便性和统计推断功能,是目前最为广泛运用的一种抽样方法。如果起点是随机确定的,总体中
8、单元排列是随机的,等距抽样的效果近似简单抽样;与简单抽样相比,在一定条件下,样本的分布较好。缺点:抽样间隔可能遇到总体中某种未知的周期性,导致“差”的样本;未使用可能有用的抽样框辅助信息抽取样本,可能导致统计效率低。分层抽样(Stratified random sampling)是把调查总体分为同质的、互不交叉的层(或类型),然后在各层(或类型)中独立抽取样本。例如:调查零售店时,按照其规模大小或库存额大小分层,然后在每层中按简单随机方法抽取大型零售店若干、中型若干、小型若干;调查城市时,按城市总人口或工业生产额分出超大型城市、中型城市、小型城市等,再抽出具体的各类型城市若干。优点:适用于层间
9、有较大的异质性,而每层内的个体具有同质性的总体,能提高总体估计的精确度,在样本量相同的情况下,其精度高于简单抽样和系统抽样;能保证“层”的代表性,避免抽到“差”的样本;同时,不同层可以依据情况采用不同的抽样框和抽样方法。缺点:要求有高质量的、能用于分层的辅助信息;由于需要辅助信息,抽样框的创建需要更多的费用,更为复杂;抽样误差估计比简单抽样和系统抽样更复杂。整群抽样(Cluster sampling)(层层深入抽样,不断缩小抽样的范围)是先将调查总体分为群,然后从中抽取群,对被抽中群的全部单元进行调查。例如:入户调查,按地块或居委会抽样,以地块或居委会等有地域边界的群体为第一抽样单位,在选出的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据分析岗位笔试题目总结 1 数据 分析 岗位 笔试 题目 总结
限制150内