阿里巴巴校园招聘2017 数据分析笔试题.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《阿里巴巴校园招聘2017 数据分析笔试题.pdf》由会员分享,可在线阅读,更多相关《阿里巴巴校园招聘2017 数据分析笔试题.pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2017阿里巴巴数据分析校园招聘笔试阿里巴巴数据分析校园招聘笔试 21 道题,100 分,60 分钟 一、单选题(单选题(10) 1.想了解上海市小学生的身高,需要抽取想了解上海市小学生的身高,需要抽取 500 个样本,这项调查中的样本是个样本,这项调查中的样本是A. 从中抽取的 500 名学生的身高B. 上海市全部小学生的身高C. 从中抽取的 500 名小学生D. 上海市全部小学生2.以下对以下对 k-means 聚类算法解释正确的是聚类算法解释正确的是A. 能自动识别类的个数,随即挑选初始点为中心点计算B. 能自动识别类的个数,不是随即挑选初始点为中心点计算C. 不能自动识别类的个数,随即
2、挑选初始点为中心点计算D. 不能自动识别类的个数,不是随即挑选初始点为中心点计算3.以下哪个是常见的时间序列算法模型以下哪个是常见的时间序列算法模型A. RSIB. MACDC. ARMAD. KDJ4.有个袋子装有有个袋子装有 2 个红球,个红球,2 个蓝球,个蓝球,1 个黄球,取出球之后不再放回,请问取两次出来的球是相同颜色的概率是多少个黄球,取出球之后不再放回,请问取两次出来的球是相同颜色的概率是多少A. 0.3333B. 0.2500C. 0.2000D. 0.16675.65,8,50,15,37,24, () 。括号中的数字是(), () 。括号中的数字是()A. 25B. 26C
3、. 22D. 276.一组数据,均值一组数据,均值中位数中位数众数,问这组数据众数,问这组数据A. 左偏B. 右偏C. 钟型D. 对称7. SQL 语言允许使用通配符进行字符串匹配的操作,其中语言允许使用通配符进行字符串匹配的操作,其中%可以表示可以表示 A 零个字符 B 1 个字符 C 多个字符 D 以上都是 8. 关于正态分布,下列说法错误的是关于正态分布,下列说法错误的是 A. 正态分布具有集中性与对称性 B. 正态分布的军事与方差能够决定正态分布的位置与形态 C. 正态分布的偏度为 0,峰度为 1 D. 标准正态分布的均值为 0,方差为 1 9. 以下不同的场景中,使用分析方法不正确的
4、有以下不同的场景中,使用分析方法不正确的有 A. 根据商家最近一年的经营与服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级 B. 根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式 C. 用关联规则算法分析出购买汽车坐垫的买家是否适合推荐汽车脚垫 D. 根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女 10. 下列时间序列模型中,那个模型可以较好地拟合波动性的分析与预测下列时间序列模型中,那个模型可以较好地拟合波动性的分析与预测 A. AR 模型 B. MA 模型 C. ARMA 模型 D. GARCH 模型 二、多选题(二、多选题(
5、5) 11. Excel 工作簿工作簿 a 中有两列中有两列 id、age,工作簿,工作簿 b 中有一列中有一列 id,需要找到工作簿,需要找到工作簿 b 中中 id 对应对应的的 age,可用的函数包括,可用的函数包括 A. Index+match B. Vlookup C. Hlookup D. Find E. If F. Like 12. 现在有现在有 M 个桶,每个桶都有个桶,每个桶都有 N 个乒乓球,乒乓球的颜色有个乒乓球,乒乓球的颜色有 K 种,并且假设第种,并且假设第 i 个桶第个桶第j 种颜色的球的个数为种颜色的球的个数为ijC,比例为,比例为ijijCRN,现在要求颜色纯度越
6、高,下列哪种算法,现在要求颜色纯度越高,下列哪种算法描述是合理的描述是合理的 A. /ijN KC越小越纯 B. -*ijijCLOG R越小越纯 C. 1-*ijijRR越小越纯 D.1-1-ijijRR越小越纯E.21-ijR越小越纯 F.-*ijijRLOG R越小越纯13. 关于相关系数,下列描述中正确的有:关于相关系数,下列描述中正确的有:A. 相关系数为 0.8 时,说明两个变量之间呈正相关关系B. 相关系数等于 1 相较于相关系数等于-1,前者的相关性更强C. 相关性等于 1 相较于相关系数等于 0,前者的相关性更强D. Pearson 相关系数衡量了两个定序变量之间爱你的相关程
7、度E.Spearman 相关系数可以衡量两个定序变量之间的相关程度F.性关系数为 0.2 相较于-0.8,前者的相关性更强14. 关于线性回归的描述,以下正确的有关于线性回归的描述,以下正确的有A. 基本假设包括随即干扰项是均值为 0 的同方差正态分布B. 基本假设包括随即干扰项下是均值为 0 的同方差正态分布C. 在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量D. 在违背基本假设时,模型不在可以估计E.可以用 DW 检验残差是否存在序列相关性F.多重共线性会使得参数估计值方差减少15. 下列哪些方法可以用来对高位数据进行降维下列哪些方法可以用来对高位数据进行降维A. LASS
8、OB. 主成分分析C. 聚类分析D. 小波分析法E.线性判别法F.拉普拉斯特征映射三、问答题三、问答题 16. 程序员 A 在某个环境中编写代码,发现这个环境中只有一个函数 rand9 能产生 1-9 这 9个数字,请问他该如何使用这个 rand9 函数编写一个能随机产生 1-10 的 10 个数字的rand10 函数17. 查询成交表 a 中的城市 city 的成交额大于 0 的购买人数(buyer_id)和成交金额(amt) city Buyer_id Order_id amt a 1 1 100 a 1 2 100 b 2 3 100 b 3 4 20 c 4 5 0 18. 公司要构建
9、淘宝商家健康指数,所以要对最近 1 年内交易的淘宝商家进行问卷调研。为不过于打搅商家,问卷调研采取抽样方式进行确定商家名单。怎样抽取比较好? 19. 已知 A 商家近五年每月的成交数据, 请列出两种不同时间爱你序列预测模型可以用来预测商家接下来三个月的成交,并详细阐述在使用每一种方法前需要对数据进行什么预处理以及具体方法? 20. 下面数据是 2015 年 4 月 1 日至 4 月 10 日某业务的数据,请对这些数据进行分析并得出分析观点: 日期日期 交易量交易量 交易笔数交易笔数 客户数客户数 新客户数新客户数 新客户交易笔数新客户交易笔数 新客户交易量新客户交易量 2015/4/1 594
10、.7 16.8 13.5 1.9 2.2 65.9 2015/4/2 601.9 17.0 13.5 4.0 4.7 133.8 2015/4/3 607.2 17.4 13.8 3.7 4.4 132.8 2015/4/4 632.1 17.9 14.1 4.2 4.8 162.5 2015/4/5 685.4 19.1 15.0 5.1 6.1 192.8 2015/4/6 756.6 18.7 14.9 4.5 5.3 217.5 2015/4/7 753.4 18.2 14.5 3.6 4.1 164.7 2015/4/8 640.3 18.8 14.6 3.7 4.7 164.8 2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 阿里巴巴校园招聘2017 数据分析笔试题 阿里巴巴 校园 招聘 2017 数据 分析 笔试
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内