2022年数据分析专员笔试题 .pdf

上传人：Q****o

文档编号：27518104

上传时间：2022-07-24

格式：PDF

页数：3

大小：40.75KB

( 4.5 )

《2022年数据分析专员笔试题 .pdf》由会员分享，可在线阅读，更多相关《2022年数据分析专员笔试题 .pdf（3页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、XXX 公司数据分析专员笔试试题姓名：日期：一、异常值是指什么？请列举1 种识别连续型变量异常值的方法？异常值（ Outlier ）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。Grubbs test（是以 Frank E. Grubbs命名的），又叫 maximum normed residual test ，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。未知总体标准差，在五种检验法中，优劣次序为：t 检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。点评：考察的内容

2、是统计学基础功底。二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。聚类分析 (cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析 (classification analysis)或数值分类 (numerical taxonomy) 。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法（hierarchical method ）、划分方法（ partitioning method ）、基于密度的方法（density-based method ）、基于网

3、格的方法（grid-based method ）、基于模型的方法（model-based method ）等。其中，前两种算法是利用统计学定义的距离进行度量。k-means 算法的工作过程说明如下：首先从 n 个数据对象任意选择k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k 个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

4、其流程如下：（1）从 n 个数据对象任意选择k 个对象作为初始聚类中心；（2）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；（3）重新计算每个（有变化）聚类的均值（中心对象）；（4）循环（ 2）、（3）直到每个聚类不再发生变化为止（标准测量函数收敛）。优点：本算法确定的K 个划分到达平方误差最小。当聚类是密集的，且类与类之间区别明显时，效果较好。对于处理大数据集，这个算法是相对可伸缩和高效的，计算的复杂度为O(NKt)，其中 N 是数据对象的数目，t 是迭代的次数。一般来说，KN，tN 。缺点： 1. K 是事先给定的，但

5、非常难以选定；2. 初始聚类中心的选择对聚类结果有较大的影响。点评：考察的内容是常用数据分析方法，做数据分析一定要理解数据分析算法、应用场景、使用过程、以及优缺点。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页，共 3 页 - - - - - - - - - 三、在一个密封的袋子里装有2 个黄球、 2 个红球和 2 个篮球，从袋子里任意摸出一个球，摸到红球的概率为？2：（2+2+2）=2：6=1/3 四、将一枚骰子连续抛掷三次，它落地时向上的点数依次成等差数列的概率为?

6、抛掷一枚骰子后，出现任何一面的可能性相同.所以本题属于等可能事件. 一枚骰子连续抛掷三次，则基本事件总数36216n；设事件A；连掷 3 次所得点数依次成等差数列，那么 3 数相等时有111，222， 666 等六种； 3 数不相等时有123，234，345，456，135，246 及其反序数等 12 个.于是事件 A 发生的次数61218m种. 故18121612PA五、销售数据分析以下是一家B2C 电子商务网站的一周销售数据，该网站主要用户群是办公室女性，销售额主要集中在5 种产品上，如果你是这家公司的分析师请回答下列问题：a) 从数据中，你看到了什么问题？你觉得背后的原因是什么？b)

7、如果要求你提出一个运营改进计划，你的计划？日期周一周二周三周四周五周六周日销售额5432 5321 6532 5433 5723 3012 2991 a) 从这一周的数据可以看出，周末的销售额明显偏低。这其中的原因，可以从两个角度来看：站在消费者的角度，周末可能不用上班，因而也没有购买该产品的欲望；站在产品的角度来看，该产品不能在周末的时候引起消费者足够的注意力。b) 针对该问题背后的两方面原因，我的运营改进计划也分两方面：一是，针对消费者周末没有购买欲望的心理，进行引导提醒消费者周末就应该准备好该产品；二是，通过该产品的一些类似于打折促销等活动来提升该产品在周末的人气和购买力。点评：数据解

8、读能力，获取数据是基本功，仅仅有数据获取能力是不够的，其次是对数据的解读能力。六、用户调研某公司针对A、B、C 三类客户，提出了一种统一的改进计划，用于提升客户的周消费次数，需要你来制定一个事前试验方案，来支持决策，请你思考下列问题：a) 试验需要为决策提供什么样的信息？b) 按照上述目的，请写出你的数据抽样方法、需要采集的数据指标项，以及你选择的统计方法？a) 试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。b) 根据三类客户的数量，采用分层比例抽样；需要采集的数据指标项有：客户类别，改进计划前周消费次数，改进计划后周消费次数；选用统计方法为：分别针对A、B、C 三类客

9、户，进行改进前和后的周消费次数的，两独立样本T-检验（two-sample t-test ）。点评：业务理解能力和数据分析思路，这是数据分析的核心竞争力。综上所述：一个合格的数据分析应该具备统计学基础知识、数据分析方法、数据获取、数据解读和业务理解、数据分析思想几个方面能力。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页，共 3 页 - - - - - - - - - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页，共 3 页 - - - - - - - - -

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

4.3 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 2022年数据分析专员笔试题 2022 数据分析专员笔试

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：2022年数据分析专员笔试题 .pdf
链接地址：https://www.taowenge.com/p-27518104.html