实验8-1数据分析.pdf
《实验8-1数据分析.pdf》由会员分享,可在线阅读,更多相关《实验8-1数据分析.pdf(16页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、实验实验 8-18-1 数据分析数据分析一、实验目的一、实验目的1.理解数据挖掘的一般流程。2.掌握数据探索和预处理的方法。3.使用 PHSTAT 软件,结合 Excel 对给定的数据进行手工预处理。4.使用 WEKA 软件,对给定的数据进行预处理。二、实验内容二、实验内容在 D 盘中以“班级-学号-姓名”命名一个文件夹,将下发的数据拷贝到该文件夹下,根据不同要求,对下发的文件进行相应的数据分析和处理。0.0.数据集介绍数据集介绍银行资产评估数据,数据里有 12 个属性,分别是 id(编号),age(年龄),sex(性别),region(地区),income(收入),married(婚否),c
2、hildren(子女数),car(是否有私家车),save_act(是否有定期存款),current_act(是否有活期账户),mortgage(是否有资产抵押),pep(目标变量,是否买个人理财计划 Personal Equity Plan)。1 1数据探索之数据质量分析数据探索之数据质量分析新建“1-数据质量分析.xlsx”文件,导入“”文件数据,请你用 EXCEL 对其进行数据质量分析。【要求】【要求】(1)请找出表中的含有缺失值的记录。(2)请你用 PHSTAT 软件绘制“income(收入)”属性的箱线图和点比例图,筛选出异常值。(3)计算 Whisker 上限、Whisker 下限
3、,并利用高级筛选,找出该属性的异常值记录。【提示】【提示】(1)请找出表中的含有缺失值的记录。方法 1:条件格式法1)选取 A1:L601 区域。2)开始-条件格式-新建规则(N).,在新建格式规则对话框中,选择空值。如图 8-1 所示。图 8-1“新建格式规则”对话框3)点击“格式(F)”按钮,设置特殊格式,高亮显示。如图 8-2 所示。图 8-2 设置条件格式方法 2:1)缺失值定位。“开始”“编辑/查找和选择”“定位”对话框“定位条件”按钮。2)“定位条件”对话框选择“空值”,如图 8-3 所示。图 8-3“转到(G)”下拉菜单命令 和“定位条件”对话框(2)绘制“income”属性箱线
4、图和点比例图。高级筛选出异常值。“加载项/PHStat”“Descriptive Statistics”“Boxplot”或”Dot Scale Diagram“命令。如图 8-4 所示。注意选中“income”属性,如果数据区域包括标题行(E1 单元格),则勾选下面的 First cell contains label 选项,否则,不用勾选 First cell contains label 选项。(a)(b)(c)(d)图 8-4 PHSTAT 软件的“箱线图”和“点比例图”绘制计算 income 属性的最小值、最大值、第一四分位数、中位数、第三四分位数。以及 Whisker 下限和上限。
5、表 8-1 四分位数表箱线图最小值公式=MIN(E2:E601)或=(E2:E601,0)最大值=MAX(E2:E601)或=(E2:E601,4)数值第一分位数第二分位数(中位数)第三分位数=($E$2:$E$601,1)=MEDIAN($E$2:$E$601)或=(E2:E601,2)=(E2:E601,3)Whisker 上限=*(Qu-QL)Whisker 下限=Qu+*(Qu-QL)高级筛选,筛选出大于 Qu,小于 QL 的离群点。1)设置条件区域,如图 8-5 所示。incomeincome图 8-5 高级筛选“条件区域”2)设置高级筛选。2 2数据探索之数据特征分析数据探索之数据
6、特征分析建立“2-数据特征分析.xlsx”文件,导入“”文件,请你用 EXCEL 对其进行数据特征分析。【要求】(1)针对 age 属性进行分布分析。填写 8-2 和 8-3 表。表 8-2 年龄分布分析表表 8-3 年龄数据统计表年龄数据统计年龄数据统计数据个数最大值最小值平均值标准差全距组数组距年龄段年龄段青年中年老年年龄区间年龄区间分组数据分组数据组中值组中值频数频数累积频数累积频数累积百分比累积百分比(2)根据上一步的 age 属性分组,分别用 EXCEL 分布工具和 PHSTAT 软件绘制直方图。(3)同理,将收入属性分组,计算各年龄段收入汇总和购买理财计划汇总,找出购买理财计划的主
7、要群体。【提示】(1)age 分为三组(青年组、中年组和老年组),填写age 数据统计,如表8-4所示。表 8-4 年龄数据分布公式表年龄数据分布公式数据个数最大值最小值平均值标准差全距组数组距表 8-5 年龄统计公式表年龄段N13青年N14中年N15老年N16=O5=(P15+P16)/2=R16+S15=S16/$O$4=P14+O11=(P14+P15)/2年龄区间O13分组数据P13=O6+O11组中值Q13=(O6+P14)/2频数R13=FREQUENCY(B2:B601,P14:P16)=R15+S14=S15/$O$4累积频数S13=R14+S13累积百分比T13=S14/$O
8、$4值所在单元格=COUNT(B2:B601)=MAX(B2:B601)=MIN(B2:B601)600O46718O5O6O7O8O9O10O11=AVERAGE(B2:B601)=(B2:B601)=INT(O5-O6)=INT(O9/O10)49316(2)数据分析工具分析。1)EXCEL 数据分析“数据”选项卡“数据分析”按钮“直方图”选项“直方图”对话框。注意,输入区域为:age 数据,接收区域为:分组数据,输出区域为:分析结果放置区域。如图 8-6(a)(b)(c)所示。图 8-6(a)“数据分析”路径(b)“数据分析”对话框(c)“直方图”对话框结果如表 8-6 和图 8-7 所
9、示。表 8-6 数据分析工具直方图分析结果表接收345067其他频率1952141910累积%32.50%68.17%100.00%100.00%接收503467其他频率2141951910累积%35.67%68.17%100.00%100.00%图 8-7 数据分析工具绘制的直方图2)PHSTAT 软件操作步骤如下:图 8-8 PHSTAT 软件直方图路径注意,PHSTAT 软件绘制直方图过程中,作图区的数据不能包含公式。选中 age 属性(B2:B601),分组数据属性(V14:V16),组中值属性(W14:16)绘制直方图。图 8-9 PHSTAT 软件“直方图”对话框分析结果如下:表
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实验 数据 分析
限制150内