《数据采集与预处理》教学教案—02认识数据预处理技术.docx
《《数据采集与预处理》教学教案—02认识数据预处理技术.docx》由会员分享,可在线阅读,更多相关《《数据采集与预处理》教学教案—02认识数据预处理技术.docx(3页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据采集与预处理教 案NO. 1教师姓名授课班级授课形式理实一体化授课时间年 月 日第周授课时数6授课章节名称任务2认识数据预处理技术教学目的(1)学习数据预处理技术等相关知识内容,如数据清洗的主要 任务和常用方法,数据集成的主要任务和常用方法,数据转换的主 要任务和常用方法,数据归约的主要任务和常用 方法。(2)完成Pig系统环境的搭建。(3)完成 Kettle系统环境的搭建。教材分析教学重点Pig系统环境的搭建Kettle系统环境的搭建教学难点Pig系统环境的搭建Kettle系统环境的搭建更新、 补充、删节内容课外作业积极动手实践,熟练完成相关任务的实施操作教学提示教学过程一.知识准备1.
2、数据预处理的概念数据预处理是指在对数据进行数据挖掘的主要处理以前,先对原始数 据进行必要的清理、集成、转换、离散、归约、特征选择和提取等一系列 处理工作,达到挖掘算法进行知识获取、研究所要求的最低规范和标准。现实生产和实际生活以及科学研究的多样性、不确定性、复杂性等导 致采集到的原始数据比较散乱,它们是不符合挖掘算法进行知识获耳又、研 究所要求的规范和标准的,这些数据主要具有以下特征。(1)不完整性。(2)含噪声。(3)杂乱性(不一致性)。2.数据预处理的常见问题(1)数据采样数据采样技术分为加权采样、随机采样和分层采样3类,其目的是从 数据集中采集部分样本进行处理。加权采样的思想是通过对总体
3、中的各个 样本设置不同的数值系数(即权重),使样本呈现希望的相对重要性程度。 随机采样是最常用的方法。分层采样的思想是根据数据分布的不均衡性控制采样的频率。(2)数据清理数据清理技术通常包括填补遗漏的数据值、平滑有噪声数据、识别或 除去异常值,以及解决不一致问题。填补遗漏的数据值,处理不完备数据 集的方法主要有以下三大类。1. 删除元组删除元组就是将存在遗漏信息属性值的对象(元组,记录)删除,从而得到一个完备的信息表。数据补齐a.人工填写b.特殊值填充c,平均值填充d.热卡填 充(或就近补齐)e.攵近邻法f.使用所有可能的值填充 g.组合完整化 方法h.回归平滑有噪声数据a.分箱b.回归c.聚
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据采集与预处理 数据 采集 预处理 教学 教案 02 认识 技术
限制150内