新媒体数据预处理.docx
《新媒体数据预处理.docx》由会员分享,可在线阅读,更多相关《新媒体数据预处理.docx(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、新媒体数据预处理建立目标任务明确重难点课程导入,激 发学习兴趣。讲授法,建立 学习内容的总 体印象。一、课时安排:课时(理论讲授6课时,实践4课时)二、教学课型:理论、实践课三、教学目标:(1) 了解新媒体数据可用性鉴别指标。(2)掌握新媒体数据预处理方法。(3)掌握新媒体数据预处理应用。四、教学重点难点:(1)新媒体数据预处理方法(重点在于利用python进行数据预处理)。(2)新媒体数据预处理应用。五、教学方法:多媒体教学(讲授法、实验法)六、教学过程与内容:课程导入:新媒体数据分析面临的不规范性问题以及预处理价值的体现。本章概述:数据预处理(Data Preprocessing)是指在主
2、要的处理和分析以前对数 据进行的一些必要的加工整理,主要目标是清理异常值、纠正错误数据、 统一数据格式等。本章首先介绍新媒体数据可用性鉴别指标,分别是数据真实性、数据 完整性和数据价值性鉴别;其次,介绍数据预处理的四种基本方法,分别 是数据清洗(缺失值处理、重复值处理和异常值发现)、数据集成(实体识 另冗余和数据值冲突问题)、数据变换(平滑、会萃、数据概化、规范化 和属性构造)以及数据规约(数据立方体会萃、维规约和数值规约);最后, 以某旅游APP的酒店客户信息数据为例,介绍数据预处理在新媒体领域的 实际应用。第一节新媒体数据可用性鉴别指标(一)数据真实性鉴别1、数据来源真实数据来源真实是保证
3、数据真正的首要条件。数据来源整体可以分为官 方和其他渠道(包括行业数据、抓取数据和问卷数据等)两种。普通来说, 官方统计的数据相对权威,能够保障真实性,其他渠道获取的数据更要认 真进行鉴别,防止因利益、主观倾向等因素造成的不真实。2、数据细节真实失之毫厘,差之千里,统计数据中某个参数的不许确,都有可能导致 结果浮现极大偏差,因此,对数据细节进行核实,是保证数据真实准确的 重要手段。如网络问卷调查中,设置每一个IP地址只能回答一次;纸质问卷 调查中,多次核查录入数据以避免失误。(二)数据完整性鉴别1、记录是否完整讲授,演示数 据完整性、字 段完整性案 例。根据关系型数据库相关概念,可以把数据表中
4、的每一行叫做一个“记 录”。每一个记录包含该行中的所有信息,就像在通讯录数据库中某个人全 部的信息,但记录在数据库中并没有专门的记录名,往往用它所在的行数 表示这是第几个记录。2、字段是否完整字段是比记录更小的单位,字段集合组成记录,每一个字段描述文献的 某一特征,即数据项,并有惟一的供计算机识别的字段标识符。(三)数据价值性鉴别1、数据时效性分析数据是什么时间产生的,是否还合用于现在的情况是对数据进行价值 判断时必须要考虑的问题,惟独确定数据产生的时间,才干更好地确定数 据的时效性和合用范围。例如,要研究2022年青少年短视频使用情况,10 年前的相关数据显然不能合用于当前的研究,数据也就失
5、去了它的价值。2、数据支持性分析数据能否有效支撑研究主题或者观点是数据价值判断的一个重要方面, 有些数据即使本身没有任何问题,但它不能对主题起到匡助,于是在此主题下它就是没有价值的。如了解中国青少年网络使用情况,老年人网络使 用情况调查数据在这里是没有价值的。3、数据全面性分析某些数据确实可以为主题服务,但仅用这些数据不能充分说明问题, 需要有更多的数据作为它的背景或者比较对象才干揭示主题。因此,全面 结合特定主题下的相关数据才干最大程度发挥数据的价值。如研究婚姻状 况,仅有结婚率、离婚率数据是不够的,需要结合适婚男女性别比、夫妻 双方收入情况、文化水平等多方面数据分析,才干体现相关意义,揭示
6、研 究主题。第二节新媒体数据预处理方法(一)数据清洗参考教材讲 授、演示利用 python进行缺 失值处理。参考教材讲 授、演示利用 Excel进行重 复值处理。数据清洗(Data Cleaning)是指发现并纠正数据文件中可识别的错误 的最后一道程序,包括纠正不一致的数据、填补遗漏数据、消除异常数据 以及平滑噪音数据等。与问卷审核不同,数据录入后的清洗普通是由计算 机而不是人工完成。进行数据清洗的原因在于直接采集来的数据是“脏” 的,主要体现在数据的不完整性、异常性、错误性以及冗余性。1、缺失值处理数据并不总是完整的。对于缺失值的处理,主要是通过判断进行填补, 大多数情况下缺失的值必须手工填
7、入(即手工清洗)。2、重复值处理数据库中属性值相同的记录被认为是重复的记录,通过判断记录间的 属性是否相等来检测记录是否相等,相等的记录合并为一条记录(即合并/ 清除)。本部份内容将介绍运用Excel删除重复数据的三种方法。3、异常值发现数据清洗中的异常值常用画箱形图(Box-plot)这一方法发现。箱形图 又称为盒须图、盒式图或者箱线图,是一种用作显示一组数据分散情况资料结合图示讲解 的统计图,因形状如箱子而得名。箱形图的绘制方法是先找出一组数据的箱形图原理。上边缘、下边缘、中位数和两个四分位数;然后连接两个四分位数画出箱 体;再将上边缘和下边缘与箱体相连接,中位数在箱体中间。(二)数据集成
8、数据集成(Data Integration)主要指将多个数据源中的数据整合到一个 一致的存储中,解决数据的分布性和异构性问题。其意义在于联通“信息 孤岛”,共享信息。在企业数据集成领域,目前通常采用联邦式、基于中间 件模型和数据仓库等方法构建集成的系统。数据集成的关键是要建立统一 的数据规范结构。在数据集成中主要有以下三大问题需要解决:实体识别 问题、冗余问题、数据值冲突问题。结合教材实例 讲解数据变换 的五种途径。(三)数据变换数据变换是指对数据进行规范化处理,将数据转换或者统一成适合挖 掘的形式。数据变换包括平滑、会萃、数据概化、规范化和属性构造五种途 径。1、平滑平滑指去除噪声、将连续的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 媒体 数据 预处理
限制150内