新媒体数据预处理.pdf
《新媒体数据预处理.pdf》由会员分享,可在线阅读,更多相关《新媒体数据预处理.pdf(19页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1 新媒体数据预处理 建立目标任务 明确重难点 课程导入,激发学习兴趣。讲授法,建立学习内容的总体印象。一、课时安排:课时(理论讲授 6 课时,实践 4 课时)二、教学课型:理论、实践课 三、教学目标:(1)了解新媒体数据可用性鉴别指标。(2)掌握新媒体数据预处理方法。(3)掌握新媒体数据预处理应用。四、教学重点难点:(1)新媒体数据预处理方法(重点在于利用 python 进行数据预处理)。(2)新媒体数据预处理应用。五、教学方法:多媒体教学(讲授法、实验法)六、教学过程与内容:课程导入:新媒体数据分析面临的不规范性问题以及预处理价值的体现。本章概述:数据预处理(Data Preprocess
2、ing)是指在主要的处理和分析以前对数据进行的一些必要的加工整理,主要目标是清理异常值、纠正错误数据、统一数据格式等。本章首先介绍新媒体数据可用性鉴别指标,分别是数据真实性、数据完整性和数据价值性鉴别;其次,介绍数据预处理的四种基本方法,分别是数据清洗(缺失值处理、重复值处理和异常值发现)、数据集成(实体识别、冗余和数据值冲突问题)、数据变换(平滑、聚集、数据概化、规范化和属性构造)以及数据规约(数据立方体聚集、维规约和数值规约);最后,以某旅游 APP 的酒店客户信息数据为例,介绍数据预处理在新媒体领域的实际应用。第一节 新媒体数据可用性鉴别指标 2 (一)数据真实性鉴别 1.数据来源真实
3、数据来源真实是保证数据真实的首要条件。数据来源整体可以分为官方和其他渠道(包括行业数据、抓取数据和问卷数据等)两种。一般来说,官方统计的数据相对权威,能够保障真实性,其他渠道获取的数据更要认真进行鉴别,防止因利益、主观倾向等因素造成的不真实。2.数据细节真实 失之毫厘,差之千里,统计数据中某个参数的不准确,都有可能导致结果出现极大偏差,因此,对数据细节进行核实,是保证数据真实准确的重要手段。如网络问卷调查中,设置每个 IP 地址只能回答一次;纸质问卷调查中,多次核查录入数据以避免失误。(二)数据完整性鉴别 1.记录是否完整 根据关系型数据库相关概念,可以把数据表中的每一行叫做一个“记录”。每一
4、个记录包含该行中的所有信息,就像在通讯录数据库中某个人全部的信息,但记录在数据库中并没有专门的记录名,常常用它所在的行数表示这是第几个记录。例:“记录”图示。2.字段是否完整 字段是比记录更小的单位,字段集合组成记录,每个字段描述文献的某一特征,即数据项,并有唯一的供计算机识别的字段标识符。例:“字段”图示。(三)数据价值性鉴别 1.数据时效性分析 数据是什么时间产生的,是否还适用于现在的情况是对数据进行价值判断时必须要考虑的问题,只有确定数据产生的时间,才能更好地确定数据的时效性和适用范围。例如,要研究 2019 年青少年短视频使用情况,10年前的相关数据显然不能适用于当前的研究,数据也就失
5、去了它的价值。2.数据支持性分析 讲授,演示数据完整性、字段 完 整 性 案例。3 数据能否有效支撑研究主题或观点是数据价值判断的一个重要方面,有些数据即使本身没有任何问题,但它不能对主题起到帮助,因而在此主题下它就是没有价值的。如了解中国青少年网络使用情况,老年人网络使用情况调查数据在这里是没有价值的。3.数据全面性分析 某些数据确实可以为主题服务,但仅用这些数据不能充分说明问题,需要有更多的数据作为它的背景或者比较对象才能揭示主题。因此,全面结合特定主题下的相关数据才能最大程度发挥数据的价值。如研究婚姻状况,仅有结婚率、离婚率数据是不够的,需要结合适婚男女性别比、夫妻双方收入情况、文化水平
6、等多方面数据分析,才能体现相关意义,揭示研究主题。参 考 教 材 讲授、演示利用python 进行缺失值处理。参 考 教 材 讲授、演示利用Excel 进行重复值处理。结合图示讲解第二节 新媒体数据预处理方法(一)数据清洗 数据清洗(Data Cleaning)是指发现并纠正数据文件中可识别的错误的最后一道程序,包括纠正不一致的数据、填补遗漏数据、消除异常数据以及平滑噪音数据等。与问卷审核不同,数据录入后的清洗一般是由计算机而不是人工完成。进行数据清洗的原因在于直接采集来的数据是“脏”的,主要体现在数据的不完整性、异常性、错误性以及冗余性。数据清洗常见方法操作包括以下几方面:1.缺失值处理 数
7、据并不总是完整的。对于缺失值的处理,主要是通过推断进行填补,大多数情况下缺失的值必须手工填入(即手工清洗)。2.重复值处理 数据库中属性值相同的记录被认为是重复的记录,通过判断记录间的属性是否相等来检测记录是否相等,相等的记录合并为一条记录(即合并/清除)。本部分内容将介绍运用 Excel 删除重复数据的三种方法。3.异常值发现 数据清洗中的异常值常用画箱形图(Box-plot)这一方法发现。箱形图又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料4 的统计图,因形状如箱子而得名。箱形图的绘制方法是先找出一组数据的上边缘、下边缘、中位数和两个四分位数;然后连接两个四分位数画出箱体
8、;再将上边缘和下边缘与箱体相连接,中位数在箱体中间。(二)数据集成 数据集成(Data Integration)主要指将多个数据源中的数据整合到一个一致的存储中,解决数据的分布性和异构性问题。其意义在于联通“信息孤岛”,共享信息。在企业数据集成领域,目前通常采用联邦式、基于中间件模型和数据仓库等方法构建集成的系统。数据集成的关键是要建立统一的数据规范结构。在数据集成中主要有以下三大问题需要解决:实体识别问题、冗余问题、数据值冲突问题。(三)数据变换 数据变换是指对数据进行规范化处理,将数据转换或统一成适合挖掘的形式。数据变换包括平滑、聚集、数据概化、规范化和属性构造五种途径。1.平滑 平滑指去
9、除噪声、将连续的数据离散化、增加粒度。实现平滑主要有三种方法:分箱、聚类和回归。2.聚集 聚集主要指对数据进行汇总,例如在 Excel 中可以通过 SUM、COUNT等函数实现。应用中如每班学生数可以进行求和操作以获得每专业或每学院学生总数。3.数据概化 数据概化是指用更高层次、更抽象的概念来取代低层次或数据层的数据对象。例如,街道属性就可以泛化到更高层次的概念城市、国家;对于数值型的属性,如年龄属性(20 岁、40 岁、60 岁),也可以映射到更高层次概念年轻、中年和老年。4.规范化 规范化是指将数据按比例进行缩放,使之落入一个特定的区域,以消除数值型属性因大小不一而造成挖掘结果的偏差。数据
10、规范化的主要作用箱形图原理。结合教材实例讲解数据变换的五种途径。5 有两个,一是去掉量纲,使得指标之间具有可比性;二是将数据限制到一定区间,使得运算更为便捷。规范化包括最小-最大规范化、零均值规范化和小数定标规范化。5.属性构造 属性构造是指利用已有属性集构造出新的属性,并加入到现有属性集合中以帮助挖掘更深层次的模式知识,提高挖掘结果准确性。例如:根据宽、高属性可以构造一个新属性面积。(四)数据归约 数据归约(Reduce)是指在尽可能保持数据原貌的前提下,最大限度地精简数据量(完成该任务的必要前提是理解挖掘任务和熟悉数据本身内容,详见本书第二章)。数据归约得到的数据比原数据小得多,但可以产生
11、与原数据相同或基本相同的分析结果,提高挖掘效率。常见的数据规约方法包括数据立方聚集、维归约、数据压缩和数值归约等。1.数据立方体聚集 数据立方体聚集指的是将 n 维数据聚集为 n-1 维数据立方体。其中,数据立方体是数据的多维建模和表示,由维(属性)和事实(数据)组成。2.维归约 维归约指去掉无关的属性,减少数据挖掘处理的数据量。维归约的目标是寻找出最小的属性子集并确保新数据子集的概率分布尽可能接近原来数据集的概率分布。如挖掘网民是否愿意购买视频软件 VIP 的分类规则时,网民的电子邮箱很可能与挖掘任务无关,应该可以去掉。维归约的重点是选择相关属性的子集,这里主要介绍三种方法:逐步向前选择,逐
12、步向后删除和判定树(决策树)归纳。其中,逐步向前选择和逐步向后删除可以结合使用。3.数值归约 数值归约指用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据,减少数据量。数值归约常用的方法有直方图、聚类、抽样、参数回归法、离散化与概念分层生成。结合教材实例讲解数据规约的三种方法。6 第三节 新媒体数据预处理应用 课堂实验:参考教材指导学生对数据预处理进行操作实验。(一)“某旅游APP的酒店客户信息”数据预处理 本节内容以某旅游APP的酒店客户信息数据为例,介绍数据预处理在新媒体领域的实际应用。1.数据源介绍 抓取 2012-03-31 至 2014-03-31 两年内有入住记录的
13、所有客户的详细数据,共计 1279 条。其中包含 42 个属性。2.数据预处理(1)缺失值处理 由于类别属性类缺失值填充难度大,且原始数据量大,故对其所在记录采取丢弃处理。(2)重复值处理 以会员号作为每条记录的唯一标识,查询会员号是否有重复值。(3)异常值处理 用条件格式查找工作地城市和工作地所在省份中的异常值,对于无法识别的异常值进行丢弃;对于可以修正的异常值,比如已知工作地所在城市,可以对工作地所在省份的异常数据修正。(4)数据概化 将 42 个属性概化为客户基本信息、入住信息以及积分信息 3 大属性,如下图所示在 Excel 中对数据进行有效分类。(5)聚集 利用 SUM 求和函数,根
14、据第一年总入住消费和第二年总入住消费求出两年总入住消费,如下图所示。(6)维规约 由于原始数据中属性太多,结合案例中数据预处理的三大目标,采用逐步向后删除法,去掉与其不相关、弱相关或者冗余的属性。(7)属性构造 RFM 模型是衡量客户价值和客户创利能力的重要工具和手段,其中 R(Recency)代表最近一次消费,F(Frequency)代表消费频率,M(Monetary)7 代表消费金额。(二)“中国城镇化的单身困境”数据预处理 本部分内容将利用本章数据预处理方法对第三章中数据新闻案例“中国城镇化的单身困境”收集获取的数据进行预处理。1.数据可用性鉴别 首先,来自国家统计局、中国统计年鉴等的官
15、方数据相对权威,而人民日报、百度指数和凤凰网等数据权威性较弱,需要进行交叉验证。其次,在本数据新闻中,具备城乡、性别、婚姻状况、年龄等属性的数据更具价值,能更好地发现问题,服务主题。再次,本数据新闻的主题是“中国城镇化的单身困境”,仅靠婚姻状况数据是难以说明城镇化与单身的问题。因此,从数据的全面性出发,各地的房价数据、彩礼数据和受教育数据等也具有重要价值。2.数据清洗(1)缺失值处理 本数据新闻中的缺失值主要体现在媒体平台对“大龄未婚男女”的评价方面,对于此类缺失数据,只能将所在的整条记录删除。(2)重复值处理 本数据新闻中的重复值主要体现在各地彩礼数据中,在收集到的人民日报和凤凰网关于各地彩
16、礼数据的报道中,发现某地区 2017 年的彩礼数据相同,予以合并。3.数据变换(1)聚集 运用 Excel 中的 COUNTIF 函数,根据“发布时间”条件对各媒体各年度有关“城市大龄未婚女”和“农村大龄未婚男”的报道次数求和。(2)数据概化 为方便数据分析,本案例将年龄在 28 岁以上的单身女性概化为“大龄未婚女”,将年龄在 30 岁以上的单身男性概化为“大龄单身未婚男”。在此基础上,加入城乡维度的数据,概化为“城市大龄未婚女”和“农村大龄未婚男”两大群体。此外,将工资性收入、生活用品及服务支出、交通通 8 信支出、教育文化娱乐支出以及医疗保健支出等五项数据概化为资源数据,从而比较城乡资源的
17、差距。(3)属性构造 结合各地区未婚男和未婚女两类数据,根据“人口性别比=(男性人数女性人数)100%”的公式,构造属性“未婚人口性别比”。(4)维规约 为分析其他因素对“城市大龄未婚女”和“农村大龄未婚男”的影响,本案例从数据的完整性和时效性出发,以 2017 年作为时间标准,选取 2017年的全国未婚男女人口数、城镇未婚男女人口、农村未婚男女人口、各地区未婚人数性别比、各年龄段性别比、城乡资源差距数据、各地彩礼数据等,去掉其他时间段的无关数据属性。布置作业、巩固知识,进行形成性评价。教学反思 思考与练习:(1)简述新媒体数据可用性鉴别的指标。(2)简述新媒体数据预处理包括哪些类别以及各类别
18、的处理方法。(3)利用新媒体数据预处理的方法对本章应用案例中的数据进行预处理。教学反思:(1)教学成功之处:(2)教学不足之处:(3)学生获得知识和创新(知识掌握、技能获取、价值观理念树立):(4)改进措施和方案:9 本课程在深入分析新媒体发展趋势的基础上,根据当前新媒体内容表现形式特点,全书设置了四个项目,从基础的新媒体编创的认知,到图文公众号、短视频、直播编创技能的形成,注意理论和实践相结合,学校教学和企业培训一体化计。为了响应职业教育改革的号召,本书采用活页式、工作手册编写的方式,以适应技能学习的特点和现代学徒制教学的需要。三、课程教学要求 序号 专业毕业要求 课程教学要求 关联程度 1
19、 知识准备 掌握新媒体的特征、分类及其选题策划、文案撰写、编辑发布的基础知识。H 2 问题分析 发现新媒体文案撰写与编辑发布中存在的问题,寻找出现问题的原因,尤其是新媒体内容写作方面。H 3 通用能力 熟练掌握新媒体写作技巧,平台编辑发布水平。H 4 工具使用 135 编辑器、剪影、美图秀秀、创客贴等社会化媒体 H 5 社会价值 新媒体写作有利于运营,减少成本,促进个人及消费者之间的交流、沟通 L 6 职业规范 培养认真、谨慎的职业精神;提升新媒体文案写作、编H 10 辑发布水平;不做标题党,内容真实、对读者有益;培养新媒体运营的水平。7 团队协作 养成团队协作,共同完成项目和任务的习惯 M
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 媒体 数据 预处理
限制150内