欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    新媒体数据预处理.docx

    • 资源ID:96731531       资源大小:24.53KB        全文页数:10页
    • 资源格式: DOCX        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    新媒体数据预处理.docx

    新媒体数据预处理建立目标任务明确重难点课程导入,激 发学习兴趣。讲授法,建立 学习内容的总 体印象。一、课时安排:课时(理论讲授6课时,实践4课时)二、教学课型:理论、实践课三、教学目标:(1) 了解新媒体数据可用性鉴别指标。(2)掌握新媒体数据预处理方法。(3)掌握新媒体数据预处理应用。四、教学重点难点:(1)新媒体数据预处理方法(重点在于利用python进行数据预处理)。(2)新媒体数据预处理应用。五、教学方法:多媒体教学(讲授法、实验法)六、教学过程与内容:课程导入:新媒体数据分析面临的不规范性问题以及预处理价值的体现。本章概述:数据预处理(Data Preprocessing)是指在主要的处理和分析以前对数 据进行的一些必要的加工整理,主要目标是清理异常值、纠正错误数据、 统一数据格式等。本章首先介绍新媒体数据可用性鉴别指标,分别是数据真实性、数据 完整性和数据价值性鉴别;其次,介绍数据预处理的四种基本方法,分别 是数据清洗(缺失值处理、重复值处理和异常值发现)、数据集成(实体识 另冗余和数据值冲突问题)、数据变换(平滑、会萃、数据概化、规范化 和属性构造)以及数据规约(数据立方体会萃、维规约和数值规约);最后, 以某旅游APP的酒店客户信息数据为例,介绍数据预处理在新媒体领域的 实际应用。第一节新媒体数据可用性鉴别指标(一)数据真实性鉴别1、数据来源真实数据来源真实是保证数据真正的首要条件。数据来源整体可以分为官 方和其他渠道(包括行业数据、抓取数据和问卷数据等)两种。普通来说, 官方统计的数据相对权威,能够保障真实性,其他渠道获取的数据更要认 真进行鉴别,防止因利益、主观倾向等因素造成的不真实。2、数据细节真实失之毫厘,差之千里,统计数据中某个参数的不许确,都有可能导致 结果浮现极大偏差,因此,对数据细节进行核实,是保证数据真实准确的 重要手段。如网络问卷调查中,设置每一个IP地址只能回答一次;纸质问卷 调查中,多次核查录入数据以避免失误。(二)数据完整性鉴别1、记录是否完整讲授,演示数 据完整性、字 段完整性案 例。根据关系型数据库相关概念,可以把数据表中的每一行叫做一个“记 录”。每一个记录包含该行中的所有信息,就像在通讯录数据库中某个人全 部的信息,但记录在数据库中并没有专门的记录名,往往用它所在的行数 表示这是第几个记录。2、字段是否完整字段是比记录更小的单位,字段集合组成记录,每一个字段描述文献的 某一特征,即数据项,并有惟一的供计算机识别的字段标识符。(三)数据价值性鉴别1、数据时效性分析数据是什么时间产生的,是否还合用于现在的情况是对数据进行价值 判断时必须要考虑的问题,惟独确定数据产生的时间,才干更好地确定数 据的时效性和合用范围。例如,要研究2022年青少年短视频使用情况,10 年前的相关数据显然不能合用于当前的研究,数据也就失去了它的价值。2、数据支持性分析数据能否有效支撑研究主题或者观点是数据价值判断的一个重要方面, 有些数据即使本身没有任何问题,但它不能对主题起到匡助,于是在此主题下它就是没有价值的。如了解中国青少年网络使用情况,老年人网络使 用情况调查数据在这里是没有价值的。3、数据全面性分析某些数据确实可以为主题服务,但仅用这些数据不能充分说明问题, 需要有更多的数据作为它的背景或者比较对象才干揭示主题。因此,全面 结合特定主题下的相关数据才干最大程度发挥数据的价值。如研究婚姻状 况,仅有结婚率、离婚率数据是不够的,需要结合适婚男女性别比、夫妻 双方收入情况、文化水平等多方面数据分析,才干体现相关意义,揭示研 究主题。第二节新媒体数据预处理方法(一)数据清洗参考教材讲 授、演示利用 python进行缺 失值处理。参考教材讲 授、演示利用 Excel进行重 复值处理。数据清洗(Data Cleaning)是指发现并纠正数据文件中可识别的错误 的最后一道程序,包括纠正不一致的数据、填补遗漏数据、消除异常数据 以及平滑噪音数据等。与问卷审核不同,数据录入后的清洗普通是由计算 机而不是人工完成。进行数据清洗的原因在于直接采集来的数据是“脏” 的,主要体现在数据的不完整性、异常性、错误性以及冗余性。1、缺失值处理数据并不总是完整的。对于缺失值的处理,主要是通过判断进行填补, 大多数情况下缺失的值必须手工填入(即手工清洗)。2、重复值处理数据库中属性值相同的记录被认为是重复的记录,通过判断记录间的 属性是否相等来检测记录是否相等,相等的记录合并为一条记录(即合并/ 清除)。本部份内容将介绍运用Excel删除重复数据的三种方法。3、异常值发现数据清洗中的异常值常用画箱形图(Box-plot)这一方法发现。箱形图 又称为盒须图、盒式图或者箱线图,是一种用作显示一组数据分散情况资料结合图示讲解 的统计图,因形状如箱子而得名。箱形图的绘制方法是先找出一组数据的箱形图原理。上边缘、下边缘、中位数和两个四分位数;然后连接两个四分位数画出箱 体;再将上边缘和下边缘与箱体相连接,中位数在箱体中间。(二)数据集成数据集成(Data Integration)主要指将多个数据源中的数据整合到一个 一致的存储中,解决数据的分布性和异构性问题。其意义在于联通“信息 孤岛”,共享信息。在企业数据集成领域,目前通常采用联邦式、基于中间 件模型和数据仓库等方法构建集成的系统。数据集成的关键是要建立统一 的数据规范结构。在数据集成中主要有以下三大问题需要解决:实体识别 问题、冗余问题、数据值冲突问题。结合教材实例 讲解数据变换 的五种途径。(三)数据变换数据变换是指对数据进行规范化处理,将数据转换或者统一成适合挖 掘的形式。数据变换包括平滑、会萃、数据概化、规范化和属性构造五种途 径。1、平滑平滑指去除噪声、将连续的数据离散化、增加粒度。实现平滑主要有 三种方法:分箱、聚类和回归。2、会萃会萃主要指对数据进行汇总,例如在Excel中可以通过SUM、COUNT 等函数实现。应用中如每班学生数可以进行求和操作以获得每专业或者每笔 院学生总数。3、数据概化数据概化是指用更高层次、更抽象的概念来取代低层次或者数据层的数 据对象。例如,街道属性就可以泛化到更高层次的概念一一城市、国家; 对于数值型的属性,如年龄属性(20岁、40岁、60岁),也可以映射到更 高层次概念年轻、中年和老年。4、规范化规范化是指将数据按比例进行缩放,使之落入一个特定的区域,以消 除数值型属性因大小不一而造成挖掘结果的偏差。数据规范化的主要作用 有两个,一是去掉量纲,使得指标之间具有可比性;二是将数据限制到一 定区间,使得运算更为便捷。规范化包括最小-最大规范化、零均值规范化 和小数定标规范化05、属性构造属性构造是指利用已有属性集构造出新的属性,并加入到现有属性集 合中以匡助挖掘更深层次的模式知识,提高挖掘结果准确性。例如:根据 宽、高属性可以构造一个新属性一一面积。(四)数据归约结合教材实例 讲解数据规约 的三种方法。数据归约(Reduce)是指在尽可能保持数据原貌的前提下,最大限度 地精简数据量(完成该任务的必要前提是理解挖掘任务和熟悉数据本身内 容,详见本书第二章)。数据归约得到的数据比原数据小得多,但可以产生 与原数据相同或者基本相同的分析结果,提高挖掘效率。常见的数据规约方 法包括数据立方会萃、维归约、数据压缩和数值归约等。1、数据立方体会萃数据立方体会萃指的是将n维数据会萃为n-1维数据立方体。其中, 数据立方体是数据的多维建模和表示,由维(属性)和事实(数据)组成。2、维归约维归约指去掉无关的属性,减少数据挖掘处理的数据量。维归约的目 标是寻觅出最小的属性子集并确保新数据子集的概率分布尽可能接近原来 数据集的概率分布。如挖掘网民是否愿意购买视频软件VIP的分类规则时, 网民的电子邮箱很可能与挖掘任务无关,应该可以去掉。维归约的重点是选择相关属性的子集,这里主要介绍三种方法:逐步 向前选择,逐步向后删除和判定树(决策树)归纳。其中,逐步向前选择 和逐步向后删除可以结合使用。3、数值归约数值归约指用较小的数据表示数据,或者采用较短的数据单位,或者月 数据模型代表数据,减少数据量。数值归约常用的方法有直方图、聚类、抽样、参数回归法、离散化与 概念分层生成。聚类和参数回归法具体内容参考上文,下面主要介绍直方 图、抽样、离散化与概念生成。第三节新媒体数据预处理应用本节内容以某旅游APP的酒店客户信息数据为例,介绍数据预处理在 新媒体领域的实际应用。(一)数据源介绍抓取2022-03-31至2022-03-31两年内有入住记录的所有客户的详细数 据,共计1279条。其中包含42个属性。(二)数据预处理1、缺失值处理由于类别属性类缺失值填充难度大,且原始数据量大,故对其所在记 录采取丢弃处理。2、重复值处理以会员号作为每条记录的惟一标识,查询会员号是否有重复值。3、异常值处理用条件格式查找工作地城市和工作地所在省份中的异常值,对于无法 识别的异常值进行丢弃;对于可以修正的异常值,比如已知工作地所在城 市,可以对工作地所在省份的异常数据修正。4、数据概化将42个属性概化为客户基本信息、入住信息以及积分信息3大属性, 如下图所示在Excel中对数据进行有效分类。5、会萃利用SUM求和函数,根据第一年总入住消费和第二年总入住消费求出 两年总入住消费,如下图所示。6、维规约由于原始数据中属性太多,结合案例中数据预处理的三大目标,采用 逐步向后删除法,去掉与其不相关、弱相关或者冗余的属性。思量与练习:(1)新媒体数据可用性鉴别有哪些指标?(2)利用python进行数据清洗。(3)对照分析数据变换方法在应用中的差异。课堂实验:参 考教材指导学 生对数据预处 理进行操作实 验。布置作业、巩 固知识,进行 形成性评价。(4)利用数据规约方法对新媒体数据进行规约处理。教学反思:教学反思(1)教学成功之处:(2)教学不足之处:(3)学生获得知识和创新(知识掌握、技能获取、价值观理念树立):(4)改进措施和方案:新媒体文案教学课题新媒体文案的创作技巧学时安排2学时(90分钟)教学年级所选教材新媒体文案一、学习目标授课教师专业(学科)新媒体1知识目标1)轻松写出文案的5个步骤2)捕捉文案创作灵感的4种方法2、能力目标1)阅读能力:能够按照思维导图快速掌握相关章节的大体内容;2)总结能力:能快速总结每次课堂上老师所讲的基本概念;3)应用能力:能独立进行文案撰写。4)自学能力:文案创作灵感的来源3、德育目标:1)提高学生的创新意识和创业精神;2)增强学生学习自信和主动性;3)提倡试错并勇于承受挫折;二、学习重点及难点学习重点:写出文案的5个步骤学习难点:文案创作灵感的来源 三、教学问题预测1、不适应以项目(输出)为主线的教学方式;2、学生不配合,制作中产生懈怠。四、教学问题解决方案1、教师在课堂中应随时给学生反馈,引导学生不断反思;2、引入课堂测验以及平时分制度,并对学生作品进行投票打分;五、学习者特征分析(教师填写)学习特点:学习习惯:交往特点:六、教学资源1、教学PPT;2、参考资料:新媒体营销概论(第2版),秋叶编著,2022年,人民邮电出版社七、预习成果展示实践项目1撰写文案八、教学项目(任务)设计31、学生集体讨论“文案创作灵感的来源”等问题;2、应用思维导图掌握相关章节的大致内容;3、学生集体讨论并向教师反馈寻常的学习方法;能力目标2德育 目标Z者在日常生活中不断积累,思量方法需要 新媒体文案创作者刻意训练。是九宫格思量法、 同类产品卖点汇总 法、三段式写作法、 头脑风暴法。输出九宫格思量法、同类产品卖点汇总法、 三段式写作法、头脑风暴法。【教法学法】 自主阅读【设计意图】鼓励学生自己去分 析、归纳。反馈学生是否理解该内容?【项目任务】尝试分别用九宫格 思量法、三段式写 作法、头脑风暴法 捕捉一款熟悉的 产品的文案创作灵 感。【设计意图】继续培养学生的学 习主动性和探索性。反思可否挖掘类似案例加深理解?教师 小结能力 目标1)轻松写出文案的5个步骤:/)捕捉文案创作灵感的4种方法【教法学法】 小结时,教师可采 用思维导图的方式 进行,清晰明了。5课后作业德育目标1作业:将今天所学的内容尝试用思维导图画出来。5十、教学后记(教师填写)

    注意事项

    本文(新媒体数据预处理.docx)为本站会员(太**)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开