欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    第3章 数据处理基础教学课件.pptx

    • 资源ID:88334997       资源大小:7.16MB        全文页数:27页
    • 资源格式: PPTX        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第3章 数据处理基础教学课件.pptx

    第3章 数据处理基础教学课件第3章 数据处理基础2章节内容第3章 数据处理基础3.1 数据的清理3.1.1 文本编码的处理3.1.2 异常数据值的处理3.1.3 行列数据的简单处理3.2 基本数据类型数据的处理3.2.1 文本数据的处理3.2.2 数值数据的处理3.2.3 日期时间数据处理3.3 高级类型数据的处理3第3章 数据处理基础在将数据导入到Power BI Desktop中之后,为了将导入的数据整理成为适合于存储和分析的状态,需要对数据进行进一步的处理。在“主页”中使用“转换数据”按钮将当前的数据表使用Power Query查询编辑器打开进一步处理,从导入数据到进行数据处理的每一个操作步骤都会被查询编辑器记录下来,以后当数据源发生变化之后,则可以通过“转换数据”按钮右边的“刷新”按钮重新读取数据源,并自动执行保存下来的处理步骤。4第3章 数据处理基础Power Query查询编辑器的主要界面由“主页”、“转换”、“添加列”、“视图”、“工具”以及“帮助”等几个功能选项卡构成;当完成数据处理工作后,可以使用“关闭并应用”按钮,将对导入数据表的具体处理步骤记录并应用,并将最终的处理结果数据表保存到当前pbix文件中。53.1.1 数据的清理文本编码的处理在获取数据时,如果没有设置正确的文本编码,常常会导致乱码问题,通过识别和设置正确的文本编码可以解决乱码。63.1.2 数据的清理异常数据值的处理导入的数据表中可能会因为各种原因有一些缺失值或错误的值,为了数据建模分析的需要,要使用有意义的值替换这些异常的数据值,或者简单的过滤掉这些异常的数据值。例:导入并处理有关学生信息的EXCEL数据表格数据(studentdata.xlsx),可以看到该表格中有缺失的成绩,可能是学生没有参加该门课程的考试造成的,此外,表格中还是用了单元格合并等格式,因此,当导入该表格数据后,使用Power BI编辑该查询,可以看到格式和缺失数据造成了很多缺失值。73.1.2 数据的清理异常数据值的处理(1)删除异常的数据值对于因为EXCEL表格格式造成的全是空值的行,直接采用删除的方法去除掉。可以通过主页中“删除行”按钮下拉菜单中的“删除空行”完成删除操作,也可以通过在表格中任何一列右上角的三角箭头下拉菜单中选择“删除空”菜单项实现删除操作。83.1.2 数据的清理异常数据值的处理(2)将异常的数据值替换为特定值将缺失的学生成绩替换为0是比较合理的,也可以方便后续的数据分析。在表中任何位置单击,然后按CTRL+A选中整个表格,在主页中选择“替换值”按钮,在替换之对话框中设置将空值替换为0。93.1.3 数据的清理行列数据的简单处理1.将首行数据提升为标题Power BI Desktop在导入数据时会尝试区分并识别可能的列名,在有些列名存在但是无法区分列名和数据的情况下,列名会被识别为数据的第一行,此时生成的数据表的列名由默认的column1、column2。等形式命名;可以在Power Query编辑器中使用“将第一行用作标题”按钮来把数据表的第一行提升为列名。103.1.3 数据的清理行列数据的简单处理2.修改数据列的数据类型在导入数据时,Power BI Desktop会尝试识别每一列数据的数据类型,如果自动识别的数据类型不满足要求,则可以通过鼠标右键单击每一列列名左边的数据类型图标,调出数据类型设置菜单并手工设置来进行修改。113.1.3 数据的清理行列数据的简单处理3.删除行从数据源导入的数据中,会因为各种情况导致有一些数据行是不符合需要的,这时可以使用“删除行”功能对指定的数据行进行删除操作。Power Query中通过“删除行”功能按钮的下拉菜单提供了不同的对数据行进行删除的选择,包括“删除最前面几行”、“删除最后几行”、“删除间隔行”、“删除重复项”以及“删除空行”等。123.1.3 数据的清理行列数据的简单处理导入的数据表中,可能有一些属性列是重复多余的,或者是后续分析不需要的,此时可以通过“删除列”或者“删除其他列”功能实现对不需要的属性列的删除。133.1.3 数据的清理行列数据的简单处理5.添加列出于后续数据分析的需要,有可能需要根据当前数据表中的某一列或者某些列生成新的属性列,例如生成索引列、提取日期中的年、月、日等分量生成新的属性列等;在Power Query的“添加列”选项卡中,通过各种功能按钮提供了丰富的生成新的属性列的方法。143.1.3 数据的清理行列数据的简单处理5.添加列案例将学生信息表中的学号和姓名两列合并为新的一列,并且规定学号和姓名之间使用符号“-”作为分隔符,则可以选中学号和姓名两列,然后使用“添加列”中的“合并列”功能按钮,通过在合并列设置对话框中设置好分隔字符以及新的属性列的名称,就可以实现通过合并列来生成新属性列的任务。153.1.3 数据的清理行列数据的简单处理6.拆分列可以通过“转换”选项卡的“拆分列”功能按钮,根据指定的规则将已有的数据列拆分为若干列,所生成的新的数据列的数量取决于原始的属性列的数据和拆分的规则。案例:前面生成的“学号-姓名”属性列,因为是文本类型的,则可以设置拆分规则为根据分隔符号“-”对原有的属性列进行拆分,这样就得到了“学号”和“姓名”两列。163.1.3 数据的清理行列数据的简单处理7.调整列的位置出于处理或者观察的方便需要,可能需要调整数据表中各个属性列之间的位置关系,首先选中需要调整位置的属性列,然后可以通过以下三种方法移动属性列的位置:1)通过“转换”选项卡的“移动”功能按钮,如图3-19所示;2)在选中列上单击鼠标邮件,在弹出菜单中选择“移动”功能菜单;3)直接用鼠标左键拖动选中的属性列到所需的位置后释放鼠标按键。173.1.3 数据的清理行列数据的简单处理8.填充属性列当从EXCEL文件等类型的数据源导入数据表时,由于原始文件中合并单元格显示等格式控制的原因,会导致属于同一类别的多个数据行连续在一起,但是其中只有一个数据行的相关属性列具有值,其他数据行的同一属性列的值为空值,这时可以通过“转换”选项卡中填充功能,将连续在一起的属于一个类别的多个数据行的类别属性列的值填充为已有的值。183.1.3 数据的清理行列数据的简单处理9.行列互换对于有些数据表,可以从行列两个不同的方向进行结构化,因此可以通过行列互换功能,在需要的时候将列转换为行,从而适应不同方向数据分析的需要。实现具体的处理步骤是:1)将标题降为第一行数据2)通过“行列转置”功能实现行列互换3)再将第一个数据行提升为列标题193.2.1 文本数据的处理1.文本替换案例:通过文本替换去除多余文本。首先选中“评论数”属性列,然后使用“转换”选项卡的“替换值”功能按钮,在“替换值”对话框中,设置要查找的值为“条评论”,替换为就保留为空,这样就实现去掉“评论数”属性列中多余的文本了。接着只需要将该列的数据类型修改为整数类型即可。203.2.1 文本数据的处理2.提取文本数据可以通过“添加列”的“提取”功能按钮提取已有文本类型的属性列中的文本生成新的属性列。案例:通过“学号”列数据提取学生的入学年份,在学号中入学年份是固定的前两个字符。先选中“学号”属性列,然后选择“提取”功能中的“范围”菜单项,在对话框中设置提取的首字符位置为索引0(在Power BI中文本第一个字符的下标是0),然后字符数为2,就可以提取入学年份生成新的属性列。213.2.2 数值数据的处理(1)根据已有的列计算新的列对于导入的学生信息表,根据已有的各门课程成绩,计算每个学生总分。首先选中所有的课程成绩列,接着通过“添加列”选项卡的“统计信息”按钮的下拉菜单选择“总和”,实现计算并添加总分列。223.2.2 数值数据的处理(2)在当前列上进行数值计算可以对当前的数据列数据进行变换处理;案例:将学生信息表中每个人的体育成绩都加5分。选中体育成绩列,在“转换”选项卡中选择“标准”计算按钮,在下列菜单中选择“添加”,在“添加”计算对话框中输入需要增加的值5。233.2.3 日期时间数据处理1.提取日期时间分量在学生信息表中,可以通过学生的出生日期计算得到学生的出生年份。首先选中出生日期列,然后在“转换列”选项卡中选择“日期”按钮,在下拉菜单中选择年,即可提取得到学生的出生年份列。243.2.3 日期时间数据处理2.计算日期间隔在学生信息表中,根据出生日期计算学生的年龄。选中学生的生日列,在“添加列”选项卡中,选择“日期”按钮,然后在下列菜单中选择“年限”,可以得到以“天时分秒毫秒”形式的学生年龄表示。将新建列的列名改为“年龄”,通过“转换”或“添加列”选项卡的“持续时间”按钮的下拉菜单,选择“总年数”将该列的显示改为以“年”为单位,然后改变该列的数据类型为“整数”,则可以按照四舍五入的方式得到学生的年龄。253.3 高级类型数据的处理JSON文件中的每个JSON对象会在Power BI中被解释为一个记录,而JSON文件中若干个JSON对象构成的数组会在Power BI中被解释为一个列表。263.3 高级类型数据的处理JSON文件中的每个JSON对象会在Power BI中被解释为一个记录,而JSON文件中若干个JSON对象构成的数组会在Power BI中被解释为一个列表。27

    注意事项

    本文(第3章 数据处理基础教学课件.pptx)为本站会员(春哥&#****71;)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开