信息技术必修1课件第五章数据处理和可视化表达知识点梳理.docx
-
资源ID:95577614
资源大小:17.55KB
全文页数:9页
- 资源格式: DOCX
下载积分:15金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
信息技术必修1课件第五章数据处理和可视化表达知识点梳理.docx
第五章 数据处理和可视化表达知识点梳理一、知识框架二、知识点归纳(一)认识大数据1、大数据的概念:是指无法在可承受的时间范围内用常规软件工具进行高效捕 捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发 现力和流程优化能力的海量、高增长率和多样化的信息资产。2、大数据的特征:(1)从互联网产生大数据的角度来看(“4V”特征):大量(Volume):数据体量巨大多样(Variety):数据类型繁多低价值密度(Value):价值密度低高速(Velocity):变化速度快(2)从互联网思维的角度来看:样本渐趋于总体精确让位于模糊相关性重于因果(3)从大数据存储与计算的角度来看:分布式存储分布式并行计算3、传统数据与大数据的区别:传统数据大数据数据量小数据体量巨大数据类型少数据类型繁多价值密度高价值密度低更新速度慢更新速度快追求数据精准性追求数据模糊性本地存储分布式存储4、大数据带来的影响:(1)积极影响:方便支付方便出行方便购物与产品推介方便看病与诊断病情(2)负面影响:个人隐私泄露信息伤害与诈骗(二)数据的采集1、数据采集的三种基本方法:(1)系统日志采集法系统日志采集方法:在目标主机上安装一个小程序,将目标主机的文本、应 用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、监控和管 理。系统日志采集法的作用:A监视系统中发生的事件O检查错误发生的原因n寻找受到攻击时攻击者留下的痕迹(2)网络数据采集法网络数据采集方法:通过网络爬虫或者网站公开API等方式从网站上获取数 据信息。网络爬虫:从一个或若干个初始网页的URL开始,获得初始网页上的URL, 在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统 的一定停止条件。(3)其他数据采集法2、Python网络数据采集第三方库:(1) numpy(2) scipy(3) pandas(4) matplotlib3、python导入第三方库的方式:(1) import modele关键字模块名(2) from module import name关键字 模块名 关键字 方法名4、数据的存储方式:(1)把数据存在本地内部(2)把数据放在第三方公共或私有的“云端”存储5、数据的保护:(1)数据安全保护技术:数据加密、数据备份、数据镜像、增加防火墙。(2)数据的隐私保护:数据收集时进行数据精度处理数据共享时进行访问控制数据发布时进行人工加扰数据分析时进行数据匿名处理6、隐私泄露的解决办法:(1)技术手段:数据隐私保护的四种方式(2)提高自身保护意识(3)对数据使用者进行道德和法律上的约束(三)数据的分析1、数据分析的步骤:(1)特征探索数据特征探索的主要任务:对数据进行预处理,发现和处理缺失值、异常数 据,绘制直方图,观察分析数据的分部特征,求最大值、最小值、极差等描述性 统计量。(2)关联分析关联分析的概念:分析并发现存在于大数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。常见案例:超市某些商品捆绑促销,新高考选修学科的选择。(3)聚类与分类聚类与分类的概念:一种探索性分析,不必事先给出分类标准,从样本数据 出发,自动进行分类,进而达到“物以类聚,人以群分”的效果。常见的算法:K-Means算法,自下而上的聚类分析方法。(4)建立模型(5)模型评价2、数据分类:(1)数据分类的概念:是数据分析处理中最基本的方法,基于样本数据先训练 构建分类函数或者分类模型,该分类器具有将待分类数据项映射到某一特点类别 的功能。(2)常见的数据分类技术:贝叶斯分类技术(三)数据的可视化表达1、数据分析的步骤:(1)数据可视化的呈现类型:探索类:帮助人们发现数据背后的价值解释类:简单明了地呈现数据2、数据分析类型及其对应的可视化呈现:(1)有关趋势的分析:分组柱形图、堆叠柱形图、折线图、柱线混合图(2)有关比例的分析:百分比圆环图、饼图、圈图、堆叠面积图(3)有关逻辑关系的分析:散点图、雷达图、网络关系图、词云(4)有关空间关系的分析:数据地图、动态热力图、3D动态显示图3、数据可视化表达的工具:(1) Seaborm :主要关注统计模型的可视化,基于且高度依赖于Matplotib.(2) Bokeh :能实现交互式可视化,独立于Matplotib ,能通过浏览器与数据驱动文档的风格呈现。三、练习题1、从互联网产生大数据的角度来看,大数据具有的特征是(A )。A、“4V”特征:大量(Volume) 多样(Variety)、低价值密度(Value) 高速(Velocity)B、样本渐趋于总体,精确让位于模糊,相关性重于因果C、分布式存储,分布式并行计算D、没有特征2、下列可以用于分析数据趋势的是(B )。A、饼图B、折线图C、动态热力图D、词云图3、数据分析的方法不包括(A )。A、线性分析B、关联分析C、聚类分析D、数据分类4、思考题:如果要求你对本班同学喜欢看的书籍进行分类统计,并对其进行数 据分析,你会怎么做?参考答案1:(1)项目需求分析(分析书籍分类统计的项目):书名、图书类别、出版时间、 来源、同学姓名、性别等。(2)数据采集(能够选择合适的工具采集和保存信息):可使用文件共享或选 择协同办公软件采集书籍信息记录,能够使用硬盘存储或云存储方式保存数据。(3)数据分析与可视化表达:采用词云图、折线图或饼图等方式,按照图书类 别分析出本班同学的图书喜好,能分析出某位同学的兴趣爱好。参考答案2:(1)项目需求分析(分析书籍分类统计的项目):除参考答案1统计项目外, 统计图书阅读时间分布、选择图书的理由等信息。(2)数据采集(能够选择合适的工具采集和保存信息):独立或者合作设计开 发出数据采集系统或软件,能够采用云存储等方式保护数据,并且考虑到同学隐 私数据的保护问题。(3)数据分析与可视化表达:采用词云图、折线图或饼图等方式,按照图书类 别分析出本班同学的图书喜好,能分析出某位同学的兴趣爱好;使用聚类分析做 出群体划分;通过数据分析除个体阅读偏好、性格特征,能提出关联图书推荐建 议或为职业规划给出建议;分析出阅读量与血液成绩之间的关系,判断其学业发 展趋势。5、情景题:智能手环作为一种智能可穿戴设备,可以记录用户日常生活中的锻 炼、睡眠、身体状况等实时数据,并利用数据给用户提供健康建议。请简要分 析智能手环采集数据的过程,并分析智能手环是如何利用采集的数据给用户建 议的。参考答案1:(1)以运动为例,通过手环中的加速度传感器捕捉到人体的各项数据,并暂时存储在手环的存储器中,有网络时自动上传至服务器。(2)手环自身一般不具备分析功能,数据分析是在服务器端完成的。服务器通 过使用各种算法和科学缜密的逻辑运算对采集的数据进行分析,建立健康模型, 最终将这些数据转变成手环可读数字一一步数、距离、消耗的卡路里数值等呈现 给终端用户,还可以通过与手环相连的手机端将用户的运动、睡眠、心率等数据 可视化呈现出来并给用户提供健康建议。参考答案2:(1)运动时利用加速度传感器是三轴加速度传感器,而且是通过捕捉人体三个 维度的各项数据,并上传至服务器端进行统计分析。或者增加实例,例如利用手 环监测心率,主要通过光感进行,采用绿色搭配感光光电二极管实时监测流经手 腕血液的流量来获取心率信息。当用户的心脏跳动时,会有更多的血液流过用户 的手腕,吕光的吸收量也会越大;心脏跳动间隙,血液流量减少,绿光的吸收也 会减少。(2)实际上仅仅依靠手环采集数据做分析是不全面的,还需要结合用户的年龄、 身高、体重、性别等个人信息进行数据分析,因此个人信息填写正确与否直接影 响数据分析的准确性。