信息技术必修1第五章数据处理和可视化表达知识点梳理.docx
《信息技术必修1第五章数据处理和可视化表达知识点梳理.docx》由会员分享,可在线阅读,更多相关《信息技术必修1第五章数据处理和可视化表达知识点梳理.docx(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第五章 数据处理和可视化表达知识点梳理一、知识框架二、知识点归纳(一)认识大数据1、大数据的概念:是指无法在可承受的时间范围内用常规软件工具进行高效捕 捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发 现力和流程优化能力的海量、高增长率和多样化的信息资产。2、大数据的特征:(1)从互联网产生大数据的角度来看(“4V”特征):大量(Volume):数据体量巨大多样(Variety):数据类型繁多低价值密度(Value):价值密度低高速(Velocity):变化速度快(2)从互联网思维的角度来看:样本渐趋于总体精确让位于模糊相关性重于因果(3)从大数据存储与计算的角度来看:分
2、布式存储分布式并行计算3、传统数据与大数据的区别:传统数据大数据数据量小数据体量巨大数据类型少数据类型繁多价值密度高价值密度低更新速度慢更新速度快追求数据精准性追求数据模糊性本地存储分布式存储4、大数据带来的影响:(1)积极影响:方便支付方便出行方便购物与产品推介方便看病与诊断病情(2)负面影响:个人隐私泄露信息伤害与诈骗(二)数据的采集1、数据采集的三种基本方法:(1)系统日志采集法系统日志采集方法:在目标主机上安装一个小程序,将目标主机的文本、应 用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、监控和管 理。系统日志采集法的作用:A监视系统中发生的事件O检查错误发生的原因n寻
3、找受到攻击时攻击者留下的痕迹(2)网络数据采集法网络数据采集方法:通过网络爬虫或者网站公开API等方式从网站上获取数 据信息。网络爬虫:从一个或若干个初始网页的URL开始,获得初始网页上的URL, 在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统 的一定停止条件。(3)其他数据采集法2、Python网络数据采集第三方库:(1) numpy(2) scipy(3) pandas(4) matplotlib3、python导入第三方库的方式:(1) import modele关键字模块名(2) from module import name关键字 模块名 关键字 方法名4、
4、数据的存储方式:(1)把数据存在本地内部(2)把数据放在第三方公共或私有的“云端”存储5、数据的保护:(1)数据安全保护技术:数据加密、数据备份、数据镜像、增加防火墙。(2)数据的隐私保护:数据收集时进行数据精度处理数据共享时进行访问控制数据发布时进行人工加扰数据分析时进行数据匿名处理6、隐私泄露的解决办法:(1)技术手段:数据隐私保护的四种方式(2)提高自身保护意识(3)对数据使用者进行道德和法律上的约束(三)数据的分析1、数据分析的步骤:(1)特征探索数据特征探索的主要任务:对数据进行预处理,发现和处理缺失值、异常数 据,绘制直方图,观察分析数据的分部特征,求最大值、最小值、极差等描述性
5、统计量。(2)关联分析关联分析的概念:分析并发现存在于大数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。常见案例:超市某些商品捆绑促销,新高考选修学科的选择。(3)聚类与分类聚类与分类的概念:一种探索性分析,不必事先给出分类标准,从样本数据 出发,自动进行分类,进而达到“物以类聚,人以群分”的效果。常见的算法:K-Means算法,自下而上的聚类分析方法。(4)建立模型(5)模型评价2、数据分类:(1)数据分类的概念:是数据分析处理中最基本的方法,基于样本数据先训练 构建分类函数或者分类模型,该分类器具有将待分类数据项映射到某一特点类别 的功能。(2)常见的数据分类技术
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息技术 必修 第五 数据处理 可视化 表达 知识点 梳理
限制150内