信息与智能科学导论-教案-08.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《信息与智能科学导论-教案-08.ppt》由会员分享,可在线阅读,更多相关《信息与智能科学导论-教案-08.ppt(56页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论8.大数据导论大数据导论王燕王燕天津科技大学天津科技大学1Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论主要内容主要内容8.1大数据概论大数据概论8.2大数据的处理流程大数据的处理流程8.3大数据的应用领域大数据的应用领域2Tianjin University of Science&Technology人
2、工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论8.1大数据概论大数据概论数据从数据从Web2.0阶段的用户自主原创生成,转阶段的用户自主原创生成,转变为由感知系统自动生成数据的阶段,数据已变为由感知系统自动生成数据的阶段,数据已经成为企业最有价值的资产。经成为企业最有价值的资产。3Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论数据的爆发式增长使数据的存储单位的规模越数据的爆发式增长使数据的存储单位的规模越来越大,用来表示数据存储容
3、量的计算机存储来越大,用来表示数据存储容量的计算机存储单位见表单位见表8-1。4存储单位名称缩写符号换算关系Byte(字节)B1 Byte(B)=8 bitKilo Byte(千字节)KB1 KB=1024BMega Byte(兆字节)MB1 MB=1024 KBGiga Byte(吉字节)GB1 GB=1024 MBTera Byte(太字节)TB1 TB=1024 GBPeta Byte(拍字节)PB1 PB=1024 TBExa Byte(艾字节)EB1 EB=1024 PBZetta Byte(泽字节)ZB1 ZB=1024 EBYotta Byte(尧字节)YB1YB=1024 ZB
4、Bronto Byte(千秭字节)BB1 BB=1024 YBNona Byte(暂未定名)NB1 NB=1024 BBDogga Byte(暂未定名)DB1 DB=1024 NBCorydon Byte(暂未定名)CB1 CB=1024DBTianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论数据产生的数据产生的3个个阶段阶段(1)应用程序生成数据阶段)应用程序生成数据阶段数据数据的产生方式是被动的的产生方式是被动的5Tianjin University of Science&
5、Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论数据产生的数据产生的3个个阶段阶段(2)用户原创产生数据)用户原创产生数据阶段阶段数据由数据由用户自主原创生成用户自主原创生成6Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论数据产生的数据产生的3个个阶段阶段(3)数据感知阶段)数据感知阶段数据由数据由感知系统自动感知系统自动生成生成7Tianjin University of Science&Technology
6、人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论数据的数据的3种种类型类型(1)结构化数据)结构化数据结构化结构化数据数据具有较强的结构模式,有固定格式具有较强的结构模式,有固定格式和有限和有限长度长度关系型数据库中的数据表就是结构化数据关系型数据库中的数据表就是结构化数据8学生编号姓名性别年龄是否团员籍贯2018100201赵军男18是湖南长沙2017100202刘石磊男19否湖北武汉2017100203曹坚毅男18是天津2017100204曾小惠女18是北京Tianjin University of Science&Technology人工智能学院
7、人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论数据的数据的3种种类型类型(2)半结构化)半结构化数据数据半结构化数据是一种弱化的结构化数据半结构化数据是一种弱化的结构化数据形式形式这类数据中的结构特征相对容易获取和这类数据中的结构特征相对容易获取和发现发现。这这类数据中的结构特征相对容易获取和发现,类数据中的结构特征相对容易获取和发现,通常采用通常采用XML、JSON等标记语言来表示,等标记语言来表示,HTML也可以认为是一种半结构化的数据。也可以认为是一种半结构化的数据。9Tianjin University of Science&Technology人工智能
8、学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论数据的数据的3种种类型类型(3)非结构化数据)非结构化数据非结构化数据是指不遵循统一的数据模式或者非结构化数据是指不遵循统一的数据模式或者模型,不定长、无固定格式的模型,不定长、无固定格式的数据数据系统日志、文档、图像、音频、视频等数据都系统日志、文档、图像、音频、视频等数据都属于非结构化数据属于非结构化数据10Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论大数据产生的背景大数据产生的背景大
9、数据摩尔定律:数据每隔大数据摩尔定律:数据每隔12个月增长个月增长50%随着物联网、移动互联网、感应网络等新数据随着物联网、移动互联网、感应网络等新数据源的出现,同时也导致非结构化、半结构化数源的出现,同时也导致非结构化、半结构化数据呈爆发式增长。预计到据呈爆发式增长。预计到2020年,全球将拥有年,全球将拥有44ZB的数据量,比的数据量,比2010年增长了近年增长了近50倍倍11Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论大数据的概念和特征大数据的概念和特征目前通常认
10、为大数据具有目前通常认为大数据具有“4V”特征特征数据规模庞大(数据规模庞大(Volume)数据种类繁多(数据种类繁多(Variety)数据变化频繁(数据变化频繁(Velocity)数据价值密度低(数据价值密度低(Value)12Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论8.2大数据的处理流程大数据的处理流程大数据的处理流程可以理解为:在合适工具的大数据的处理流程可以理解为:在合适工具的辅助下,对异构的数据源进行采集和集成,然辅助下,对异构的数据源进行采集和集成,然后
11、按照一定的标准进行存储,并利用适当的数后按照一定的标准进行存储,并利用适当的数据分析技术对存储的数据进行分析,从中提取据分析技术对存储的数据进行分析,从中提取有益的价值并利用恰当方式将结果展现给终端有益的价值并利用恰当方式将结果展现给终端用户。用户。13Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论1.数据采集数据采集与预处理与预处理如果要从数据中获取价值,首先需要从现实世如果要从数据中获取价值,首先需要从现实世界中采集信息,并对信息进行计量和界中采集信息,并对信息进行计
12、量和记录记录。大数据的来源多种多样,而不同来源的数据的大数据的来源多种多样,而不同来源的数据的采集方式也不相同。采集方式也不相同。14Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论大数据的来源大数据的来源(1)对现实世界的测量)对现实世界的测量这类数据是通过感知设备获得的,例如,医疗这类数据是通过感知设备获得的,例如,医疗影像数据,二维码或条形码扫描数据,摄像头影像数据,二维码或条形码扫描数据,摄像头监控数据,用于监测天气、水、智能电网的传监控数据,用于监测天气、水、智能
13、电网的传感数据以及应用服务器日志等。感数据以及应用服务器日志等。15Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论大数据的来源大数据的来源(2)人类的记录)人类的记录这类数据是由人录入计算机形成的,主要包括这类数据是由人录入计算机形成的,主要包括关系型数据库中的数据和数据仓库中的数据,关系型数据库中的数据和数据仓库中的数据,如企业资源计划(如企业资源计划(ERP)系统、客户关系管理)系统、客户关系管理(CRM)系统等产生的数据。)系统等产生的数据。另一类典型的数据来源就是
14、人类用户在使用信另一类典型的数据来源就是人类用户在使用信息系统过程中记录的行为,包括微博、微信、息系统过程中记录的行为,包括微博、微信、搜索引擎、电子商务平台等。搜索引擎、电子商务平台等。16Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论大数据的来源大数据的来源(3)计算机生成)计算机生成这类数据是计算机通过模拟现实世界生成的数这类数据是计算机通过模拟现实世界生成的数据。例如,通过计算机动态模拟城市交通、生据。例如,通过计算机动态模拟城市交通、生成噪声、流量等信息。成噪声
15、、流量等信息。17Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论大数据的采集方法大数据的采集方法根据数据源特征的不同,数据的采集方法根据数据源特征的不同,数据的采集方法多种多样多种多样。(1)传感器)传感器18Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论大数据的采集方法大数据的采集方法(2)系统日志)系统日志系统日志由系统运行产生,以特殊的文件格式
16、系统日志由系统运行产生,以特殊的文件格式记录系统的活动,包含系统的行为、状态以及记录系统的活动,包含系统的行为、状态以及用户与系统的交互等。用户与系统的交互等。19Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论Hadoop采用采用Chukwa收集和分析集群自身的日志信息收集和分析集群自身的日志信息Agent运行在每个客户端上,负责采集原始数据,并发送给运行在每个客户端上,负责采集原始数据,并发送给Collector。Collector接收接收Agents发送的数据,并定时
17、写入集群的存储发送的数据,并定时写入集群的存储空间中。空间中。MapReducejobs定时启动,负责对集群中的数据分类、排定时启动,负责对集群中的数据分类、排序、去重和合并,实现分析和归档数据。序、去重和合并,实现分析和归档数据。20Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论大数据的采集方法大数据的采集方法(3)网络爬虫)网络爬虫网络爬虫是指为搜索引擎下载并存储网页的程网络爬虫是指为搜索引擎下载并存储网页的程序,爬虫顺序地访问初始队列中的一组网页链序,爬虫顺序地访问
18、初始队列中的一组网页链接,并为所有网页链接分配一个优先级。爬虫接,并为所有网页链接分配一个优先级。爬虫从队列中获得具有一定优先级的从队列中获得具有一定优先级的URL,下载该,下载该网页,随后解析网页中包含的网页,随后解析网页中包含的URLs,并将这些,并将这些新新URLs添加到队列中。这个过程一直重复,直添加到队列中。这个过程一直重复,直到爬虫程序停止为止。到爬虫程序停止为止。21Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论【例【例8.1】使用使用Python爬取京东商
19、城中所有爬取京东商城中所有“电电视视”商品的商品名称和价格信息。商品的商品名称和价格信息。22Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论大数据的采集方法大数据的采集方法(4)众包)众包众包指的是一个公司或机构把过去由员工执行的众包指的是一个公司或机构把过去由员工执行的工作任务,以自由、自愿的形式外包给非特定的工作任务,以自由、自愿的形式外包给非特定的(而且通常是大型的)大众志愿者的做法。(而且通常是大型的)大众志愿者的做法。23Tianjin University o
20、f Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论24【例【例8.2】使用使用Python获取获取“人人猎头人人猎头”网首页网首页最新职位的第一页的职位名称信息。最新职位的第一页的职位名称信息。Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论大数据的预处理大数据的预处理现实世界中的数据经常是不完整、不一致的现实世界中的数据经常是不完整、不一致的脏脏数数据据,无法直接进行数据挖掘,或挖掘结果不,无
21、法直接进行数据挖掘,或挖掘结果不尽如人意。数据的预处理是指对所采集的数据尽如人意。数据的预处理是指对所采集的数据进行分类,或分组前进行审核、筛选、排序等进行分类,或分组前进行审核、筛选、排序等必要的处理。必要的处理。25Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论数据预处理有多种方法:数据预处理有多种方法:(1)数据清洗、去掉噪声和无关)数据清洗、去掉噪声和无关数据数据(2)数据集成)数据集成将多个数据源中的数据结合起来进行一致的存将多个数据源中的数据结合起来进行一致的
22、存储储。在例在例8.1和例和例8.2中,最终可以将爬取的页中,最终可以将爬取的页面数据根据实际需要保存到面数据根据实际需要保存到Excel文件或者相应文件或者相应的关系型数据库中,如的关系型数据库中,如MySQL、Oracle数据库,数据库,并可以对永久保存的数据进行多次数据挖掘与并可以对永久保存的数据进行多次数据挖掘与分析。分析。26Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论数据预处理有多种方法:数据预处理有多种方法:(3)数据变换)数据变换把原始数据转换成适合进行
23、数据挖掘的形式。把原始数据转换成适合进行数据挖掘的形式。(4)数据规约)数据规约主要方法包括数据立方体聚集、维度归约、数主要方法包括数据立方体聚集、维度归约、数据压缩、数值归约、离散化和概念分层等。据压缩、数值归约、离散化和概念分层等。27Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论2.数据管理数据管理数据管理技术是指对数据进行分类、编码、存数据管理技术是指对数据进行分类、编码、存储、索引和查询,是大数据处理流程中的关键储、索引和查询,是大数据处理流程中的关键技术,负责
24、数据从落地存储(写)到查询检索技术,负责数据从落地存储(写)到查询检索(读)。(读)。28Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论一一.分布式分布式文件系统文件系统典型的分布式文件系统有典型的分布式文件系统有GFS和和HDFS。(1)GFS(GoogleFileSystem)是)是Google公司为公司为了存储海量数据而设计的了存储海量数据而设计的专用专用文件系统文件系统。29Tianjin University of Science&Technology人工智能学
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 智能 科学 导论 教案 08
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内