云计算与大数据--配套习题(徐小龙) 第8章 大数据采集-习题答案.docx
《云计算与大数据--配套习题(徐小龙) 第8章 大数据采集-习题答案.docx》由会员分享,可在线阅读,更多相关《云计算与大数据--配套习题(徐小龙) 第8章 大数据采集-习题答案.docx(3页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第8章大数据采集习题8.1选择题1、数据采集的数据对象类型包括(D )。A.结构化数据B.半结构化数据C.非结构化数据D.以上都是2、数据采集的主要性能要求不包括以下的(B )。A.全面性B.平安性C.多维性D.高效性3、大数据采集相对于传统数据采集的优势不包括(C )oA.数据源广泛 B.平安性C.速度有限D.数据类型丰富4、大数据采集和传统数据采集的区别可以从下面的(B )看出。数据源 数据量 数据类型 数据产生速度数据存储A.B.C.D.5、下面不属于Scrapy的组件的是(A )。C.下载器D. SpiderA.传感器B.引擎6、下面选项属于典型的网络数据采集工具的是(A )。A. S
2、crapyB. FluentdC. LogstashD. Flume7、目前传感器的主要组件不包括(D )oC.信号调理转换电路D.二极管A.敏感元件B.转换元件 8、下面不属于典型日志系统的是(D )。A. FluentdB. LogstashC. ScribeD. Nutch9、Nutch的主要特点不包括(C )oC.平安性强D.速度快A.伸缩性强B.可靠性高 10、定向数据采集特别重视(A )oA.页面与主题的相关度B.链接的平安性C.系统的运行时间D.数据量的大小8.2填空题1、数据采集的对象类型包括结构化数据、半结构化数据、(非结构化数据)o2、数据采集三个基本的性能要求:全面性、(
3、 多维性 )、高效性。3、传感器一般由敏感元件、(转换原件 )、信号调理转换电路组成,有时还需外加辅 助电源来提供转换能量。4、分布式采集系统的主要特点包括(伸缩性强)、可靠性高、速度快。5、分布式数据采集系统常常采用( 主从式)和对等式这两种架构。8.3简答题1、请简述网络爬虫的基本原理。答:网络爬虫又称为网络蜘蛛、网络机器人,是一种按照一定的规那么自动地抓取Web数据 的程序或者脚本。网络爬虫会从一个或假设干初始页面的统一资源定位器开始,获得初始页面 上的数据,并且在抓取页面数据的过程中,不断从当前页面中抽取新的URL并放入URL 队列,直到满足设置的停止条件为止。2、请简述系统日志的概念
4、及作用。答:系统日志用于在时间上连续地记录由系统指定的对象的动作及动作结果。系统日志可以 记录系统进程和设备驱动程序的活动,包括系统服务的开启、关闭、暂停等状态,以及设备 驱动程序启动、自检、故障等情况。操作系统、数据库、网络系统等平台每天都会产生大量 的系统日志,收集、存储、处理和管理这些系统日志需要特定的日志系统。3、请描述分布式数据采集系统的两种典型架构。答: 对于主从式架构而言,由一台专门的主服务器来维护待抓取的URL队列,该服务 器负责将URL分发到不同的工作服务器,而工作服务器那么负责页面下载的工作。 主服务器除了维护待抓取的URL队列以及分发URL,还要负责调节各个工作服务 器的
5、负载情况。基于主从式架构的分布式数据采集系统的优点是结构简单,容易管 理和配置;其缺点是主服务器容易成为系统性能的瓶颈,特别是当工作服务器数量 过于庞大时。 基于对等式架构的分布式数据采集系统没有主服务器,所有的抓取服务器在分工上 没有区别,分别负责不同局部的网络数据的抓取。每一台抓取服务器都可以从待抓 取的URL队列中利用Hash等方式获取需要负责抓取的局部URL,然后并行抓取。8.4解答题1、在大数据时代,数据采集的工具多种多样。网络爬虫是一种按照一定的规那么自动地抓取 Web数据的程序或者脚本。请描述网络爬虫的工作流程。答: 选取一局部种子URLo 将这些URL放入待抓取URL队列。 从
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 云计算与大数据-配套习题徐小龙 第8章 大数据采集-习题答案 计算 数据 配套 习题 小龙 采集 答案
限制150内