第8章大数据采集-习题答案.docx

上传人：太**

文档编号：94704345

上传时间：2023-08-05

格式：DOCX

页数：7

大小：22.94KB

( 4.5 )

《第8章大数据采集-习题答案.docx》由会员分享，可在线阅读，更多相关《第8章大数据采集-习题答案.docx（7页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、第8章大数据采集习题8.1选择题1、数据采集的数据对象类型包括（D ）。A.结构化数据B.半结构化数据C.非结构化数据D.以上都是2、数据采集的主要性能要求不包括以下的（B ）。A.全面性B.安全性C多维性D.高效性3、大数据采集相对于传统数据采集的优势不包括（C ）。A.数据源广泛 B.安全性C.速度有限D.数据类型丰富4、大数据采集和传统数据采集的区别可以从下面的（B ）看出。数据源数据量数据类型数据产生速度数据存储A.B.C.D.5、下面不属于Scrapy的组件的是（A ）。A.传感器B.引擎C.下载器D. Spider6、下面选项属于典型的网络数据采集工具的是（A ）。A. Scr

2、apyB. FluentdC. LogstashD. Flume7、目前传感器的主要组件不包括（D ）A.敏感元件B.转换元件C信号调理转换电路D.二极管8、下面不属于典型日志系统的是（D ）。A. FluentdB. LogstashC. ScribeD. Notch9、Nutch的主要特点不包括（C ）。A.伸缩性强B.可靠性高C.安全性强D.速度快10、定向数据采集特别重视（A ）。A.页面与主题的相关度B.链接的安全性C.系统的运行时间D.数据量的大小8,2填空题1、数据采集的对象类型包括结构化数据、半结构化数据、（非结构化数据）。2、数据采集三个基本的性能要求：全面性、（多维性）

3、、高效性。3、传感器一般由敏感元件、（转换原件）、信号调理转换电路组成，有时还需外加辅助电源来提供转换能量。4、分布式采集系统的主要特点包括（伸缩性强）、可靠性高、速度快。5、分布式数据采集系统常常采用（主从式）和对等式这两种架构。8.3简答题1、请简述网络爬虫的基本原理。JUhi网络爬虫又称为网络蜘蛛、网络机器人，是一种按照一定的规则自动地抓取Web数据的程序或者脚本。网络爬虫会从一个或若干初始页面的统一资源定位器开始，获得初始页面上的数据，并且在抓取页面数据的过程中，不断从当前页面中抽取新的URL并放入URL 队列，直到满足设置的停止条件为止。2、请简述系统日志的概念及作用。

4、答:系统日志用于在时间上连续地记录由系统指定的对象的动作及动作结果。系统日志可以记录系统进程和设备驱动程序的活动，包括系统服务的开启、关闭、暂停等状态，以及设备驱动程序启动、自检、故障等情况。操作系统、数据库、网络系统等平台每天都会产生大量的系统日志，收集、存储、处理和管理这些系统日志需要特定的日志系统。3、请描述分布式数据采集系统的两种典型架构。答：对于主从式架构而言，由一台专门的主服务器来维护待抓取的URL队列，该服务器负责将URL分发到不同的工作服务器，而工作服务器则负责页面下载的工作。主服务器除了维护待抓取的URL队列以及分发URL,还要负责调节各个工作服务器的负载情况。

5、基于主从式架构的分布式数据采集系统的优点是结构简单，容易管理和配置；其缺点是主服务器容易成为系统性能的瓶颈，特别是当工作服务器数量过于庞大时。基于对等式架构的分布式数据采集系统没有主服务器,所有的抓取服务器在分工上没有区别，分别负责不同部分的网络数据的抓取。每一台抓取服务器都可以从待抓取的URL队列中利用Hash等方式获取需要负责抓取的部分URL,然后并行抓取。8.4解答题1、在大数据时代，数据采集的工具多种多样。网络爬虫是一种按照一定的规则自动地抓取 Web数据的程序或者脚本。请描述网络爬虫的工作流程。选取一部分种子URLo 将这些URL放入待抓取URL队列。从待抓取URL队列

6、取出待抓取URL,通过域名解析，得到主机的IP地址，将URL 对应的页面下载下来，并存储到已下载的页面库中。将这些URL放入已抓取URL队列。分析已抓取URL队列中的URL,分析其中的其他URL,并且将这些URL放入待抓取URL队列，进入下一轮循环。2、Fluentd是Apache 2.0协议许可的开源日志数据收集器，支持用户实时地从数千台机器收集数据，主要特色包括哪些？答：使用JSON格式统一日志记录。Fluentd将数据结构化为JSON格式，不仅可以更容易地统一处理日志数据的收集、过滤、缓冲和输出，还可以保留灵活的模式。可插拔架构。Fluentd拥有灵活的插件系统，用户可以通

7、过插件更好地使用日志。可插拔架构，Fluentd的众多插件使其可以兼容数十种数据源和数据输出，插件也很容易编写和部署。节省资源开销。Fluentd是采用C语言和Ruby语言编写的，需要较少系统资源，实例可以运行在数十MB的内存上，每个引擎每秒可以处理数以万计的事件。基于内存和文件的缓存。Fluentd支持基于内存和文件的缓存，可防止数据丢失。数据源与后端系统分离。Fluentd通过在数据源与后端系统之间提供统一的日志层来将二者分离。日志层允许开发人员和数据分析师使用多种类型的日志，可以更好地利用日志数据。3、基于Hadoop平台的Nutch能够实现分布式数据的采集。请具体描述N

8、utch的运行流程。答：Nutch的工作主要可以分为两个环节：首先采集相关的页面，然后将采集的页面数据存放在本地，并建立索引。建立初始种子链接的URL集合，将URL集合存放在文本，然后上传至HDFS。执行Inject的操作，将种子URL集合注入URL队列。执行Generate的操作，通过URL队列生成采集所需的链接列表。执行Fetch的操作，根据链接列表的种子链接采集相关的页面内容。执行Parse的操作，解析采集到的页面数据，然后生成parsedata和parsetex两个文件目录，分别存放页面文本内容和页面中的超链接等信息。执行Update的操作，将抽取的新链接更新到始种子

9、链接队列。循环执行步骤3到步骤6,当满足设定的条件时，结束数据采集工作。4、请分析何谓通用数据采集，何谓定向数据采集；请描述定向数据采集算法的典型步骤。答：通用数据采集的对象是从特定的种子链接开始的，采用广度搜索的方式，其目标是采集互联网上的全部页面。与通用数据采集相对的是以聚焦网络爬虫为核心的定向数据采集。定向数据采集服务于特定的专业群体，采集的数据只局限于某个主题或者与其相关的领域。定向数据采集算法的步骤包括：将初始的种子URL全部放入链接队歹U,根据初始的种子URL进行页面数据的采集, 提取锚文本的内容、页面的标题及正文。对正文进行分词的操作，计算关键字的权重和文本的相关度。

10、利用文本聚类算法将相关度高文本聚集在一起。根据聚类好的文本，利用朴素贝叶斯算法计算待抓取的页面属于该主题的概率。通过归类完成的与主题相关的页面生成页面主题评价器，假设所采集页面的数量小于预先设定的最大页面数量，则循环执行以下步骤。从链接集合中选出得分最高的链接，采集该链接对应页面的数据，抽取对应页面中的链接并插入链接队列。计算页面的主题相关度，若大于阈值，则保存所对应的页面，否则进行交叉和变异操作。及时调整当前页面得分，重新计算从当前页面抽取的链接对应页面的得分。根据最新的页面得分重排链接队列中的所有链接，把与主题相关的页面放入训练集合中，获取最新的页面主题评价器。比较

11、计算出的相关度与阈值，大于阈值的链接则重新返回步骤1;小于阈值的链接则直接舍弃。按照上述的步骤，对页面进行定向数据采集，直到采集的页面数量大于或等于预先设定的最大页面数量为止。大数据安全分析05_数据采集技术大数据分析中的数据采集方式包括Logstashx Flumes Fluentdx Logtail 等，本文对这几种数据采集技术进行简要介绍。LogstashLogstash是一个具备实时处理能力的开源的数据收集引擎。可以动态地从不同的来源收集数据，将数据处理（过滤、变形）过之后统一输出到某个特定地址，为将来更多样化的数据分析做准备。Logstash 的作用包括：收集各类系统日志：

12、如Apache日志、Iog4j （Java程序日志）、Windows系统事件日志。通过Filebeat能够实现安全、快速的的日志传输。能够与很多采用UDP及TCP协议的工具对接，如JMX、NetFlow 等等。Elasticsearch的数据采集的利器，可以配合Elasticsearch和 Kibana使用；对input、filter及output部分可以使用多种插件灵活配合部署用以实现不同功能。在Web接口服务中，可以收集HTTP请求。能够与各类SQL 或非SQL数据库对接，只要这个数据库支持JDBC接口。FlumeFlume是由Cloudera公司开源的，分布式可靠，高可用的系统，它能

13、够将不同数据源的海量日志数据进行高效收集、聚合、移动、最后存储到一个中心化数据存储系统中。由原来的Flume 0G到现在的Flume NG,进行了架构重构，并且现在NG版本完全不兼容原来的0G版本，经过架构重构后，Flume NG更像是一个轻量级的小工具，适应各种方式的日志收集，并支持failover和负载均衡。Flume NG的特点：NG只有一种角色的节点:代理节点(Agent)没有collector,master节点，这是核心组件最核心的变化去除了 physical nodes,local nodes的概念和相关内容agent节点的组成也发生了变化，脱离了 zookeeperFl

14、uentdFluentd是一个日志收集系统，通过丰富的插件，可以收集来自于各种系统或应用的日志，然后根据用户定义将日志做分类处理。通过 Fluentd,你可以非常轻易的实现像追踪日志文件并将其过滤后转存到MongoDB这样的操作。Fluentd可以彻底的将你从繁琐的日志处理中解放出来。本质上,Fluentd可以分为客户端和服务端两种模块。客户端为安装在被采集系统中的程序，用于读取log文件等信息，并发送到Fluentd的服务端。服务端则是一个收集器。在Fluentd服务端，我们可以进行相应的配置，使其可以对收集到的数据进行过滤和处理，并最终路由到下一跳。下一跳可以是用于存储的数据

15、库，如 MongoDB, Amazon S3,也可以是其他的数据处理平台，比如 Hadoopo Fluentd有四个关键功能，使其适合构建清洁，可靠的日志管道：使用JSON进行统一日志记录：Fluentd尝试尽可能地将数据结构化为JSON：这允许Fluentd统一处理日志数据的所有方面：收集，过滤，缓冲和跨多个源和目标（统一日志层）输出日志。使用JSON可以更轻松地进行下游数据处理，因为它具有足够的结构, 可以在保留灵活模式的同时进行访问。可插拔架构：Fluentd拥有灵活的插件系统，允许社区扩展其功能。我们的500多个社区贡献插件连接了数十个数据源和数据输出。通过利用插件，您可以立

16、即开始更好地使用日志。所需的资源较少：Fluentd是用C语言和Ruby组合编写的，只需要很少的系统资源。vanilla实例运行30-40MB内存，可处理 13,000个事件/秒/核心。内置可靠性：Fluentd支持基于内存和文件的缓冲，以防止节点间数据丢失。Fluentd还支持强大的故障转移功能，可以设置为高可用性。LogtailLogtail是日志服务提供的一种便于日志接入的日志采集客户端。通过在您的机器上安装Logtail来监听指定的日志文件并自动把新写入到文件的日志上传到您所指定的日志库。Logtail的功能优势主要包括以下几个方面：基于日志文件、无侵入式的收集日志。用户无

17、需修改应用程序代码，且日志收集不会影响用户应用程序的运行逻辑。除支持文本日志采集外，还支持binlog、http、容器stdout 等采集方式。对于容器支持友好，支持标准容器、swarm集群、Kubernetes集群等容器集群的数据采集。能够稳定地处理日志收集过程中各种异常。当遇到网络异常、服务端异常等问题时会采用主动重试、本地缓存数据等措施保障数据安全。基于服务端的集中管理能力。用户在安装Logtail后，只需要在服务端集中配置需要收集的机器、收集方式等信息即可，无需逐个登录服务器进行配置。完善的自我保护机制。为保证运行在客户机器上的收集Agent不会明显影响用户自身服务的性能，Logtail客户端在CPU、内存及网络使用方面都做了严格的限制和保护机制。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 第8章大数据采集-习题答案数据采集习题答案

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：第8章大数据采集-习题答案.docx
链接地址：https://www.taowenge.com/p-94704345.html

第8章 大数据采集-习题答案.docx

第8章大数据采集-习题答案.docx