《大数据基础与应用》期末试卷及答案2套.docx
期末试卷秘密大数据基础(课程代码:)中It得分评卷人单项选择题(每题2分,共20分)1、当前大数据技术的基础是由()首先提出的。A:微软B:百度C:谷歌D:阿里巴巴2、大数据的起源是()。A:金融B:电信C:互联网D:公共管理3、大数据的最显著特征是()。A:数据规模大B:数据类型多样 C:数据处理速度快D:数据价值密度高4、美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋 流可能发生的地点。这表达了大数据分析理念中的()。A:在数据基础上倾向于全体数据而不是抽样数据 B:在分析方法上更注重相关分析而不是因果分析C:在分析效果上更追究效率而不是绝对精确D:在数据规模上强调相对数据而不是绝对数据 5、以下关于舍恩伯格对大数据特点的说法中,错误的选项是()oA:数据规模大 B:数据类型多样 C:数据处理速度快D:数据价值密度高6、7、8、6、7、8、当前社会中,最为突出的大数据环境是()。A:互联网 B:物联网在数据生命周期管理实践中,()A:数据存储和备份规范C:数据价值觉察和利用以下国家的大数据开展行动中,C:综合国力I):自然资源是执行方法。B:数据管理和维护D:数据应用开发和管理集中表达“重视基础、首都先行”的国家是(A:美国 B:日本 C:中国 D:韩国 9、以下关于大数据的分析理念的说法中,错误的选项是()。A:在数据基础上倾向于全体数据而不是抽样数据 B:在分析方法上更注重相关分析而不是因果分析 C:在分析效果上更追究效率而不是绝对精确 I):在数据规模上强调相对数据而不是绝对数据 10、万维网之父是().A:彼得德鲁克 B:舍恩伯格 C:蒂姆伯纳斯-李D:斯科特布朗得分评卷人得分评卷人填空题(每空2分,共10分)1、IBM公司用3个V来描述大数据的三个基本特征,这3V是2、大数据环境下的隐私担忧,主要表现为。3、当前大数据技术的基础包括、.4、数据仓库的最终目的是5、按照涉及自变量的多少,可以将回归分析分为评卷人评卷人判断题(每题2分,共20分)1、在噪声数据中,波动数据比离群点数据偏离整体水平更大。()2、对于大数据而言,最基本、最重要的要求就是减少错误、保证质量。因此,大数据提供的 信息量要尽量精确。()3、一般而言,分布式数据库是指物理上分散在不同地点,但在逻辑上是统一的数据库。因此 分布式数据库具有物理上的独立性、逻辑上的一体性、性能上的可扩展性等特点。()4、具备很强的报告撰写能力,可以把分析结果通过文字、图表、可视化等多种方式清晰地展 现出来,能够清楚地论述分析结果及可能产生的影响,从而说服决策者信服并采纳其建议,是 数据分析能力对大数据人才的基本要求。()5、谷歌流感趋势充分表达了数据重组和扩展对数据价值的重要意义。()6、决策树是一种基于树形结构的预测模型,每一个树形分叉代表一个分类条件,叶子节点代 表最终的分类结果,其优点在于易于实现,决策时间短,并卜L适合处理非数值型数据。() 7、信息生命周期管理是据生命周期管理的来源,最早由英国企业提出。()8、简单随机抽样,是从总体N个对象中任意抽取n个对象作为样本,最终以这些样本作为调查 对象。在抽取样本时,总体中每个对象被抽中为调有样本的概率可能会有差异。()9、啤酒与尿布的经典案例,充分表达了实验思维在大数据分析理念中的重要性。()10、对于企业来说,给用户进行各种促销或者实施运营策略的时机也比拟重要,而且对不同 兴趣偏好的用户最好集中处理。()评卷人评卷人四、简答题(每题10分,共40分)1、搜索引擎的产生和开展经历了哪几个阶段?试简述各阶段的特点。2、大数据时代数据的存储与管理与传统数据存储方式有何区别?3、常用的数据整理技术有哪些?4、简述大数据存储的概念。(共4页)秘密期末试卷得分评卷人单项选择题(每题2分,共20分)行分评卷入七、 判断题(每题2分,共20分)大数据基础(课程代码:)I、搜索引擎中用户查询所得的信息是()<>A.直接在互联网中获取的B.存储在网络数据库中的C.来自某个网站的D.与网页连接显示的2、对于搜索引擎蜘蛛(Google称之为机器人)程序来讲有三种页面非常重要,以下哪种页面 不属于其中?()A.从未抓取过的新页面B.页面内容之前被采集过但有所改动的页面C.已被删除掉的之前被采集过的页面D.搜索引擎蜘蛛的起始页面3、以下不属于搜索引擎评价指标的是()。A.查全率B.查准率C.响应速度D.下载速度4、不属于大数据主要的存储模型的是()。A.关系型数据库B.列式数据库C.键值存储D.视频数据库5、不属于关系型数据库的是()。A. Oracle B. Sybase C. DB2 D. Microsoft SQL Server6、数据存储方式有()0A.在线存储B.近线存储 C.异地备份 D.以上皆对7.以下不属于大数据基本特征的是()。A.数据规模庞大B.数据的形式多样化C.数据的获取及处理速度快D.数据的处理具有实时性&数据挖掘中关联规那么分析最典型的算法是()。A. KNN 算法 B. Naive Bayes 算法 C. k-incans 算法 D.Aprior 算法9、不属于数据可视化展现方式()oA.鱼骨图B.柏拉图C回归图 D.直方图10、大数据可视化分析工具有(A.Word B.PPT C.Excel D.Google Pinyin1、M叩Reduce的架构分为、 和 这四个组件。2、威胁数据平安的主要因素有:、 和。3、在数据挖掘的分类算法中比拟典型的算法是 算法和 算法。4、.搜索引擎工作工程主耍包括三个阶段,分别是网页阶段,和用户查询服 务阶段。1、决策树是一种基于树形结构的预测模型,每一个树形分叉代表一个分类条件,叶子节点代 表最终的分类结果,其优点在于易于实现,决策时间短,并且适合处理非数值型数据。()2、大数据可以分析与挖掘前之前人们不知道或者滑注意到的模式,可以从海量数据中开展趋 势,虽然也有不精准的时候,但并不能因此而否认大数据挖掘的价值()3、信息生命周期管理是据生命周期管理的来源,最早由英国企业提出。()4、在大数据的荡畴内,应该把用户视为互联网中的数据分子,独立、细致地对其行为进行()5、大数据可以分析与挖掘前之前人们不知道或者滑注意到的模式,可以从海量数据中开展趋 势,虽然也有不精准的时候,但并不能因此而否认大数据挖掘的价值()6、当前,企业提供的大数据解决方案大多基于Ha doop开源工程()7、大数据可以分析与挖掘前之前人们不知道或者滑注意到的模式,可以从海量数据中开展趋势,虽然也有不精准的时候,但并不能因此而否认大数据挖掘的价值()8、在噪声数据中,波动数据比离群点数据偏离整体水平更大。()9、第三方数据处理模式表现为:服务商通过软件即服务或平台即服务形式主义为用户提供自 己的数据上服务商的平台上,由平台进行分析处理,用户可以在线查看相应的结果() 10、简单随机抽样,是从总体N个对象中任意抽取n个对象作为样本,最终以这些样本作为调 查对象。在抽取产本时,总体中每个对象被抽中为调查样本的概率可能会有差异。()得分评卷人| 八、 简答题(每题10分,共40分)1、根据自己的理解画出HDFS文件系统中文件读取的流程,并解释其中的各个步骤。2、简述搜索引擎索引系统的形成过程。3、大数据分析中重要的五个方面分别指什么?它们各自完成的任务有哪些?4、大数据的平安机制可从哪些方面提高?得分I评卷人I六、填空题(每空2分,共10分)第2页(共4页)A卷答案一、 单项选择题(每题2分 共20分)二、 填空题(每空2分 共20分)题号12345678910答案CCabdabcdb1、 体量,速度,多样性个人信息的被识别与暴露2、 分布式文件系统,分布式并行计算,分布式数据库为用户和业务部门提供决策支持3、 多元I可归分析,一元IaI归分析 三、判断题(每个2分,共20分)FFTFF TFFFF四、简答题(每题10分共40分)1搜索引擎的产生和开展经历了哪几个阶段?试简述各阶段的特点。答:早期出现的搜索引擎只是检索FTP网站文件的程序,随后的搜索引擎开始收录网络地 址形成分类目录,后续的开展中搜索引擎开始收录标题,目前的搜索引擎,已经开展到抓取网 页全文阶段。2大数据时代数据的存储与管理与传统数据存储方式有何区别?答:传统数据管理方法的局限性及大数据的现实条件促使新的数据库设计的出现,在新的数 据库设计中,原本数据库模式中存在的记录和预设场域(成规数据的整齐排列)的规律被替代。 大数据为适应信息开展的需要,运用非关系型数据库作为一种新型数据库设,它不需要预先设 定记录结构,同时允许处理规模庞大、结构复杂的数据。3常用的数据整理技术有哪些?回退模型可视化相关性变化分析差异分析预测群集技术决策树神经网 络4简述大数据存储的概念。数据存储是指数据流在加工过程中产生的临时文件或需要查找的信息的存储。数据以某种 格式记录在计算机内部或外部存储介质匕数据存储要命名,这种命名要反映信息特征的组成 含义。数据流反映了系统中流动的数据,表现出动态数据的特征;数据存储反映系统中静止的 数据,表现出静态数据的特征。B卷答案三、 单项选择题(每题2分 共20分)题号12345678910答案BBDDBDDDCC四、填空题(每空2分共20分)1、客户端、JobTracker% TaskTracker、分布式文件系统2、网络黑客和病毒攻击威胁、信息资源泄露威胁、网络漏洞威胁3、Naive Bayes 算法,KNN 算法。4、检索信息生成阶段。三、判断题(每个2分,共20分)TTFFT TTFFF四、简答题(每题10分共40分)1、根据自己的理解画出HDFS文件系统中文件读取的流程,并解释其中的各个步骤。如上图所示,HDFS客户端首先要访问NameNode,并告诉它所要读取的文件,在这之前, HDFS会对客户的身份信息进行验证。验证的方式有两种:一种是通过信任的客户端,由其指定 用户名;第二种方式是通过诸如Kerberos等强制验证机制来完成。接下来还需要检查文件的 所有者及其设置的访问权限。当文件确实存在,且该用户对其有访问权限时,NameNode会告诉 HDFS客户端这个文件的第一个数据块的标号及保存有该数据块的DataNode列表。这个列表是 DataNode与HDFS客户端间的距离进行的排序。有了数据块标号和DataNode的主机名,HDFS 客户端便可以直接访问最合适的DataNode,读取所需要的数据块。这个过程会直重复直到该 文件的所有数据块读取完成或HDFS客户端主动关闭了文件流。2、简述搜索引擎索引系统的形成过程。秘密期末试卷答:1)提取关键词:通过结构化、消噪去除掉网页中所有的格式代码,同时去除非正文 关键词或停用词,网页的主文字内容后应用自身的分词系统,将此文分成一个分词列表,然后 存储在数据库中,并与此文的URL进行一一对应2)倒排文件建立索引:在不同索引词组成的索引表中记录索引词ID号,说明匹配该索引 词的文档数量,并匹配文档在记录文件内的偏移量,通过这偏移量就可以读取记录文件对应区 域的信息。3)对网页完成重耍度分析并完成排名3、大数据分析中重要的五个方面分别指什么?它们各自完成的任务有哪些?答:1)可视化分析:运用一些数据分析的工具将数据转化为图的形式,到达“看图说话” 的效果。2)数据挖掘算法:运用挖掘算法处理海量的数据并更加科学地呈现出数据本身具备的特 点。3)预测性分析能力:作用是让数据分析员可以根据数据可视化分析和数据挖掘计算所得 结果对未来的相关事物做出一些预测性的判断。4)语义引擎:借助语义引擎,可从用户的搜索关键词、标签关键词或其他输入语义,分 析、判断用户需求5)数据质量和数据管理:高质量的数据和有效的数据管理,无论是在学术研究还是在商 业应用领域,都能够保证分析结果的真实和有价值。4大数据的平安机制可从哪些方面提高?答:大数据的平安机制可从网络平安、数据平安、应用平安、终端平安等各个管理角度加 强大数据的平安防范。(1)网络平安网络是输送大数据资源的主要途径,通过强化网络基础设施平安保障,可以提高大数据环 境的平安。可从如卜四个方面加强网络平安的保障措施:一是通过访问控制,以用户身份认证 为前提,实施各种策略来控制和规范用户在系统中的行为,从而到达维护系统平安和保护网络 资源的目的:二是通过链路加密,建立虚拟专用网络,隔离公用网络上的其他数据,防止数据 被截取:三是通过隔离技术,对数据中心内、外网络区域之间的数据流量进行分析、检测、管 理和控制,从而保护目标数据源免受外部非法用户的侵入访问:四是通过网络审计,监听捕获 并分析网络数据包,准确记录网络访问的关键信息,通过统一的策略设置的规那么,智能地判断 出网络异常行为,并对异常行为进行记录、报警和阻断,保护业务的正常运行。(2)虚拟化平安虚拟化技术是大数据概念的一个甚础组成局部,它加强了基础设施、软件平台、业务系统 的扩展能力,同时也使得传统物理平安边界逐渐缺失。加强虚拟环境中的平安机制与传统物理 环境中的平安措施,才能更好地保障在虚拟化基础之上为大数据提供的各类应用和服务的安 全。可从如下两个方面加强虚拟化平安的保障措施:一是在虚拟化软件层而建立必要的平安控;制措施,限制对虚拟化软件的物理和逻辑访问控制:二是在虚拟化硬件方面建立基于虚拟主机;的专业的防火墙系统、杀毒软件、日志系统和恢复系统,同时对于每台虚拟化服务器设置独立南的硬盘分区,用以系统和日常数据的备份。:(3)数据平安;基于数据层面的保护最直接的平安技术包括两方面的内容:一是数据加密,深入数据层保1护数据平安,针对不同的数据采用不同的加密算法,实施不同等级的加密控制策略,有效地杜 J 绝机密信息泄漏和窃取事件;二是数据备份,将系统中的数据进行复制,当数据存储系统由于 系统崩溃、黑客入侵以及管理员的误操作等导致数据丧失和损坏时,能够方便且及时地恢复系:统中的有效数据,以保证系统正常运行。通过以上措施可以保障大数据在数据方面的平安性。i(4)应用平安f由于大数据环境的灵活性、开放性以及公众可用性等特性,部署应用程序时应提高应用方j面的平安意识,充分考虑应用可能引发的各类平安风险。加强各类程序接口在功能设计、开发、:测试、上线等覆盖生命周期过程的平安实践,广泛采用更加全面的平安测试用例,在处理敏感 ; 数据的应用程序与服务器之间通信时采用加密技术,通过以上措施可以保障大数据在应用方面:的平安性。j(5)终端平安随着云计算、移动互联网等技术的开展,用户终端种类不断增加,很多应用程序被攻击者:利用收集隐私和重要数据。用户终端上应部署平安软件,包括反恶意软件、防病毒、个人防火 1线墙以及入侵防御系统(IPS: Intrusion Prevention System)类型的软件,并及时完成应用安:全更新,注重自身账号密码的平安保护,尽量不在陌生的终端上使用公共服务:同时还应采用屏蔽、抗干扰等技术防止电磁泄漏,可从一定程度上降低大数据失窃的风险,增强大数据在终 端方面的平安性。第4页(共4页)