数据与计算科学基础全书课后习题答案1.pdf
《数据与计算科学基础全书课后习题答案1.pdf》由会员分享,可在线阅读,更多相关《数据与计算科学基础全书课后习题答案1.pdf(39页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据与计算科学基础全书课后习题答案 习题 1 一、单项选择题 1.B 2.A 3.D 4.B 5.D 6.C 7.A 8.D 9.A 10.D 11.A 12.A 13.B 14.B 15.C 16.A 二、判断题 1.2.3.4.5.6.7.8.9.10.三、简答题 1.【解答】信号是消息的传输载体,以声波、光、电磁波等方式来呈现,被人们所识别。消息是信息的物理形式,例如:语音、文字、图像、数字等。数据是计算机对消息通过二进制编码之后获得原始物理符号序列。信息是消息通过计算、处理、组织后的有效内容,通常是对消息所代表的数据处理后的结果。2.【解答】行移动。5.【解答】冯诺依曼架构计算机模型由
2、存储器、算术逻辑运算单元、控制单元和输入/输出子系统组成。冯诺依曼架构的核心思想为“存储程序、顺序执行”。冯诺依曼模型中要求程序必须存储在内存中,这和早期只有数据才存储在存储器中的计算机结构完全不同。冯诺依曼模型中的一段程序是由一组数量有限的指令组成。按照这个模型,控制单元从内存中提取一条指令,接着解释指令、执行指令,然后针对下一条指令重复上述操作。换句话说,指令就一条接着一条地顺序执行。6.【解答】计算机网络的核心功能:数据通信、资源共享和分布式计算。数据通信用于快速传送计算机与终端、计算机与计算机之间的各种信息和数据。资源共享指将网络中的软硬件和数据资源共享给网络中的用户。分布式计算指通过
3、计算机网络可将新任务转交给空闲的计算机来完成,对大型综合性问题,可将问题各部分交给不同的计算机分头处理,充分利用网络资源,扩大计算机的处理能力。7.【解答】TCP/IP 模型的核心协议是 TCP 协议和 IP 协议,即传输控制协议和网际协议。TCP/IP 的通信任务组织成 5 个相对独立的层次:应用层、传输层、互联网层、网络接口层和物理层,其中网络接口层和物理层常称为物理网络层。通过分组交换,应用层数据分组依据分组交换的分层模型,在发送端通过层层增加分组头部,先封装应用层数据再封装传输层数据,依此类推形成最终的物理帧,再通过通信网络传递到接收端,接收端再经过一个逆过程,先解包物理网络层数据再解
4、包互联网层数据,以依此类推获取原始的应用层数据分组。8.【解答】大数据的“5V”特点,即:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)和 Veracity(真实性)。Volume 指大数据的容量非常大,单台机器无法容纳它,因此需要专门的工具和框架来存储处理和分析这些数据。Velocity 指数据生成的速度,由于数据增长速度快,要求实时分析与处理数据,并进行合理丢弃,而非事后批处理,这是大数据区别于传统数据挖掘的地方。Variety指数据种类和来源呈现多样性特征,包括不同种类的数据,比如文本、图像、音频、视频、位置信息、各种传感器状态等,它们可
5、以被归类为各种结构化、半结构化和非结构化数据。Value 指海量信息中的价值密度相对较低,单位数据的价值低。数据的价值是指数据对于预期目的的有用性,任何大数据分析系统的最终目标都是从数据中提取价值。Veracity 是指大数据的质量,它的内容是与真实世界息息相关的,是真实数据而不是虚假数据,这也是数据分析的基础。习题 2 一、单项选择题 1.C 2.A 3.A 4.B 5.D 6.D 7.D 8.A 9.B 10.A 二、判断题 1.2.3.4.5.6.7.8.9.10.三、简答题 1.【解答】进程是执行中的程序,程序是静态的,进程是动态的。一个程序被操作系统加载到内存中,开始执行,并尚未结束
6、时,它就是一个进程。线程本质上是轻量级的进程,线程不拥有资源,而进程拥有资源。线程是最小执行单位,最小的分配资源单位,可以看成是只有一个线程的进程。2.【解答】冯诺依曼现代计算机模型由三大子系统组成,分别是中央处理单元,主存储器和输入/输出子系统。3.【解答】存储器的层次结构自容量小到大分别是寄存器,cpu 缓存和主存储器(内存)。这么设计的目的是为了兼顾较好的性能和较低的成本。4.【解答】CPU 利用重复的机器周期来执行程序中的指令,一步一条,从开始到结束。一个简化的指令执行周期包括三个步骤:取指令、译码和执行。5.【解答】系统软件是指指控制和协调计算机及外部设备,支持应用软件开发和运行的系
7、统,主要功能是调度、监控和维护计算机系统的各种独立硬件,使得它们可以协调工作。比如:各类操作系统如windows、Linux、Unix 等;各种语言处理程序如 C/C+编译程序、连接器程序、其他各种高级语言程序等;各种数据库管理程序如MySQL、Oracle、Access 等。应用软件是是用户使用各种程序设计语言编制的应用程序的集合。比如:工具软件、游戏软件、管理软件、财务软件等都属于应用软件类。6.【解答】操作系统主要分为批处理操作系统、分时操作系统、实时操作系统、并行操作系统以及分布式操作系统。7.【解答】操作系统核心功能分别有处理机管理、内存管理、文件管理以及设备管理。处理机管理中操作系
8、统主要实现算术运算、逻辑运算等计算功能,高效利用 CPU 的计算能力是操作系统内核设计最关键的问题之一。内存管理是现代操作系统的另外一个核心功能,其作用是如何高效的为多道“并发”执行的程序提供内存分配、管理和释放等机制。文件管理是操作系统为了实现对数据的“持久化”存储,普通硬盘、SSD 固态硬盘、光盘等媒介是常见的“持久化”存储材料。为有效的对这些数据进行组织和存储,现代操作系统通过“文件管理”的核心组件来实现。设备管理功能主要体现“设备处理程序”,又称为“驱动程序”的机制设计上,它实现主机系统(CPU+内存)和外部设备的协同工作。8.【解答】分时调度机制又被称为时间片轮询调度机制,进程/线程
9、轮流获得 CPU 的使用权,并且平均分配每个线程占用的 CPU 时间片。9.【解答】按先后顺序分别为数据搜集、数据预处理、数据分析/计算方法确定、分析模式以及数据可视化。其中数据搜集可以使用各种类型的连接器,例如发布-订阅消息传递框架、消息传递队列、关系数据库连接器、文件导入、系统日志信息、网络爬虫数据爬取等。所收集到的数据为一些结构化、半结构化,以及非结构化数据。数据预处理包括各种任务,例如数据清理、数据整理、重复数据删除、归一化、数据采样和过滤,以及其他特征工程相关工作。数据分析/计算方法通常基于传统的统计分析、机器学习、深度学习等方法。确定分析模式,可以是批处理、实时或交互式等不同模式。
10、数据可视化可以是静态的、动态的或交互式的。可视化便于人机交互和后续分析。10.【解答】一个大数据分析和处理系统的系统架构可以为采用 kafka 消息中间件、RabbitMQ队列、Sqoop数据库实现数据访问,采用Hadoop框架实现批处理,Storm框架实现实时分析,HBase实现数据存储,Spark SQL实现用户的交互式查询,最后通过Django框架搭建Web平台连接到两个大数据分析框架,通过 MySQL/MongoDB 数据库存储 Web 服务器的数据。习题 3 一、单项选择题 1.B 2.C 3.A 4.D 5.A 6.D 7.B 8.B 9.C 10.C 11.D 12.B 13.B
11、 14.A 15.B 16.A 17.C 18.A 19.C 20.C 21.B 22.A 23.B 24.D 25.C 26.B 27.C 28.C 29.D 30.A 二、判断题 1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.三、简答题 1.【解答】(1)物理上容易实现,可靠性强。电子元件大都具有两种稳定的状态,如电压的高与低,电路的通与不通等,这两种状态正好可以表示二进制数的 0 和 1。(2)运算简单,通用性强。二进制的运算比十进制的运算简单,如二进制的乘法运算只有 3 种:10=01=0,00=0,11=1。如果是十进制运算的话,则有 55 种情况。(
12、3)计算机中二进制数的 0、1 数字与逻辑值“假”和“真”正好吻合,便于表示和进行逻辑运算,也方便算术运算和逻辑运算的转换。2.【解答】由于在计算机中采用固定位数的二进制数来表示数值,即仅使用数符和固定的位权来表示数的大小、正负等特征。因此计算机中是使用编码来表示数值的,称为机器数。原码、反码、补码是整数的 3 种编码。假设用 n 位二进制来对整数X编码,那么在原码、反码、补码的编码规则中都用最高位来表示数的正负特征,其余位表示数值大小。(1)符号编码。02n-1表示零和正数,12n-1表示负数。(2)数值编码。如果 X0,那么数值的原码、反码、补码都直接用数值X表示。如果X0,那么数值的原码
13、为X的绝对值(|X|);数值的反码为|X|的 n-1 位反数(2n-1-1-|X|);数值的补码为|X|的 n-1 位补数(2n-1-|X|)。假设 a 和 b 都是正数,使用补码表示 a-b 运算,可表示为 a+(-b),对应的补码运算为 a+(12n-1+12n-1-b),化简得 a+12n-b,舍弃超出 n 位能表示的部分 12n得 a-b,可见补码可将减法运算转换为加法运算,既实现了符号位参与数值计算,也减少了运算规则,很适合于进行整数的加减法运算。3.【解答】Unicode 是一种通用字符集,适用于跨语言、跨平台进行文本转换、处理。Unicode 使用(0)H (10FFFF)H 之
14、间的数字来表示字符,每一个数字对应一个字符。Unicode 将(0)H (10FFFF)H 分成17 个平面,每个平面含 216个码位,可以映射 216个字符。Unicode 字符集只是起到字符分组、字符和数字之间逻辑映射的作用,并没有指定字符的存储结构。因此需要为每个字符编制存储码。如果采用等长的编码方案,每一个 Unicode 字符需要使用 4个字节进行存储,那么存储空间浪费很大。由此出现多种不同的编码方案,UTF-8 就是其中的一种。UTF-8 是以 8 个二进制位为单位的变长编码方案。UTF-8 将Unicode 字符集分组,分别使用 1 字节编码方案、2 字节编码方案、3 字节编码方
15、案和 4 字节编码方案。其中,和 ASCII 码相应的Unicode 字符使用 1 字节编码方案,码值和 ASCII 码相同;CJK 文字使用 3 字节编码方案。由于 UTF-8 兼容 ASCII,因此使用比较广泛。然而,对于主要以汉字为主的文本而言,使用 UTF-8 则较DBCS 编码多占一半的空间。4.【解答】认识事物和分析事物可以从两个层面进行,即定性分析和定量分析。定性分析产生定性数据,定量分析产生定量数据。定性数据和定量数据都可以作为统计数据源。在统计上定性数据可分为定类数据和定序数据,定量数据可分为定距数据和定比数据。(1)定类数据。具有分类特征,数据之间没有顺序和大小关系。可做分
16、类计数统计和分类筛选。如性别数据的分类集合是“男”,“女”。(2)定序数据。具有分类、顺序特征。可做分类计数统计、分类筛选以及数据排序。如大学教师职称数据的分类集及按职称高低排列是“教授”、“副教授”、“讲师”、“助教”。(3)定距数据。具有间距、顺序特征。可做聚类分析、相关性分析等,并用各种指标(例如最大值、最小值、平均值、均方差等)支撑分析结果;也可做数据排序。例如事件发生的时刻数据、每日定时测量的温度数据。(4)定比数据。具有比例特征的数据。可做聚类分析、相关性分析、归一化处理等,并用各种指标(例如最大值、最小值、平均值、均方差等)支撑分析结果;也可做数据排序。例如考试用时数据,人的身高
17、数据。5.【解答】一个抽象数据类型是指一个数据集合以及定义在该数据集合上的操作集合。其中,数据集合定义了数据的取值范围及其结构,操作集合定义了可以作用在该数据集合上的合法操作。例如,整数是一个数据集合,对其的操作有+、-、*、/等。抽象数据类型的使用和实现是二个不同的层面。使用者关注抽象数据类型的外在和使用方法,设计者关注抽象数据类型的内在结构和具体实现。对使用者而言,只需理解一个抽象数据类型定义的数据集合和操作集合,掌握数据和操作的表达形式即可;该抽象数据类型的实现细节由设计者封装在内部,对使用者隐藏。因为数据结构表达数据对象的逻辑结构、物理结构以及作用在数据结构上的操作。因此数据结构是抽象
18、数据类型内在实现的技术手段。6.【解答】有的数据对象中数据元素之间存在联系(线性结构、树状结构、图状结构),有的数据对象中数据元素之间不存在联系。如果访问存在联系数据对象中的数据元素,则往往依据联系的结构来访问;如果访问不存在联系数据对象中的数据元素,则可以自定义规则进行访问。在本书介绍的数组和链表中,因为数组是通过数组元素的索引(下标)访问数据元素的,可以根据数组元素的索引(下标)值自定义规则,确定访问数组元素的顺序,数组表示不存在联系的数据对象较链表更合适。7.【解答】(1)相同点。无论是文本文件还是二进制文件,文件中的内容都是采用二进制编码的,本质上都是二进制文件。(2)不同点。按字符编
19、码方式存储数据的文件称为文本文件,不属于文本文件的其他文件统称为二进制文件。文本文件更适合不同软件、不同平台间的数据交换;而二进制文件由于其数据采用自定义编码,既节约空间、又可以快速访问,因此各种应用软件都会为自身处理的数据定义相应的二进制文件格式。8.【解答】模拟数据的数字化过程包括采样、量化和编码三个步骤。(1)采样。模拟数据表现为模拟信号,通常都有时空上的连续性,例如音频信号表现为时间上的连续性,图像信号表现为平面空间上的连续性。而数字数据对时空是离散的,采样就是按照一定的时空间隔对模拟信号进行测量。(2)量化。用有限个值来近似表示采样得到的含无限可能的模拟信号测量值,即模拟信号离散化,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 计算 科学 基础 全书 课后 习题 答案
限制150内