自然语言技术N1考试复习题库(浓缩300题).docx
《自然语言技术N1考试复习题库(浓缩300题).docx》由会员分享,可在线阅读,更多相关《自然语言技术N1考试复习题库(浓缩300题).docx(94页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、自然语言技术N1考试复习题库(浓缩300题)一、单选题1 . Relu和Tanh相比有什么不同的地方A、输出的值域不同B、Relu可以做非线性变换而Tanh不可以C、Relu是激活函数但是Tanh不是激活函数D、都不可以做线性变换答案:A2 .以下四个选项中,关于随机森林和GBDT说法正确的是A、都是由多棵树组成,最终的结果都是由多棵树一起决定。B、RF和GBDT在使用CART树时,只能做回归不能做分类。C、RF和GBDT在使用CART树时,只能做分类不能做回归。D、不确定答案:A3 .通过getTreeDepth可以获取决策树中的什么A、获取决策树叶子节点的个数B、获取决策树的层数C、绘制节
2、点D、标注有向边属性答案:B4 .下列几个选项中关于GBDT,说法错误的是B、Boost i ngC、Stack i ngD、以上都正确答案:C33 .怎么去理解模型当中的过拟合现象A、指的就是样本该学习到的特征没有学习到,导致了曲线拟合数据的时候,效 果不好。B、指的肯定就是说,这条曲线,过分的去描述现有的数据特征了。C、指得就是说这个曲线能不能去很好的描述现有的数据。D、欠拟合指的就是在训练和测试数据上的表现都不好答案:B34 . KNearestNeighbors属于以下哪个算法的全称A、线性回归B、逻辑回归C、KNND、 K-means答案:C35 .以下几个关于EM算法的说法,正确的
3、是A、传统EM算法对初始值不敏感B、EM算法不能应用到HMM的求解中C、不确定D、传统EM算法对初始值敏感答案:D36 .以下四个选项中代表的随机森林缩写的是哪个?A、RFB、 GBDTC% XGBoostD、 LightGBM答案:A37 .为什么会提出LightGBM,最主要是什么原因A、并无实际的意义B、为了解决GBDT的并行问题C、为 了改进 XGBoostD、为了解决GBDT在大数据上遇到的问题答案:D38 . RandomForest说的是以下哪个选项A、随机森林B、决策树C、聚类D、逻辑回归答案:A39 .高斯混合模型与K均值算法的相同点有哪些A、都是可用于分类的算法B、都是可用
4、于聚类的算法C都是可用于回归的算法D、都是可用于降维的算法答案:B40 .什么时候可以选取KNN算法A、当需要使用分类算法,且数据比较大的时候就可以尝试使用KNN算法进行分 类了。B、当需要使用聚类算法,且数据比较大的时候就可以尝试使用KNN算法进行分 类了。C、当需要使用降维算法,且数据比较大的时候就可以尝试使用KNN算法进行分 类了。D、不能确定答案:A41 .GBDT属于集成学习,因此它拥有哪些优点A、采用决策树作为弱分类器使得GBDT模型具有较好的解释性和鲁棒性,能够自 动发现特征间的高阶关系。B、GBDT在高维稀疏的数据集上,表现不如支持向量机或者神经网络。C、GBDT在处理文本分类
5、特征问题上,相对其他模型的优势不如它在处理数值特 征时明显。D、训练过程需要串行训练,只能在决策树内部采用一些局部并行的手段提高训 练速度。答案:A42 .精确率是怎么计算的?A、真正正确的占所有预测为正的比例。B、真正正确的占所有实际为正的比例。C、错误的的占所有预测为正的比例。D、错误的的占所有实际为正的比例。答案:A43 . KNN算法的肘部法则中,在k=10处是个拐点,那么k的最佳值应该是多少A、3B、10C、20D、30答案:B44 .在贝叶斯统计中,如果后验分布与先验分布属于同类,则被称为什么A、二项分布B、多项分布C、共聊分布D、Bete分布答案:C45 .如果测试数据中有N (
6、非常大)的观测值,则1-NN将花费多少时间?A、N*DB、 N*D*2C、 (N*D) /2D、这些都不是答案:A46. SVM算法的最小时间复杂度是0 (M ),基于此,以下哪种规格的数据集并不适该算法?A、大数据集B、小数据集C、中等数据集D、不受数据集大小影响答案:A47. 哪种数据类型数据类型可以看作关系型数据库的一张表A、半结构化数据B、非结构化数据C、结构化数据D、不确定答案:C48. 为模型加上正则项,可以很好的防止什么?A、过拟合B、欠拟合C、完美拟合D、不确定答案:A49. 如何理解想“回归”A、通过数据使预测回归到真实值上B、通过数据做分类C、通过数据做缩小维度D、通过数据
7、使相似的数据聚到一块答案:A50. LDA属于一个什么模型A、语言模型B、词袋子模型C、预训练模型D、不确定答案:B51. Sigmoid激活函数求导之后,最大值为多少A、1B、0.5C、0. 25D、0.3答案:C52. XGBoost和GBDT都是运用了什么思想A、Boost i ngB、 BaggingC StackingD、以上都正确53. GBDT (Grad i entBoost i ngDec i s i onTree)使用到的是什么思想A、未剪枝的决策树B、随机森林C、不加正则的线性回归D、不加正则的逻辑回归答案:B54. Tanh激活函数活跃在各大算法当中,当Tanh求导了之
8、后,它的取值范围是多少A、 -1,1B、0, 2C、0,1D、0 或 1答案:A55 .在k-NN中,增加/减少k值会发生什么?A、K值越大,边界越光滑B、随着K值的减小,边界变得更平滑C、边界的光滑性与K值无关D、这些都不是答案:A56 . sigmoid输出的值域可以代表什么A、概率B、代价C学习率D、权重w答案:A57 .加入正则项,可以解决处理以下哪个问题A、正常拟合B、过拟合C、欠拟合D、不确定答案:B58 .以下四个描述中,哪个选项正确的描述了 XGBoost的基本核心思想A、训练出来一个一次函数图像去描述数据B、训练出来一个二次函数图像去描述数据C、不断地添加树,不断地进行特征分
9、裂来生长一棵树,每次添加一个树,其实 是学习一个新函数f(x),去拟合上次预测的残差。D、不确定答案:C59 .GBDT使用的是什么思想A、 BaggingB、Boost i ngc、逻辑回归D、线性回归60.SVM中,若C趋于无穷,以下哪种说法正确?A、数据仍可正确分类B、数据无法正确分类C、不确定D、以上都不对答案:A61 . ID3, C4.5,他们有什么,相同的地方?A、将信息增益比作为了选择特征的标准B、将信息增益作为了选择特征的标准C、将基尼系数作为了选择特征的标准D、都属于决策树算法答案:D62 .在编写模型或者训练模型的时候,如果模型过于复杂的话,会出现什么情况A、正常拟合B、
10、过拟合C、欠拟合D、不确定答案:B63 . LDA模型可以做什么事情A、将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档 抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文 本分类B、可以找出来最优的分类超平面C、可以找到因变量和自变量之间的一次关系D、不确定答案:A64 .以下哪个操作可以停止树的循环A、加入L2正则B、加入L1正则C、设置树的最大深度D、以上都可以答案:C65.基于直方图的稀疏特征优化多线程优化。是以下哪个框架做的优化A、 LightGBMB、 XGBoostC、随机森林D、 GBDT答案:A66.从工程的角度出发去看,随机森林有什么优
11、点A、随机森林的每棵树训练是相互独立的,可以串行生成,调高训练的效率B、随机森林的每棵树训练是相互独立的,可以并行生成,调高训练的效率C、随机森林的每棵树训练是相互独立的,可以并行生成,降低训练的效率D、不确定A、GBDT是深度学习算法B、传统的GBDT采用CART作为基分类器C、传统的GBDT在每轮迭代时使用全部的数据D、没有对确实值进行处理答案:A5 .零均值归一化会将原始数据的标准差映射为多少?A、0B、1C、2D、3答案:B6 .小概率事件怎么理解?以下选项当中描述正确的是?A、发生可能性不大的事件B、发生可能性大的事件C、发生可能性不去确定的事件D、以上都正确答案:A7 .串行地训练
12、一系列前后依赖的同类模型,即后一个模型用来对前一个模型的输出结果进行纠正属于什么思想A、 BaggingB、Boost i ngC、Stack i ng67 . 1-NN, 2-NN, 3-NN所花费的时间之间是什么关系。A、 1-NN2-NN3-NNB、 1-NN2-NN3-NNC、 1-NN2-NN3-NND、这些都不是答案:C68 .以下四个选项中哪个是激活函数A、L1B、Re I uC、L2D、MSE答案:B69 .马尔科夫可以用一个什么图去进行表示A、无向图B、有无向图C、有向图D、不确定答案:A70 .主成分分析法的简写是哪个Ax PCAB、LDAD、 K-Means 答案:A71
13、 .如果适当的增加了模型的复杂度会达到什么效果A、防止过拟合B、防止欠拟合C、防止完美拟合D、不确定答案:B72 .以下哪些算法是聚类算法A、ID3B、C4. 5C、 K-MeansD、SVM答案:C73 .在同质集成(系统中个体学习器的类型相同)中,个体学习器又被称为A、基学习器B、组建学习C、不能判断D、以上都正确答案:A74 .朴素贝叶斯分类是基于。假设。A、条件独立B、条件不独立C、联合概率D、不确定答案:A75 . LDA中的五个分布其中的二项分布,是一个什么分布A、离散的随机分布B、连续的随机分布C、连续的分布D、不确定答案:A76 . KNN算法的分类原理是什么A、利用自变量和因
14、变量之间的一次函数关系B、需要分类的样本选择特征空间上和自己最邻近的K个样本_xOOO1_把已经分类 或需要分类的样本在定义的特征空间上表征需要分类的样本的类别就是这K个 样本中最多的那个类别C、利用自变量和因变量之间的对数关系D、找出最好的分类超平面答案:B77 .文本,图像,视频,音频这样的数据数据属于哪种类型的数据A、结构化数据B、半结构化数据C、非结构化数据D、不确定答案:C78 . Bagging中的采样方法是什么样的A、有放回的随机抽样B、无放回的随机抽样C、有放回的顺序抽样D、无放回的顺序抽样答案:A79 . sigmoid激活函数来说,它输出值的范围是_?A、0, 1B、0,2
15、C、0,3D、-1,1答案:A80 . K-Means中的K应该如何去选择A、贪心法则B、马尔科夫C、肘部法则D、概率图答案:C81 .激活函数有广泛的应用,下列选项中,对于激活函数存在意义的理解,正确 的是?A、进行非线性变换,增强表达能力B、进行线性变换,增强表达能力C、进行线性变换,减少表达能力D、进行非线性变换,减少表达能力答案:A82 .带有深度限制的按叶子生长(leaf-wise)算法,主要做了什么事情A、增加了一个最大深度的限制,在保证高效率的同时防止过拟合B、先把连续的浮点特征值离散化成k个整数,同时构造一个宽度为k的直方图C、不确定D、以上都正确答案:A83 .以下哪种情况下
16、树会容易发生了过拟合的现象A、加入L2正则B、加入L1正则C、设置树的最大深度D、没有设置树的最大深度答案:D84 .关于k-NN算法的应用,以下说法正确的是?A、可用于分类B、可用于回归C、可用于分类和回归D、聚类 答案:c85 .以下四个算法当中,哪个算法和逻辑回归一样都可以做分类A、线性回归B、岭回归C、 K-meansD、SVM答案:D86 .以下四个选项当中,关于带有深度限制的按叶子生长(leaf-wise)算法,主要 做了什么事情,描述正确的是?A、增加了一个最大深度的限制,在保证高效率的同时防止过拟合B、先把连续的浮点特征值离散化成k个整数,同时构造一个宽度为k的直方图C、不确定
17、D、以上都正确答案:A87 .以下四个说法中,哪个是GBDT的优点A、在分布稠密的数据集上,泛化能力和表达能力都很好;B、GBDT在高维稀疏的数据集上表现不佳;C、训练过程需要串行训练,只能在决策树内部采用一些局部并行的手段提高训 练速度。D、不确定答案:A88 . sigmoid作为常见的激活函数,有着非线性变化的作用,它的曲线是什么样 的A、直线B、A型曲线C、C型曲线D、S型曲线答案:D89 .并行地训练一系列各自独立的不同类模型,然后通过训练一个元模型(meta- model)来将各个模型输出结果进行结合,是什么思想A、 BaggingB、Boost i ngCx StackingD、
18、以上都正确答案:c90 .当EM在做完计算期望之后,下一步应该做什么事情?A、最大化B、求代价C、计算期望D、不确定答案:A91 .下列哪个不是体现出的随机森林的随机性A、样本的随机性(Bagging):在Bagging时,随机选择样本B、特征的随机性(Randomsubspace)C随机特征组合(Randombination)D、随机代价函数答案:D92 .信息病又叫什么?A、信息增益B、信息增益比C、基尼系数D、香农嫡答案:D93.关于Re I u激活函数说法正确的是A、经过Reiu变换之后的取值在0,1之间B、正半区是本身,负半区全为0C、经过Reiu变换之后的取值在7,1之间D、经过R
19、e lu变换之后的取值在-8,+8之间答案:B94 .以下四个选项当中,哪个不属于抽象模型的是OA、概率统计模型B、比例模型C、符号模型D、流程图 答案:B95 . Re I u在负半区求导之后值为多少A、0B、1C、2D、-1答案:A96 .虽然随机森林和GBDT都属于集成学习,他们有什么不同之处A、都是由多棵树组成,最终的结果都是由多棵树一起决定。B、组成随机森林的树可以并行生成,而GBDT是串行生成C、RF和GBDT在使用CART树时,可以是分类树或者回归树。D、不确定答案:B97 .如果对数据进行了归一化的处理,可以达到什么样的效果A、将所有的特征都统一到一个大致相同的数值区间内B、并
20、无实际的意义C、不确定D、可以对数据进行等比例的扩大答案:A98 .下列算法中,训练数据集是无label的数据,是杂乱无章的,经过变换后变得有序,先无序,后有序是哪个算算法A、SVMB、逻辑回归C、线性回归D、聚类答案:D99 .在下列四个选项中,正确的找出激活函数A、L1B、Re IuC、L2D、MSE答案:B100 .训练了一个线性SVM,这个模型出现了欠拟合现象。应该采取下列什么措 施?A、增加数据点B、减少数据点C、增加特征D、减少特征答案:C101 .贝叶斯判别规则是什么A、就是判断自变量和因变量之间的关系B、把特征向量X落入某类集群wi的条件概率平P (wi/X)当成分类判别函数,
21、 把X落入某集群的条件概率最大的类为X的分类这种判别规则叫贝叶斯判别规则C、不确定D、就是通过选择最优的超平面去进行最好的分类超平面D以上都正确答案:B8 .以下几个算法中哪个不容易陷入过拟合A、未剪枝的决策树B、随机森林C、不加正则的线性回归D、不加正则的逻辑回归答案:B9 .口8968凶是实现68口1算法的很好的框架,在下列四个选项中,哪个对于LightGBM的优势描述是正确的A、更慢的训练速度B、更低的内存消耗C、更差的准确率D、不支持分布式答案:B10 .高维组合特征的处理,具体是怎么做的A、在特征工程中经常会把一阶离散特征两两组合B、在特征工程中经常会把一阶离散特征打散C、删除一部分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言 技术 N1 考试 复习 题库 浓缩 300
限制150内