机器学习在信息安全领域应用(共9页).docx
《机器学习在信息安全领域应用(共9页).docx》由会员分享,可在线阅读,更多相关《机器学习在信息安全领域应用(共9页).docx(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上机器学习在计算机信息安全领域的应用综述前言从计算机短短几十年的历史进程中,人们都看到了计算机硬件和软件惊人的发展能力,但是硬件的利用率只有3%-5%;而且海量数据源源不断的涌入人们的视野,导致信息的有效利用率也只有1%WD03。依托于互联网的发展,人们不分地域、时域的分享硬件、软件、信息资源,然而生产效率没有得到应有的提升。同时,无论是硬件安全还是信息安全,都遇到了前所未有的威胁,资产的安全也没有得到应有的保证。但是,以机器学习为代表的在信息有效利用率和信息安全领域的应用使人们看到了希望。机器学习可以让我们的计算机变得更聪明,变得更具有人的智慧,从而使我们在处理海量数
2、据和复杂多变的安全威胁面前更有自信。机器学习,正在发挥着举足轻重的作用!本文将从机器学习的相关概念、发展现状、分类、所面临的问题几个方面介绍机器学习的相关知识,然后从与计算机信息安全有关的三个方面:入侵检测、木马检测、漏洞扫描介绍了机器学习和信息安全的契合点。通过以上几个方面的叙述,为将来研究打好基础。主题一、机器学习(1)机器学习的相关概念学习是生物中枢神经系统的高级整合技能之一,是人类获取知识的重要途径和人类智能的重要标志。按照人工智能大师HSimon的观点:学习就是系统在不断重复的工作中对本身能力的增强或改进,使得系统在下一次执行同样或相类似的任务时,会比原来做得更好或效率更高。机器学习
3、,顾名思义,是让机器(也可以理解为常见的计算机)具有人类学习的能力。一般认为,机器学习是一个有特定目的的知识获取过程,其内部表现为从未知到已知这样一个知识增长过程,其外部表现为系统的某些性能和适应性的改善,使得系统能完成原来不能完成或更好地完成原来可以完成的任务AZ07。机器学习则是计算机获取知识的重要途径和人工智能的重要标志,是一门研究怎样用计算机来模拟或实现人类学习活动的学科,是研究如何使机器通过识别和利用现有知识来获取新知识和新技能。它既注重知识本身的增加,也注重获取知识的技能的提高。(2)机器学习的发展机器学习在相关的学科领域一直起着主导的作用,但是对于机器学习的实质还没有最终的定论。
4、从机器学习的发展历史中可以看出,机器学习大致经历了4个阶段AZ07:1) 20 世纪50 年代的神经模拟和决策理论技术,学习系统在运行时很少具有结构或知识。主要是建造神经网络和自组织学习系统,,学习表现为阈值逻辑单元传送信号的反馈调整。2) 20 世纪60 年代早期开始研究面向概念的学习,即符号学习。使用的工具是语义网络或谓词逻辑,不再是数值或者统计方法。在概念获取中,学习系统通过分析相关概念的大量正例和反例来构造概念的符号表示。在这一阶段,人们认识到学习是个复杂而循序渐进的过程;如果不要任何初始知识,则学习系统无法学到高层次的概念。3) 20 世纪70 年代中期, 研究活动日趋兴旺,各种学习
5、方法不断推出,实验系统大量涌现,1980 年在卡内基梅隆大学( CMU) 召开的第一届机器学习专题研讨会,标志着机器学习正式成为人工智能的一个独立研究领域。4) 从20 世纪80 年代中后期到现在, 可以认为机器学习研究进入一个新阶段,已经趋向成熟。神经网络的复苏,带动着各种非符号学习方法与符号学习并驾齐驱,并且已超越研究范围,进入到自动化及模式识别等领域,掀起一场联结主义的热潮,各种学习方法开始继承,多策略学习已经使学习系统愈具有应用价值,开始从实验室走向应用领域。(3)机器学习的分类按照传统的分类方法,机器学习可以分为:-归纳机器学习-解释机器学习-遗传机器学习-连接机器学习按照现代的分类
6、方法,机器学习可以分为:-符号机器学习-统计机器学习-集成机器学习-增强机器学习TY05对于传统的机器学习分类,本文中不做过多的叙述。下面对以上现代机器学习的分类做简要的介绍。符号机器学习,Samuel将分段划分引入对符号域的数据处理, 形成了一类基于符号数据集合的约简算法,这是现代符号机器学习的基础。但是,由于算法定义在符号域,连续量必须被映射到这样的域上,算法才有效。而且学习算法本身无法刻画泛化能力,而依赖于与算法本身无关的上述映射TY05。统计机器学习有三个衡量要素,分别是一致性假设,样本空间的划分,泛化能力。所谓一致性假设,就是我们所能观察到的样本所具有的性质,在世界集合中同样使用,也
7、就是说世界W和被观察的对象集合Q具有某种相同的性质,而且世界W的所有对象独立同分布WD03。样本空间的划分,也是机器学习主要研究的内容,即我们需要找到一个超平面,把样本空间在一个N维欧式空间中划分为不相交的区域。泛化能力,是一个确定的划分对世界的分类能力,也可以理解为我们从样本中得到的划分在世界集合中的适用能力。由于可能存在不同的划分样本集合的方法,划分能力各不相同,泛化能力最强的划分就是我们所要的分类器。对于线性不可分的问题,我们需要找到一个映射,把非线性问题映射到线性空间,以便于问题可以在线性空间中可分。这样这个映射就是核函数。目前,算法的理论研究已经基本完成,主要的研究集中的下述两个问题
8、:(1)泛化不等式需要样本集满足独立同分布,这样严苛的条件是否可以放宽。(2)如何根据领域需求选择核函数,是否存在一定的基本原则。集成机器学习被国际机器学习界的权威Dietterich列为ML四大研究方向之首。1990年Shapire证明,如果将多个弱分类器(泛化能力稍大于50%)集成在一起,它将具有强分类器的泛化能力TY05。由于集成学习可以有效的提高泛化能力,因此集成学习仍然是机器学习中最热门的研究领域之一ZZH08。增强机器学习最早提出是考虑“从变化环境中”学习蕴含在环境中的知识,其本质是对环境的适应。1975年,Holland首先将这个概念引入计算机科学。1990年左右,MIT的Sut
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 信息 安全 领域 应用
限制150内