大数据技术在安全领域的应用和优势,软件工程硕士论文.docx
《大数据技术在安全领域的应用和优势,软件工程硕士论文.docx》由会员分享,可在线阅读,更多相关《大数据技术在安全领域的应用和优势,软件工程硕士论文.docx(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据技术在安全领域的应用和优势,软件工程硕士论文本篇论文目录导航:【题目】【第一章】【2.1 - 2.3】【2.4 2.5】 大数据技术在安全领域的应用和优势【第三章】【4.1 - 4.5】【4.6】【4.7】【总结/以下为参考文献】 2.4 Sparkmllib 库与基于 spark 的数据挖掘算法。 Spark 之所以在机器学习方面具有得天独厚的优势,有下面几点原因: 1机器学习算法一般都有很多个步骤迭代计算的经过,机器学习的计算需要在屡次迭代后获得足够小的误差或者足够收敛才会停止,迭代时假如使用 Hadoop 的 MapReduce 计算框架,那么计算时每次都要进行读 / 写磁盘,任务
2、的启动等工作,这样的结果就是导致 I/O 和CPU 大量消耗。而 Spark 基于内存的计算模型天生就擅于迭代计算,它能够在内存中直接完成多个计算步骤,很少或者只要在必要时才会对磁盘和网络进行操作,因而讲 Spark 正是机器学习的理想的平台。 2从通信的角度讲,假如使用Hadoop的MapReduce计算框架,JobTracker和TaskTracker之间由于是通过 heartbeat 的方式来进行的通信和传递数据,会导致非常慢的执行速度,而Spark 具有出色而高效的 Akka 和 Netty 通信系统,通信效率极高。 MLlibMachine Learnig lib是指 spark 的
3、机器学习算法库,它集成了常用的一些机器学习算法,它同时也包含了一些相关的测试与数据生成器。Spark 的设计初衷就是为了支持一些迭代的 Job,这正好符合很多机器学习算法的特点。在 Spark 官方首页中展示了 LogisticRegression 算法在 Spark 和 Hadoop 中运行的性能比拟,如此图以下图所示。 Spark 比运行 Logistic Regression 的运算场景下比 Hadoop 的计算速度快了 100 倍以上21. MLlib 当前支持 4 种常见的机器学习问题:分类、回归、聚类和协同过滤,MLlib 在 Spark整个生态系统中的位置。 MLlib 基于 R
4、DD 能够与 Spark SQL、GraphX、Spark Streaming 无缝集成,以 RDD 为基石,4 个子框架可联手构建大数据计算中心。 MLlib 主要包含三个部分: a底层基础:包括 Spark 的运行库、矩阵库和向量库;b算法库:包含广义线性模型、推荐系统、聚类、决策树和评估的算法;c实用程序:包括测试数据的生成、外部数据的读入等功能。 2.4.1 分类算法。 分类算法属于监督式学习,使用类标签已经知道的样本建立一个分类函数或分类模型,使用分类模型,能够对数据库中没有进行分类的数据进行分类。在数据挖掘领域中分类是一项重要的任务,当前在商业上应用最多,常见的典型应用场景有流失预
5、测、精到准确营销、客户获取、个性偏好等。 MLlib 当前支持分类算法有:逻辑回归、支持向量机、朴素贝叶斯和决策树。 1回归算法。 回归算法属于监督式学习,每个个体都有一个与之相关联的实数标签,并且我们希望在给出用于表示这些实体的数值特征后,所预测出的标签值能够尽可能接近实际值。 MLlib 当前支持回归算法有:线性回归、岭回归、 Lasso 和决策树。 2聚类算法。 聚类算法属于非监督式学习,通常被用于探寻求索性的分析,它意思就是根据物以类聚的原理,将没有分类的数据集分成不同的组,被分类的同一组数据中的数据集叫簇,并且对构成这样的簇的经过进行描绘叙述的经过。聚类的目的就是将属性类似的一组数据
6、集合在一起,也就是讲同一簇中的数据类似,不同簇的数据性质不同,常见的典型应用场景有客户细分、客户研究、市场细分、价值评估。 MLlib 当前支持广泛使用的 KMmeans 聚类算法。 3协同过滤。 协同过滤常被应用于推荐系统,这些技术旨在补充用户 - 商品关联矩阵中所缺失的部分。MLlib 当下支持基于模型的协同过滤,华而不实用户和商品通过一小组隐语义因子进行表示出,并且这些因子也用于预测缺失的元素。 2.5 大数据技术在安全领域的应用和优势。 恶意代码检测、入侵检测作为传统的基于特征的信息安全分析技术已经广泛被应用等,但是伴随着数据量越来越庞大和一些新型的信息安全攻击的出现,传统的安全技术已
7、经很难应付,所以应用大数据分析技术对新型信息安全攻击进行分析已成为业界研究热门。Gartner在 2020 年的报告中明确指出 信息安全正在变成一个大数据分析问题 28.大数据安全分析方式方法不但能够解决海量数据的采集和存储,并且结合机器学习和数据挖掘方式方法,就愈加能够愈加主动、弹性地去应对未知多变的风险和新型复杂的违规行为。因而 BDSABig DataSecurity Analysis,安全大数据分析应运而生。 固然分析日志,网络流量,并为取证和入侵检测系统事件已经在数十年的信息安全界的一个问题,传统的技术并不总是缺乏以支持长期的,大规模的分析有下面几个原因:第一,保存了大量的数据之前不
8、是经济上可行的。其结果是,在传统的基础设施,大多数事件日志和其他记录计算机活动的固定保存期例如,60 天之后删除。其次,不完好和噪音特征大型非构造化数据集进行分析和复杂的查询效率低下。例如,一些流行的安全信息和事件管理SIEM工具的目的不是分析和管理非构造化数据并牢固地绑定到预定义形式。然而,新的大数据应用也开场变得安全管理软件的一部分,由于它们能够帮助清洁,做好准备,并在异构,不完好的,嘈杂的格式有效地查询数据。最后,大型数据仓库的管理历来是昂贵的,他们的部署通常需要强有力的商业案例。 Hadoop 框架等大数据工具如今大规模的商品化,可靠集群的部署,因而使处理和分析数据的出现了新的机遇。欺
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文化交流
限制150内