海量数据异常检测技术设计与实现(精品推荐).docx
《海量数据异常检测技术设计与实现(精品推荐).docx》由会员分享,可在线阅读,更多相关《海量数据异常检测技术设计与实现(精品推荐).docx(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、海量数据异常检测技术设计与实现【摘要】海量数据文件异常并行检测技术实现了对分享文件存储系统中数据文件合法性的检查功能。主要采用集群和多线程技术,实现了在服务器和线程两级的并行处理,可有效提高文件扫描检测效率,具有高可用、高并发特性。经实际部署和验证测试,该并行检测技术具有较高的检测效率。【关键词】海量数据;集群;多线程;并行;检测;效率大数据分析处理技术从海量数据中发现隐含的知识。但数据获取的方式、速度、数据格式以及人为的误操作等都会影响数据质量,进而给大数据分析带来费事。大数据处理流程中利用数据清洗来解决数据质量问题。数据清洗通过对数据进行重新审查和校验,删除重复信息、非法格式文件以及纠正存
2、在的错误,并提供数据一致性,进而保证数据质量,服务大数据分析。遥感卫星系统在运行经过中,大量的遥感数据7*24小时不间断下传,文件系统中存储了海量的遥感数据。由于卫星器件问题、传输问题和地面人为误操作等都会造成一些数据文件的错误。如不及时对非法数据文件进行检测清理,将会影响后续的数据分析处理业务。由于遥感数据体量宏大,且增长速度快,因而需要以更快的速度对数据进行检测,在规定的时间内完成对数据的清洗。本文设计并实现了一种海量数据文件异常并行检测技术,利用服务器集群对海量数据文件进行异常检测,并在服务器执行经过中采用多线程技术,进而实现服务器和线程两级的并行处理,获得了较高的扫描检测效率。1相关工
3、作通过数据分析获取知识和解决问题是科学研究和工程实践的重要手段,计算机的出现使数据分析计算的效率实现了质的飞跃。随着科技发展,科研和工业上碰到的问题愈加复杂庞大,要分析的数据量也在不断增加,单机的处理速度已经无法知足要求。1993年,集群技术逐步得到重视和发展。集群将若干台计算机或工作站、服务器等通过网络连接,多机协同工作实现并行处理,能够同时具备高性能和高可用性。1997年战胜国际象棋大师卡斯帕罗夫的“深蓝计算机就是由多台运行AIX的IBMSP2计算机组成的集群,每秒能够计算2亿步。2000年,新墨西哥大学的LosLobos1集群实际上是256台IBM的Netnity个人多服务器组成的“超级
4、集群。它以低成本提供超级计算机水平的功能,每秒钟的处理可到达3750亿次。该速度在当时前500台超级计算机中排名第24。进入21世纪,当代工业高速发展,十分是网络信息产业的繁荣,使得数据呈现爆炸式的增长。海量数据的处理需求催生了大数据处理技术。大数据处理的基本思想是分治,采用分布式并行计算,将大数据问题分解成规模较小的子问题进行求解,然后合并子问题的解得到最终解2,在处理速度上获得了质的飞跃。2004年Google公司提出的MapReduce3是一种专门处理大数据的编程模型和实现框架,具有简单、高效、易伸缩以及高容错性等特点。MapReduce技术本质是一种并行计算,所以也采用集群作为硬件环境
5、。基于MapReduce框架的Hadoop大数据处理平台能够利用普通计算机搭建集群,为超大数据集提供存储和处理能力,合适大规模离线数据的批处理。缺点是小文件处理性能较差,且易造成负载不平衡。Spark4是轻量的、基于内存计算的开源集群计算平台。Spark通过完善内存计算和处理优化机制加快批处理工作负载的运行速度,批处理速度比MapReduce快10倍,内存中分析速度快100倍。由于集群在提供高效计算的同时具有较高的性价比,且能够保证计算系统的高可用,并行计算对集群有越来越强的依靠5,所以本文决定采用集群作为海量数据文件异常检测的硬件平台,并利用多线程技术实现集群和线程两级的并行处理。2海量数据
6、文件异常并行检测技术设计2.1设计目的2.1.1高效检测能力遥感卫星系统24小时连续运行,海量探测数据不间断的下传,存储在分布式文件系统中。数据文件异常检测服务需要能够快速检测出海量数据文件中的非法文件,并及时去除,保证数据分析处理业务对数据的访问。2.1.2智能检测能力系统应允许用户选择文件目录和检测时间,设置定时扫描检测任务,进而实现海量数据文件异常检测的智能化。2.1.3系统高可用星上数据持续下传,文件系统中不断有新的文件存入,数据文件异常检测服务势必也要长时间运行。服务器长期运行下会有一定的故障概率,怎样避免服务器宕机造成服务中断是设计中需要解决的问题。2.2设计思路系统拟采用服务器集
7、群来到达检测所需的性能,在服务器执行扫描检测任务经过中运用多线程技术实现并行处理进一步提高检测效率。系统由负载平衡服务器和执行服务器集群组成,其主要功能模块构成如图1所示。1通过任务配置模块,施行检测策略的灵敏配置,能够从文件名、文件格式、文件内容等不同角度对异常文件进行检测,并可对检测时间、检测目录等信息灵敏选择,进而实现智能化检测。2通过运行在负载平衡服务器上的负载平衡模块将任务划分后分发到多台执行服务器上并行执行,进而提高检测效率,并且集群能够根据需求灵敏扩展系统能力。3在执行服务器上设计实现服务器资源监控调度模块,监视服务器资源动态使用情况,根据业务繁忙程度为检测服务分配服务器资源,进
8、而在充分利用资源提高检测效率的同时保证服务器上其他业务的正常运行。4任务执行模块运行在执行服务器上。其中线程管理子模块负责开设线程池,管理多个线程并行执行扫描检测任务,进一步提高检测效率;任务队列管理子模块负责对任务队列进行组织管理;线程执行模块中各线程从任务队列中提取任务进行执行。5各服务器任务完成后通过集成在服务器上的消息发送端将结果发送至分发服务器,由分发服务器直接推送给前端进行显示。6系统内服务器施行热备和冗余设计,当某台服务器宕机后,冗余节点能够在短时间内接手任务,保证服务持续进行,进而实现系统的高可用。3关键技术实现服务器集群在工作经过中,负载平衡模块运行负载平衡策略完成集群之间任
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 海量 数据 异常 检测 技术设计 实现 精品 推荐
限制150内