Hadoop物联网数据挖掘的算法分析(共4642字).doc





《Hadoop物联网数据挖掘的算法分析(共4642字).doc》由会员分享,可在线阅读,更多相关《Hadoop物联网数据挖掘的算法分析(共4642字).doc(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Hadoop物联网数据挖掘的算法分析(共4642字)摘要:介绍了物联网数据处理的若干关键技术,如大数据采集、大数据存储、大数据的分析与挖掘等。以Hadoop为平台对物联网数据进行挖掘与分析,为了提高处理庞大数据的实效性,基于MapReduce架构采用了朴素贝叶斯分类算法、K-modes聚类算法以及ECLAT算法。分析认为,应用这三类算法,提高了数据分类效率,优化了类内对象之间的相似性以及类间对象之间的关联性,为更高效的数据挖掘提供了很好的思路。关键词:物联网;Hadoop;朴素贝叶斯;K-modes;ECLAT当前计算机技术发展迅速,物联网是在计算机、互联网之后信息产业发展的第三次浪潮,它必将
2、成为社会发展的重要推力,它能够实现人与人、人与物和物与物之间的沟通与交流。物联网的兴起也必将再次引发数据的快速增长,对许多行业来说既是更严峻的挑战,也是更宝贵的机遇。物联网正在深刻改变着人们的生活习惯、工作方式。本文主要采用Hadoop分布式系统架构处理物联网环境下的大数据,Hadoop是一个分布式计算平台,具有高可靠性、高扩展性、高效性以及高容错性等优点。其主要由三大部分构成,HDFS(HadoopDistributedFileSystem)分布式文件系统、HadoopMapReduce分布式计算模型和HBase分布式数据库。因此,如何更好地应用Hadoop计算平台处理好物联网大数据,将是一
3、个待攻克的难题。本文主要分析如何运用Hadoop平台处理大数据的理论依据,以及物联网的应用前景。1物联网概述物联网1底层网络通过RFID(RadioFrequencyIdentification)、WSNs(WirelessSensorNetworks)、无线局域网等网络技术采集物物交换信息并传输到智能汇聚网关,通过智能汇聚网关接入到网络融合体系,最后利用包括广播电视网、互联网、电信网等网络途径使信息到达终端用户应用系统。作为底层的数据感知层次2,在这个阶段主要感知各种各样的信息内容,例如二维标签、识别器、摄像头信息、传感网络等。然后,整理收集到的数据通过传输层进行传递,例如网络管理中心、通信
4、网络和智能处理等。最后,系统处理传输层的数据,通过人机交互解决信息处理和人机界面的问题。2Hadoop工作原理2.1Hadoop基本架构Hadoop主要是处理大数据的开源式平台,其具有海量存储、成本低廉、效率高以及牢靠性高等特点,因此可以应用到物联网平台的大数据处理3。Hadoop的两大主要元件是HDFS和MapReduce。前者的工作主要是存储海量的数据,其存储方式是分布式的;后者主要是计算处理这些大数据,其计算方式也是分布式处理4。为了更好的理解这两个元件的体系结构及其工作流程.2.2HDFS分布式文件系统HDFS是一个分布式文件系统,其具有高容错性和低廉的成本。HDFS实现的主要目标有以
5、下几点。以最快的速度检查出硬件异常情况并且及时解决异常。进行批量化处理文件,提高效率节省时间,重点强调数据的吞吐量。支持大数据集,不仅可以处理聚集式的高宽带数据,而且可以支持成百个节点的单个集群。其访问模式是“一次输入,多次读取”,保证了数据访问吞吐量的高效性。HDFS设计可实现不同平台间的互相转移,因而促进了大数据程序平台的广泛应用。HDFS以主从(Master/Slave)结构为主,HDFS集群由一个NameNode和许多个DataNode组成。NameNode为主服务器,主要负责管理存储文件以及访问客户端操作文件。DataNode主要负责管理存储数据,也就是存储小的数据块。2.3MapR
6、educe分布式计算框架MapReduce的两大阶段主要是Map阶段和Reduce阶段。Map阶段构成:输入数据格式解析(InputFormat);输入数据处理(Mapper);数据分组(Partitioner)。而Reduce阶段构成:数据远程拷贝;数据按照KEY排序;数据处理(Reduce);数据输出格式(OutputFormat)。其工作流程如下。数据预处理:从HDFS数据库中读取数据,分析输入数据格式。MAP映射任务:读取自己所属的文件分片,将每一条数据转换成键值对,运用MAP函数得到新的键值对并将其存储到中间节点上。定位缓存文件:将上一步得到的键值对的存储位置信息发送给Reducer
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Hadoop 联网 数据 挖掘 算法 分析 4642

限制150内