大数据下的机器学习(共6页).doc
《大数据下的机器学习(共6页).doc》由会员分享,可在线阅读,更多相关《大数据下的机器学习(共6页).doc(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上程序设计方法学课程论文 题目: 大数据下的机器学习 学院学号姓名指导老师日期 通信与信息工程学院 唐 川 宗 平 2014/2015学年第二学期 大数据下的机器学习摘要:随着产业界数据量的爆炸式增长,大数据概念受到越来越多的关注。由于大数据的海量、复杂多样、变化快的特性,如何有效利用大数据中的信息,并使用这些信息提高生产率成为迫切需要解决的问题。机器学习是解决这类问题的有效方法之一。因此,研究大数据环境下的机器学习算法成为学术界和产业界共同关注的话题。本文旨在对机器学习的一些基本算法和在大数据环境下机器学习大概面临的一些问题进行初步介绍。关键词:大数据,机器学习,分类
2、,聚类,最优化方法,并行算法1. 大数据时代来临 经过20余年的努力,Internet已获得巨大的成功,由此,人们可以在不同时间与地域获取自己希望获得的信息。然而,有效获得信息是一回事,获得的信息是否能够有效且方便地使用则是另一回事。目前的现状是大量可以有效获得的信息,大约只有10%可以被使用,消耗了大量资源的信息不仅未能够被有效地使用,而且由于有用的信息正在更深地被掩埋在无用信息之中,变得更难以利用。花费了大量人力物力而获得信息,却无法有效使用,长此以往,这将与未获得信息无区别。如何有效利用这些被掩埋的有用信息已成为信息产业继续兴旺发展的关键。大数据定义:有关大数据的定义有多种。一个狭义的定
3、义:大数据是指不能装载进计算机内存储器的数据。尽管这是一个非正式的定义,但易理解,因为每台电脑都有一个大到不能装载进内存的数据集。广义的大数据定义为:一般意义上,大数据是指无法在可容忍的时间内用传统 IT 技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。大数据特点:大数据有多方面的特点,从最开始的3V模型到目前扩展的4V模型就是以大数据的特点命名的。3V模型包括体积(Volume),速度( Velocity)和多样性(Variety);4V模型中的第4个V有多种解释, 如变化性( Variability),虚拟化( Virtual)或价值(Value)。针对这些特点,大数据时代
4、知识解析、机器智能与人类智能协调工作及智能分析系统将会扮演重要角色,人们需要一种智能分析接口将人类与计算机世界连接,否则将被淹没在大数据的洪流中。2. 机器学习自从计算机被发明以来,人们就想知道它能不能学习。机器学习从本质上是一个多学科的领域。它吸取了人工智能、概率统计、计算复杂性理论、控制论、信息论、哲学、生理学、神经生物学等学科的成果。机器学习的研究主旨是使用计算机模拟人类的学习活动,它是研究计算机识别现有知识、获取新知识、不断改善性能和实现自身完善的方法。这里的学习意味着从数据中学习,它包括有监督学习(Supervised Learning ) 、无监督学习(Unsupervised L
5、earning)和半监督学习(Semi -Supervised Learning) 三种类别 。有监督学习需要对已知的样本进行训练得到算法模型,然后对未知样本的度量结果(或者说是标签)进行预测;而无监督学习则是直接预测未知样本的度量结果,没有实现训练的过程;而半监督学习就是介乎两者之间的机器学习方法。传统机器学习面临的一个新挑战是如何处理大数据。目前,包含大规模数据的机器学习问题是普遍存在的,但是,由于现有的许多机器学习算法是基于内存的,大数据却无法装载进计算机内存,故现有的诸多算法不能处理大数据。如何提出新的机器学习算法以适应大数据处理的需求,是大数据时代的研究热点方向之一。3. 大数据环境
6、下的机器学习算法3.1 大数据分类 有监督学习(分类) 面临的一个新挑战是如何处理大数据。目前包含大规模数据的分类问题是普遍存在的,但是传统分类算法不能处理大数据1) 支持向量机分类。SVM 法即支持向量机( Support Vector Machine) 法,由 Vapnik 等人于1995年提出,具有相对优良的性能指标。该方法是建立在统计学习理论基础上的机器学习方法。通过学习算法,SVM可以自动寻找出那些对分类有较好区分能力的支持向量,由此构造出的分类器可以最大化类与类的间隔。因而有较好的适应能力和较高的分率。该方法只需要由各类域的边界样本的类别来决定最后的分类结果。2) 决策树分类。决策
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 机器 学习
限制150内