大数据及数据挖掘方法.doc
《大数据及数据挖掘方法.doc》由会员分享,可在线阅读,更多相关《大数据及数据挖掘方法.doc(43页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、山 东 科 技 大 学本科毕业设计(论文)题 目 大数据及数据挖掘方法学 院 名 称 数学与系统科学学院 专业班级 统计学10 学生姓名 周广军 学 号 3 指 导 教 师 高井贵 二0一四年六月大数据及数据挖掘方法摘要 随着计算机技术的革新,互联网新媒体的快速发展,人们的生活已经进入高速信息时代。我们每天的生活都要产生大量数据,因此我们获取数据的速度和规模不断增长,大量数据不断的被存入存储介质中形成海量数据。海量数据的存储、应用及挖掘已成为人们研究的重要命题。 数据挖掘是从存放在数据库、数据仓库或者其他信息库中大量的不完全的有噪声的模糊的随机的数据中提取隐含在其中的人们事先未知、但潜在有用的
2、信息和知识过程。表现形式为:规则、概念、规律及模式等。数据挖掘是一门广义的交叉学科,从一个新的角度把数据库技术、人工智能、统计学等领域结合起来,从更深层次发掘存在于数据内部新颖、有效、具有潜在效用的乃至最终可理解的模式。在数据挖掘中,数据分为训练数据、测试数据、和应用数据。数据挖掘的关键是在训练数据中发现事实,以测试数据作为检验和修正理论的依据,把知识应用到数据中去。 本文首先说明了大数据的概念及兴起与发展历程,然后介绍各种主流的数据分析挖掘方法。关键词:大数据 数据挖掘 数据分析方法 Abstract With the development of computer technology,
3、the rapid development of Internet and new media, peoples life has entered the information era. Our everyday life is to have a large amount of data, so we get the growing data speed and scale, a large amount of data have been stored in the form of mass data storage medium.The storage, application and
4、 mining massive data has become an important proposition that people study. Data mining is stored in the database from the data warehouse, or other information in the library a lot of incomplete, noise fuzzy random data in which the extraction of implicit previously unknown, but potentially useful i
5、nformation and knowledge process. Manifestation: the rules, concepts, rules and patterns. Data mining is a crossed subject, database technology, artificial intelligence, statistics and other fields together to from a new point of view, from a more deep excavation in data within a novel, effective, w
6、ith potentially useful and ultimately understandable patterns. In data mining, data is divided into training data, test data, and the application of data. The key to data mining is fact finding in the training data, the test data as test and modify the theory basis, the application of knowledge to t
7、he data. This paper firstly illustrates the concept and the rise and development of large data, and then introduce various mainstream data mining method.Keywords: large data data mining method of data analysis目录 大数据及数据挖掘方法1摘要1 Abstract2目录31 大数据的缘起11.1“大数据”的提出11.2大数据概念、特征及价值21.2.1大数据的概念21.2.2大数据的特征31
8、.2.3大数据的价值41.3大数据形成的必然性41.4大数据发展现状6(一)政府积极介入推动6(二)资本市场也对大数据钟爱有加7(三)人才需求巨大7(四)国内情况72大数据的处理83数据挖掘方法103.1神经网络103.1.1人工神经网路基本介绍103.1.2设计神经网路结构123.1.3概率式学习133.1.4神经网路方法优缺点133.2遗传算法143.2.1遗传算法特点143.2.2遗传基本算法163.2.3遗传算法优缺点183.3决策树方法193.3.1决策树表示法193.3.2决策树构造思想203.3.3决策树方法优缺点213.4关联规则213.4.1关联规则基本原理223.4.2关联
9、规则算法Apriori算法22 3.5粗糙集243.5.1粗糙集理论243.5.2基于属性重要性算法253.5.3粗糙集方法优缺点254大数据面临的挑战1大数据集成262大数据分析(analytics )263大数据处理与硬件的协同27参考文献29 1 大数据的缘起随着信息技术的高速发展、数据库管理系统的广泛应用,人们积累的数据量急剧增长,大量的信息给人们带来方便的同时,也带来了诸如:信息过量难以消化,信息真假难以辨识,信息安全难以保证,信息形式不一致难以统一处理等问题。如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。大数据问题成为近两年
10、信息技术学术界与产业界热论的焦点。1.1“大数据”的提出 大数据一词,最早出现于20世纪90年代,当时的数据仓库之父Bill Inmon,经常提及Big Data。 2011年5月,EMC公司在美国拉斯维加斯举办了第11届EMC World年度大会,设定的主题为“云计算相遇大数据”,大会正式提出了“大数据”(Big Data)概念。随后,IBM和麦肯锡等众多国外机构发布了“大数据”相关研究报告,阐述了大数据的特征,给社会经济发展带来的机遇和对当前信息技术的挑战。可以预测,大数据将成为继云计算和物联网之后,信息技术产业又一次颠覆性的技术变革。在学术界,国际顶级期刊Nature和Sciences近
11、期针对大数据分别出版了专刊Big Data)和Deal-ing with Data,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面讨论了大数据处理面临的各种问题。2012年8月12 16日在北京举办的第18届知识发现与数据挖掘(KDD)国际会议,大数据成为重要议题,其暑期培训班(KDD Summer School on Mining the Big Data)和专家论坛(Panel Discus-lion)都是集中讨论大数据问题。2011年11月26日,中国软件开发联盟(CSDN)在北京成功举办了中国大数据技术大会。为推动大数据这个交叉学科的发展,中国计算机学会(CCF)成
12、立了大数据专家委员会(CCF Big Data Task Force,简称CCF TFBD)。大数据的机遇与挑战己经从商业领域上升到国家战略层面。2012年3月29日,美国政府发布了“大数据研究和发展倡议”。随后,美国国家科学基金委员会(NSF)、美国国家卫生研究院(NIH)、美国能源部(DOE)、美国国防部(DODO)、美国国防部高级研究计划局(DARPA)、美国地质勘探局(USGS)六个部门联合推出了大数据计划,旨在提升从大量复杂数据中获取知识和洞见的能力。为探讨中国大数据的发展战略,由中国科学院计算技术研究所牵头,2012年5月22 24日在北京成功举办了以“网络数据科学与工程一一门新兴
13、的交叉学科?”为主题的第424次香山科学会议,与会国内外知名专家学者为中国大数据发展战略建言献计。2012年8月14 15日,中国科学院启动了“面向感知中国的新一代信息技术研究”战略性先导科技专项,任务之一是研制用于大数据采集、存储、处理、分析和挖掘的未来数据系统。信息时代万物数化,大数据的重要性己成行业共识,针对大数据技术和应用的创新,其发展趋势不可阻挡。如何对大数据进行充分和有效的分析和挖掘,使之转换为有价值的信息和知识,用于解决各种各样的科学和应用问题,成为大数据时代信息技术发展的重大挑战,同时也是信息技术创新的新的制高点。1.2大数据概念、特征及价值1.2.1大数据的概念 广义的大数据
14、概念,除了大数据技术及其应用之外,还包括大数据工程和大数据科学。大数据工程,是指大数据的规划建设运营管理的系统工程。大数据科学,主要关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。从概念外延上讲,大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域,是适应信息经济时代发展需要而产生的科学技术发展趋势。 狭义的大数据概念,主要是指大数据技术及其应用,是指从各种各样类型的数据中,快速获得有价值信息的能力,一方面,强调从海量数据、多样数据里提取微价值,即具有价值(Value)特征;另一方面,强调数据获取、数据传递、数据处理、数据利用等层面的高速高效,即
15、具有快速处理(Velocity)特征。大数据概念里的“数据”,是指具有可追踪、可分析、可量化特性的数据。大数据概念里的“大”,是指“大数据”所应具有的“大量化”(Volume)、“多样化”(Variety)两个特征。从概念内涵上说“大数据”(Big Data),一方面,反映的是规模大到无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合;另一方面,主要是指海量数据的获取、存储、管理、分析、挖掘与运用的全新技术体系。 从根源上讲大数据的分析意义在于对这些庞大的数据进行专业化处理,挖掘数据价值,提供大数据服务才是大数据具有战略价值的关键。1.2.2大数据的特征 在2011年10月美
16、国拉斯维加斯举办的IOD2011大会上,IBM给出了大数据的“3V”,特征,即多样性(wariet)、体量(volume)、速度(velocity)。多样性是指数据来自多种数据源,并且数据类型包含结构化和非结构化数据。体量是指整合在一起供分析与挖掘的数据量非常庞大的。速度则是指数据生成和处理的速度必须很快,也包含数据内容的变化也快。 大数据的这些特征对现有的数据分析与挖掘方法、技术、算法和软件带来新的挑战,使基于传统服务器进行数据挖掘的方式产生极大的瓶颈。用户为提高大数据分析与挖掘的能力,必须提高服务器的性能,包括存储、内存和CPU,造成机器成本和能耗不断提高。当前大部分数据分析与挖掘软件不具
17、备TB级以上大数据的复杂分析和建模能力。 随着对大数据价值认识的深入,大数据的典型特征又加入的一个价值(Value)维度,用以描述大数据的价值。在现实应用中,数据量大的数据并不一定有很大的价值。例如,很多数据在没有有效整合之前,重要的分析与挖掘无法开展,因此不具有很大的应用价值,而数据整合本身就是大数据的一大挑战。不能及时有效处理分析的数据也没有很大的应用价值,如大量的视频数据,目前还没有有效分析和挖掘大量视频数据的技术,很多应用还要靠人来监控。1.2.3大数据的价值 大量数据的生成和累积是信息化的必然结果。现代企业在采购、仓储、运输、产品设计、生产、销售和客户服务等诸多环节都采集并积累了大量
18、的供应商、服务提供商和客户的交易数据,生产和经营数据,产品研发数据,财务及人力资源管理数据等,因此可以说现代企业是运营在数据之上,诸多生产和经营的决策问题必须通过数据分析才能解决。 麦肯锡的研究表明,随着消费者、企业和各经济部门充分发挥大数据的潜力,由大数据驱动的创新、生产力提高、经济增长、以及新的竞争模式和价值取向变革的巨大浪潮将达到巅峰。与过去不同的是,随着一系列新技术趋势发展的加速和凝聚,大数据所带来的变化规模和范围己经达到新的拐点,将会迅速膨胀。比如,有效利用大数据可以提高健康护理的质量和效率,潜在为美国每年创造3千亿美元的价值,其中三分之二是来自于降低健康护理的成本,相当于每年减少全
19、国健康护理花费的8%。零售业充分利用大数据可以提高运营效益60 %。在欧洲发达国家,充分利用大数据提高政府管理效率,每年可以减少政府运营费用1千亿欧元。相信未来大数据的产业规模将会至少以万亿美元来进行衡量,大数据将会给信息技术领域带来一个新的增长点。大数据带来的潜在经济价值和社会价值巨大,但这些价值必须通过数据的有效整合、分析和挖掘才能释放出来。数据的整合是建立数据仓库的必要工作,对于结构化数据的整合有很多解决方案和软件工具。目前的挑战是非结构化数据的融合和整合,如:文本数据、图像数据、信号数据、音频数据、视频数据等。1.3大数据形成的必然性(一).数据管理理念不断变革,大数据成为信息技术发展
20、的必然选择大数据技术及其应用的驱动原因,在于数据管理理念的不断变革。数据管理是利用计算机硬件和软件技术对数据进行有效地收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用。数据管理技术的发展先后经历了四个阶段,即人工管理阶段、文件系统阶段、数据库阶段、面向应用的数据管理阶段。1996年,加特纳集团(Cart-ner Croup)提出“商业智能”概念,又称商务智能(Business Intelligence,简写为BI)。商业智能技术为企业提供迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。商业智能通常被理解为将企业中现有的数据转化
21、为知识,帮助企业做出明智的业务经营决策的工具。为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。因此,从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。可以认为,商业智能是对商业信息的搜集、管理和分析过程,目的是使企业的各级决策者获得知识或洞察力,促使他们做出对企业更有利的决策。随着现代信息传播技术手段和方式不断丰富,信息获取、信息传递、信息处理、信息再生、信息利用等功能应用日益多样化,智能化信息系统逐渐形成一个信息网络体系,人类社会的生产方式、工作方式、学习方式、交往方式、生活方式、思维方式等发生了极其深刻的变革,
22、互动化、即时性、全媒体等成为常态性的信息生态环境,传统的数据库组织架构和信息服务模式己经难以适应信息社会现实需要,整个信息技术架构的革命性重构势在必行,大数据成为信息技术发展的必由之路。(二)大数据源于虚拟网络的迅速发展和现实世界的快速网络化 一方面,虚拟网络社会迅猛发展,形成了海量数据的持续生成空间。虚拟社会是人们在计算机网络中展开活动,相互作用形成的社会关系体系。虚拟社会的形成和发展,为人类生存和发展提供了新的空间,改变了社会结构,形成了与现实社会并存的社会存在的新形式;改变了人类的生存方式和活动方式,形成了人类的虚拟生活方式。另一方面,云计算、物联网、社交网络、电子商务、网络社区、即时通
23、讯等技术形式的涌现,推动现实世界快速向网络社会形态切换,衍生了规模巨大、类型多样的数据资源。其中两类数据尤其引人注意,一类是企业与企业、消费者之间的“大交易数据”,另一类是来自互联网、社区网、企业服务网、物联网等的“大交互数据”。虚拟网络的迅速发展和现实世界的快速网络化,两者交互影响,最终指向海量数据的持续生成和繁杂数据的不断出现。目前,我们正处于一个信息爆炸的年代,全球每年产生的数据量是ZB级。2012年全球产生2. 4ZB的数据,相当于3 Trillion(万亿)的DVD,到2020年,数据还将增加14倍,达到40ZB。大数据概念的提出,最初正是由于需要处理的信息量过大,超出了一般电脑的数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 方法
限制150内