2022年大数据及数据挖掘方法 .pdf
《2022年大数据及数据挖掘方法 .pdf》由会员分享,可在线阅读,更多相关《2022年大数据及数据挖掘方法 .pdf(43页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、山 东 科 技 大 学本科毕业设计(论文)题 目大数据及数据挖掘方法学 院 名称数学与系统科学学院专业 班级统计学 10 学生 姓名周广军学号201001051633 指 导 教 师高井贵二 0 一四年六月名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 43 页 - - - - - - - - - 1 大数据及数据挖掘方法摘要随着计算机技术的革新,互联网新媒体的快速发展,人们的生活已经进入高速信息时代。我们每天的生活都要产生大量数据,因此我们获取数据的速度和规模不断增长,
2、大量数据不断的被存入存储介质中形成海量数据。海量数据的存储、应用及挖掘已成为人们研究的重要命题。数据挖掘是从存放在数据库、数据仓库或者其他信息库中大量的不完全的有噪声的模糊的随机的数据中提取隐含在其中的人们事先未知、但潜在有用的信息和知识过程。表现形式为:规则、概念、规律及模式等。数据挖掘是一门广义的交叉学科,从一个新的角度把数据库技术、人工智能、统计学等领域结合起来,从更深层次发掘存在于数据内部新颖、有效、具有潜在效用的乃至最终可理解的模式。在数据挖掘中,数据分为训练数据、测试数据、和应用数据。数据挖掘的关键是在训练数据中发现事实,以测试数据作为检验和修正理论的依据,把知识应用到数据中去。本
3、文首先说明了大数据的概念及兴起与发展历程,然后介绍各种主流的数据分析挖掘方法。关键词:大数据数据挖掘数据分析方法名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 43 页 - - - - - - - - - 2 Abstract With the development of computer technology, the rapid development of Internet and new media, peoples life has entered the i
4、nformation era. Our everyday life is to have a large amount of data, so we get the growing data speed and scale, a large amount of data have been stored in the form of mass data storage medium.The storage, application and mining massive data has become an important proposition that people study. Dat
5、a mining is stored in the database from the data warehouse, or other information in the library a lot of incomplete, noise fuzzy random data in which the extraction of implicit previously unknown, but potentially useful information and knowledge process. Manifestation: the rules, concepts, rules and
6、 patterns. Data mining is a crossed subject, database technology, artificial intelligence, statistics and other fields together to from a new point of view, from a more deep excavation in data within a novel, effective, with potentially useful and ultimately understandable patterns. In data mining,
7、data is divided into training data, test data, and the application of data. The key to data mining is fact finding in the training data, the test data as test and modify the theory basis, the application of knowledge to the data. This paper firstly illustrates the concept and the rise and developmen
8、t of large data, and then introduce various mainstream data mining method. Keywords: large data data mining method of data analysis 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 43 页 - - - - - - - - - 3 目录大数据及数据挖掘方法 . 1摘要 . 1Abstract . 2目录. 31 大数据的缘起 . 11.1“大数
9、据”的提出 . 11.2 大数据概念、特征及价值. 21.2.1 大数据的概念 . 21.2.2 大数据的特征 . 31.2.3 大数据的价值 . 41.3 大数据形成的必然性 . 51.4 大数据发展现状 . 7(一)政府积极介入推动 . 8(二)资本市场也对大数据钟爱有加. 8(三)人才需求巨大 . 8(四)国内情况 . 92 大数据的处理 . 10 3 数据挖掘方法 . 12 3.1 神经网络 . 12 3.1.1 人工神经网路基本介绍 . 12 3.1.2 设计神经网路结构 . 15 3.1.3 概率式学习 . 17 3.1.4 神经网路方法优缺点 . 17 3.2 遗传算法 . 18
10、 3.2.1 遗传算法特点 . 18 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 43 页 - - - - - - - - - 4 3.2.2 遗传基本算法 . 20 3.2.3 遗传算法优缺点 . 23 3.3 决策树方法 . 24 3.3.1 决策树表示法 . 24 3.3.2 决策树构造思想 . 25 3.3.3 决策树方法优缺点 . 26 3.4 关联规则 . 27 3.4.1 关联规则基本原理 . 27 3.4.2 关联规则算法 Apriori 算法 . 2
11、8 3.5 粗糙集 . 30 3.5.1 粗糙集理论 . 31 3.5.2 基于属性重要性算法 . 31 3.5.3 粗糙集方法优缺点 . 32 4 大数据面临的挑战1 大数据集成 . 32 2 大数据分析 (analytics ) . 33 3 大数据处理与硬件的协同. 35 参考文献 . 37 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 43 页 - - - - - - - - - 1 1 大数据的缘起随着信息技术的高速发展、数据库管理系统的广泛应用,人们积累的数
12、据量急剧增长,大量的信息给人们带来方便的同时,也带来了诸如:信息过量难以消化,信息真假难以辨识,信息安全难以保证,信息形式不一致难以统一处理等问题。如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。大数据问题成为近两年信息技术学术界与产业界热论的焦点。1.1“大数据”的提出大数据一词,最早出现于 20 世纪 90 年代,当时的数据仓库之父Bill Inmon ,经常提及 Big Data。2011年 5 月,EMC 公司在美国拉斯维加斯举办了第11 届 EMC World 年度大会,设定的主题为“云计算相遇大数据”,大会正式提出了 “大数据
13、”(Big Data)概念。随后, IBM 和麦肯锡等众多国外机构发布了“大数据”相关研究报告,阐述了大数据的特征,给社会经济发展带来的机遇和对当前信息技术的挑战。可以预测,大数据将成为继云计算和物联网之后,信息技术产业又一次颠覆性的技术变革。在学术界,国际顶级期刊Nature和 Sciences 近期针对大数据分别出版了专刊 Big Data)和Deal-ing with Data ,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面讨论了大数据处理面临的各种问题。2012 年 8 月 12 16 日在北京举办的第18 届知识发现与数据挖掘 (KDD) 国际会议,大数据成为重
14、要议题, 其暑期培训班 (KDD Summer School on Mining the Big 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 43 页 - - - - - - - - - 2 Data)和专家论坛 (Panel Discus-lion)都是集中讨论大数据问题。2011 年 11 月 26日,中国软件开发联盟 (CSDN)在北京成功举办了中国大数据技术大会。为推动大数据这个交叉学科的发展,中国计算机学会(CCF)成立了大数据专家委员会(CCF Big D
15、ata Task Force ,简称 CCF TFBD)。大数据的机遇与挑战己经从商业领域上升到国家战略层面。2012 年 3 月 29日,美国政府发布了“大数据研究和发展倡议”。随后,美国国家科学基金委员会(NSF) 、 美国国家卫生研究院 (NIH) 、 美国能源部(DOE) 、 美国国防部 (DODO) 、美国国防部高级研究计划局(DARPA)、美国地质勘探局 (USGS)六个部门联合推出了大数据计划,旨在提升从大量复杂数据中获取知识和洞见的能力。为探讨中国大数据的发展战略,由中国科学院计算技术研究所牵头,2012年 5 月 22 24日在北京成功举办了以“网络数据科学与工程一一门新兴的
16、交叉学科?”为主题的第 424 次香山科学会议,与会国内外知名专家学者为中国大数据发展战略建言献计。 2012 年 8 月 14 15日,中国科学院启动了“面向感知中国的新一代信息技术研究”战略性先导科技专项,任务之一是研制用于大数据采集、存储、处理、分析和挖掘的未来数据系统。信息时代万物数化,大数据的重要性己成行业共识,针对大数据技术和应用的创新,其发展趋势不可阻挡。如何对大数据进行充分和有效的分析和挖掘,使之转换为有价值的信息和知识,用于解决各种各样的科学和应用问题,成为大数据时代信息技术发展的重大挑战,同时也是信息技术创新的新的制高点。1.2 大数据概念、特征及价值1.2.1 大数据的概
17、念广义的大数据概念,除了大数据技术及其应用之外,还包括大数据工程和名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 43 页 - - - - - - - - - 3 大数据科学。大数据工程,是指大数据的规划建设运营管理的系统工程。大数据科学,主要关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。从概念外延上讲,大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域,是适应信息经济时代发展需要而产生的科学技术发展趋势。狭义的大数据概
18、念,主要是指大数据技术及其应用,是指从各种各样类型的数据中,快速获得有价值信息的能力,一方面,强调从海量数据、多样数据里提取微价值,即具有价值(Value)特征 ;另一方面,强调数据获取、数据传递、数据处理、数据利用等层面的高速高效,即具有快速处理(Velocity)特征。大数据概念里的“数据”,是指具有可追踪、可分析、可量化特性的数据。大数据概念里的“大” ,是指“大数据”所应具有的“大量化”(Volume)、 “多样化”(Variety)两个特征。从概念内涵上说“大数据”(Big Data),一方面,反映的是规模大到无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合;另一
19、方面,主要是指海量数据的获取、存储、管理、分析、挖掘与运用的全新技术体系。从根源上讲大数据的分析意义在于对这些庞大的数据进行专业化处理,挖掘数据价值,提供大数据服务才是大数据具有战略价值的关键。1.2.2 大数据的特征在 2011年 10 月美国拉斯维加斯举办的IOD2011 大会上, IBM 给出了大数据的“ 3V” ,特征,即多样性( wariet) 、体量( volume) 、速度 (velocity)。多样性是指数据来自多种数据源,并且数据类型包含结构化和非结构化数据。体量是指整合在一起供分析与挖掘的数据量非常庞大的。速度则是指数据生成和处名师资料总结 - - -精品资料欢迎下载 -
20、- - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 43 页 - - - - - - - - - 4 理的速度必须很快,也包含数据内容的变化也快。大数据的这些特征对现有的数据分析与挖掘方法、技术、算法和软件带来新的挑战,使基于传统服务器进行数据挖掘的方式产生极大的瓶颈。用户为提高大数据分析与挖掘的能力,必须提高服务器的性能,包括存储、内存和CPU,造成机器成本和能耗不断提高。 当前大部分数据分析与挖掘软件不具备TB 级以上大数据的复杂分析和建模能力。随着对大数据价值认识的深入, 大数据的典型特征又加入的一个价值(Valu
21、e)维度,用以描述大数据的价值。在现实应用中,数据量大的数据并不一定有很大的价值。例如,很多数据在没有有效整合之前,重要的分析与挖掘无法开展,因此不具有很大的应用价值,而数据整合本身就是大数据的一大挑战。不能及时有效处理分析的数据也没有很大的应用价值,如大量的视频数据,目前还没有有效分析和挖掘大量视频数据的技术,很多应用还要靠人来监控。1.2.3 大数据的价值大量数据的生成和累积是信息化的必然结果。现代企业在采购、仓储、运输、产品设计、生产、销售和客户服务等诸多环节都采集并积累了大量的供应商、服务提供商和客户的交易数据,生产和经营数据,产品研发数据,财务及人力资源管理数据等,因此可以说现代企业
22、是运营在数据之上,诸多生产和经营的决策问题必须通过数据分析才能解决。麦肯锡的研究表明,随着消费者、企业和各经济部门充分发挥大数据的潜力,由大数据驱动的创新、生产力提高、经济增长、以及新的竞争模式和价值取向变革的巨大浪潮将达到巅峰。与过去不同的是,随着一系列新技术趋势发展的加速和凝聚,大数据所带来的变化规模和范围己经达到新的拐点,将会迅名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 43 页 - - - - - - - - - 5 速膨胀。比如,有效利用大数据可以提高健康护
23、理的质量和效率,潜在为美国每年创造3 千亿美元的价值,其中三分之二是来自于降低健康护理的成本,相当于每年减少全国健康护理花费的8%。零售业充分利用大数据可以提高运营效益 60 %。在欧洲发达国家,充分利用大数据提高政府管理效率,每年可以减少政府运营费用 1 千亿欧元。相信未来大数据的产业规模将会至少以万亿美元来进行衡量,大数据将会给信息技术领域带来一个新的增长点。大数据带来的潜在经济价值和社会价值巨大,但这些价值必须通过数据的有效整合、分析和挖掘才能释放出来。数据的整合是建立数据仓库的必要工作,对于结构化数据的整合有很多解决方案和软件工具。目前的挑战是非结构化数据的融合和整合,如 :文本数据、
24、图像数据、信号数据、音频数据、视频数据等。1.3 大数据形成的必然性(一) .数据管理理念不断变革,大数据成为信息技术发展的必然选择大数据技术及其应用的驱动原因,在于数据管理理念的不断变革。数据管理是利用计算机硬件和软件技术对数据进行有效地收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用。数据管理技术的发展先后经历了四个阶段,即人工管理阶段、文件系统阶段、数据库阶段、面向应用的数据管理阶段。 1996 年,加特纳集团 (Cart-ner Croup)提出“商业智能”概念,又称商务智能 (Business Intelligence,简写为 BI)。商业智能技术为企业提供迅速分析数
25、据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。为了将数据转化为知识,需名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页,共 43 页 - - - - - - - - - 6 要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。因此,从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、 OLAP 和数据挖掘等技术的综合运用。可以认为,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年大数据及数据挖掘方法 2022 数据 挖掘 方法
限制150内