2022年大数据及数据挖掘方法 .pdf
山 东 科 技 大 学本科毕业设计(论文)题 目大数据及数据挖掘方法学 院 名称数学与系统科学学院专业 班级统计学 10 学生 姓名周广军学号201001051633 指 导 教 师高井贵二 0 一四年六月名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 43 页 - - - - - - - - - 1 大数据及数据挖掘方法摘要随着计算机技术的革新,互联网新媒体的快速发展,人们的生活已经进入高速信息时代。我们每天的生活都要产生大量数据,因此我们获取数据的速度和规模不断增长,大量数据不断的被存入存储介质中形成海量数据。海量数据的存储、应用及挖掘已成为人们研究的重要命题。数据挖掘是从存放在数据库、数据仓库或者其他信息库中大量的不完全的有噪声的模糊的随机的数据中提取隐含在其中的人们事先未知、但潜在有用的信息和知识过程。表现形式为:规则、概念、规律及模式等。数据挖掘是一门广义的交叉学科,从一个新的角度把数据库技术、人工智能、统计学等领域结合起来,从更深层次发掘存在于数据内部新颖、有效、具有潜在效用的乃至最终可理解的模式。在数据挖掘中,数据分为训练数据、测试数据、和应用数据。数据挖掘的关键是在训练数据中发现事实,以测试数据作为检验和修正理论的依据,把知识应用到数据中去。本文首先说明了大数据的概念及兴起与发展历程,然后介绍各种主流的数据分析挖掘方法。关键词:大数据数据挖掘数据分析方法名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 43 页 - - - - - - - - - 2 Abstract With the development of computer technology, the rapid development of Internet and new media, peoples life has entered the information era. Our everyday life is to have a large amount of data, so we get the growing data speed and scale, a large amount of data have been stored in the form of mass data storage medium.The storage, application and mining massive data has become an important proposition that people study. Data mining is stored in the database from the data warehouse, or other information in the library a lot of incomplete, noise fuzzy random data in which the extraction of implicit previously unknown, but potentially useful information and knowledge process. Manifestation: the rules, concepts, rules and patterns. Data mining is a crossed subject, database technology, artificial intelligence, statistics and other fields together to from a new point of view, from a more deep excavation in data within a novel, effective, with potentially useful and ultimately understandable patterns. In data mining, data is divided into training data, test data, and the application of data. The key to data mining is fact finding in the training data, the test data as test and modify the theory basis, the application of knowledge to the data. This paper firstly illustrates the concept and the rise and development of large data, and then introduce various mainstream data mining method. Keywords: large data data mining method of data analysis 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 43 页 - - - - - - - - - 3 目录大数据及数据挖掘方法 . 1摘要 . 1Abstract . 2目录. 31 大数据的缘起 . 11.1“大数据”的提出 . 11.2 大数据概念、特征及价值. 21.2.1 大数据的概念 . 21.2.2 大数据的特征 . 31.2.3 大数据的价值 . 41.3 大数据形成的必然性 . 51.4 大数据发展现状 . 7(一)政府积极介入推动 . 8(二)资本市场也对大数据钟爱有加. 8(三)人才需求巨大 . 8(四)国内情况 . 92 大数据的处理 . 10 3 数据挖掘方法 . 12 3.1 神经网络 . 12 3.1.1 人工神经网路基本介绍 . 12 3.1.2 设计神经网路结构 . 15 3.1.3 概率式学习 . 17 3.1.4 神经网路方法优缺点 . 17 3.2 遗传算法 . 18 3.2.1 遗传算法特点 . 18 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 43 页 - - - - - - - - - 4 3.2.2 遗传基本算法 . 20 3.2.3 遗传算法优缺点 . 23 3.3 决策树方法 . 24 3.3.1 决策树表示法 . 24 3.3.2 决策树构造思想 . 25 3.3.3 决策树方法优缺点 . 26 3.4 关联规则 . 27 3.4.1 关联规则基本原理 . 27 3.4.2 关联规则算法 Apriori 算法 . 28 3.5 粗糙集 . 30 3.5.1 粗糙集理论 . 31 3.5.2 基于属性重要性算法 . 31 3.5.3 粗糙集方法优缺点 . 32 4 大数据面临的挑战1 大数据集成 . 32 2 大数据分析 (analytics ) . 33 3 大数据处理与硬件的协同. 35 参考文献 . 37 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 43 页 - - - - - - - - - 1 1 大数据的缘起随着信息技术的高速发展、数据库管理系统的广泛应用,人们积累的数据量急剧增长,大量的信息给人们带来方便的同时,也带来了诸如:信息过量难以消化,信息真假难以辨识,信息安全难以保证,信息形式不一致难以统一处理等问题。如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。大数据问题成为近两年信息技术学术界与产业界热论的焦点。1.1“大数据”的提出大数据一词,最早出现于 20 世纪 90 年代,当时的数据仓库之父Bill Inmon ,经常提及 Big Data。2011年 5 月,EMC 公司在美国拉斯维加斯举办了第11 届 EMC World 年度大会,设定的主题为“云计算相遇大数据”,大会正式提出了 “大数据”(Big Data)概念。随后, IBM 和麦肯锡等众多国外机构发布了“大数据”相关研究报告,阐述了大数据的特征,给社会经济发展带来的机遇和对当前信息技术的挑战。可以预测,大数据将成为继云计算和物联网之后,信息技术产业又一次颠覆性的技术变革。在学术界,国际顶级期刊Nature和 Sciences 近期针对大数据分别出版了专刊 Big Data)和Deal-ing with Data ,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面讨论了大数据处理面临的各种问题。2012 年 8 月 12 16 日在北京举办的第18 届知识发现与数据挖掘 (KDD) 国际会议,大数据成为重要议题, 其暑期培训班 (KDD Summer School on Mining the Big 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 43 页 - - - - - - - - - 2 Data)和专家论坛 (Panel Discus-lion)都是集中讨论大数据问题。2011 年 11 月 26日,中国软件开发联盟 (CSDN)在北京成功举办了中国大数据技术大会。为推动大数据这个交叉学科的发展,中国计算机学会(CCF)成立了大数据专家委员会(CCF Big Data Task Force ,简称 CCF TFBD)。大数据的机遇与挑战己经从商业领域上升到国家战略层面。2012 年 3 月 29日,美国政府发布了“大数据研究和发展倡议”。随后,美国国家科学基金委员会(NSF) 、 美国国家卫生研究院 (NIH) 、 美国能源部(DOE) 、 美国国防部 (DODO) 、美国国防部高级研究计划局(DARPA)、美国地质勘探局 (USGS)六个部门联合推出了大数据计划,旨在提升从大量复杂数据中获取知识和洞见的能力。为探讨中国大数据的发展战略,由中国科学院计算技术研究所牵头,2012年 5 月 22 24日在北京成功举办了以“网络数据科学与工程一一门新兴的交叉学科?”为主题的第 424 次香山科学会议,与会国内外知名专家学者为中国大数据发展战略建言献计。 2012 年 8 月 14 15日,中国科学院启动了“面向感知中国的新一代信息技术研究”战略性先导科技专项,任务之一是研制用于大数据采集、存储、处理、分析和挖掘的未来数据系统。信息时代万物数化,大数据的重要性己成行业共识,针对大数据技术和应用的创新,其发展趋势不可阻挡。如何对大数据进行充分和有效的分析和挖掘,使之转换为有价值的信息和知识,用于解决各种各样的科学和应用问题,成为大数据时代信息技术发展的重大挑战,同时也是信息技术创新的新的制高点。1.2 大数据概念、特征及价值1.2.1 大数据的概念广义的大数据概念,除了大数据技术及其应用之外,还包括大数据工程和名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 43 页 - - - - - - - - - 3 大数据科学。大数据工程,是指大数据的规划建设运营管理的系统工程。大数据科学,主要关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。从概念外延上讲,大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域,是适应信息经济时代发展需要而产生的科学技术发展趋势。狭义的大数据概念,主要是指大数据技术及其应用,是指从各种各样类型的数据中,快速获得有价值信息的能力,一方面,强调从海量数据、多样数据里提取微价值,即具有价值(Value)特征 ;另一方面,强调数据获取、数据传递、数据处理、数据利用等层面的高速高效,即具有快速处理(Velocity)特征。大数据概念里的“数据”,是指具有可追踪、可分析、可量化特性的数据。大数据概念里的“大” ,是指“大数据”所应具有的“大量化”(Volume)、 “多样化”(Variety)两个特征。从概念内涵上说“大数据”(Big Data),一方面,反映的是规模大到无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合;另一方面,主要是指海量数据的获取、存储、管理、分析、挖掘与运用的全新技术体系。从根源上讲大数据的分析意义在于对这些庞大的数据进行专业化处理,挖掘数据价值,提供大数据服务才是大数据具有战略价值的关键。1.2.2 大数据的特征在 2011年 10 月美国拉斯维加斯举办的IOD2011 大会上, IBM 给出了大数据的“ 3V” ,特征,即多样性( wariet) 、体量( volume) 、速度 (velocity)。多样性是指数据来自多种数据源,并且数据类型包含结构化和非结构化数据。体量是指整合在一起供分析与挖掘的数据量非常庞大的。速度则是指数据生成和处名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 43 页 - - - - - - - - - 4 理的速度必须很快,也包含数据内容的变化也快。大数据的这些特征对现有的数据分析与挖掘方法、技术、算法和软件带来新的挑战,使基于传统服务器进行数据挖掘的方式产生极大的瓶颈。用户为提高大数据分析与挖掘的能力,必须提高服务器的性能,包括存储、内存和CPU,造成机器成本和能耗不断提高。 当前大部分数据分析与挖掘软件不具备TB 级以上大数据的复杂分析和建模能力。随着对大数据价值认识的深入, 大数据的典型特征又加入的一个价值(Value)维度,用以描述大数据的价值。在现实应用中,数据量大的数据并不一定有很大的价值。例如,很多数据在没有有效整合之前,重要的分析与挖掘无法开展,因此不具有很大的应用价值,而数据整合本身就是大数据的一大挑战。不能及时有效处理分析的数据也没有很大的应用价值,如大量的视频数据,目前还没有有效分析和挖掘大量视频数据的技术,很多应用还要靠人来监控。1.2.3 大数据的价值大量数据的生成和累积是信息化的必然结果。现代企业在采购、仓储、运输、产品设计、生产、销售和客户服务等诸多环节都采集并积累了大量的供应商、服务提供商和客户的交易数据,生产和经营数据,产品研发数据,财务及人力资源管理数据等,因此可以说现代企业是运营在数据之上,诸多生产和经营的决策问题必须通过数据分析才能解决。麦肯锡的研究表明,随着消费者、企业和各经济部门充分发挥大数据的潜力,由大数据驱动的创新、生产力提高、经济增长、以及新的竞争模式和价值取向变革的巨大浪潮将达到巅峰。与过去不同的是,随着一系列新技术趋势发展的加速和凝聚,大数据所带来的变化规模和范围己经达到新的拐点,将会迅名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 43 页 - - - - - - - - - 5 速膨胀。比如,有效利用大数据可以提高健康护理的质量和效率,潜在为美国每年创造3 千亿美元的价值,其中三分之二是来自于降低健康护理的成本,相当于每年减少全国健康护理花费的8%。零售业充分利用大数据可以提高运营效益 60 %。在欧洲发达国家,充分利用大数据提高政府管理效率,每年可以减少政府运营费用 1 千亿欧元。相信未来大数据的产业规模将会至少以万亿美元来进行衡量,大数据将会给信息技术领域带来一个新的增长点。大数据带来的潜在经济价值和社会价值巨大,但这些价值必须通过数据的有效整合、分析和挖掘才能释放出来。数据的整合是建立数据仓库的必要工作,对于结构化数据的整合有很多解决方案和软件工具。目前的挑战是非结构化数据的融合和整合,如 :文本数据、图像数据、信号数据、音频数据、视频数据等。1.3 大数据形成的必然性(一) .数据管理理念不断变革,大数据成为信息技术发展的必然选择大数据技术及其应用的驱动原因,在于数据管理理念的不断变革。数据管理是利用计算机硬件和软件技术对数据进行有效地收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用。数据管理技术的发展先后经历了四个阶段,即人工管理阶段、文件系统阶段、数据库阶段、面向应用的数据管理阶段。 1996 年,加特纳集团 (Cart-ner Croup)提出“商业智能”概念,又称商务智能 (Business Intelligence,简写为 BI)。商业智能技术为企业提供迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。为了将数据转化为知识,需名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页,共 43 页 - - - - - - - - - 6 要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。因此,从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、 OLAP 和数据挖掘等技术的综合运用。可以认为,商业智能是对商业信息的搜集、管理和分析过程,目的是使企业的各级决策者获得知识或洞察力,促使他们做出对企业更有利的决策。随着现代信息传播技术手段和方式不断丰富,信息获取、信息传递、信息处理、信息再生、信息利用等功能应用日益多样化,智能化信息系统逐渐形成一个信息网络体系,人类社会的生产方式、工作方式、学习方式、交往方式、生活方式、思维方式等发生了极其深刻的变革,互动化、即时性、全媒体等成为常态性的信息生态环境,传统的数据库组织架构和信息服务模式己经难以适应信息社会现实需要,整个信息技术架构的革命性重构势在必行,大数据成为信息技术发展的必由之路。(二)大数据源于虚拟网络的迅速发展和现实世界的快速网络化一方面,虚拟网络社会迅猛发展,形成了海量数据的持续生成空间。虚拟社会是人们在计算机网络中展开活动,相互作用形成的社会关系体系。虚拟社会的形成和发展,为人类生存和发展提供了新的空间,改变了社会结构,形成了与现实社会并存的社会存在的新形式;改变了人类的生存方式和活动方式,形成了人类的虚拟生活方式。另一方面,云计算、物联网、社交网络、电子商务、网络社区、即时通讯等技术形式的涌现,推动现实世界快速向网络社会形态切换,衍生了规模巨大、类型多样的数据资源。其中两类数据尤其引人注意,一类是企业与企业、消费者之间的“大交易数据” ,另一类是来自互联网、社区网、企业服务网、物联网等的“大交互数据”。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 11 页,共 43 页 - - - - - - - - - 7 虚拟网络的迅速发展和现实世界的快速网络化,两者交互影响,最终指向海量数据的持续生成和繁杂数据的不断出现。目前,我们正处于一个信息爆炸的年代,全球每年产生的数据量是ZB 级。2012 年全球产生 2. 4ZB 的数据,相当于 3 Trillion( 万亿)的 DVD,到 2020年,数据还将增加14 倍,达到 40ZB。大数据概念的提出,最初正是由于需要处理的信息量过大,超出了一般电脑的数据处理能力,无法透过目前主流软件工具在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策的资讯,因此工程师们必须改进处理数据的工具,这促使新的处理技术的诞生,比如雅虎的开源Hadoop 平台,这类技术使人们可以处理的数据量大大增加。(三)大数据成了决定我们未来数字生活方式的重大技术命题大数据概念最初起源于美国,是由思科、威睿、甲骨文、IBM 等公司倡议发展起来的。 大约从 2009年媳“大数据”成为互联网信息技术行业的流行词汇。事实上,大数据产业是指建立在对互联网、物联网、云计算等渠道广泛、大量数据资源收集基础上的数据存储、价值提炼、智能处理和分发的信息服务业。大数据企业大多致力于让所有用户几乎能够从任何数据中获得可转换为业务执行的洞察力,包括之前隐藏在非结构化数据中的洞察力。大数据是一个不断演变的概念, 当前的兴起, 是因为从 IT 技术到数据积累,都己经发生重大的变化。仅仅数年时间,大数据就从大型互联网公司高管嘴里的专业术语,演变成了决定我们未来数字生活方式的重大技术命题。1.4 大数据发展现状大数据的快速发展,使它成为IT 领域的又一大新兴产业。据中央财经大学中国经济管理研究院博士张永力估算, 国外大数据行业约有1000亿美元的市场,名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 12 页,共 43 页 - - - - - - - - - 8 而且每年都以 10%的速度在增长,增速是软件行业的两倍。我国2012年大数据市场规模大约 4.7 亿元,2013 年增速将达到 138%,达到 11.2亿元,产业发展潜力非常巨大。(一)政府积极介入推动2009 年,联合国启动“全球脉动计划” ,借大数据推动落后地区发展。2012年 1 月,世界经济论坛年会把“大数据、大影响”作为重要议题。美国从开放政府数据、开展关键技术研究和推动大数据应用三方面布局大数据产业。美国在开放政府上非常积极,通过Data.gov开放 37 万个数据集,并开放网站的API和源代码,提供上千个数据应用。除了推动本国政府数据开放,美国倡导发起全球开放政府数据运动,已有41 个国家响应。美国政府还投资两亿美元促进大数据核心技术研究和应用,把大数据放在与集成电路、互联网同等重要的位置,从国家层面推进。(二)资本市场也对大数据钟爱有加2012 年 4 月,大数据分析公司Splunk 高调宣传大数据,引发投资者关注。12 月初,为企业市场提供Hadoop解决方案的创业公司Cloudera获得 6500 万美元融资,估值约为 7 亿美元。近期,高盛联席主席斯科特.斯坦福说: “投资大数据及其运用回报率最高” 。大数据领域的企业并购热度也在上升,单笔平均并购金额方面,大数据超过云计算位居IT 领域榜首,在总并购额上也位居第二。(三)人才需求巨大据一家国际咨询公司,盖特纳咨询公司预测大数据将为全球带来440 万个IT 新岗位和上千万个非IT 岗位。麦肯锡公司预测美国到2018 年需要深度数据名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 13 页,共 43 页 - - - - - - - - - 9 分析人才 44 万49 万,缺口 14 万19 万人;需要既熟悉本单位需求又了解大数据技术与应用的管理者150 万,这方面的人才缺口更大。中国是人才大国,但能理解与应用大数据的创新人才更是稀缺资源。(四)国内情况大数据的火爆, 也带动了国内学术界、 产业界和政府对大数据的热情。2011年以来,中国计算机学会、中国通信学会先后成立了大数据委员会,研究大数据中的科学与工程问题,科技部的中国云科技发展“十二五”专项规划和工信部的物联网“十二五”发展规划等都把大数据技术作为一项重点予以支持。其中工信部发布的物联网“十二五”规划上,把信息处理技术作为4 项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外3 项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,也都与“大数据”密切相关。应用方面,中国三大通信运营商都在结合自身业务情况,积极推进大数据应用工作,并取得了较好的进展。电子商务企业阿里巴巴提出要做中国数据分析第一平台,通过掌握的企业交易数据,借助大数据技术自动分析判定是否给予企业贷款,全程不会出现人工干预。据透露,截至目前阿里巴巴已经放贷300 多亿元,坏账率约 0.3%左右,大大低于商业银行。研发企业方面,我国能够处理大数据的企业并不是很多。北京永洪科技在这方面做的不错。永洪科技在大数据、分布式计算、数据分析等领域具备核心竞争力、自主创新并拥有多项发明专利。推出的Z 系列产品在大数据的应用分析中在国际上也是领先的。大数据的热潮触发了一场思想启蒙运动,使得 “大数据是资产, 不是包袱”、名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 14 页,共 43 页 - - - - - - - - - 10 “要拿数据说话”等观念逐步深入人心,改变了以往不重视数据积累,不相信数据分析等认识。有了这种思维模式的改变,大数据的应用就有了希望。2 大数据的处理很多人说,大数据时代,是数据为王的时代。但是,大数据不只是指海量的信息,更强调的是人类对信息的筛选、处理。有专家认为,大数据的真谛是删除,而删除的真谛是不删除,也就是保留有用的东西。所以,大数据的处理,也就是在海量数据中淘金的过程。大数据的处理方法有很多,普遍适用的大数据处理流程,可以概括为四步,分别是采集、导入和预处理、统计和分析,最后是数据挖掘。1 采集大数据的采集是指利用多个数据库来接收发自客户端(Web、App 或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL 和 Oracle等来存储每一笔事务数据,除此之外,Redis和 MongoDB 这样的 NoSQL 数据库也常用于数据的采集。在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片是需要深入的思考和设计。2 导入/预处理 。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 15 页,共 43 页 - - - - - - - - - 11 虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter 的 Storm 来对数据进行流式计算,来满足部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。3 统计分析 。统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC 的 GreenPlum、Oracle的 Exadata ,以及基于 MySQL 的列式存储 Infobright 等,而一些批处理,或者基于半结构化数据的需求可以使用 Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是 I/O 会有极大的占用。4 挖掘。与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM 和用于分类的NaiveBayes,主要使用的工具有Hadoop的 Mahout 等。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 16 页,共 43 页 - - - - - - - - - 12 3 数据挖掘方法数据挖掘方法是由人工智能、机器学习的方法发展而来,结合传统的统计分析方法、模糊数学以及科学计算可视化技术,以数据库为研究对象,形成的数据挖掘的方法和技术。数据挖掘的方法和技术可以分为六大类:归纳学习方法、仿生物技术、公式发现、统计分析方法、模糊数学方法、可视化技术。下面介绍几种具体的分析方法:3.1 神经网络3.1.1 人工神经网路基本介绍在许多数据挖掘和决策支持应用中,由于有公认的轨迹记录,人工神经网络已经成为一种普遍采用的方法。神经网络是一种可以容易的应用于预测,分类和聚类的强有力工具。最有力的神经网络是生物所具有的神经网络,与此相对应的是,计算机通常善于反复的执行明确的指令。通过在计算机上模拟人脑的神经联系,桥接计算机与人脑的隔阂,是人工神经网络的关键。神经网络从数据中概括名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 17 页,共 43 页 - - - - - - - - - 13 和学习的能力,是模仿我们从经验中学习的能力,这种能力对数据挖掘是有用的。以某个 IRIS 对三种植物的分类案例为例,神经网络有能力通过对已知的样本参数学习后,实现对三种植物的分类由上图可见神经网络就像一个知道如何处理输入以产生输出的黑匣子,计算相当的复杂且难以理解,却往往给出有用的结论。人工神经网络属于人工智能中的机器学习型,它类似于人类大脑重复学习的方法,先给出一系列的样本,进行学习和训练,从而产生区别各种样本之间的不同特征和模式。该算法的优点是对复杂问题能进行很好的预测,对噪声数据的承受能力比较高,以及它对未经训练的数据分类模式的处理能力。因此人工神经网络主要被应用于数据挖掘领域中的提取分类规则以及预测。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 18 页,共 43 页 - - - - - - - - - 14 用人工的方法模拟产生一个生物神经元的数学模型如下图所示,由一个多输入、单输出的非线性元件表达。单个神经元是前向型的,将人工神经元的基本模型和激励函数合在一起构成的人工神经元,就是著名的McCulloch-Pitts 模型,简称为 MP 模型。这种模型是对生物神经元的抽象、模拟与简化。下图就是一个典型的MP 人工神经元模型上面所示的 MP 模型属于一种阂值元件模型, 它是由美国 Mc Culloch 和 Pitts 提出的最早神经元模型之一。MP 模型是大多数神经网络模型的基础。该人工神经元具有许多的输入信号,针对每个输入都有一个加权系数w 称为权值(Weights),权值的正负模拟了生物神经元中突触的兴奋和抑制,其大小则代表了突触的不同连接强度。而中间的神经元对所有的输入信号进行计算处理,然后将结果输出。 在神经元中, 对信号进行处理采用的是数学函数:通常称为激活函数、激励函数或挤压函数。其输入、输出关系可描述为: 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 19 页,共 43 页 - - - - - - - - - 15 式中 Xi (i=1,2,.n)是从其它神经元传来的输入信号;j是该神经元的阀值;i jw表示从神经元 i 到神经元 j 的连接权值 ;f 为激活函数或挤压函数。由于神经元采用了不同的激活函数,使得神经元具有不同的信息处理特性,而神经元的信息处理特性是决定神经网络整体性能的主要因素之一,因此激活函数具有重要的意义。3.1.2 设计神经网路结构前馈神经网络的结构设计主要包括输入层和输出层节点数的选择、网络隐层数的选择以及每个隐层节点数的选择等三个方面。其中,输入层和输出层节点数的确定一般由实际应用的训练样本所决定。输入节点数一般等于待训练样本的矢量维数,即样本数据的特征维数;输出层单元数在分类网络中取类别数m。或2logm,其中 m 为待分类的类别数 ;在逼近网络中取要逼近的函数输出空间维数。因此,前馈神经网络的结构设计,在 BP 神经网络中主要是解决网络隐层数以及每个隐层节点数的选择问题;在 RBF 网络设计中,就是隐层节点数多少的问题。1.隐层数的设计理论上已经证明 :一个 3 层 BP 神经网络,含一个隐层,只要隐层节点数足够多,就能以任意精度逼近有界区域上的任意连续函数;这一点对于 RBF 网络,隐层必为一,也可以任意精度逼近有界区域上的任意连续函数。这就给我们确定了设计前馈网络结构的基本原则。虽然增加隐层层数能降低网络训练误差,提名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 20 页,共 43 页 - - - - - - - - - 16 高精度,但同时也使网络更加复杂,增加了网络权值的训练时间。因此,在设计网络结构时,一般先考虑设一个隐层BP 或者 RBF 网络。当一个隐层的隐节点数已经很多,却依然不能降低网络训练误差时,才考虑使用增加一个隐层的BP 神经网络。2.隐层节点数的设计隐节点的作用是从样本中挖掘内在规律,并将知识信息存储在隐节点的连接权重中。若隐节点数量太少,网络从样本中获取知识的能力就差,不足以概括和体现训练集中的样本规律;反之,又可能把样本中的噪音数据也学会记牢,从而出现所谓“过度拟和”问题。此外,过多的隐节点会增大网络训练学习的负担。设置多少个隐节点取决于训练样本数、样本噪音的大小以及样本中蕴含规律的复杂程度。对于“最好的”隐层节点数,没有明确的规则。在这个问题上,因为网络结构的不同会直接影响网络的准确性,所以最佳解决办法就是根据实验得出的经验来设计。目前确定最佳隐节点的常用方法是在己有的经验公式基础上进行试凑,经验公式如下以上各式中名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 21 页,共 43 页 - - - - - - - - - 17 m 为输出神经元数, n 为输入神经元数, a为 01 之间的常数。 k 为样本数,n,为隐单元数。利用上述公式,我们可以首先设置较少的隐层网络节点数,然后逐渐增加节点,对于同样的样本集,通过结果比对而产生最佳的隐层网络节点数。3.1.3 概率式学习这种网络基于统计力学、分子热力学和概率论中关于系统稳态的能量标准进行学习,称为概率式学习。 这种网络的典型代表是Boltzmann 机学习规则, 学习过程是根据神经元i 和 1 在不同状态时实现的联结概率来调整连接权重式中,为学习率,ijp和ijp分别是神经元 i 和 j 在输入输出固定形态及系统为自由状态时实现联结的概率调整的原则是:当ijp ijp时,增加权重,否则减小权重。3.1.4 神经网路方法优缺点神经网络具有良好的鲁棒性、自组织自适应性、并行处