2022年数据挖掘经典方法 .pdf
《2022年数据挖掘经典方法 .pdf》由会员分享,可在线阅读,更多相关《2022年数据挖掘经典方法 .pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、 模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理, 从中挖掘出潜在的模式,可以帮助企业、 商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。目前,在很多领域尤其是在商业领域如银行、电信、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、 企业管理危机等。 大数据的挖掘常用的方法有分类、回归分析、 聚类、关联规则、神经网络方法、Web 数
2、据挖掘等。这些方法从不同的角度对数据进行挖掘。1. 分类分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、 趋势预测中, 如淘宝商铺将用户在一段时间内的购买情况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等, 如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。分类的方法有:决策树
3、、贝叶斯、人工神经网络。1.1 决策树决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。它采用自顶向下的递归方式, 在决策树的内部节点进行属性的比较,并根据不同属性值判断从该节点向下的分支,在决策树的叶节点得到结论。1.2 贝叶斯贝叶斯( Bayes)分类算法是一类利用概率统计知识进行分类的算法,如朴素贝叶斯名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师
4、精心整理 - - - - - - - 第 1 页,共 7 页 - - - - - - - - - (Naive Bayes)算法。这些算法主要利用Bayes定理来预测一个未知类别的样本属于各个类别的可能性, 选择其中可能性最大的一个类别作为该样本的最终类别。由于贝叶斯定理的成立本身需要一个很强的条件独立性假设前提,而此假设在实际情况中经常是不成立的,因而其分类准确性就会下降。为此就出现了许多降低独立性假设的贝叶斯分类算法,如TAN 算法,它是在贝叶斯网络结构的基础上增加属性对之间的关联来实现的。1.3 人工神经网络人工神经网络(Artificial Neural Networks,ANN)是一
5、种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在这种模型中, 大量的节点 (或称“神经元”,或“单元”)之间相互联接构成网络,即“神经网络”,以达到处理信息的目的。神经网络通常需要进行训练,训练的过程就是网络进行学习的过程。训练改变了网络节点的连接权的值使其具有分类的功能,经过训练的网络就可用于对象的识别。目前, 神经网络已有上百种不同的模型,常见的有BP网络、 径向基 RBF网络、 Hopfield网络、随机神经网络(Boltzmann 机) 、竞争神经网络(Hamming 网络,自组织映射网络)等。2. 回归分析回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关
6、系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中,回归分析可以被应用到各个方面。如通过对本季度销售的回归分析,对下一季度的销售趋势作出预测并做出针对性的营销改变。回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。它可以应用到市场营销的各个方面,如客户寻求、 保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。回归分析中, 当研究的因果关系只涉及因变量和一个自变量时,叫做一元
7、回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。常见的回归分析方法有线性回归、logistic 回归等。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 7 页 - - - - - - - - - 2.1 线性回归线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。线性回归有很多实际用途。分为以下两大类:1.如果目标是预测或者映射,线性回归可以用来对观测数据集的和X的值拟合出一个预
8、测模型。当完成这样一个模型以后,对于一个新增的X值,在没有给定与它相配对的 y 的情况下,可以用这个拟合过的模型预测出一个y 值。2.给定一个变量y 和一些变量X1,.,Xp,这些变量有可能与y 相关,线性回归分析可以用来量化y 与 Xj 之间相关性的强度,评估出与y 不相关的Xj,并识别出哪些Xj 的子集包含了关于y 的冗余信息。2.2logistic回归分析Logistic 回归模型是一种概率模型,适合于病例对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类。可用影响结果变量发生的因素为自变量与因变量,建立回归方程。Logistic 回归分析的主要用途:一是寻找危险
9、因素正如上面所说的寻找某一疾病的危险因素等。二是预测如果已经建立了logistic 回归模型,则可以根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大。三是判别根据 logistic 模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。3. 聚类分析聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 7 页 - - - - - - - - -
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年数据挖掘经典方法 2022 数据 挖掘 经典 方法
限制150内