数据挖掘在电子商务中的应用(共12页).doc
《数据挖掘在电子商务中的应用(共12页).doc》由会员分享,可在线阅读,更多相关《数据挖掘在电子商务中的应用(共12页).doc(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上数据挖掘在电子商务中的应用一、引言在信息和知识经济时代,随着网络技术的迅猛发展和社会信息化水平的提高,传统的贸易正经历一次重大的变革,电子商务显示出巨大的市场价值和发展潜力。电子商务是商业领域的一种新兴商务模式,它是以网络为平台、现代信息技术为手段、以经济效益为中心的现代化商业运转模式,其最终目标是实现商务活动的网络化、自动化与智能化。电子商务的产生改变了企业的经营理念、管理方式和支付手段,给社会的各个领域带来了巨大的变革。当电子商务在企业中得到应用时,企业信息系统将产生大量数据,这些激增的电子化数据意味着人们面临“数据丰富而知识贫乏”的问题。出现了“数据爆炸但知识贫
2、乏”的现象,如何才能不被信息的汪洋大海所淹没,从中及时发现有用的信息和知识因此,需要有新一代的技术和工具来对海量数据进行合理及更高层次的分析,做出归纳性推理,从中挖掘出潜在的模式,提取有用的知识,帮助电子商务企业决策者调整市场策略,进行商业预测,做出正确的决策,从而提高信息利用率,降低风险,给企业带来巨大的利润。数据挖掘就是为顺应这些需要应运而生发展起来的数据处理技术。八十年代末兴起的数据挖掘(Data Mining)技术,就是从这样的商业角度开发出来的。数据挖掘技术可以为新的商业处理信息,把历史积累的大量数据进行抽取、转换、分析和其他模型化的挖掘和处理,从中发现隐藏的规律或模式,提取辅助商业
3、决策的关键性数据,为决策提供支持。利用数据挖掘技术,能对数据进行充分挖掘,发现数据所蕴涵的有用知识,帮助企业业务决策和战略发展,从而使企业在市场竞争中获得优势地位。因此数据挖掘在电子商务系统中的应用成为当前研究的重要课题。电子商务是现代信息技术迅速发展的必然产物,也是未来企业模式的必然选择。数据挖掘技术引入电子商务,给企业的商务活动提供全面支持,为客户提供个性化服务,增强企业的商务智能。数据挖掘是电子商务取得更多成就的必然方向,它将数据转化为知识,是数据管理、信息处理领域研究、开发和应用的最活跃的分支之一。它帮助决策者寻找数据间潜在的关联,发现被忽略的因素,是解决数据爆炸而信息贫乏问题的一种有
4、效方法。数据挖掘的一个重要分支关联规则挖掘,主要用于发现数据集中项之间的相关联系。由于关联规则挖掘技术形式简洁、易于解释和理解并可以有效地捕捉数据间的重要关系,从大型数据库中挖掘关联规则问题己成为数据挖掘中最成熟、最重要、最活跃的研究内容。二、11.1数据挖掘的历史及研究现状数据库技术的迅速发展以及数据库管理系统的广泛应用,积累的数据越来越多。爆炸式增长的数据背后隐藏着许多重要的信息,为了更好地利用这些数据,就要进行更高层次的分析。数据库系统虽然可以高效地实现数据的录入、查询、统计等功能,但是不能发现数据中存在的关系和规则,无法根据现有的数据对未来的发展进行预测,缺乏挖掘数据背后隐藏的知识的手
5、段,导致了“数据爆炸但知识贫乏”的现象。挖掘数据背后的知识可以用数据库管理系统来存储数据、用机器学习的方法来分析数据,两者的结合促成了数据库中的知识发现(KDD:Knowledge Discovery In Databases)的产生。实际上,数据库中的知识发现是一门交叉性学科,涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算和专家系统等多个领域。从数据库中发现出来的知识可以在信息管理、过程控制、科学研究和决策支持等多个方面应用1989年8月在美国底特律召开的第一届国际人工智能联合会议的专题讨论会上首次出现在数据库中的知识发现KDD这个术语,它泛指所有从源数据中挖
6、掘模式或联系的方法,包括了最开始的制定业务目标到最终的结果分析。随后在1991年、1993年和1994年都举行KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、数据分析算法、知识表示和知识运用等问题。随着参与人员的不断的增多,KDD国际会议发展为年会。1998年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议不仅进行了学术讨论,而且有30多家软件公司展示了他们的数据挖掘软件产品,很多软件己经在北美、欧洲等国家得到应用。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了很多次,会议规模由原来的专题讨论会发展成国际学术大会,研究重点也逐渐从发现方法转向了系统
7、应用,注重了多种发现策略和技术的集成以及多个学科之间的相互渗透。从大型数据库中发现信息或知识已经成为数据库和机器学习领域的一个重要的研究课题,同时很多公司都意识到数据挖掘在提高公司决策能力、增加企业收益、提高企业竞争力等方面将起到重要的作用。数据挖掘发现的知识可以应用于信息管理、决策支持、过程控制等领域,数据挖掘也使数据库领域、机器学习、统计学、知识工程与知识管理、人工智能等领域的专家都对它产生了浓厚的兴趣与爱好。数据挖掘是KDD最核心的部分,是采用机器学习、统计等方法进行知识学习的阶段数据挖掘算法的好坏直接影响到所发现知识的好坏。目前大多的研究都集中在数据挖掘算法和应用上。人们往往因为不严格
8、区分数据挖掘和数据库中的知识发现,而把两者混淆使用。通常在科研领域中称之为KDD,而在工程领域中则称之为数据挖掘。促进数据挖掘诞生、发展和应用有许多原因,主要有以下四种:(1)大规模数据库,尤其是数据仓库的出现,使数据挖掘技术有了赖已生存的基础(2)先进的计算机技术,尤其是网络技术和并行处理体系的发展,使大量办公室人员得以摆脱繁重的日常信息处理工作,提高了工作效率的同时也节省了时间,有多余的时间和精力对激增的数据进行高层次的分析,从中寻找对企业战略发展有重要意义的商业规律和市场趋势。(3)经营管理的需要。企业经营管理者迫切希望能够利用数据挖掘技术从企业积累的大量历史数据中找到有价值的信息,来应
9、对日趋严重的竞争压力。(4)数据挖掘的精深计算能力。大规模数据挖掘需要复杂和精深的计算能力,这些精深的计算能力主要是基于统计学、集合论、信息论、认识论和人工智能等各种学科理论而促进数据挖掘诞生和发展的中坚力量正是这些精深的计算能力。因此,数据挖掘是信息技术发展到一定阶段的必然产物,是拥有了大规模数据库、高效的计算能力、经营管理的压力和有效的计算方法后的产物,是从数据库或其他信息库中存放的大量数据中挖掘有用知识的一个过程。 数据挖掘(Data Mining,简称DM),也称知识发现,是从海量数据中提息的工具,被描述为从数据中抽取出隐含的、具有潜在用途的、人类可理解的挖掘通过发现有用的新规律和新概
10、念,提高人们对大量、看似不相关数据的更解、认识以及应用。数据挖掘技术是目前国际上数据库和信息决策领域最前沿之一,同时也是学术界和商业界共同关注的热点问题。2.1数据挖掘的概念数据挖掘是一种综合了数据库、人工智能以及统计学等多个学科技术的信息处理法。通过对历史积累的大量数据的有效挖掘,试图从这些数据中提取出先前未知但有效有用的知识。Bhavani(1999)定义数据挖掘为:The proeess of diseovering meaningful new correlationPatterns,and trends by sifting through large amount of store
11、d data,using pattern reeognititechnologies and statistieal and mathematical technologies。(数据挖掘是从大量存储的数据中利用模式识别、统计和数学的技术,筛选发现新的有意义的关系、模式和趋势的方法。)也就是说,数据挖掘(Date Mining)就是从大量的、不完全的、有噪声的、模糊的随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的并最可理解的信息和知识的非平凡过程。我们可以把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可是结构化的(如关系数据库中的数据),也可以是半结构
12、化的(如文本、图形、图像数据还可以是分布在网络上的异构型数据。数据挖掘就是从大量的原始数据中提取或者“挖掘知识的过程。数据挖掘与传统的数据分析(如查询、报表、联机分析处理)不同在于,数据挖掘在没有明确假设的前提下去挖掘信息、发现知识的。数据挖掘所得到的信息应具有先前知、有效和可实用三个特征。先前未知的信息是指事先没有预料到的信息,也就是说数挖掘是要发现那些不能单靠直觉发现的信息或知识,甚至有可能是违背直觉的信息或识,挖掘出的信息越是出乎意料,可能就越有使用价值。而且它又是一个非平凡的过程即挖掘过程不是线性的,而是反复和循环的,所挖掘到的知识也不是通过简单的分析就容易得到,很有可能是隐含在表面现
13、象的内部,所以它需要应用一些专门处理大数据量数据挖掘工具,经过大量的数据比较分析才能取得。鉴于数据、数据挖掘任务和数据挖掘方法的多样性,给数据挖掘提出了许多挑战性课题。目前数据挖掘研究人员、系统和应用开发人员所面临的主要挑战有数据挖掘语言设计、高效而有用的数据挖掘方法和系统的开发、交互和集成的数据挖掘环境的建立以应用数据挖掘技术解决大型实际应用问题。2.2数据挖掘的功能数据挖掘的功能主要是从数据库中发现隐含的、有意义的知识11。数据挖掘的任务要是:描述性挖掘和预测性挖掘。数据挖掘的功能以及它们可以发现的知识类型有以下种:1通过概念性描述发现广义知识(Generalization)广义知识指对数
14、据的概括、精炼和抽象,是对类知识的概念性描述。概念性描述是某类对象的内涵进行描述,并概括此类对象的有关特征。概念性描述分特征性描述和区性描述,特征性描述主要对某类对象的共同特征进行描述,区别性描述主要是对不同类象之间的区别进行描述。在生成一个类的特征性描述时只涉及该类对象中所有对象的性,而生成区别性描述的方法却很多,如决策树方法、遗传算法等等。概念性描述对类特征进行描述的方法和实现技术很多,如数据立方体、面向属性的纳等。数据立方体还可以看作是“多维数据库”、“实现视图”、“OLAP”等。该方法的本思想是实现一些常用的代价较高的聚集函数的计算,例如计数、求和、求平均值、求大值等,并把这些实现的视
15、图存储在多维数据库中。因为很多的聚集函数需要经常重复计算,因此在多维数据立方体中存放预先计算好的结果就能保证快速响应,并能灵活地供不同角度和不同抽象层次上的数据视图。另一种广义知识发现方法是加拿大SimFraser大学提出的面向属性的归纳方法。这种方法和SQL语言表示的数据挖掘查询相类似先收集数据库中的相关数据集,然后在相关的数据集上应用一系列的数据推广技术进行据推广,包括属性的删除、概念树的提升、属性阈值的控制、计数及其他聚集函数的传等。2通过关联分析发现关联知识(Association)数据关联也是数据库中存在的一类重要的可以被发现的知识。如果在两个或多个变之间取值时存在某种规律,这种规律
16、就称为数据关联。数据关联有简单关联、时序关联因果关联等。关联知识是反映事件与事件之间依赖或关联的知识。如果两项或多项属性之间存在联,那么其中一项的属性值就可以依据其他属性的值进行预测。关联分析的目的是分析数据库中所隐含的关联网。最著名的关联规则发现方法是R.Agrawal提出的Apriori算法关联规则的发现分两步,第一步:迭代识别所有的频繁项目集,要求频繁项目集的支持高于用户设定的最低值;第二步:从频繁项目集中构造可信度高于用户设定的最低值的则,识别或发现所有频繁项目集是关联规则发现算法的核心,也是计算量最大的部分。3通过分类和聚类方法发现分类知识(Classification&Cluste
17、ring)分类知识是反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识基于决策树的分类方法是最为典型的分类方法。它从实例集中构造决策树,再根据练子集(又称为窗口)形成决策树。如果该树不能对所有对象给出正确的分类,那么选一些例外加入到窗口中,重复该过程一直到形成正确的决策集,最终结果是一棵树,其结点是类名,中间结点是带有分枝的属性,该分枝对应属性的某一可能值。常用的分类术还有贝叶斯分类和贝叶斯网络、神经网络、遗传算法、粗糙集和模糊逻辑等。聚类方法是把数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的似度,而不同簇中的对象差别较大。聚类与分类不同,它要划分的类是未知的。相似度
18、根据描述对象的属性值来计算的。聚类分析广泛应用于模式识别、数据分析、图像处理市场研究。在电子商务上,聚类分析能帮助市场分析人员从客户基本库中发现不同的客群,并且用购买模式来刻画不同的客户群的特征。利用聚类分析还可以将市场按顾客的费模式相似性分为若干细分的市场,制定有针对性的市场策略,提高销售业绩。聚类技有划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。4通过预测方法得到预测型知识(Prediction)预测型知识指根据时间序列型数据,由原始数据和当前的数据去推测未来的数据,是以时间为关键属性的关联知识。目前,时间序列预测方法有经典的统计方法、神经网络和机器学习等。1968年
19、B和Jenkins提出了一套比较完善的时间序列建模理论和分析方法,这些经典的数学方法过建立随机模型(如自回归模型、自回归滑动平均模型、求和自回归滑动平均模型和季7调整模型等)进行时间序列的预测。由于大量的时间序列不是平稳的,其特征参数和数分布随着时间的推移也发生变化,仅仅通过对某段原始数据的训练,建立单一的神经网预测模型,还不能完成准确的预测任务。因此,提出了基于统计学和基于精确性的再训方法,当发现现存预测模型不再适用于当前的数据时,需要对模型重新训练,获得新的重参数,建立新的模型。也有许多系统借助并行算法的计算优势进行时间序列预测。5通过偏差检测得到偏差型知识(Deviation)数据库中的
20、数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差型知就是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如分类中的反常实例、满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。所有这些知识可以在不同的概念层次上被发现,并随着概念层次的提升,从微观到中观、到宏观,以足不同用户不同层次决策的需要。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。2.3数据挖掘的体系结构数据挖掘是一个复杂的过程,因此数据挖掘的结构也比较复杂。典型的数据挖掘体结构是一个三层的结构,如图2-1所示,从下向上分别是:数据层,数据挖掘引擎,用界面13。1数据层。数据挖掘的对象是数据。为了便
21、于挖掘,各种来源的数据经过预处理(据的清洗、数据的集成、数据的过滤等)以后,都将存于一个统一模式的数据库或者数仓库内。这个模式的设计综合考虑挖掘任务、实施算法、数据的特点等各种因素,可以挖掘能够最优化。2数据挖掘引擎。数据挖掘引擎内集成了数据挖掘的算法。它根据知识库、挖掘据库或者数据仓库中的数据得到许多模式,然后对这些模式进行评估、筛选,最终可以到有意义的且用户感兴趣的模式。3用户界面。用户界面是人机交互的界面。用户界面将这些模式用直观的且易于户理解的方式表现给用户。另外,用户可以(有时也必须)通过用户界面指导模式评估挖掘引擎、数据的组织模式。2.4数据挖掘的过程数据挖掘是一个多步骤的处理过程
22、,该过程从大型数据库中挖掘先前未知的、有效的可实用的信息,并使用这些信息做出决策或丰富知识。这个过程是交互和迭代的,其中多过程需要用户的参与。数据挖掘过程主要包括四个步骤如图2-2所示:问题定义/确定业务对象、数据准备数据挖掘、结果表达和分析。虽然我们把各个步骤按顺序排列,但数据挖掘过程并不是性的。要取得好的结果就要不断反复和重复这些步骤。图2-2数据挖掘视为知识发现过程的一个步骤1问题定义清晰地定义业务问题和认清数据挖掘的目标是进行数据挖掘的第一步,也是最重要步。要想充分发挥数据挖掘的价值,首要的条件是要对用户的目标有一个清晰明确的定义因此,在挖掘之前要明确业务的目标和需求。2数据准备确定好
23、挖掘目标后,就要开始为挖掘准备相关的数据。准备数据就是根据挖掘需求集资料,并建立可挖掘的数据库。准备数据所花费的时间在整个数据挖掘过程中是最多的这一阶段主要分为两步:第一步根据挖掘目标建立合理的数据库模式即数据选取;二步是对数据进行预处理。根据用户的挖掘目标,搜索所有与业务对象相关的内部和外部数据信息,并从数据中提取与挖掘相关的数据。它与对数据进行采样和选择预测变量是有区别的,这里只是略的除去一些冗余或无关的数据。为了进一步的分析数据,提高挖掘效率,去除无用或关的信息,整理不完整的、含噪声的和不一致的信息,确定将要进行的挖掘操作的类型我们必须对数据进行预处理。数据预处理就是对选取出的数据进行加
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 电子商务 中的 应用 12
限制150内