数据挖掘在电子商务的应用.pdf
《数据挖掘在电子商务的应用.pdf》由会员分享,可在线阅读,更多相关《数据挖掘在电子商务的应用.pdf(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘在电子商务的应用调研分析报告摘 要 在信息爆炸的电子商务时代,处理海量信息的时候显得力不从心,数据挖掘技术的出现与发展很好地处理了这一难题,数据挖掘是一门交叉学科的技术,它有助于发现业务发展的趋势,帮助企业做出正确的决策,使企业处于更有利的竞争位置。数据挖掘中应用的技术包括经典的统计、近邻、聚类,也包括最新发展起来的决策树、神经网络和关联规则等一些较新的方法。当实际开发一个数据挖掘系统时,究竟应该选择哪种数据挖掘技术,往往是一件很困难的事情。本文结合数据挖掘技术在电子商务中的应用,提出选择数据挖掘技术的两个重要依据,其次通过对电子商务环境下Web 挖掘技术的论述,具体分析Web 内容挖
2、掘、Web 结构挖掘、Web 访问挖掘对于电子商务的作用,并对具体技术进行分析与评价。最后介绍国内外电子商务数据挖掘的主要研究内容。关键词 数据挖掘电子商务Web 挖掘关联分析分类聚类1.引言2.电子商务是一种借助于计算机网络技术,通过电子交易手段来完成金融、物资、服务和信息等价值交换,快速而有效地从事各种商务活动的新方法。随着网络技术和数据库技术的成熟,全球传统商务正经历一次重大变革,向电子商务全速挺进。这种商业电子化的趋势不仅为客户提供了便利的交易方式和广泛的选择,同时也为商家提供了更加深入地了解客户需求信息和购物行为特征的可能性。数据挖掘技术作为电子商务的重要应用技术之一,将为正确的商业
3、决策提供强有力的支持和可靠的保证,是电子商务不可缺少的重要工具。电子商务的发展促使公司内部收集了大量的数据,并且迫切需要将这些数据转换成有用的信息和知识,为公司创造更多潜在的利润,数据挖掘概念就是从这样的商业角度开发出来的。数据挖掘涉及的学科领域和方法很多,其核心技术历经了数十年的发展,其中包括统计、近邻、聚类、决策树、神经网络和规则等。今天,这些成熟的技术在电子商务中已进入了实用阶段,并取得了良好的效果。但数据挖掘作为一个新兴领域,在实际应用当中仍存在许多尚未解决的问题。其中最困难的往往在于决定什么时候采用哪种数据挖掘技术。2.1 数据挖掘的概念21.1 数据挖掘的概念数据挖掘(Data M
4、ining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是通过挖掘数据仓库中存储的大量数据,从中发现有意义的新的关联模式和趋势的过程。从商业的角度定义,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其它模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘最吸引人的地方是它能建立预测模型而不是回顾型的模型。利用功能强大的数据挖掘技术,可以使企业把数据转化为有用的信息帮助决策,从而在市场竞争中获得优势地位。2.1.2 数据挖掘常见的提供的模型(1)
5、分类发现模型。分类的目的是学会一个分类函数(分类器),通过分类器把数据库中的数据项映射到给定类别中的某一个。分类器的构造方法有统计方法、机器学习方法、神经网络方法、粗糙集方法等。(2)聚类模型。聚类是把一组个体按照相似性归成若干类别,使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。(3)关联规则模型。关联规则反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。最为著名的关联规则发现方法是R.Agrawal 提出的 Aprio
6、ri 算法。(4)预测型知识模型。它是根据时间序列型数据,由历史的和当前的数据去推测未来的数据。时间序列预测方法有经典的统计方法、神经网络和机器学习等。(5)偏差型知识模型。它是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等。2.2 数据挖掘在电子商务中的应用由于数据挖掘能带来显著的经济效益,它在电子商务中(特别是金融业、零售业和电信业)应用也越来越广泛。在金融领域,管理者可以通过对客户偿还能力以及信用的分析,进行分类,评出等级。从而可减少放贷的麻木性,提高资金的使用效率。同时还可发现在偿还中起决定作用的主导因素,从而制定相应的金融政策。更值得一提的
7、是通过对数据的分析还可发现洗黑钱以及其它的犯罪活动。在零售业,数据挖掘可有助于识别顾客购买行为,发现顾客购买模式和趋势,改进服务质量,取得更好的顾客保持力和满意程度,提高货品销量比率,设计更好的货品运输与分销策略,减少商业成本。电信业已经迅速地从单纯的提供市话和长话服务演变为综合电信服务,如语音、传真、寻呼、移动电话、图像、电子邮件、计算机和 WEB数据传输以及其它的数据通信服务。电信、计算机网络、因特网和各种其它方式的通信和计算的融合是目前的大势所趋。而且随着许多国家对电信业的开放和新型计算与通信技术的发展,电信市场正在迅速扩张并越发竞争激烈。因此,利用数据挖掘技术来帮助理解商业行为、确定电
8、信模式、捕捉盗用行为、更好的利用资源和提高服务质量是非常有必要的。分析人员可以对呼叫源、呼叫目标、呼叫量和每天使用模式等信息进行分析,还可以通过挖掘进行盗用模式分析和异常模式识别,从而可尽早发现盗用,为公司减少损失。2.2.1 数据挖掘的具体应用方面1 找到潜在客户在对 Web 的客户访问信息的挖掘中,利用分类技术可以在Internet 上找到未来的潜在客户。使用者可以先对已经存在的访问者根据其行为进行分类,并依此分析老客户的一些公共属性,决定他们分类的关键属性及相互间关系。对于一个新的访问者,通过在 Web 上的分类发现,识别出这个客户与已经分类的老客户的一些公共的描述,从而对这个新客户进行
9、正确的分类。然后从它的分类判断这个新客户是有利可图的客户群还是无利可图的客户群,决定是否要把这个新客户作为潜在的客户来对待。客户的类型确定后,可以对客户动态地展示Web 页面,页面的内容取决于客户与销售商提供的产品和服务之间的关联。若为潜在客户,就可以向这个客户展示一些特殊的、个性化的页面内容。2 实现客户驻留在电子商务中,传统客户与销售商之间的空间距离已经不存在,在 Internet 上,每一个销售商对于客户来说都是一样的,那么使客户在自己的销售站点上驻留更长的时间,对销售商来说则是一个挑战。为了使客户在自己的网站上驻留更长的时间,就应该全面掌握客户的浏览行为,知道客户的兴趣及需求所在,并根
10、据需求动态地向客户做页面推荐,调整 Web 页面,提供特有的一些商品信息和广告,以使客户满意,从而延长客户在自己的网站上的驻留的时间。3 改进站点的设计数据挖掘技术可提高站点的效率,Web设计者不再完全依靠专家的定性指导来设计网站,而是根据访问者的信息特征来修改和设计网站结构和外观。站点上页面内容的安排和连接就如超级市场中物品的货架摆布一样,把具有一定支持度和信任度的相关联的物品摆放在一起有助于销售。网站尽可能做到让客户轻易地访问到想访问的页面,给客户留下好的印象,增加下次访问的机率。4 进行市场预测通过 Web 数据挖掘,企业可以分析顾客的将来行为,容易评测市场投资回报率,得到可靠的市场反馈
11、信息。不仅大大降低公司的运营成本,而且便于经营决策的制定。2.2.2 面向电子商务的数据挖掘过程一般的数据挖掘的流程如下图面向电子商务的数据挖掘过程可以分为以下3 个步骤。(1)准备数据。进行数据挖掘的时候,一般并不是对原始的数据进行挖掘,而是先要对数据作一些预处理,包括合并数据,将多个文件或多个数据库中的数据进行合并处理;选择数据,提取出适合分析的数据集合;数据清洗、过滤,剔除一些无关记录,将文件、图形、图像及多媒体等文件转换成可便于数据挖掘的格式等。(2)发现模式。根据不同的挖掘目标,可以相应采用不同的挖掘方法,得到有意义的数据模式。数据挖掘的方法有很多种,主要包括 3 大类:统计分析、知
12、识发现、其他可视化方法。统计分析方法主要用于检查数据中的数据规律,然后利用统计模型和数学模型来解释这些规律,通常使用的统计方法有线性分析、非线性分析、线性回归、因子分析,单变量曲线和双变量统计以及时间序列分析等。知识发现方法源于人工智能和机器学习,利用数据搜寻过程,得到一个有意义的数据模式,从中可以发现规律。可视化方法可以给出多变量的图形分析,同时显示多变量间的关系,有助于分析以前挖掘的数据,进一步增强数据挖掘能力。(3)分析、解释模式。通过技术手段,对得到的模式进行数据分析,得出有意义的结论。常用的技术手段有:关联规则,揭示数据之间的内在的联系,发现用户与站点各页面的访问关系。分类,给出类的
13、公共属性描述,并将新的记录分配到预先定义好的类中去或分类新的项。聚类,分类的逆过程,按照“类内相似性最大,类间相似性最小”的原则,对数据进行类的聚集,多指客户群体聚类和Web 网页聚类。客户群体聚类将具有相似浏览模式的用户分在一组,而Web 网页聚类提供有针对性的网络服务应用。序列模式,侧重于挖掘出数据的前后时间顺序关系,分析是否存在一定趋势,以预测未来的访问模式。路径分析,可以发现一个Web 站点中最经常被访问的路径。2.2.3数据挖掘在应用中面临的问题1 数据挖掘分析变量的选择数据挖掘的基本问题就在于数据的数量和维数,数据结构显的非常复杂,数据分析变量即是在数据挖掘中技术应用中产生的,选择
14、合适的分析变量,将提高数据挖掘的效率,特别适用于电子商务中大量商品以及用户信息的处理。针对这一问题,我们完全可以用分类的方法,分析出不同信息的属性以及出现频率进而抽象出变量,运用到所选模型中,进行分析。2 数据抽取的方法的选择数据抽取的目的是对数据进行浓缩,给出它的紧凑描述,如求和值、平均值、方差值、等统计值、或者用直方图、饼状图等图形方式表示,更主要的是他从数据泛化的角度来讨论数据总结。数据泛化是一种把最原始、最基本的信息数据从低层次抽象到高层次上的过程。可采用多维数据分析方法和面向属性的归纳方法。在电子商务活动中,采用维数据分析方法进行数据抽取,他针对的是电子商务活动中的客户数据仓库。在数
15、据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作,这类操作的计算量特别大,可把汇集操作结果预先计算并存储起来,以便用于决策支持系统使用3 数据趋势的预测数据是海量的,那么数据中就会隐含一定的变化趋势,在电子商务中对数据趋势的预测尤为重要,特别是对客户信息以及商品信息合理的预测,有利于企业有效的决策,获得更多地利润。但如何对这一趋势做出合理的预测,现在还没有统一标准可寻,而且在进行数据挖掘过程中大量数据形成文本后格式的非标准化,也给数据的有效挖掘带来了困难。针对这一问题的产生,我们在电子商务中可以应用聚类分析的方法,把具有相似浏览模式的用户集中起来,对其进行详细的分析,从而提供更适合
16、、更令用户满意的服务。聚类分析方法的优势在于便于用户在查看日志时对商品及客户信息有全面及清晰的掌控,便于开发和执行未来的市场战略,包括自动给一个特定的顾客聚类发送销售邮件,为一个顾客聚类动态地改变一个特殊的站点等,这无论对客户和销售商来说都是有意义。4 数据模型的可靠性数据模型包括概念数据模型、逻辑数据模型、物理模型。数据挖掘的模型目前也有多种,包括采集模型、处理模型及其他模型,但无论哪种模型都不是很成熟存在缺陷,对数据模型不同采用不同的方式应用。可能产生不同的结果,甚至差异很大,因此这就涉及到数据可靠性的问题。数据的可靠性对于电子商务来说尤为重要作用。针对这一问题,我们要保障数据在挖掘过程中
17、的可靠性,保证它的准确性与实时性,进而使其在最后的结果中的准确度达到最高,同时在应用模型过程中要尽量全面的分析问题,避免片面,而且分析结果要由多人进行评价,从而最大限度的保证数据的可靠性。5 数据挖掘涉及到数据的私有性和安全性大量的数据存在着私有性与安全性的问题,特别是电子商务中的各种信息,这就给数据挖掘造成了一定的阻碍,如何解决这一问题成为了技术在应用中的关键。为此相关人员在进行数据挖掘过程中一定要遵守职业道德,保障信息的机密性。6 数据挖掘结果的不确定性数据挖掘结果具有不确定性的特征,因为挖掘的目的不同所以最后挖掘的结果自然也会千差万别,以因此这就需要我们与所要挖掘的目的相结合,做出合理判
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 电子商务 应用
限制150内