数据挖掘技术及其在电子商务中的应用学士学位论文(17页).docx
-数据挖掘技术及其在电子商务中的应用学士学位论文-第 17 页学士学位论文题目:数据挖掘技术及其在电子商务中的应用指导教师: 系 别:北京大学信息管理系 专 业:信息管理与信息系统 学 号: 2013000001 学生姓名: 2012年10月北京大学信息管理系大专起点本科函授学生毕业论文函授站 北京 年级 2010级 姓名 学号 2013000001 题 目: 数据挖掘技术及其在电子商务中的应用 指导教师评语:初评成绩(百分制):指导教师(签名) 指导教师工作单位 职 称 年 月 日摘 要介绍数据挖掘技术,数据挖掘方法。如何使用数据挖掘技术分析电子商务活动中的客户访问行为,购买行为以及客户的性别、年龄等特征,从而调整电子商务网站的站点结构,广告宣传,商品推荐,客户引导以及商品的规划等。使电子商务活动更具有针对性,用户体验更加人性化,以及为电商企业决策提供数据支持。关键词数据挖掘 数据仓库 电子商务 信息处理 预测目录第一章 引言5第二章 数据挖掘技术概述62.1 数据挖掘定义62.2 数据挖掘类型72.2.1分类72.2.2估计72.2.3预测72.2.4相似分组或市场篮分析82.2.5聚集82.3 数据挖掘过程82.3.1确定业务对象82.3.2数据准备92.3.3数据挖掘92.3.4分析和同化92.4 数据挖掘的常用方法102.4.1市场篮分析(Market Basket Analysis)102.4.2基于记忆推理(Memory-Based Reason-ing, MBR)102.4.3聚集分析(Cluster Detection)102.4.4链路分析(Link Analysis)102.4.5决策树(Decision Tree)102.4.6神经网络(Neutral Network)112.4.7遗传算法(Genetic Algorithms)112.4.8Rough集(Rough Set)11第三章 电子商务中的数据挖掘技术应用113.1 电子商务简介113.2 挖掘客户的购买行为123.3 分析客户对站点的访问行为133.4 从历史销售数据中挖掘交易规律143.5 定位客户的网络性别153.6 路径分析163.7 关联分析方法的运用16第四章 结束语18参考文献20第一章 引言目前互联网电子商务行业犹如雨后春笋遍地开花,如淘宝、京东、当当、凡客、苏宁易购、库巴购物网、拍拍网等。众多的电商在互联网中活跃着,其中有综合性的电商网站,如淘宝、京东、当当等。也有专门性从事某一类商品的电商活动的网站,如麦包包专门进行箱包类的电商活动,聚美优品则专门进行化妆品类商品的网上交易。 2012-2016年中国电子商务行业投资价值分析及深度研究咨询报告 中国行业研究网() 报告编号:937696电子商务推动生产生活方式的发展,已经渗透到各个行业和领域,对拉动经济增长、促进转变有着重要作用。电子商务服务业正在成为现代服务业一个核心产业。截至2011年底,中国网民规模突破5亿关口,达5.13亿人。中国网络购物用户规模达1.94亿人,同比增长20.8%,网购使用率37.8%,未来网络购物用户规模将持续增长。网络购物用户对于网络购物的依赖性较高,大部分网络购物用户浏览网购网站的频率较高。其中,超过四成网购消费者每天浏览网购网站一次以上,近六成用户每天都要进行网购网站的浏览。而对于绝大多数(接近95%)的网购用户来讲,每周至少浏览一次网购网站。2011年中国电子商务交易总额为5.8万亿元,同比增长29.2%,其中网络购物交易规模突破7825亿元,占社会消费品零售总额比重达到4.3%。其中,B2B领域,无论是中小企业、还是规模较大企业均加大了网络渠道的应用,通过互联网促成交易的达成。得益于网购的蓬勃发展,物流业市场得到井喷式发展,年均增长率达27.23%。2011年底,中国电子商务服务企业突破15万家,中国网上零售市场成交值达230亿美金,已仅次于美国位列第二,随着基础建设和网上贸易的发展,预计未来3年内,中国电子商务交易额将保持年均29%以上的增长速度。到2015年我国网络消费用户数量将激增至3.29亿人。网络消费支出有望使中国电子商务市场的规模超过美国,达12万亿元人民币以上,成为全球第一大电子商务市场。不管是综合性还是专业性的电商网站,都存在着非常大的竞争,比如前不久的京东和苏宁、国美的价格大战,不仅考验着电商们系统的压力,也考验了他们的数据分析处理能力。同时各大电商企业基本都拥有大量的用户,如何去分析他们的用户的访问习惯,购买行为,以及分析竞争对手的相关数据从而调整电子商务网站的站点结构,广告宣传,商品推荐,客户引导以及商品的规划、潜在用户的挖掘等。使电子商务活动更具有针对性,用户体验更加人性化,提高自己的竞争力。在这样的大数据环境下我们就需要用到数据挖掘技术来帮助企业进行数据的分析。数据挖掘(Data Mining)是从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程。这些信息的表现形式为:规则、概念、规律及模式等,可帮助决策者分析历史数据及当前数据,从中发现隐藏的关系和模式,进而预测未来可能发生的行为。第二章 数据挖掘技术概述2.1数据挖掘定义数据挖掘之所以引起信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛地用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索。所以,数据挖掘是信息技术自然演化的结果,因而是重要的。那么什么是数据挖掘呢?数据挖掘开山鼻祖Usama Fayyad 乌萨马·本·法耶兹博士是美国人工智能协会(AAAI),ACM(美国计算机协会)院士,研究员. 在加入雅虎之前,法耶兹共同创立和领导的DMX集团的数据挖掘和数据战略.: 数据挖掘是从数据集中识别出有效的、新颖的、潜在的,以及最终可理解的模式的非平凡过程 U.M Fayyad etc Advances in Knowledge Discovery and Data Mining AAAl/The MIT Press 1996。Zekulin: 数据挖掘是一个从大型数据库中提取以前未知的、可理解的、可执行的信息,并用它来进行关键的商业决策的过程。Ferruzza: 数据挖掘是用在知识发现过程,来辨识存在于数据中的未知关系和模式的一些方法。John: 数据挖掘是发现数据中有益模式的过程。Parsaye: 数据挖掘是我们为那些未知的信息模式而研究大型数据集的一个决策支持过程。数据挖掘的定义各一,但他们都有一个中心的思想就是数据的提取和分析,那我们可以从技术的角度来给数据挖掘下一个定义 数据挖掘概念与技术(原书第2版).(加)韩家炜,堪博著,范明,孟小峰译.机械工业出版社:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐藏在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。2.2数据挖掘类型2.2.1分类这是最常见的数据挖掘类型,其中数据的目标数据项表示数据所代表的对象的类型。例如在医学应用中,对象可分为有病和没病两类;在金融应用中,对象可分为低风险和高风险两类。分类数据挖掘先从一个已分类的数据集(训练集)得到一个模型,这个模型就包含了从该训练集中得到的知识。然后应用这个模型(知识)对新的未分类的数据进行分类。2.2.2估计这是一种与分类相类似的类型。分类的目标数据项是离散化的,而估计的目标数据项是连续的。2.2.3预测通过分析代表对象过去和现在行为的数据来预测对象未来的行为。这实际上是一种特殊的分类或估计,其目标数据项就是要预测的值。2.2.4相似分组或市场篮分析确定哪些对象会集中在一起,典型的应用是确定在超级市场中顾客会将哪些商品放在一个购物车或购物篮中,即他们会同时购买那些商品。2.2.5聚集将一组对象分为几部分,每一部分称为一个簇,簇中的对象具有类似的特点。聚集分析通常是其他数据挖掘方法的前一步骤。2.3数据挖掘过程图1 数据挖掘基本过程2.3.1确定业务对象清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。2.3.2数据准备 数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。取得数据源。数据挖掘最理想的数据源是数据仓库 Harjinder S Gill.数据仓库客户/方服务器计算指南.北京:清华大学出版社,1998。数据仓库由来自多个数据库的数据组成,并消除它们之间的不一致。如数据仓库不可得,则要从各个数据库中取得数据。数据挖掘有时还需要对原有数据库进改造以得到可用的数据源,例如延长历史数据的保留期。数据的预处理:研究数据的质量,为进一步的分析作准备.并确定将要进行的挖掘操作的类型。包括消除来自不同数据库甚至不同类型计算机数据表示的不一致,在数据中加入新的数据项(例如对原有数据项进行有意义的数学计算而得到新的数据项)以发现更多的规律,将数据分为训练集和测试集等方面。数据的转换:将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。2.3.3数据挖掘对所得到的经过转换的数据进行挖掘.除了完善和选择合适的挖掘算法外,其余一切工作都能自动地完成。2.3.4分析和同化结论分析:解释并评估结果,其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去。2.4数据挖掘的常用方法吕晓玲、谢邦昌编著. 数据挖掘方法与应用.中国人民大学出版社,2009-1-12.4.1市场篮分析(Market Basket Analysis)找到在一次交易或活动中会同时出现的对象,由此得到的模型将给出一组对象同时出现的可能性。其具体方法是计算训练集中各种对象组合出现的概率,当概率超过一定的阈值时,可以认为该对象组合代表了会同时出现的对象。2.4.2基于记忆推理(Memory-Based Reason-ing, MBR)这种方法用已知对象的特征(记忆)来估计未知对象的特征。MBR在已知对象集合中寻找与未知对象最接近的对象,然后将这些对象特征组合起来估计未知对象的特征。MBR的关键在于正确定义用来寻找最接近对象的距离函数和组合对象特征的组合函数。2.4.3聚集分析(Cluster Detection)通过对数据的分析将一个数据集分为几个特征相同的簇,即把特征相同的数据聚集在一起。2.4.4链路分析(Link Analysis)它用来分析对象之间的关系。具体方法是将对象(数据)看成是图的节点,它们之间存在的关系看成是图的边(链路),然后用图论的方法进行分析。2.4.5决策树(Decision Tree)它将训练集中数据分为不相交的子集,每个子集可由一定的规则来描述。此规则在逻辑上具有层次结构,因此可用树型数据结构来表示,树上的每个节点代表一条规则。2.4.6神经网络(Neutral Network)这是最常见的一种数据挖掘方法。它是在计算机上模拟神经元及其连接的方法。神经网络实际上完成从已知数据项到目标数据项的一种复杂的非线性映射,它获取的知识就存在于网络结构中。神经网络主要用来进行分类、估计和预测等有向数据挖掘,也可用于聚集等无向数据挖掘。2.4.7遗传算法(Genetic Algorithms)它是一种应用遗传学原理和自然选择机制来搜索最优解的方法。在数据挖掘中,它用来寻找实现分类、估计和预测功能的最优参数集。这种方法先产生一组解法,然后用重组、突变和选择等进化过程来得到下一代解法。随着进化过程的继续,较差解法被抛弃,从而逐步得到最优解法。2.4.8Rough集(Rough Set)它所使用的数据结构是决策表,决策表中的每一项数据由条件属性和决策属性构成,其目的是通过简化决策表即去掉某些条件属性来确定条件属性和决策属性的映射关系,最终得到一组用条件属性来表示决策属性的规则。这种方法用Rough集理论中一些概念和方法来考察决策表中条件属性的重要性,以确定那些属性是可以去掉的,那些属性是要保留的。第三章 电子商务中的数据挖掘技术应用3.1电子商务简介电子商务周曙东.电子商务概论.南京:东南大学出版社,2011-7-1是指个人或企业通过Internet网络,采用数字化电子方式进行商务数据交换和开展商务业务活动.目前国内已有网上商情广告、电子票据交换、网上订购,网上银行、网上支付结算等多种类型的电子商务形式。电子商务有以下优势:·服务不受时间限制,给客户带来了极大方便.客户可以足不出户、一天二十四小时地进行各种信息查询、商品查询、即时购物等活动·全球性资源共享.Internet上的信息容量无比巨大,任何人都可以从中受益·突破了地域的限制,可以直接与全市、全国、甚至全世界的客户打交道·大大降低了商家的经营成本.商家不再需要真正的店铺,而且可以直接进货、减少仓储,加快资金周转,可节省大量的人力、物力和财力·商家可以更方便、更直接、更系统地接受客户反馈,有利于商家做好售后服务和市场调查·由于绝大部分信息可以在网上实时地发送,故可以大大降低广告费用和信息发布费用,且能增加时效性·Internet数字化、主动式、交互性的特点是电话、传真、电视、报纸等传统媒介不能替代、无可比拟的·节省购物空间.因为网上购物均为无店铺直销形式,厂家可直接与消费者挂钩,并通过信息反馈及时调整产品供求关系,买主感觉商店就在身边,厂家可以避免盲目生产造成的积压.3.2挖掘客户的购买行为客户购买行为的分析是线下销售和在线电子商务活动中最基础最常用的数据挖掘行为。经典的啤酒和尿布案例就是通过分析客户的购买行为发现在外国的超市里男人去买尿布的同时也买走了啤酒,从而决定将尿布和啤酒的摆放位置调整得更合理,促进超市里啤酒的销量,同时也省去了寻找啤酒和尿布的时间,缩短了每客户购物的时间,进而提高销售业绩。这是线下超市的一个经典案例,在电子商务活动中也同样适用。我们可以从网站的数据库中记录的客户的购买记录,可以是一次交易,也可以是一段时间内的交易记录,去分析客户在交易中所购买的商品。找出商品与商品之间的联系,商品与客户行为的联系,从而调整电子商务网站的商品推荐策略、购买建议等。为客户缩短搜索商品的时间,简化操作,增强用户的购买体验。2012年4月由IT168和盛拓传媒主办的2012数据库技术大会上有一场是关于数据挖掘技术的,他们邀请到了淘宝的数据挖掘工程师来进行分享。会上淘宝的工程师分享了这么一个案例,他们分析了每年的情人节、七夕、圣诞节这三个节日淘宝上商品的销售情况。发现在这三个节日,淘宝用户基本会购买鲜花和巧克力等商品。这也不奇怪,通常情况下在这些节日都是男女互赠礼物以示爱意,鲜花和巧克力销量大增也是正常。但是过了大概半月到一月的时间,他们又对这些在节日购买了鲜花和巧克力的客户进行了一次购买行为的分析,分析发现,这部分客户在购买了鲜花或巧克力后的一周到一个月间大部分的客户都购买了另一种商品,那就是安全套。而后又分析了每月的安全套交易量,对比了情人节、七夕、圣诞三个节日所在的月和其它月份安全套的交易量。最后得出一个结论,客户在重要的节日购买鲜花和巧克力后的一周到一个月时间内很大概率会购买计生用品。根据此项分析结论淘宝可以在客户将鲜花或巧克力放入购物车后推荐客户购买计生用品,如:xxx客户您好,80%购买鲜花和巧克力的客户还购买了以下商品。把计生用品为客户做一个列表展示。合理的商品推荐策略、购买建议可以缩短客户搜索商品的时间、简化客户的购买操作、同时也增强了客户的购买体验。从而缩短每客户的购物时间,提高每次交易的商品数量和交易金额,使电子商务活动更高效。3.3分析客户对站点的访问行为电子商务是通过Internet网络,采用数字化电子方式进行商务数据交换和开展商务业务活动。这种活动都需要基于电子商务站点进行,站点内的访问行为体现的是客户的购买意向,和感兴趣的商品,以及对站点功能使用的熟练程度,如站点的搜索、物品分类等。客户对某个站点的访问方式体现的是个人的上网习惯、对网络的使用频度、对电子商务(网上交易)的认知程度等。打仗时知己知彼方能百战不殆,电子商务活动虽不是打仗,但是越多的了解你的客户客户群,掌握他们的习惯和爱好对开展电子商务活动绝对是至关重要的,可以更好的去留住客户和发展新的客户,对提高企业的竞争力非常的重要。使用数据挖掘技术对客户的站点访问行为数据进行分析从而对客户更深入的了解,制定合适的导航信息、站点内部的分类、站点的便捷功能、站点的广告推广等。客户对站点的访问行为分析分两类进行,一类是分析客户在站点内部的访问行为记录。如,客户首先进入主站点,而后统计出进入主站点后访问最多的前三个或五个页面,找到这些页面后分析这些页面,找出页面的特性,分析客户从主站点直接进入该页面的目的。例如,可以发现,有大部分客户进入主站点后进入搜索页面或者是商品分类页面,而不是直接进入商品的详细页面。这说明,大部分客户非常明白自己要购买什么商品,目的明确,不是闲逛的,进入主站后直接搜索或进入所需要的商品的类目进行查找。据此再对此类客户的购买记录进行分析,看看他们是不是找到了自己需要的商品,并进行了购买活动。如果客户进行了搜索查找,而成交量却比较的低,说明存在问题。是客户找到了商品没有进行购买还是客户根本就没有搜索到相关的商品,此时就需要去核实一下站点的搜索功能是否可用、实用、好用,分类是否合理、便捷等从而对站点进行相关的优化,提高性能和体验,使客户在本站点购物简单愉快。第二类是分析客户对站点的访问方式,如直接输入站点地址进行访问的客户则可能是经常光顾本站,有一定网购经验,对网络比较熟悉甚至依赖。对这类客户不需要太多的引导和推广,因为他们已经是老手了。比如还有的是通过百度搜索或者其他的网站链接进入到站点的,那可以推断这些客户并不经常在网络上活动,甚至他们需要间接的通过其他站点来访问我们的电子商务网站,对这类客户就需要有一定的引导,比如提示他们将我们的站点收藏到IE收藏夹,或者引导他们如何记住或如何直接访问到我们的站点。3.4从历史销售数据中挖掘交易规律数据挖掘基本过程的第一项就是确定业务对象,也就是说我们进行数据挖掘的目标,数据挖掘只作为一种技术,通过此项技术来实现或者是验证我们一开始设定的目标。简单的说就是在进行数据挖掘前我们先要有一个猜想,猜想会有什么样的规律或者情况,而后通过数据挖掘相关技术去验证。电子商务活动中产生的大量的交易数据是一类非常有挖掘价值的数据,关键在于从什么角度去挖掘,确定什么样的目标。比如可以利用商品的历史销售数据从时间(天)、成交量两个维度进行数据挖掘分析得出某类商品是否存在交易的规律。淘宝的数据分析师们也做过这样的猜测和分析,他们在众多的交易分析中发现有一种商品每个月月初的时候交易明显比平常高出好几倍,是什么呢?手机充值卡,它的交易是有规律的,因为移动运营商一般会在月初进行费用结算,很多人也就在这时候需要进充值。找到商品的交易规律则可以事先做好库存的准备,避免脱销的现象,就能抓住时机,达成最有效的交易。3.5定位客户的网络性别电子商务活动中一般都需要客户在网站进行注册填写相关个人信息而后才可以进行正常的电子商务活动。客户的个人信息必须是要保密的不可以随意的泄露,所以在利用和分析此类信息的时候需要更多的考虑客户的信息安全和隐私。其实单从客户注册信息中的性别去判断或分类客户是不太准确的,为什么这么说呢?例如,我们可以做这样一个分析,调取网站注册信息为男性的客户的交易记录进行分析,看看这些所谓的男性客户都买过什么样的商品,有多少百分比的商品是男性用品。分析大概可以得出结论是男性注册用户其实有50%左右在购买女性商品,这其实是一个普遍的现象,男士在网上购物大多数情况下其实不是为自己在消费,更多的是在替女性进行消费,从整个电子商务行业的调查来看女性消费主体也是大于男性消费的,如果我们单纯的以用户的注册性别来进行男女顾客的分类然后进行相关的营销广告、商品的推荐策略制定的话那效果是不那么准确和明显的。更应该结合客户的购买记录进行商品的性别分析,从而分析得出客户在电子商务活动中,在网络中的性别。3.6路径分析邹显春、谢中、周彦晖.电子商务与Web数据挖掘.重庆:西南师范大学计算机与信息科学学院400715路径分析可以被用于判定在一个Web站点中最频繁访问的路径。还有一些其他的有关路径的信息通过路径分析可以得出:·70%的用户端在访问/company/product2时,是从/company开始,经过/company/new, /company/products,/company/product1。·80%的访问这个站点的客户是从/company/products开始的。·65%的客户在浏览4个或更少的页面后就离开了。第一条规则在/company/product2页面上有有用的信息,但因为客户对站点进行的是迂回绕行的访问,所以这个有用信息并不明显。第二条规则说明了客户对站点的访问一般不是从主页开始的,而是从/company/products开始的,如果在这个页面上包含一些产品的目录类型的信息,将是一个不错的主意。第三条规则说明了客户在网站上驻留的时间。既然客户在这个网站上浏览一般不超过4个页面,就可以把重要的商品信息放在这些页面中。通过路径分析,可以改进页面及网站结构的设计。3.7关联分析方法的运用关联分析可形式化地描述为:设I= i1,i2,im是m个不同项目的集合,D是针对I上的事件的集合,D中每一项事件包含若干项目I,且I I。则关联规则表示为X Y,其中X,Y I,并且XY=。X称作规则的前提,Y是结果。针对每一条规则应同时计算最小支持度和最小置信度,得出的最小支持度和最小置信度必须同时大于用户给出的最小支持度和最小置信度阀值,这条规则才被认为有参考的价值,并被列入分析的结果。定义1:对于D I,X是包含于D的事件子集,则子集X在集合D上的最小支持度为:support(X)=S(X)/S(D),其中S(X)表示包含项目X的事件个数,S(D)表示事件D的个数。定义2:X Y的最小置信度为:confidence(X Y)=S(XY)/S(X),其中S(XY)表示同时包含项目X和Y的事件个数。关联分析就是要分析I上的事件集合D,针对D中的每一个项目X,计算最小支持度,对那些大于用户给出的最小支持度阀值的X,进而计算其与另一个项目Y的最小置信度,若得到值大于用户给出的最小置信度阀值,则认为规则X Y成立,也即断言项目X、Y在一定程度上发生关联。下面结合顾客购买实例提出一个可行的关联分析方法。某公司专业生产化妆用品和沐浴用品,该公司在全国各大城市的各大商场都设点销售,公司对一定时间范围内顾客购买详细情况作了收集,情况如表1所示(限于篇幅,仅列出6个顾客、5种产品为例)。表1顾客购买情况表钱锋,徐麟文.数据挖掘及在营销中的应用.杭州电子工业学院管理分院,2001-08针对表1进行关联分析,首先构造两种商品间的关联表,如表2所示,表中每一个数值表示的是行、列代表的两种商品同时被一个用户购买的次数。表2两种商品间关联表第二步,针对设定的最小支持度阀值,计算每一个X的最小支持度,将大于最小支持度阀值的X列出(本例,设最小支持度阀值为0.5):support(洗面奶)=0.6; support(晚霜)=0.6; support(洗发水)=0.8; support(沐浴乳)=0.6.第三步,针对设定的最小置信度阀值和上步列出的X,计算的最小置信度表,如表3所示:表3X Y的最小置信度表第四步,将大于最小置信度阀值的列出(本例,设最小置信度阀值为0.5),即为关联分析所得出的规则:Rule1:晚霜 洗面奶,support=0.6, confidence=0.667Rule2:洗面奶 晚霜,support=0.6, confidence=0.667Rule3:洗发水 沐浴乳,support=0.8, confidence=0.75Rule4:沐浴乳 洗发水,support=0.6, confidence=1从上述规则可以初步得出结论:(1)购买本公司产品的顾客中相当比例的人有晚上用洗面奶洗面,并用晚霜保养皮肤的习惯(估计顾客中有一定比例是白领上班族,早上匆忙,晚上空暇)。(2)购买洗发水的顾客多半会同时购买沐浴乳,而购买沐浴乳的顾客则几乎肯定会购买洗发水(因多数人沐浴时同时洗发,并且洗发次数多于沐浴)。根据上述规则,公司在营销时采取了如下措施:(1)将晚霜与洗面奶、洗发水与沐浴乳放置在一起,方便顾客购买。(2)顾客购买了一种商品后,适当推荐另一种商品。(3)在生产与发货运输上,将关联产品配套按排。采取这些措施后,顾客的交叉消费大为提高。第四章 结束语数据挖掘综合了机器学习、模式识别、统计学、数据库和数据分析等多领域的研究成果,目前已经普遍应用于了很多的领域,利用数据挖掘得出决策规则, 还应包括对分析所用到的原始数据进行清理,滤去数据“噪声”的数据整理工作、对得出的规则进行衡量的结果评价工作以及对挖掘模型的优化工作等等。在大数据环境下进行数据挖掘成本是不需要考虑的因素,要将数据挖掘更好的应用到各个行业则需要开发更高效的挖掘算法、研制可视化的挖掘界面、研究基于不同媒体的挖掘、研究如何确定规则的评价标准和如何与其他系统集成等。随着数据挖掘技术的迅速发展,越发掀起了投资数据挖掘项目的高潮.但在实现这一复杂、昂贵的技术同时,也暴露了很多问题.投资者往往对其存有过高期望,低估成本,带来了极大的风险;另外还需要有专门的内部专业技术人员或咨询机构解释、评价数据挖掘结果,增加了成本.因此信息管理人员和投资者还需充分认识其潜在的问题,要从需求、数据、财力及技术4个方面考虑,认真进行成本/效益分析,避免不必要的开支和风险。参考文献1 Harjinder S Gill.数据仓库客户/方服务器计算指南.北京:清华大学出版社,19982 王清毅、陈恩红、蔡庆生.知识发现的若干问题及应用研究.计算机科学,1997Vol.24 No.53 孙义、方真.电子商务.北京:北京大学出版社,2010-8-14 周曙东.电子商务概论.南京:东南大学出版社,2011-7-15(加)韩家炜,堪博著,范明,孟小峰译.数据挖掘概念与技术(原书第2版).机械工业出版社,2007-3-16 邹显春、谢中、周彦晖.电子商务与Web数据挖掘.重庆:西南师范大学计算机与信息科学学院,2001-57 2012-2016年中国电子商务行业投资价值分析及深度研究咨询报告.中国行业研究网() .报告编号:9376968 钱锋,徐麟文.数据挖掘及在营销中的应用.杭州电子工业学院管理分院,2001-089 Braachman R, Anand T. Data Archeology. KDD-93,1993.