数据挖掘在电子商务公司中的应用(共12页).docx
《数据挖掘在电子商务公司中的应用(共12页).docx》由会员分享,可在线阅读,更多相关《数据挖掘在电子商务公司中的应用(共12页).docx(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上FEB 15 , , , 我将以阿里巴巴,百度,腾讯三家公司为案例,来简单的探讨这一应用。阿里巴巴是国内最大的电子商务服务供应商,百度是全球最大的中文搜索引擎服务供应商,腾讯是中国最大的即时聊天工具服务供应商。当这几家公司都将注意力陆续投入到网络交易平台的时候,对于我们的商家和消费者来说无疑将获得更大的益处,在此文中我将抛开我们经常关注的谁拥有这样的平台,我让大家更加深入的了解下,未来会影响几大电子商务巨头市场格局背后隐藏的电子商务软实力-数据挖掘。什么是数据挖掘?数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery i
2、n Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。 应用于电子商务平台服务公司来说,就需要从目前几大电子商务公司积累的交易平台中抽取出针对消费者购买行为,购物习惯,偏好,消费支出,消费能力,消费者品牌忠诚度,性别差异,年龄等抽取出消费者行为指数。就目前而言淘宝拥有中国最大的购物平台和商品数,在海量的商品数量里需要解决根据消费者行为偏好进行有策略的精准营销上,如何将抽取出上千万消费者再购物习惯的偏好则需要投入大量的高素质人才,以抽取出消费者购物时的关联信息,为卖家提供有科技含量的产
3、品推广模式,为品牌广告主提供品牌宣传最优的模式,淘宝作为网络交易平台的先行者,面对后面越来越多的挑战者,需要更多的投入到这一基础领域的研究中去,以支撑未来庞大的业务,同时需要渐进的整合阿里巴巴企业客户资源抽取出差异化其他竞争对手的数据,同时在未来的2,3年内淘宝作为国内电子商务霸主将继续领先。就目前而言拍拍拥有中国第二大的购物平台和商品数,在海量的商品数量同样需要解决根据消费者行为偏好进行有策略的精准营销上,如何将抽取出上千万消费者再购物习惯的偏好则需要投入大量的高素质人才,以抽取出消费者购物时的关联信息,为卖家提供有科技含量的产品推广模式。当时背靠腾讯已经培育了大量的潜在消费者,通过腾讯其他
4、平台积累了网民的一些消费习惯及对品牌的偏好,比如腾讯空间,个人在完善信息时需要对自己已经熟知的品牌进行填写,某种意义上这也是为未来消费者行为分析及品牌忠诚度分析方面准备,在消费信息定向传播时有很大的操作空间,同时能为品牌客户提供良好的解决品牌宣传解决方案。就目前而言百度的交易平台还没有正式上线,但精心的市场导入及强大的实力对国内任何一个竞争对手来说都是有所防范的,百度的交易平台没有上线,但是在数据挖掘领域的技术储备是优先于其他竞争对手的,同时百度的空间已经为百度积累了大量的消费者资源,并且拥有大量的可供参考的消费者行为指数,在未来电子商务领域中拥有比较优势。不过在电子商务平台运营方面还需要短期
5、内的试错和纠偏以及受到竞争对手的阻击。数据挖掘基础知识1)数据挖掘能做以下六种不同事情(分析方法): 分类 (Classification) 估值(Estimation) 预言(Prediction) 相关性分组或关联规则(Affinity grouping or association rules) 聚集(Clustering) 描述和可视化(Des cription and Visualization) 复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)2)数据挖掘分类 以上六种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘 直接数据挖掘 目标是利用可用的数据建立
6、一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。 间接数据挖掘 目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系 。 分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘 3)各种分析方法的简介 分类 (Classification) 首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。例子:a. 信用卡申请者,分类为低、中、高风险 b. 分配客户到预先定义的客户分片 注意: 类的个数是确定的,预先定义好的 估值(Estimation) 估值与分类类似,
7、不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定数目的,估值的量是不确定的。例子: a. 根据购买模式,估计一个家庭的孩子个数 b. 根据购买模式,估计一个家庭的收入 c. 估计real estate的价值 一般来说,估值可以作为分类的前一步工作。给定一些输入数据,通过估值,得到未知的连续变量的值,然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运用估值,给各个客户记分(Score 01)。然后,根据阈值,将贷款级别分类。 预言(Prediction) 通常,预言是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的
8、预言。从这种意义上说,预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。 相关性分组或关联规则(Affinity grouping or association rules) 决定哪些事情将一起发生。 例子:a. 超市中客户在购买A的同时,经常会购买B,即A = B(关联规则) b. 客户在购买A后,隔一段时间,会购买B (序列分析) 聚集(Clustering) 聚集是对记录分组,把相似的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。 例子:a. 一些特定症状的聚集可能
9、预示了一个特定的疾病b. 租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群 聚集通常作为数据挖掘的第一步。例如,哪一种类的促销对客户响应最好?,对于这一 类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。 描述和可视化(Des cription and Visualization)是对数据挖掘结果的表示方式。数据挖掘中的关联规则1.什么是关联规则在描述有关关联规则的一些细节之前,我们先来看一个有趣的故事: 尿布与啤酒的故事。 在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加
10、了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在尿布与啤酒背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%40%的人同时也为自己买一些啤酒。产
11、生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。 按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等
12、于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;对关联规则的应用进行推广。关联规则挖掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。2.关联规则挖掘过程、分类及其相关算法2.1关联规则挖掘的过程关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。关联规则挖掘的第一阶段必须从原
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 电子商务 公司 中的 应用 12
限制150内