数据挖掘技术及其在电子商务中的应用学士学位论文(17页).docx
《数据挖掘技术及其在电子商务中的应用学士学位论文(17页).docx》由会员分享,可在线阅读,更多相关《数据挖掘技术及其在电子商务中的应用学士学位论文(17页).docx(17页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-数据挖掘技术及其在电子商务中的应用学士学位论文-第 17 页学士学位论文题目:数据挖掘技术及其在电子商务中的应用指导教师: 系 别:北京大学信息管理系 专 业:信息管理与信息系统 学 号: 2013000001 学生姓名: 2012年10月北京大学信息管理系大专起点本科函授学生毕业论文函授站 北京 年级 2010级 姓名 学号 2013000001 题 目: 数据挖掘技术及其在电子商务中的应用 指导教师评语:初评成绩(百分制):指导教师(签名) 指导教师工作单位 职 称 年 月 日摘 要介绍数据挖掘技术,数据挖掘方法。如何使用数据挖掘技术分析电子商务活动中的客户访问行为,购买行为以及客户的性
2、别、年龄等特征,从而调整电子商务网站的站点结构,广告宣传,商品推荐,客户引导以及商品的规划等。使电子商务活动更具有针对性,用户体验更加人性化,以及为电商企业决策提供数据支持。关键词数据挖掘 数据仓库 电子商务 信息处理 预测目录第一章 引言5第二章 数据挖掘技术概述62.1 数据挖掘定义62.2 数据挖掘类型72.2.1分类72.2.2估计72.2.3预测72.2.4相似分组或市场篮分析82.2.5聚集82.3 数据挖掘过程82.3.1确定业务对象82.3.2数据准备92.3.3数据挖掘92.3.4分析和同化92.4 数据挖掘的常用方法102.4.1市场篮分析(Market Basket An
3、alysis)102.4.2基于记忆推理(Memory-Based Reason-ing, MBR)102.4.3聚集分析(Cluster Detection)102.4.4链路分析(Link Analysis)102.4.5决策树(Decision Tree)102.4.6神经网络(Neutral Network)112.4.7遗传算法(Genetic Algorithms)112.4.8Rough集(Rough Set)11第三章 电子商务中的数据挖掘技术应用113.1 电子商务简介113.2 挖掘客户的购买行为123.3 分析客户对站点的访问行为133.4 从历史销售数据中挖掘交易规律1
4、43.5 定位客户的网络性别153.6 路径分析163.7 关联分析方法的运用16第四章 结束语18参考文献20第一章 引言目前互联网电子商务行业犹如雨后春笋遍地开花,如淘宝、京东、当当、凡客、苏宁易购、库巴购物网、拍拍网等。众多的电商在互联网中活跃着,其中有综合性的电商网站,如淘宝、京东、当当等。也有专门性从事某一类商品的电商活动的网站,如麦包包专门进行箱包类的电商活动,聚美优品则专门进行化妆品类商品的网上交易。 2012-2016年中国电子商务行业投资价值分析及深度研究咨询报告 中国行业研究网() 报告编号:937696电子商务推动生产生活方式的发展,已经渗透到各个行业和领域,对拉动经济增
5、长、促进转变有着重要作用。电子商务服务业正在成为现代服务业一个核心产业。截至2011年底,中国网民规模突破5亿关口,达5.13亿人。中国网络购物用户规模达1.94亿人,同比增长20.8%,网购使用率37.8%,未来网络购物用户规模将持续增长。网络购物用户对于网络购物的依赖性较高,大部分网络购物用户浏览网购网站的频率较高。其中,超过四成网购消费者每天浏览网购网站一次以上,近六成用户每天都要进行网购网站的浏览。而对于绝大多数(接近95%)的网购用户来讲,每周至少浏览一次网购网站。2011年中国电子商务交易总额为5.8万亿元,同比增长29.2%,其中网络购物交易规模突破7825亿元,占社会消费品零售
6、总额比重达到4.3%。其中,B2B领域,无论是中小企业、还是规模较大企业均加大了网络渠道的应用,通过互联网促成交易的达成。得益于网购的蓬勃发展,物流业市场得到井喷式发展,年均增长率达27.23%。2011年底,中国电子商务服务企业突破15万家,中国网上零售市场成交值达230亿美金,已仅次于美国位列第二,随着基础建设和网上贸易的发展,预计未来3年内,中国电子商务交易额将保持年均29%以上的增长速度。到2015年我国网络消费用户数量将激增至3.29亿人。网络消费支出有望使中国电子商务市场的规模超过美国,达12万亿元人民币以上,成为全球第一大电子商务市场。不管是综合性还是专业性的电商网站,都存在着非
7、常大的竞争,比如前不久的京东和苏宁、国美的价格大战,不仅考验着电商们系统的压力,也考验了他们的数据分析处理能力。同时各大电商企业基本都拥有大量的用户,如何去分析他们的用户的访问习惯,购买行为,以及分析竞争对手的相关数据从而调整电子商务网站的站点结构,广告宣传,商品推荐,客户引导以及商品的规划、潜在用户的挖掘等。使电子商务活动更具有针对性,用户体验更加人性化,提高自己的竞争力。在这样的大数据环境下我们就需要用到数据挖掘技术来帮助企业进行数据的分析。数据挖掘(Data Mining)是从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程。这些信息的表现形式为:规则、概念、规律及模式等,可帮助
8、决策者分析历史数据及当前数据,从中发现隐藏的关系和模式,进而预测未来可能发生的行为。第二章 数据挖掘技术概述2.1数据挖掘定义数据挖掘之所以引起信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛地用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索。所以,数据挖掘是信息技术自然演化的结果,因而是重要的。那么什么是数据挖掘呢?数据挖掘开山鼻祖Usama Fayyad 乌萨马本法耶兹博士是美国人工智能协会(AAAI),ACM(美国计算机协会)院士,研究员. 在加入雅虎之前,法耶兹共同创立和领导的DMX集
9、团的数据挖掘和数据战略.: 数据挖掘是从数据集中识别出有效的、新颖的、潜在的,以及最终可理解的模式的非平凡过程 U.M Fayyad etc Advances in Knowledge Discovery and Data Mining AAAl/The MIT Press 1996。Zekulin: 数据挖掘是一个从大型数据库中提取以前未知的、可理解的、可执行的信息,并用它来进行关键的商业决策的过程。Ferruzza: 数据挖掘是用在知识发现过程,来辨识存在于数据中的未知关系和模式的一些方法。John: 数据挖掘是发现数据中有益模式的过程。Parsaye: 数据挖掘是我们为那些未知的信息模式
10、而研究大型数据集的一个决策支持过程。数据挖掘的定义各一,但他们都有一个中心的思想就是数据的提取和分析,那我们可以从技术的角度来给数据挖掘下一个定义 数据挖掘概念与技术(原书第2版).(加)韩家炜,堪博著,范明,孟小峰译.机械工业出版社:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐藏在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。2.2数据挖掘类型2.2.1分类这是最常见的数据挖掘类型,其中数据的目标数据项表示数据所代表的对象的类型。例如在医学应用中,对象可分为有病和没病两类;在金融应用中,对象可分为低风险和高风险两类。分类数据挖掘先从一个已分类的
11、数据集(训练集)得到一个模型,这个模型就包含了从该训练集中得到的知识。然后应用这个模型(知识)对新的未分类的数据进行分类。2.2.2估计这是一种与分类相类似的类型。分类的目标数据项是离散化的,而估计的目标数据项是连续的。2.2.3预测通过分析代表对象过去和现在行为的数据来预测对象未来的行为。这实际上是一种特殊的分类或估计,其目标数据项就是要预测的值。2.2.4相似分组或市场篮分析确定哪些对象会集中在一起,典型的应用是确定在超级市场中顾客会将哪些商品放在一个购物车或购物篮中,即他们会同时购买那些商品。2.2.5聚集将一组对象分为几部分,每一部分称为一个簇,簇中的对象具有类似的特点。聚集分析通常是
12、其他数据挖掘方法的前一步骤。2.3数据挖掘过程图1 数据挖掘基本过程2.3.1确定业务对象清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。2.3.2数据准备 数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。取得数据源。数据挖掘最理想的数据源是数据仓库 Harjinder S Gill.数据仓库客户/方服务器计算指南.北京:清华大学出版社,1998。数据仓库由来自多个数据库的数据组成,并消除它们之间的不一致。如数据仓库不可得,则要从
13、各个数据库中取得数据。数据挖掘有时还需要对原有数据库进改造以得到可用的数据源,例如延长历史数据的保留期。数据的预处理:研究数据的质量,为进一步的分析作准备.并确定将要进行的挖掘操作的类型。包括消除来自不同数据库甚至不同类型计算机数据表示的不一致,在数据中加入新的数据项(例如对原有数据项进行有意义的数学计算而得到新的数据项)以发现更多的规律,将数据分为训练集和测试集等方面。数据的转换:将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。2.3.3数据挖掘对所得到的经过转换的数据进行挖掘.除了完善和选择合适的挖掘算法外,其余一切工作都
14、能自动地完成。2.3.4分析和同化结论分析:解释并评估结果,其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去。2.4数据挖掘的常用方法吕晓玲、谢邦昌编著. 数据挖掘方法与应用.中国人民大学出版社,2009-1-12.4.1市场篮分析(Market Basket Analysis)找到在一次交易或活动中会同时出现的对象,由此得到的模型将给出一组对象同时出现的可能性。其具体方法是计算训练集中各种对象组合出现的概率,当概率超过一定的阈值时,可以认为该对象组合代表了会同时出现的对象。2.4.2基于记忆推理(Memory-Ba
15、sed Reason-ing, MBR)这种方法用已知对象的特征(记忆)来估计未知对象的特征。MBR在已知对象集合中寻找与未知对象最接近的对象,然后将这些对象特征组合起来估计未知对象的特征。MBR的关键在于正确定义用来寻找最接近对象的距离函数和组合对象特征的组合函数。2.4.3聚集分析(Cluster Detection)通过对数据的分析将一个数据集分为几个特征相同的簇,即把特征相同的数据聚集在一起。2.4.4链路分析(Link Analysis)它用来分析对象之间的关系。具体方法是将对象(数据)看成是图的节点,它们之间存在的关系看成是图的边(链路),然后用图论的方法进行分析。2.4.5决策树
16、(Decision Tree)它将训练集中数据分为不相交的子集,每个子集可由一定的规则来描述。此规则在逻辑上具有层次结构,因此可用树型数据结构来表示,树上的每个节点代表一条规则。2.4.6神经网络(Neutral Network)这是最常见的一种数据挖掘方法。它是在计算机上模拟神经元及其连接的方法。神经网络实际上完成从已知数据项到目标数据项的一种复杂的非线性映射,它获取的知识就存在于网络结构中。神经网络主要用来进行分类、估计和预测等有向数据挖掘,也可用于聚集等无向数据挖掘。2.4.7遗传算法(Genetic Algorithms)它是一种应用遗传学原理和自然选择机制来搜索最优解的方法。在数据挖
17、掘中,它用来寻找实现分类、估计和预测功能的最优参数集。这种方法先产生一组解法,然后用重组、突变和选择等进化过程来得到下一代解法。随着进化过程的继续,较差解法被抛弃,从而逐步得到最优解法。2.4.8Rough集(Rough Set)它所使用的数据结构是决策表,决策表中的每一项数据由条件属性和决策属性构成,其目的是通过简化决策表即去掉某些条件属性来确定条件属性和决策属性的映射关系,最终得到一组用条件属性来表示决策属性的规则。这种方法用Rough集理论中一些概念和方法来考察决策表中条件属性的重要性,以确定那些属性是可以去掉的,那些属性是要保留的。第三章 电子商务中的数据挖掘技术应用3.1电子商务简介
18、电子商务周曙东.电子商务概论.南京:东南大学出版社,2011-7-1是指个人或企业通过Internet网络,采用数字化电子方式进行商务数据交换和开展商务业务活动.目前国内已有网上商情广告、电子票据交换、网上订购,网上银行、网上支付结算等多种类型的电子商务形式。电子商务有以下优势:服务不受时间限制,给客户带来了极大方便.客户可以足不出户、一天二十四小时地进行各种信息查询、商品查询、即时购物等活动全球性资源共享.Internet上的信息容量无比巨大,任何人都可以从中受益突破了地域的限制,可以直接与全市、全国、甚至全世界的客户打交道大大降低了商家的经营成本.商家不再需要真正的店铺,而且可以直接进货、
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 技术 及其 电子商务 中的 应用 学士学位 论文 17
限制150内