2022年数据挖掘在超市中的应用与分析参照 .pdf
《2022年数据挖掘在超市中的应用与分析参照 .pdf》由会员分享,可在线阅读,更多相关《2022年数据挖掘在超市中的应用与分析参照 .pdf(17页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘在超市中的应用与分析摘要:随着我国经济高速发展,人们生活水平的提高,超市在社会中的普及范围越来越广,极大的方便了人们的生活和工作的同时快速的促进了我国社会经济的发展,尤其是近年来的各类大型超市在城市中所占的比例越来越高,其中不乏国外的一些大型超市企业入驻我国,但正因为国内外超市在我国所占的比例和数量在不断的增加,导致目前我国超市行业的竞争程度日益激烈,顾客在各个超市的选择上有了比较对比,顾客有了更多的选择,导致各个超市的利润空间在不断的压缩,为了解决在如此激烈的社会竞争环境下获得更好的发展,需求新的突破问题,目前超市的运营模式从货物的采购到运输、管理、营销、服务等方面进行了创新和完善,
2、期望从中数据方面发现一些关联规则,利用这些关联规则来提高超市的销量,为此本文就主要对数据中的关联规则算法进行分析,建立起关联规则算法模型,再结合实例进一步的研究数据挖掘对于超市的作用。关键词:超市;数据挖掘;关联规则算法;数据模型1.前言1.1 研究目的和研究意义随着信息技术的不断进步和计算机的不断普及,人们所收集和积累的数据急剧增加。在海量的数据中提取有用的信息、发现隐含的规则,成为人们研究的重点。本文通过对超市运营中存在的问题现状进行分析,再结合以往某大型超市的销售数据,期望从中去发现数据中的一些关联规则,主要采用关联规则算法对数据进行建模分析,利用商品之间的关联关系合理的设置货架摆放、合
3、理的进行商品捆绑销售以及对竞争商品进行合理的促销,从而提高超市的销售量,使超市能够健康的发展。由于超市所面对的竞争环境越来越严峻,使得很多超市的管理人员和决策人员逐渐的认识到超市在信息时代要想获得更好的发展空间,数据支持是一项必不可少的手段,尤其是近10 年来商品条码技术、收银POS系统等在超市中广泛运用,这为超市企业积累了大量的销售以及库存等方面的数据,这为超市的数据分析提供了很庞大的数据资源,由于以往超市很少对这些数据资源进行完整的分析名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 17 页 -和应用,使得超市在进货选择的类型、数量、厂家等都有一定的盲目性,同时对顾客的购买行
4、为、购买趋势以及客户的关系没有进行透彻分析和研究,导致这些方面都基本缺乏较为科学的数据进行支持,这对提高超市核心竞争力和超市以后的发展极为不利。当人们逐渐认识到数据支持对于超市发展的作用和意义,他们也认识到在 21 世纪信息时代要想在如此激烈的竞争中占取有利的地位,得到最大的利润,必须要充分的利用好网络计算机信息技术、数据技术等,更深层次的去挖掘和分析以往的所有数据以及相关的数据的关系,从中提取对超市发展有利的核心决策数据,再根据决策数据来制定出相应的决策,最终使超市能够可持续的发展。1.2 国内外文献综述数据挖掘技术的出现是上个世纪90 年代,虽然发展的时间并不长,但是其发展的速度极快,它是
5、由多个学科综合而诞生的产物,所以使得它并没有一个完整的定义,很多学者和研究人员也尝试的对数据挖掘进行定义,本文认为数据挖掘是利用数学统计技术、识别技术、计算机信息技术等技术在大量的数据中去挖掘和获取有用数据或有用关系的过程。目前数据挖掘技术在超市的商业模式中应用的较为广泛,其功能主要包含了以下几个方面:聚类、关联规则和序列模式的发现、分类、预测以及偏差的检测。在国际上,对于数据挖掘的研究有了较大的突破,例如在1989 年国际联合人工智能学术会议上就首次的提出了KDD 一词,到目前为止,美国人工智能协会所举办的 KDD 会议已经多达 10 多次,从最先的几十个人发展到目前的几千人,各项新的研究成
6、果以及论文论述在不断的增多,目前重点的研究内容有大规模集成开发、系统的应用、学科与学科之间的相互配合和渗透等。国际上也有很大的研究机构和大学也在积极的研究数据挖掘技术,较为著名的大学有卡内基梅隆大学、斯坦福大学等,研究机构有美国资料勘探中心、美国计算机协会等,除了上述的研究机构和著名大学外,美国的一些主流的计算机研究刊物也对数据挖掘技术进行了专项讨论,例如IEEE中的 Knowledge and Data Engineering,它就对KDD 系统设计、方法、逻辑等进行了全面的分析,详细的分析了常见的数据库动态性冗余、空值、高噪声等问题,并针对这些问题提出一系列的解决方案。在国内,数据挖掘技术
7、的研究较国外更晚,目前的研究成果和研究进度较国名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 17 页 -际还有一定的差距,不过近年来由于我国的经济发展较为快速,科学技术也在不断提高,使得我国的一些关于数据挖掘技术的研究机构和大学也取得了一定的成就,越来越多关于数据挖掘技术的论文和刊物被发表,这为我国未来的数据挖掘技术的研究奠定了良好的基础。目前关于数据挖掘技术的研究主要有清华大学、中科院计算机研究所、北京大学、浙江大学、南京大学、复旦大学、中国科技大学等,这些高等院校和研究机构都有个各自的研究成果。2.数据挖掘综述2.1 数据挖掘理论2.1.1 数据挖掘的产生和发展2.1.2
8、数据挖掘相关技术和方法通常来说,数据挖掘技术可以分为两类,分别是传统的数据挖掘技术和改良后的数据挖掘技术,前者主要包括了概率论、序列统计、类别数据分析、回归分析等,后者主要包含了规则归纳分析、决策树理论分析、类神经网络分析,其中的分析方法多种多样,每一种分析方法所运用到的知识和学科相对应,以下就简单的概述常见的方法。(1)统计学统计学是最为常见的一种数据挖掘方法,该方法主要是通过在所选取的数据中提取未知的数学模型,具有较强的统计过程,例如涉及到数据的抽样、建模、假设判断、误差控制等过程。(2)人工神经网络算法该方法主要模拟的是生物神经网络的一种分析方法,主要是通过训练以进一步的学习非线性预测模
9、型,该方法常见的操作有分类、聚类、数据特征采集等。(3)决策树算法该方法主要运用在数据分类上,通常有两个过程,一是决策树的构造,二是决策树的修剪,实现方法如下:先将训练数据生成一个测试函数,再选取一些特定的数值来构建起数的分支,再对每个树的分支集中充分的建立起下层的分支和结点,从而形成决策树,然后对整个决策树进行修剪,形成一种规则,我们就可以利用这种规则对新的数据进行进一步的分类处理。由于决策树分析方法具有转化快、速度快、易于数据库查询等优势,使得这种方法在很多领域得以广泛的运名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 17 页 -用。(4)关联规则在数据挖掘领域,关联规则法
10、是目前研究较为活跃的方法,这种方法最早是由 Agrawal 等人在上个世纪 90 年代提出,目前这种方法在数据库以及人工智能方面得到广泛的关注和研究,这种方法主要反映的是数据与数据指间的定性关联关系,通过数据间的关系来对数据进行分类和挖掘,目前这种方法有并行发现算法、增量更新算法、多循环方式挖掘算法、多值属性挖掘、多层关联规则挖掘等等。(5)遗传算法遗传算法本质是一种优化技术,它的产生主要是根据生物进行概念对数据问题进行分析和搜索,进而对数据进行优化,采用遗传算法需要先对要求解的问题进行编码处理,先得到最初始的群体,然后再计算出个体适应度,再进行染色体的复制、交换、突变等操作,最后得到新的个体
11、,我们可以重复上述这个过程,直到得到我们认为的最优解。而在数据挖掘中,通常将数据挖掘问题表达成一种搜索性问题,利用遗传算法较强的搜索能力,从而得到我们想要的最优结果。2.1.3 数据挖掘应用流程我们知道数据挖掘的最终目的是在庞大的数据中找到关键或者核心的数据,并将其作为制定决策的重要依据,所以我们仅仅是将数据发现出来还远远不够,要想发现的数据作为制定决策的依据,还需要在数据挖掘前明确应该采用什么样的方法和步骤,每个步骤的目标是什么,挖掘的数据和决策之间有什么样的关系,只有明确了每一步的任务,我们才能有条不紊的进行数据挖掘,并使挖掘的技术能够为决策提供服务。数据挖掘的应用流程如下图所示:图 2-
12、1 数据挖掘应用流程确定业务问题数据准备数据挖掘结果分析知识同化名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 17 页 -通过上图我们可以做出以下的解释,所谓的确定业务问题就是指定义出业务问题,即我们需要明确出数据挖掘的目的是什么,需要我们对数据和业务进行进一步的了解,如果没有这一步,那么我们很难去定义需要解决的问题,那么也就无法很好的进行数据挖掘,也就无法得到我们满意的结果,所以需要充分的发挥出数据挖掘的价值,要对目标进行明确的定义;数据准备是指当业务问题确定后,我们就需要对选取的数据进行筛选,数据准备主要内容有数据的选择、数据的预处理、数据的加工;数据挖掘是指通过数据的特点
13、和数据的功能类型选择一种最科学的算法,在转换以及净化数据集上进行数据挖掘,建立起数据挖掘模型,最后对建立的模型进行评价;结果分析就是指对数据挖掘的结果进行评价和解释,并转换为用户能够理解的语言或知识;知识的同化是指分析得到的知识集成到业务员信息系统组织结构中。2.2 关联规则算法目前的关联规则挖掘算法大致可以分为以下几种:层次算法、搜索算法、抽样算法和数据集划算法。采用关联规则算法主要注意的问题有两个,分别是降低IO 操作和降低需要计算支持率项目集数量,这两个问题对于数据挖掘的效率影响较大。关于挖掘关联规则算法,Agrawal 在 1993 年提出了一种 Apriori算法,该算法是一种关联规
14、则经典算法,是一种基于两阶段频集思想的算法,该算法可以分解成关于两个子问题的算法,先找出全部支持度都超过了最小支持度的项集,并将这些项集成为频集,然后在从频集中去找出期望的规则。Apriori算法作为一种经典的关联规则算法,在当时作为一种较为主流的数据挖掘方法,它通过项目集元素数目不断的增加来逐渐的完成频繁项目集的发现。先是产生 1-频繁项集 L1,然后是 2-频繁项集 L2,当频繁项集元集元素数目无法进一步的扩展则算法停止。例如经过K 次循环后产生了K-候选集集合 Ck,最后通过扫描数据库生产支持度并测试产生K-频繁项集 Lk。从上述的步骤来看,Apriori算法存在着两个问题,一是重复循环
15、过程中会产生大量的候选集,候选集的数目是呈指数上涨,就例如1041-频繁项集产生的2-候选集的元素可能达到107,这样庞大的元素数目对空间的要求极高,再者是每个元素都必须要对数据库进行扫描来验证其是否能够加入到频繁项集中,这需名师资料总结-精品资料欢迎下载-名师精心整理-第 5 页,共 17 页 -要极大的 I/O 负载。正因 Apriori算法这两个较为致命的缺陷,使得当时人们发现算法的性能并不理想,查找数据库的成本过高,导致数据挖掘的效率不高,因此当时很多学者对Apriori算法进行改进和优化,得到了AprioriTidList算法和 AprioriTid算法,前者通过链表结构储存了每个候
16、选项条目ID,当我们需要计算出 K层候选项支持度就可以将K-1 层候选项链表中的几个相同条目ID 进行对比即可得到,而后者在第一次扫面数据库后就不需要利用数据库来计算某层候选项支持度,仅需要集合Ck就可以达到目的。本文以下就是主要采用了关联规则算法分析了货架摆放模型、捆绑销售模型和竞争商品分析模型。3.关联规则挖掘的超市营销模型设计3.1 基于关联规则的优化货架摆放模型3.1.1 理论的提出超市的经营效益主要取决于每个货架商品的销售量,销售利润也来自于每个单位货架所创作的利润。一个较高的货架摆放或者展现的水平对于提高该单位货架货物的销售量有直接的关系,即在顾客面前的展现水平越高,则该单位货架的
17、货物销售量就高,反之则较低,我们可以理解为,合理的商品布局不仅能够刺激顾客的购买欲望,还能够节约顾客的购物时间,这对提高超市的服务水平和利润有积极的作用,所以通过合理的利用数据挖掘技术能够分析出以往顾客的购买数据、穿行路线、购买偏好、购买习惯、货架的使用率、畅销商品的类别、厂家等,然后通过分析得到数据来建立起超市最佳的货架布局,从而提高超市的商品销售量。3.1.2 算法分析一个超市所贩卖的商品多样化,所以对于超市货架摆放问题项目集个体并不是针对某一件商品或某一类商品。我们利用Apriori算法或者 AprioriTidList算法和 AprioriTid算法可以得到满足事务数据库T 的全部关联
18、规则和频繁项目集,假设事务数据库T 中含有 m个事务 T(T1、T2、Tm),商品的集合 I(I1、I2、In),Ii对应的利润用i表示,可以用商品Ii的价格 Pi乘以利润率 Ri得到,例如事务数据库 T中的某个事务 Tj,Tj中的商品 i 数量用 quantity(i,j)来表示,那么事务数据库T 生产关联规则对应得到的频繁项目集集合就用FI=FI1、FI2、FIk 来表示。名师资料总结-精品资料欢迎下载-名师精心整理-第 6 页,共 17 页 -定义 l n 矩阵 M,该矩阵元素 Mpq=(p=1,2,l,q=1,2,n),如果事务 q 中出现了关联规则P,则认为 Mpq表示的是 p 为事
19、务 q 中的一个子集。定义 Z(p,q)是关联规则 p带给事务 q 的利润,那么该利润就等于在事务q 中采用了关联规则p 对应的每个商品Ii的价格 Pi和利润率 Ri与 quantity(i)乘积之和。定义 Z(p)是关联规则 p 在事务数据库 T中总贡献利润,可以用关联规则P在每个事务 q 中的 Z(p,q)和,那么我们可以得到Mpq,Z(p,q)以及 Z(p)的关系:3.2 基于关联规则的优化捆绑销售模型捆绑销售是超市常采用的一种销售模式,是指两个商品或者两个以上的商品在促销过程中相互合作,从而提高销售量的一种方式,这种方式能够充分的发挥出每个商品的优势,从而提高整体商品的影响力,作为一种
20、较新的营销模式,捆绑销售极大的提高超市商品的销售量,提高了超市的利润,目前该方式已成为了超市促销常用的方式,捆绑销售的形式多种多样,常见的有优惠购买,是指购买A商品的前提下可以优惠购买B商品;统一购买,是指几个商品不单独标价,统一购买价格要低于单体购买价格之和。捆绑销售在销售过程中的优势有以下几点:销售的成本进一步的降低,宣传上可以同时宣传多个商品,能够激发顾客购买欲望,能够提高服务的质量,提高服务的满意度,但是也并不是所有的商品都能够进行捆绑销售,是否能够取得较好的效果要查看各种商品是否能够相互促进和合作,关于捆绑销售模型,也可以采用数据关联挖掘详细的研究和分析。对于捆绑销售模型,关联规则中
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年数据挖掘在超市中的应用与分析参照 2022 数据 挖掘 超市 中的 应用 分析 参照
限制150内