《数据挖掘项目中期报告.ppt》由会员分享,可在线阅读,更多相关《数据挖掘项目中期报告.ppt(24页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘项目中期报告第六小组问题的提出n家电零售业的激烈竞争 上海市场三足鼎立:国美、永乐、苏宁,三大连锁集团占据绝大多数市场份额。其余企业如一百、华联。由于自身原因,难以进一步扩展规模。三大连锁集团都在积极增加门店数量、加大广告投入。多年的激烈竞争,才达到今天的市场地位。n家电销售早已进入微利时代 激烈的竞争,导致家电零售企业都把市场占有率,作为首要考虑的问题,甚至优于盈利。因此,价格战成为最主要的手段,无利润,甚至亏本销售现象普遍存在。家电零售业通过扩大销售,以此来要求生产厂家提供更低的供货价格。n市场信息对家电零售业的意义 家电零售企业都采用了计算机管理进、销、存数据,因面对的是家电产品
2、的最终消费者。因此,在海量的销售记录中,存在大量有价值的信息。若能提取这些信息,提供给管理部门作为决策时的依据,有助于提高管理部门决策的准确性。目标的确定n数据资源的选取 本次项目,选用国美电器某门店的进销存系统数据作为分析对象。该系统使用SQL Server作为数据库平台,包括财务、商品信息、销售记录等大量数据。目标的确定n系统初步分析 数据库系统包含21个表。商品分类信息存储在Item和ItemList两个表中。商品销售信息存储在Out和OutDetail两个表中 下图为数据库关系图(部分):目标的确定n作简单查询,该系统定义350种大类,共10539种家电商品信息,其中1713种为经销或
3、代销的彩色电视机品种。是最多品种的分类,也考虑到彩色电视机在家电中占有最大比重,我们本次项目将其定为研究的对象。n系统记录的是从2001年3月15日到2002年4月27日的销售记录。目标的确定n我们从系统中提取有关彩色电视机的商品品牌、规格、销售价格、销售数量、毛利等相关数据进行分析。n应用Microsoft SQL Server 2000 Enterprise 的Analysis Server OLAP/Data Mining作为分析和挖掘工具。n采用的数据挖掘的理论:聚类、决策树.目标的确定n最终目标 找出彩电销售中与产品品牌、规格、价格区间等有关的趋势和规律。按品牌、规格等指标,分析各彩
4、电产品的盈利能力.项目实施阶段n数据清理n多维数据集建立n决策树处理n处理结果分析n结论数据清理n对系统原有信息的分析 原系统对商品分类采用两级分类的方式:数据清理 其中,FName列存储商品大类信息,FSpecification存储商品品牌和型号信息。结构不大合理。为便于数据挖掘,将商品相关信息合理存储,采用细化分类的思想,针对本次分析的商品为彩电,将其改为4级分类,依次为:*销售类别(经销和代销两种)销售类别(经销和代销两种)*幕尺寸幕尺寸 *品牌品牌 *型号型号 数据清理 为此,在Itemlist表中加入两列:Brand和Size,存储彩电品牌和屏幕尺寸信息。新列数据从FSpecific
5、ation列中提取:数据清理n数据的清理 新建一个TV_Item表,只存储与彩电有关的商品信息:数据清理 从Itemlist表中导出与彩电相关数据项到TV_Item表中:数据清理n销售记录的清理 建一TV_Sales表,用于存储相关彩电的销售信息,表中只保留本次项目用到的信息:数据清理根据TV_Item表中存在的彩电编码列,将OutDetail表中与彩电相关条目倒入TV_Sales表:n其余清理工作 商品编码的规范 无销售记录彩电条目的清除 数据清理数据清理n结果 将相关数据集中在仅两个表中,大大减少数据量,有利于下一阶段工作。规范了信息存储形式,为进一步挖掘打好基础。多维数据集建立n利用SQL Server企业版所带的Analysis Manager 工具建立多维数据集 事实数据表:TV_Sales 度量值:FQuanty(销售数量)FProfit (毛利)多维数据集建立n维度的建立 *时间维度:多维数据集建立 *类别维度:决策树处理n进行中
限制150内