我国社会经济发展综合评价指数研究.pptx
《我国社会经济发展综合评价指数研究.pptx》由会员分享,可在线阅读,更多相关《我国社会经济发展综合评价指数研究.pptx(44页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组关联规则关联规则-CARMA Continuous Association Rule Mining Algorithm报告人:徐启元报告人:徐启元指导教师指导教师:谢邦昌谢邦昌日期:日期:2007年年11月月30日日统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组目录目录关联规则基本概念关联规则基本概念CARMA算法简介算法简介CARMA模块的基本概念模块的基本概念案例分析及案例分析及Clementine操作步骤操作步骤购物篮分析购物篮分析-Tabular类型数据类型数据网络日志分析
2、网络日志分析-Transactional类型数据类型数据值得注意的问题值得注意的问题CARMA算法原理(参考)算法原理(参考)统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组关联规则算法简介关联规则算法简介关联分析的目的是寻找数据项间的相关性关联分析的目的是寻找数据项间的相关性常用技术:常用技术:关联规则:即寻找在同一个事件中出现关联规则:即寻找在同一个事件中出现的不同项目的相关性的不同项目的相关性 例如:找出顾客经常同 时购买哪些商品。网民 浏览的网页之间有没有 什么关联性。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组CAR
3、MA算法简介算法简介CARMA是一种比较新的关联规则算法,它是1999年由Berkeley大学的Christian Hidber教授提出来的。1234能够处理在线连续交易流数据仅需一次,最多两次对数据的扫描就可以构造出结果集允许在算法执行过程中按需要重新设置支持度占用内存少CARMAOn-line统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组CARMA模块中的基本概念模块中的基本概念Antecedent&Consequent 它们指的是规则的前项和后项。Instances对于每一条规则,它的Instances值指的是所有记录中包含该规则的antecedent的
4、记录的数量。面包面包牛奶牛奶前项前项Antecedent后项后项ConsequentIDP1P2P3P41breadcheesebutterwater2watermilkbreadnoodle3orangenoodlemeatbeer4fishsoftdrinkfrozenmealbread总共4条购买数据,其中有三条都包含bread,那么该条规则的instances等于3统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组CARMA模块中的基本概念模块中的基本概念Support 它的定义和instances很接 近,不同的是support描述 的不是数量,而是比例
5、。Rule Support 它在Support定义的基础 上更进一步,它指的是 所有记录中既包含某规 则的antecedent,又包含 consequent的记录所占 的比例。IDP1P2P3P41breadcheesebutterwater2watermilkbreadnoodle3orangenoodlemeatbeer4fishsoftdrinkfrozenmealbreadSupport=3/4100%=75%四条记录中只有一条既包含了前项bread,又包含了后向milk,所以Rule Support=1/4100%=25%统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商
6、业智能应用研究小组CARMA模块中的基本概念模块中的基本概念Confidence Confidence =Rule Support/Support 该指标反映的是规则预测的 准确程度。Deployability Deployability =Support Rule Support 它的作用与confidence类似。IDP1P2P3P41breadcheesebutterwater2watermilkbreadnoodle3orangenoodlemeatbeer4fishsoftdrinkfrozenmealbread根据规则“面包=牛奶”,那么购买了面包的第一、二及四行都会被预测购买了牛
7、奶,但事实上这三个预测只有第二个是正确的,所以confidence=1/3100%=33.3%统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组CARMA模块中的基本概念模块中的基本概念LiftLift在已知某规则的consequent发生的先验概率的情况下,某规则的Lift被定义为Confidence和该先验概率的比率值。IDP1P2P3P41breadcheesebutterwater2watermilkbreadnoodle3milknoodlemeatbeer4fishsoftdrinkfrozenmealbread那么对于一条记录,那么不采用任何规则进行
8、预测,随便猜测该顾客是否该买牛奶的正确率是50%已知有50%的人购买了牛奶:)如果采用“面包=牛奶”的规则进行预测的话,正确率,即confidence=33.3%比随便猜测的正确率还低。那么此时的Lift值为多少呢?Lift=33.3%/50%=66.6%1的规则才是有意义的规则统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组源数据格式源数据格式CARMACARMA模块能够处理一下两种格式的数据模块能够处理一下两种格式的数据Tabular数据格式数据格式 Transactional数据格式数据格式 统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业
9、智能应用研究小组案例研究之购物篮分析案例研究之购物篮分析数据准备数据准备使用数据为clementine自带的Baskets1n数据集;该数据集样本量为1000,每笔交易包含了顾客的卡号、性别、年龄、收入、付款方式等一系列个人信息,以及其购买的各种食品清单;该数据集为TabularTabular格式格式的数据。研究目的研究目的为超市货架的摆放提供科学的依据;为超市商品促销决策提供支持。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组案例研究案例研究统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组购物篮分析购物篮分析加入加入type模
10、块对变量类型进行设置。模块对变量类型进行设置。先点击Read Values将各个变量实例化。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组购物篮分析购物篮分析将将CARMA 模块加入模块加入 流中,并双流中,并双 击打开进行击打开进行 参数设置。参数设置。点击点击统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组购物篮分析购物篮分析对对Model选项卡选项卡进行设置。修改进行设置。修改Rule Support、Rule Confidence以及以及Rule Size的的大小。大小。点击此处,打开Model选项卡编辑对这三个选项进行
11、编辑以控制输出的规则的数目统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组购物篮分析购物篮分析对对Expert选项选项卡进行设置,卡进行设置,如果对如果对CARMA算法比较了解算法比较了解的用户,可以的用户,可以对该选项卡进对该选项卡进行设定以获得行设定以获得使使CARMA模块模块具有更好的性具有更好的性能。能。选择此项,则输出的规则中后项(consequent)只能由一个元素。选择该选项可以让CARMA算法周期性的剔除掉当前不太重要的规则,加速建模。设定周期的大小,周期设定的越小,则越省内存,但是CARMA算法执行时间常;反之,则短。设定该选项可以加速CARM
12、A算法的执行。其大致思想是:一开始先给定一个较高的support值,将不显著的规则排除在外,然后再一次降低support值。设定support值降低的速度选择该项,则CARMA模型会输出不包含antecedent的规则。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组购物篮分析购物篮分析执行后建执行后建立的模型立的模型 会会显示在显示在Canvas内。内。共产生共产生16条规则条规则每一行分别显示了一组规每一行分别显示了一组规则,以及度量该规则的一则,以及度量该规则的一组指标,如:组指标,如:Lift、support等。等。点击该图标可点击该图标可以按指定规则以
13、按指定规则筛选出自己想筛选出自己想要的规则要的规则。生成对应规则集的节点,包括三生成对应规则集的节点,包括三种节点:种节点:Select Node、Filtered Node以及以及Rule set节节点。点。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组购物篮分析购物篮分析置信度(置信度(Confidence)最高的前三个规则:)最高的前三个规则:FrozenmealCannedvegBeer促销统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组购物篮分析购物篮分析CARMA模型可以模型可以直接放在流中对直接放在流中对数据进行打
14、分预数据进行打分预测(测(scoring)。)。在打分之前可以在打分之前可以双击模型打开双击模型打开Settings选项卡进选项卡进行相关的参数设行相关的参数设置。置。设定用于预测的规则个数为选取规则设定标准,从而可以根据该规则选出最显著的n条规则,n由上一个选项设定。设定该项,则允许用于预测的n条规则可以有相同的后项,即可以允许几条规则有相同的预测结果。勾选该项,则在应用规则进行预测之前,系统会剔除掉不符合要求的数据行,不对其进行预测。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组购物篮分析购物篮分析对CARMA模型设置好了以后就可以将CARMA模型加入流中
15、对数据进行预测了,本文仅用一条规则进行预测,结果存入表中(见下页)。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组购物篮分析购物篮分析预测值预测值预测置信度预测置信度所使用规则所使用规则的编号的编号统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组购物篮分析购物篮分析用CARMA模型预测顾客的购买行为ConfectioneryFreshmeatDairyWine统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组购物篮分析购物篮分析除了直接使用生成的CARMA模型进行预测外,还有一种预测方式即使用Rul
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 我国 社会经济 发展 综合 评价 指数 研究
限制150内