欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    数据挖掘关联分析.pdf

    • 资源ID:76197983       资源大小:132.26KB        全文页数:4页
    • 资源格式: PDF        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据挖掘关联分析.pdf

    数据挖掘关联分析1 引言在大型数据库中,关联规则挖掘是最常见的数据挖掘任务之一关联规则挖掘就是从大量数据中发现项集之间的相关联系Apriori 算法,前者采用逐层搜索的迭代策略,先产生候选集,再对候选集进行筛选,然后产生该层的频繁集。2 Apriori 算法Apriori 算法是关联规则挖掘中最基本也是最常见的算法它是由Agrawal 等人于 1993 年提出的一种最有影响的挖掘布尔关联规则频繁项集的算法,主要用来在大型数据库上进行快速挖掘关联规则。2.1 算法基本思想Apriori 算法采用逐层迭代搜索方法,使用候选项集来找频繁项集。其基本思想是:首先找出所有频繁1项集的集合Ll,L1用于找频繁2项集的集合L2,而 L2用于找L3,如此下去,直到不能找到频繁k项集。并利用事先设定好的最小支持度阈值进行筛选,将小于最小支持度的候选项集删除,再进行下一次的合并生成该层的频繁项集。经过筛选可减少候选项集数,从而加快关联规则挖掘的速度。2.2 算法的挖掘如果一个项集是频繁的,那么它的所有子集都是频繁的先验原理成立的原因:)()()(:,YsXsYXYX一个项集的支持度不会超过其任何子集的支持度该性质称作支持度的反单调性质2.2.1 候选项集的生成Apriori 算法使用了Apriori 性质来产生候选项集任何非频繁的(k1)项集都不可能是频繁k项集的子集因此,如果一个候选k项集的(k 1)子集不在Lk1 中,则该候选项集也不可能是频繁的,从而可以从Ck中删除2.2.2 由 Lk-1 生成 Lk设定 k=1 扫描事务数据库一次,生成频繁的1-项集如果存在两个或以上频繁k-项集,重复下面过程:候选产生 由长度为 k 的频繁项集生成长度为k+1 的候选项集候选前剪枝 对每个候选项集,若其具有非频繁的长度为k 的子集,则删除该候选项集支持度计算 扫描事务数据库一次,统计每个余下的候选项集的支持度候选后剪枝 删除非频繁的候选项集,仅保留频繁的(k+1)-项集,设定k=k+1 Apriori 流程图2.2.3 候选项集的支持度计算1)扫描事务数据库,决定每个候选项集的支持度。2)为了减少比较次数,将候选项集保存在散列(hash)结构中,将每个事务与保存在散列结构的候选项集作匹配2.3 基于 Apriori 算法的数据挖掘应用实例2.3.1 数据库样本当前是列出我们实验中用到的一个候选项集:1 4 5,1 2 4,4 5 7,1 2 5,4 5 8,1 5 9,1 3 6,2 3 4,5 6 7,3 4 5,3 5 6,3 5 7,6 8 9,3 6 7,3 6 8。2.3.2Apriori 算法的实现过程首先设置散列函数,和叶子大小限制。根据以上限制,先根据首项形成初步的散列树,见下图:图:生成候选的散列树(原始版本)接着根据第二项形成优化后的散列树,结果见下图:图:生成候选的散列树(中间过程)按照以上过程,按照项的顺序,我们可以将树的分裂做到最后一项,最终结果见下图:图:生成候选的散列树(最终版本)2.4 Apriori 算法的优缺点1)产生大量的频繁集2)重复扫描事务数据库2.5 Apriori 算法的优化思考我们从复杂度方面考虑:1)最小支持度阈值的选择低支持度阈值导致更多频繁项集将会增加候选项集的个数和频繁项集的最大长度2)数据库的维度,即项的个数需要更多空间保存每个项的支持度计数如果频繁项集的个数增加,则计算量和I/O 开销也增加3)数据库的大小由于 Apriori 多次访问数据库,算法的运行时间将随事务个数的增加而增加平均事务长度4)事务长度随数据库密度的增加而增加可能会增加频繁项集的最大长度和散列树的遍历时间(因为事务的子集个数随着其长度的增加而增加)

    注意事项

    本文(数据挖掘关联分析.pdf)为本站会员(索****)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开