欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    数据挖掘与知识发现第一章.ppt

    • 资源ID:39348546       资源大小:7.45MB        全文页数:23页
    • 资源格式: PPT        下载积分:18金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要18金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据挖掘与知识发现第一章.ppt

    1现在学习的是第1页,共23页 什么是数据挖掘什么是数据挖掘 数据挖掘要解决的问题数据挖掘要解决的问题 数据挖掘的起源数据挖掘的起源 数据挖掘任务数据挖掘任务2现在学习的是第2页,共23页 借助借助POS机、手机、电脑、日志、顾客服务记录、顾机、手机、电脑、日志、顾客服务记录、顾客信息。商业公司可以获取大量的数据。在这些数据客信息。商业公司可以获取大量的数据。在这些数据上,我们可以做什么?上,我们可以做什么?一些问题:一些问题:p谁是最有价值的顾客?谁是最有价值的顾客?p什么产品可以交叉销售或提升销售?什么产品可以交叉销售或提升销售?p公司明年的收入前景如何?公司明年的收入前景如何?3现在学习的是第3页,共23页 医学、科学与工程界的研究者正在快速积累大量数据,医学、科学与工程界的研究者正在快速积累大量数据,这些数据对新发现至关重要。这些数据对新发现至关重要。例一:例一:为了更深入地理解地球的气候系统,为了更深入地理解地球的气候系统,NASANASA 已部署了一系列的地球轨道卫星,不停的收集地表,已部署了一系列的地球轨道卫星,不停的收集地表,海洋和大气的全球观测数据海洋和大气的全球观测数据一些问题:一些问题:p 干旱和飓风的频度和强度与全球变暖有什么联系?干旱和飓风的频度和强度与全球变暖有什么联系?p 海洋表面的温度对地表降水量和温度有什么影响?海洋表面的温度对地表降水量和温度有什么影响?p 如何准确的预测一个度曲的生长季节的开始和结束?如何准确的预测一个度曲的生长季节的开始和结束?4现在学习的是第4页,共23页例二:例二:分子生物学研究者希望利用当前收集的大量基因组数据,更好的分子生物学研究者希望利用当前收集的大量基因组数据,更好的理解基因的结构和功能。理解基因的结构和功能。p 数据的噪音和高维性需要新的数据分析方法。数据的噪音和高维性需要新的数据分析方法。数据挖掘也可以用来处理生物学的其他难题,数据挖掘也可以用来处理生物学的其他难题,如蛋白质结构预测,多序列校准,生物化学路如蛋白质结构预测,多序列校准,生物化学路径建模和种系发生学。径建模和种系发生学。5现在学习的是第5页,共23页1、什么是数据挖掘?、什么是数据挖掘?6现在学习的是第6页,共23页到底什么是数据挖掘呢?到底什么是数据挖掘呢?数据挖掘是在大型数据存储库中,数据挖掘是在大型数据存储库中,自动自动地发现地发现有用有用的的信息信息的过程。的过程。1、发现先前未知的有用模式、发现先前未知的有用模式2、预测未来的观测结果、预测未来的观测结果1、数据库中查找个别记录、数据库中查找个别记录2、搜索引擎查找特定页面、搜索引擎查找特定页面7现在学习的是第7页,共23页那么,什么又是知识发现呢?那么,什么又是知识发现呢?数据挖掘是数据挖掘是数据库中知识发现数据库中知识发现不可缺少的一部分,而知识发现是将未加工的数不可缺少的一部分,而知识发现是将未加工的数据转换为有用信息的据转换为有用信息的整个过程整个过程。输入数据数据预处理数据挖掘后处理信息特征选择维归约规范化选择数据子集模式过滤可视化模式表示8现在学习的是第8页,共23页2、数据挖掘要解决的问题、数据挖掘要解决的问题9现在学习的是第9页,共23页面临新的数据集带来的问题时,传统的数据分析技术常常遇到实面临新的数据集带来的问题时,传统的数据分析技术常常遇到实际的困难。际的困难。p可伸缩可伸缩需要有能力处理海量数据问题需要有能力处理海量数据问题p高维性高维性需要需要很好的处理维灾难问题很好的处理维灾难问题p异种数据和复杂数据异种数据和复杂数据需要考虑数据对象的复杂性和多样性需要考虑数据对象的复杂性和多样性p数据的所有权与分布数据的所有权与分布需要考虑数据安全性、加快计算速度、汇总计算结果需要考虑数据安全性、加快计算速度、汇总计算结果p非传统的分析非传统的分析非单一假设非单一假设-检验模式检验模式VSVS10现在学习的是第10页,共23页3、数据挖掘的起源、数据挖掘的起源11现在学习的是第11页,共23页人工智能、人工智能、机器学习、机器学习、和模式识别和模式识别数据挖掘的方法来自机器学习或数据挖掘的方法来自机器学习或AI,模式,模式识别,统计学与数据库系统识别,统计学与数据库系统统计学统计学数据挖掘数据挖掘数据库技术、并行计算、分布式计算数据库技术、并行计算、分布式计算12现在学习的是第12页,共23页3、数据挖掘的任务、数据挖掘的任务13现在学习的是第13页,共23页n 预测任务根据其他属性的值,预测特定属性的值根据其他属性的值,预测特定属性的值被预测变量通常被称为被预测变量通常被称为目标变量目标变量n 描述任务导出概括数据中潜在联系的模式导出概括数据中潜在联系的模式包括包括相关相关、趋势趋势、聚类聚类、轨迹轨迹、异常异常14现在学习的是第14页,共23页数据数据聚类分析聚类分析关联分析关联分析预测建模预测建模异常检测异常检测15现在学习的是第15页,共23页预测建模的任务可以分为预测建模的任务可以分为两类两类:分类回归目标变量离散连续举例是否买书股票价格共同点训练模型,减小误差预测建模的任务举例预测建模的任务举例:确定顾客对产品促销活动的反应确定顾客对产品促销活动的反应预测地球生态系统的扰动预测地球生态系统的扰动 根据检查结果判断病人是否患有疾病根据检查结果判断病人是否患有疾病16现在学习的是第16页,共23页例子例子:预测鸢尾花预测鸢尾花(IRIS)(IRIS)的类型的类型,Setosa,Veriscolour,Virginica,Setosa,Veriscolour,Virginica。该数据集包。该数据集包含含4 4个属性和个属性和1 1个目标变量。属性为萼片宽度,萼片长度,花瓣长度,花瓣宽度个目标变量。属性为萼片宽度,萼片长度,花瓣长度,花瓣宽度,目标变量为花的种类。,目标变量为花的种类。我们可以根据区间宽度把我们可以根据区间宽度把花瓣宽度和花瓣宽度和长度长度分为分为低中高低中高三类。然后可推出如三类。然后可推出如下规则:下规则:花瓣宽度和花瓣长度为花瓣宽度和花瓣长度为低低蕴涵蕴涵SetosaSetosa花瓣宽度和花瓣长度为花瓣宽度和花瓣长度为中中蕴涵蕴涵VersicolourVersicolour花瓣宽度和花瓣长度为花瓣宽度和花瓣长度为高高蕴涵蕴涵VirginicaVirginica17现在学习的是第17页,共23页用来发现描述数据中强关联特征的模式。用来发现描述数据中强关联特征的模式。关联分析的任务举例关联分析的任务举例:找出具有相关功能的基因组找出具有相关功能的基因组识别用户一起访问的识别用户一起访问的Web页面页面理解地球气候系统不同元素之间的联系理解地球气候系统不同元素之间的联系所发现的模式通常用所发现的模式通常用蕴含规则或特征子集蕴含规则或特征子集的形式表示的形式表示搜索空间通常是指数规模的,因此关联分析的目标是以搜索空间通常是指数规模的,因此关联分析的目标是以有效的方式提取有趣的结果有效的方式提取有趣的结果18现在学习的是第18页,共23页例子:例子:下面是一杂货店收银台收集的销售数据下面是一杂货店收银台收集的销售数据事务ID商品1 12 23 34 45 56 67 78 89 91010 面包,黄油,尿布,牛奶面包,黄油,尿布,牛奶 咖啡,糖,小甜饼,鲑鱼咖啡,糖,小甜饼,鲑鱼 面包,黄油,咖啡,尿布,牛奶,鸡蛋面包,黄油,咖啡,尿布,牛奶,鸡蛋 面包,黄油,鲑鱼,鸡面包,黄油,鲑鱼,鸡 鸡蛋,面包,黄油鸡蛋,面包,黄油 鲑鱼,尿布,牛奶鲑鱼,尿布,牛奶 面包,茶,糖,鸡蛋面包,茶,糖,鸡蛋 咖啡,糖,鸡,鸡蛋咖啡,糖,鸡,鸡蛋 面包,尿布,牛奶,盐面包,尿布,牛奶,盐 茶,鸡蛋,小甜饼,尿布,牛奶茶,鸡蛋,小甜饼,尿布,牛奶 顾客经常一起购买的顾客经常一起购买的商品是什么?商品是什么?19现在学习的是第19页,共23页事务ID商品1 12 23 34 45 56 67 78 89 91010 面包,黄油,面包,黄油,尿布尿布,牛奶牛奶 咖啡,糖,小甜饼,鲑鱼咖啡,糖,小甜饼,鲑鱼 面包,黄油,咖啡,面包,黄油,咖啡,尿布尿布,牛奶牛奶,鸡蛋,鸡蛋 面包,黄油,鲑鱼,鸡面包,黄油,鲑鱼,鸡 鸡蛋,面包,黄油鸡蛋,面包,黄油 鲑鱼,鲑鱼,尿布尿布,牛奶牛奶 面包,茶,糖,鸡蛋面包,茶,糖,鸡蛋 咖啡,糖,鸡,鸡蛋咖啡,糖,鸡,鸡蛋 面包,面包,尿布尿布,牛奶牛奶,盐,盐 茶,鸡蛋,小甜饼,茶,鸡蛋,小甜饼,尿布尿布,牛奶牛奶 例子:例子:下面是一杂货店收银台收集的销售数据下面是一杂货店收银台收集的销售数据顾客经常一起购买的顾客经常一起购买的商品是什么?商品是什么?20现在学习的是第20页,共23页旨在发现紧密相关的观测值组群。旨在发现紧密相关的观测值组群。使得与属于使得与属于不同簇不同簇的观测值相比,属于的观测值相比,属于同一簇同一簇的观测值相互之间尽可能相似的观测值相互之间尽可能相似。聚类分析的任务举例聚类分析的任务举例:对相关顾客进行分组对相关顾客进行分组 找出显著影响地球气候的海洋区域找出显著影响地球气候的海洋区域压缩数据压缩数据21现在学习的是第21页,共23页例子:例子:下表中的新闻文章可以根据他们各自的主题分组。每篇文章表示下表中的新闻文章可以根据他们各自的主题分组。每篇文章表示为词为词-频率对的组合频率对的组合(w:c)。w是词,是词,c是该词在文章中出现的次数。是该词在文章中出现的次数。这8篇文章如何划分簇?22现在学习的是第22页,共23页任务是识别其特征显著不同于其他数据的观测值,这样的观测值点称为任务是识别其特征显著不同于其他数据的观测值,这样的观测值点称为异常点或离群点。异常点或离群点。异常检测算法的目标是发现异常检测算法的目标是发现真正的异常点真正的异常点,而避免错误的将正常的对象标注,而避免错误的将正常的对象标注为异常点。一个好的异常检测器应具有为异常点。一个好的异常检测器应具有高检测率高检测率和和低误报率低误报率。异常检测的任务举例异常检测的任务举例:检测欺诈检测欺诈 网络攻击网络攻击疾病的不寻常模式疾病的不寻常模式 生态系统的扰动生态系统的扰动23现在学习的是第23页,共23页

    注意事项

    本文(数据挖掘与知识发现第一章.ppt)为本站会员(石***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开