欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    数据挖掘原理与SPSS Clementine应用宝典第4章数据选择.ppt

    • 资源ID:56533752       资源大小:1.22MB        全文页数:18页
    • 资源格式: PPT        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据挖掘原理与SPSS Clementine应用宝典第4章数据选择.ppt

    数据挖掘原理与数据挖掘原理与SPSS Clementine应用宝典应用宝典第第4章章 数据选择数据选择数据挖掘的对象数据挖掘的对象选择建模数据选择建模数据构造建模数据集构造建模数据集11/1/202211/1/202211/1/20222 2LOGO4.1 数据挖掘的对象数据挖掘的对象 4.1.1 数据库数据库 一一个个数数据据库库系系统统也也称称为为数数据据库库管管理理系系统统(DBMS),由由一一些些相相关关数数据组成,并通过软件程序管理和存储这些数据。据组成,并通过软件程序管理和存储这些数据。DBMS提提供供数数据据库库结结构构定定义义,数数据据检检索索语语言言(SQL等等),数数据据存存储储,并发、共享和分布式机制,数据访问授权等功能。并发、共享和分布式机制,数据访问授权等功能。关关系系数数据据库库由由表表组组成成,每每个个表表有有一一个个唯唯一一的的表表名名,属属性性(列列或或域域)集集合合组组成成表表结结构构,表表中中数数据据按按行行存存放放,每每一一行行称称为为一一个个记记录录。记记录录间间通通过过键键值值加加以以区区别别。关关系系表表中中的的一一些些属属性性域域描描述述了了表表间间的的联联系系,这种语义模型就是实体关系(这种语义模型就是实体关系(ER)模型。)模型。关关系系数数据据库库是是当当前前最最流流行行、最最常常见见的的数数据据库库之之一一,为为数数据据挖挖掘掘研研究究工作提供了丰富的数据源。工作提供了丰富的数据源。3 3LOGO4.1.1 数据库数据库目前研究的主要问题有:目前研究的主要问题有:超大数据量。超大数据量。动态变化的数据。动态变化的数据。噪声。噪声。数据不完整。数据不完整。冗余信息。冗余信息。数据稀疏。数据稀疏。4 4LOGO4.1.2 数据仓库数据仓库 数据仓库(数据仓库(Data Warehouse)的一个综合性的定义是:它是一)的一个综合性的定义是:它是一个集成的,面向主题的、设计用语决策支持功能(个集成的,面向主题的、设计用语决策支持功能(DSF)的数据库)的数据库的集合,数据中的每一个数据单元在时间上都是和某个时刻相关的。的集合,数据中的每一个数据单元在时间上都是和某个时刻相关的。联机操作数据库系统的主要任务是执行联机事务和查询处理。这种系统称为联机事务处理联机事务处理(OLTP)系统。它们涵盖了一个组织的大部分日常操作,如购买、库存、制造、银行、工资、注册、记帐等。5 5LOGO4.1.2 数据仓库数据仓库OLTP处理一个行业或组织的日常操作所必须的数据。事处理一个行业或组织的日常操作所必须的数据。事务型数据库中的数据记录总是被多用户访问和不断更新。务型数据库中的数据记录总是被多用户访问和不断更新。相反,数据存在于数据仓库中的部分原因是由于相反,数据存在于数据仓库中的部分原因是由于OLTP环环境不再使用这些数据。大多数数据仓库中的数据是历史境不再使用这些数据。大多数数据仓库中的数据是历史性的,有时间戳的,并且不再改变(只读)。性的,有时间戳的,并且不再改变(只读)。粒度是一个用于描述存储信息的详细程度的术语。操作粒度是一个用于描述存储信息的详细程度的术语。操作数据代表了最低的粒度,因为每个数据项包含一个单个数据代表了最低的粒度,因为每个数据项包含一个单个事务的信息。数据仓库中数据的粒度是一个设计要点,事务的信息。数据仓库中数据的粒度是一个设计要点,它依赖于客户的需要以及所采集数据的数量。它依赖于客户的需要以及所采集数据的数量。6 6LOGO4.1.2 数据仓库数据仓库 数据仓库同时也可以看作是一个采集、存储、管理和分析数据数据仓库同时也可以看作是一个采集、存储、管理和分析数据的过程(的过程(Gardner,1998)。数据仓库最有效的数据挖掘工具是多)。数据仓库最有效的数据挖掘工具是多维分析方法(维分析方法(Multidimensional Data Analysis),也称为联机分),也称为联机分析处理(析处理(OLAP,Online Analytical Processing)。下图显示了仓)。下图显示了仓储过程的关键组件。储过程的关键组件。外部数据依赖数据ETL例程(提取/变换/加载)数据仓库决策支持系统报告提取/汇总数据操作型数据库独立数据集市数据仓库过程模型数据仓库过程模型 7 7LOGO4.1.3 文本文本 文本数据一般存放在文本数据库中。文本数据库中文本数据一般存放在文本数据库中。文本数据库中存放的内容均为文字,这些文字并不是简单的关键词,存放的内容均为文字,这些文字并不是简单的关键词,而是长句、段落甚至全文,文本数据库多数为非结构化而是长句、段落甚至全文,文本数据库多数为非结构化的,也有些是半结构化的(如,题录数据加全文、的,也有些是半结构化的(如,题录数据加全文、HTML、Email邮件等)。邮件等)。Web网页也是文本信息,把众网页也是文本信息,把众多的多的Web网页组成数据库就是最大的文本数据库。网页组成数据库就是最大的文本数据库。8 8LOGO4.1.3 文本文本针对文本数据库的数据挖掘,内容包括:针对文本数据库的数据挖掘,内容包括:文本的主题特征提取文本的主题特征提取文本分类文本分类文本聚类文本聚类9 9LOGO4.1.4 Web信息信息 Web数据挖掘是指从众多数据挖掘是指从众多Web网站、网页上挖掘出有用数据网站、网页上挖掘出有用数据和知识的过程和知识的过程。Web上的信息完全可以视为一个异构的数据库环境。对上的信息完全可以视为一个异构的数据库环境。对这些数据进行挖掘,首先解决站点之间异构数据的集成问题,这些数据进行挖掘,首先解决站点之间异构数据的集成问题,为用户提供一个统一的视角来看待为用户提供一个统一的视角来看待Web资源。其次,对于集资源。其次,对于集成的成的Web数据至少应提供两个方面的挖掘功能:网络信息与数据至少应提供两个方面的挖掘功能:网络信息与数据的查询;数据的查询;Web数据的分析处理和知识发现。数据的分析处理和知识发现。1010LOGO4.1.4 Web信息信息 由于由于Web数据除了相互间异构外,大量的数据还是半结数据除了相互间异构外,大量的数据还是半结构、无结构的文本和多媒体信息,所以面向构、无结构的文本和多媒体信息,所以面向Web的数据的数据挖掘远比关系数据库或数据仓库的数据挖掘复杂得多。挖掘远比关系数据库或数据仓库的数据挖掘复杂得多。目前迫切要解决的是构造一个模型(标准)来清晰地描目前迫切要解决的是构造一个模型(标准)来清晰地描述述Web资源,开发适合资源,开发适合Web资源的数据挖掘功能。资源的数据挖掘功能。1111LOGO4.1.5 空间数据空间数据所谓空间数据挖掘就是指抽取空间关系知识,或其他没所谓空间数据挖掘就是指抽取空间关系知识,或其他没有在空间数据库明确存放的有意义的模式。有在空间数据库明确存放的有意义的模式。空间数据库存放着大量与空间相关的数据,例如地图、空间数据库存放着大量与空间相关的数据,例如地图、遥感数据或医疗图像数据、大规模集成电路设计数据等。遥感数据或医疗图像数据、大规模集成电路设计数据等。空间数据包含空间属性和非空间属性,尽管有的空间属空间数据包含空间属性和非空间属性,尽管有的空间属性经过处理可以转化为一般的属性要素参与分析。性经过处理可以转化为一般的属性要素参与分析。1212LOGO4.1.5 空间数据空间数据 空间数据挖掘可以帮助理解空间数据、发现空间关系空间数据挖掘可以帮助理解空间数据、发现空间关系和空间与非空间数据间关系、构造空间知识库、重组空和空间与非空间数据间关系、构造空间知识库、重组空间数据库,以及优化空间查询等。目前广泛应用与地理间数据库,以及优化空间查询等。目前广泛应用与地理信息系统、地理市场、遥感、图像数据库探索、医疗成信息系统、地理市场、遥感、图像数据库探索、医疗成像、导航、交通控制、环保等许多其他利用空间数据的像、导航、交通控制、环保等许多其他利用空间数据的领域。领域。1313LOGO4.2 选择建模数据选择建模数据 根据所构建模型类型的不同,需要的数据也不相同。根据所构建模型类型的不同,需要的数据也不相同。选择建模数据,就要在相关领域和专家知识的指导下,选择建模数据,就要在相关领域和专家知识的指导下,搜索所有与业务对象有关的内部和外部数据信息,并从搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据,亦即辨别出需要中选择出适用于数据挖掘应用的数据,亦即辨别出需要进行分析的数据集合,缩小挖掘范围,避免盲目搜索,进行分析的数据集合,缩小挖掘范围,避免盲目搜索,提高数据挖掘的效率和质量。提高数据挖掘的效率和质量。1414LOGO4.2 选择建模数据选择建模数据以下是构建发现潜在用户模型的数据选择:以下是构建发现潜在用户模型的数据选择:户外运动用品商向运动爱好者销售服装。为了发现潜户外运动用品商向运动爱好者销售服装。为了发现潜在的用户,户外运动用品商从在的用户,户外运动用品商从Power列表公司购买了潜列表公司购买了潜在用户列表。列表包含了姓名、地址和在用户列表。列表包含了姓名、地址和35个人口统计学个人口统计学和心理学属性。户外运动用品商使用选择策略后仅选择和心理学属性。户外运动用品商使用选择策略后仅选择了了3055岁的男性,给他们寄去了可跟踪的用品目录。岁的男性,给他们寄去了可跟踪的用品目录。经过三个月的运作,响应和销售额与原始记录一起生成经过三个月的运作,响应和销售额与原始记录一起生成一个建模数据集。一个建模数据集。1515LOGO4.2 选择建模数据选择建模数据提示:列表销售商出售的是列表。根据业务类型,它们通常收集和销售姓名、地址和电话号码、以及人口统计学数据、行为数据和/或心理数据。提示:人口统计学数据包括性别、年龄、婚姻状况、收入、住房所有权、居住类型、教育水平、种族、子女等数据。人口统计学数据具有许多优点,这类数据非常稳定,这使其可以在预测建模上获得应用。1616LOGO4.2 选择建模数据选择建模数据从各种数据源中选择建模数据从各种数据源中选择建模数据 1717LOGO1818

    注意事项

    本文(数据挖掘原理与SPSS Clementine应用宝典第4章数据选择.ppt)为本站会员(豆****)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开