欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    第5章数据分类.ppt

    • 资源ID:87428190       资源大小:1.68MB        全文页数:23页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第5章数据分类.ppt

    第第5 5章章 数据分类数据分类纲要纲要5.2 决策树算法决策树算法ID35.1 分类问题概述分类问题概述5.4 SQL Server 中决策树的应用中决策树的应用分类问题应用领域分类问题应用领域分类分类:把数据样本映射到一个事先定义:把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的属性向量及其对应的类,用基于归纳的学习算法得出分类。学习算法得出分类。5.1 分类问题概述分类问题概述【基本概念基本概念】1.训练样本集:为建立模型而收集的训练样本集:为建立模型而收集的数据元组(记录)的集合。数据元组(记录)的集合。2.训练样本:训练数据集中的单个样训练样本:训练数据集中的单个样本(元素)。本(元素)。5.1 分类问题概述分类问题概述5.1 分类问题概述分类问题概述AgeSalaryClass30highc125highc221lowc243highc118lowc233lowc1表表5.1 分类问题的示例数据集分类问题的示例数据集描述属性 类别属性 3.描述属性:用于描述训练样本的属描述属性:用于描述训练样本的属性。可以是连续型的,也可以是离性。可以是连续型的,也可以是离散型的。散型的。4.类别属性:必须是离散型属性,如类别属性:必须是离散型属性,如Class。5.1 分类问题概述分类问题概述5.1 分类问题概述分类问题概述分类问题中使用的数据集可以表示为分类问题中使用的数据集可以表示为X=(xi,yi)|i=1,2,total xi=(xi1,xi2,xid),其中,其中xi1,xi2,xid分分别对应别对应d个描述属性个描述属性A1,A2,Ad的具体取值。的具体取值。yi表示数据样本表示数据样本xi的类标号,假设给定数的类标号,假设给定数据集包含据集包含m个类别,则个类别,则yic1,c2,cm,其,其中中c1,c2,cm是类别属性是类别属性C的具体取值,也称的具体取值,也称为为类标号类标号。5.1.1 分类的过程分类的过程5.1 分类问题概述分类问题概述获取数据获取数据预处理预处理分类器设计分类器设计分类决策分类决策5.1 分类问题概述分类问题概述1、获取数据、获取数据 分类问题所获取的数据可以是文字、图像、分类问题所获取的数据可以是文字、图像、指纹、波形图以及各种物理和逻辑数据。指纹、波形图以及各种物理和逻辑数据。物理数据:既包含数值型数据,又包含描述型数据。物理数据:既包含数值型数据,又包含描述型数据。逻辑数据:对某些描述型数据用逻辑值表示。逻辑数据:对某些描述型数据用逻辑值表示。5.1 分类问题概述分类问题概述2、预处理、预处理 对数据的预处理通常包括:对数据的预处理通常包括:(1)去除噪声数据,对空缺值进行处理。)去除噪声数据,对空缺值进行处理。(2)进行数据集成或变换。)进行数据集成或变换。5.1 分类问题概述分类问题概述3、分类器设计、分类器设计(1)划分数据集。将数据集分为两部分:训)划分数据集。将数据集分为两部分:训练集和测试集。练集和测试集。可以随机抽取可以随机抽取2/3的数据样本作为训练的数据样本作为训练集,集,1/3的数据样本作为测试集。的数据样本作为测试集。十交叉验证方法。将第十交叉验证方法。将第i组数据样本作为组数据样本作为测试集,其余的测试集,其余的9组样本作为训练集。组样本作为训练集。划 分 方 法 5.1 分类问题概述分类问题概述(2)分类器构造。利用训练集构造分类器)分类器构造。利用训练集构造分类器(分类模型)。(分类模型)。通过分析每个数据样本的属性信息,总结通过分析每个数据样本的属性信息,总结出分类的规律性,从而建立判别公式或判别规出分类的规律性,从而建立判别公式或判别规则。则。5.1 分类问题概述分类问题概述(3)分类器测试。利用测试集对分类器的分)分类器测试。利用测试集对分类器的分类性能进行评估。类性能进行评估。利用分类器对测试集中的每个数据样本进利用分类器对测试集中的每个数据样本进行分类,将得到的类标号与测试集中原始的类行分类,将得到的类标号与测试集中原始的类标号进行对比,从而得到分类器的性能。标号进行对比,从而得到分类器的性能。5.1.2 分类的评价准则分类的评价准则5.1 分类问题概述分类问题概述精确度精确度:代代表表测测试试集集中中被被正正确确分分类类的的数数据据样样本本所占的比例所占的比例 TPj表示被正确分类的样本数量。表示被正确分类的样本数量。当前有影响力的决策树算法为当前有影响力的决策树算法为ID3和和C4.5。5.2 决策树决策树ID3ID3:只只能能处处理理离离散散型型描描述述属属性性,选选择择信信息息增增益益最最大大的的属属性性划划分分训训练练样样本本,目目的的是是使使分分枝枝时时的的熵熵最最小小,从从而而提提高高算算法法的的运运算速度和精确度。算速度和精确度。5.2 决策树决策树决策树的优点:决策树的优点:进进行行分分类类器器设设计计时时,决决策策树树分分类类方方法法所所需时间相对较少。需时间相对较少。决决策策树树的的分分类类模模型型是是树树状状结结构构,简简单单直直观,比较符合人类的理解方式。观,比较符合人类的理解方式。可可以以将将决决策策树树中中到到达达每每个个叶叶节节点点的的路路径径转转换换为为IFIFTHENTHEN形形式式的的分分类类规规则则,这这种形式更有利于理解。种形式更有利于理解。5.2 决策树决策树5.2.1 决策树的基本概念决策树的基本概念 决决策策树树算算法法根根据据给给定定的的训训练练样样本本,采采取取自自顶顶向向下下的的递递归归方方式式产产生生类类似似流流程图的树形结构。程图的树形结构。根结点 内部结点 叶结点 内部结点 叶结点 叶结点 叶结点 叶结点 公司职员公司职员年龄年龄收入收入信誉度信誉度买保险买保险否否40高高良良c2否否40高高优优c2否否4150高高良良c1否否50中中良良c1是是50低低良良c1是是50低低优优c2是是4150低低优优c1否否40中中良良c2是是40低低良良c1是是50中中良良c1是是40中中优优c1否否4150中中优优c1是是4150高高良良c1否否50中中优优c2描述属性描述属性类别属性类别属性5.2 决策树决策树年龄年龄公司职员公司职员信誉度信誉度c1c2c1c2c140415050是是否否良良优优5.2 决策树决策树

    注意事项

    本文(第5章数据分类.ppt)为本站会员(hyn****60)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开