第5章数据分类.ppt
第第5 5章章 数据分类数据分类纲要纲要5.2 决策树算法决策树算法ID35.1 分类问题概述分类问题概述5.4 SQL Server 中决策树的应用中决策树的应用分类问题应用领域分类问题应用领域分类分类:把数据样本映射到一个事先定义:把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的属性向量及其对应的类,用基于归纳的学习算法得出分类。学习算法得出分类。5.1 分类问题概述分类问题概述【基本概念基本概念】1.训练样本集:为建立模型而收集的训练样本集:为建立模型而收集的数据元组(记录)的集合。数据元组(记录)的集合。2.训练样本:训练数据集中的单个样训练样本:训练数据集中的单个样本(元素)。本(元素)。5.1 分类问题概述分类问题概述5.1 分类问题概述分类问题概述AgeSalaryClass30highc125highc221lowc243highc118lowc233lowc1表表5.1 分类问题的示例数据集分类问题的示例数据集描述属性 类别属性 3.描述属性:用于描述训练样本的属描述属性:用于描述训练样本的属性。可以是连续型的,也可以是离性。可以是连续型的,也可以是离散型的。散型的。4.类别属性:必须是离散型属性,如类别属性:必须是离散型属性,如Class。5.1 分类问题概述分类问题概述5.1 分类问题概述分类问题概述分类问题中使用的数据集可以表示为分类问题中使用的数据集可以表示为X=(xi,yi)|i=1,2,total xi=(xi1,xi2,xid),其中,其中xi1,xi2,xid分分别对应别对应d个描述属性个描述属性A1,A2,Ad的具体取值。的具体取值。yi表示数据样本表示数据样本xi的类标号,假设给定数的类标号,假设给定数据集包含据集包含m个类别,则个类别,则yic1,c2,cm,其,其中中c1,c2,cm是类别属性是类别属性C的具体取值,也称的具体取值,也称为为类标号类标号。5.1.1 分类的过程分类的过程5.1 分类问题概述分类问题概述获取数据获取数据预处理预处理分类器设计分类器设计分类决策分类决策5.1 分类问题概述分类问题概述1、获取数据、获取数据 分类问题所获取的数据可以是文字、图像、分类问题所获取的数据可以是文字、图像、指纹、波形图以及各种物理和逻辑数据。指纹、波形图以及各种物理和逻辑数据。物理数据:既包含数值型数据,又包含描述型数据。物理数据:既包含数值型数据,又包含描述型数据。逻辑数据:对某些描述型数据用逻辑值表示。逻辑数据:对某些描述型数据用逻辑值表示。5.1 分类问题概述分类问题概述2、预处理、预处理 对数据的预处理通常包括:对数据的预处理通常包括:(1)去除噪声数据,对空缺值进行处理。)去除噪声数据,对空缺值进行处理。(2)进行数据集成或变换。)进行数据集成或变换。5.1 分类问题概述分类问题概述3、分类器设计、分类器设计(1)划分数据集。将数据集分为两部分:训)划分数据集。将数据集分为两部分:训练集和测试集。练集和测试集。可以随机抽取可以随机抽取2/3的数据样本作为训练的数据样本作为训练集,集,1/3的数据样本作为测试集。的数据样本作为测试集。十交叉验证方法。将第十交叉验证方法。将第i组数据样本作为组数据样本作为测试集,其余的测试集,其余的9组样本作为训练集。组样本作为训练集。划 分 方 法 5.1 分类问题概述分类问题概述(2)分类器构造。利用训练集构造分类器)分类器构造。利用训练集构造分类器(分类模型)。(分类模型)。通过分析每个数据样本的属性信息,总结通过分析每个数据样本的属性信息,总结出分类的规律性,从而建立判别公式或判别规出分类的规律性,从而建立判别公式或判别规则。则。5.1 分类问题概述分类问题概述(3)分类器测试。利用测试集对分类器的分)分类器测试。利用测试集对分类器的分类性能进行评估。类性能进行评估。利用分类器对测试集中的每个数据样本进利用分类器对测试集中的每个数据样本进行分类,将得到的类标号与测试集中原始的类行分类,将得到的类标号与测试集中原始的类标号进行对比,从而得到分类器的性能。标号进行对比,从而得到分类器的性能。5.1.2 分类的评价准则分类的评价准则5.1 分类问题概述分类问题概述精确度精确度:代代表表测测试试集集中中被被正正确确分分类类的的数数据据样样本本所占的比例所占的比例 TPj表示被正确分类的样本数量。表示被正确分类的样本数量。当前有影响力的决策树算法为当前有影响力的决策树算法为ID3和和C4.5。5.2 决策树决策树ID3ID3:只只能能处处理理离离散散型型描描述述属属性性,选选择择信信息息增增益益最最大大的的属属性性划划分分训训练练样样本本,目目的的是是使使分分枝枝时时的的熵熵最最小小,从从而而提提高高算算法法的的运运算速度和精确度。算速度和精确度。5.2 决策树决策树决策树的优点:决策树的优点:进进行行分分类类器器设设计计时时,决决策策树树分分类类方方法法所所需时间相对较少。需时间相对较少。决决策策树树的的分分类类模模型型是是树树状状结结构构,简简单单直直观,比较符合人类的理解方式。观,比较符合人类的理解方式。可可以以将将决决策策树树中中到到达达每每个个叶叶节节点点的的路路径径转转换换为为IFIFTHENTHEN形形式式的的分分类类规规则则,这这种形式更有利于理解。种形式更有利于理解。5.2 决策树决策树5.2.1 决策树的基本概念决策树的基本概念 决决策策树树算算法法根根据据给给定定的的训训练练样样本本,采采取取自自顶顶向向下下的的递递归归方方式式产产生生类类似似流流程图的树形结构。程图的树形结构。根结点 内部结点 叶结点 内部结点 叶结点 叶结点 叶结点 叶结点 公司职员公司职员年龄年龄收入收入信誉度信誉度买保险买保险否否40高高良良c2否否40高高优优c2否否4150高高良良c1否否50中中良良c1是是50低低良良c1是是50低低优优c2是是4150低低优优c1否否40中中良良c2是是40低低良良c1是是50中中良良c1是是40中中优优c1否否4150中中优优c1是是4150高高良良c1否否50中中优优c2描述属性描述属性类别属性类别属性5.2 决策树决策树年龄年龄公司职员公司职员信誉度信誉度c1c2c1c2c140415050是是否否良良优优5.2 决策树决策树