第5章数据分类.ppt
《第5章数据分类.ppt》由会员分享,可在线阅读,更多相关《第5章数据分类.ppt(23页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第5 5章章 数据分类数据分类纲要纲要5.2 决策树算法决策树算法ID35.1 分类问题概述分类问题概述5.4 SQL Server 中决策树的应用中决策树的应用分类问题应用领域分类问题应用领域分类分类:把数据样本映射到一个事先定义:把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的属性向量及其对应的类,用基于归纳的学习算法得出分类。学习算法得出分类。5.1 分类问题概述分类问题概述【基本概念基本概念】1.训练样本集:为建立模型而收集的训练样本集:为建立模型而收集的数据元组(记录)的集合。数据元组(记录)的集合。
2、2.训练样本:训练数据集中的单个样训练样本:训练数据集中的单个样本(元素)。本(元素)。5.1 分类问题概述分类问题概述5.1 分类问题概述分类问题概述AgeSalaryClass30highc125highc221lowc243highc118lowc233lowc1表表5.1 分类问题的示例数据集分类问题的示例数据集描述属性 类别属性 3.描述属性:用于描述训练样本的属描述属性:用于描述训练样本的属性。可以是连续型的,也可以是离性。可以是连续型的,也可以是离散型的。散型的。4.类别属性:必须是离散型属性,如类别属性:必须是离散型属性,如Class。5.1 分类问题概述分类问题概述5.1 分
3、类问题概述分类问题概述分类问题中使用的数据集可以表示为分类问题中使用的数据集可以表示为X=(xi,yi)|i=1,2,total xi=(xi1,xi2,xid),其中,其中xi1,xi2,xid分分别对应别对应d个描述属性个描述属性A1,A2,Ad的具体取值。的具体取值。yi表示数据样本表示数据样本xi的类标号,假设给定数的类标号,假设给定数据集包含据集包含m个类别,则个类别,则yic1,c2,cm,其,其中中c1,c2,cm是类别属性是类别属性C的具体取值,也称的具体取值,也称为为类标号类标号。5.1.1 分类的过程分类的过程5.1 分类问题概述分类问题概述获取数据获取数据预处理预处理分类
4、器设计分类器设计分类决策分类决策5.1 分类问题概述分类问题概述1、获取数据、获取数据 分类问题所获取的数据可以是文字、图像、分类问题所获取的数据可以是文字、图像、指纹、波形图以及各种物理和逻辑数据。指纹、波形图以及各种物理和逻辑数据。物理数据:既包含数值型数据,又包含描述型数据。物理数据:既包含数值型数据,又包含描述型数据。逻辑数据:对某些描述型数据用逻辑值表示。逻辑数据:对某些描述型数据用逻辑值表示。5.1 分类问题概述分类问题概述2、预处理、预处理 对数据的预处理通常包括:对数据的预处理通常包括:(1)去除噪声数据,对空缺值进行处理。)去除噪声数据,对空缺值进行处理。(2)进行数据集成或
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分类
限制150内