数据挖掘分类方法修改.ppt
《数据挖掘分类方法修改.ppt》由会员分享,可在线阅读,更多相关《数据挖掘分类方法修改.ppt(46页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘分类方法修数据挖掘分类方法修改改现在学习的是第1页,共46页内容内容l l回顾基本概念回顾基本概念l l贝叶斯分类贝叶斯分类l l规则归纳规则归纳l l总结总结现在学习的是第2页,共46页KDD的总体过程的总体过程数据挖掘数据挖掘知识知识挖掘的核心挖掘的核心数据清理数据清理数据集成数据集成数据库数据库数据仓库数据仓库任务相关数据任务相关数据选择选择数据挖掘数据挖掘模式评估模式评估现在学习的是第3页,共46页分类分类为什么要进行分类?为什么要进行分类?为什么要进行分类?为什么要进行分类?分类是数据挖掘中的重要任务之一分类是数据挖掘中的重要任务之一分类是数据挖掘中的重要任务之一分类是数据挖
2、掘中的重要任务之一很多数据挖掘问题都可以转化为分类问题很多数据挖掘问题都可以转化为分类问题很多数据挖掘问题都可以转化为分类问题很多数据挖掘问题都可以转化为分类问题分分分分类类类类的的的的目目目目的的的的在在在在于于于于用用用用分分分分类类类类方方方方法法法法构构构构建建建建一一一一个个个个分分分分类类类类函函函函数数数数或或或或分分分分类类类类模模模模型型型型(分分分分类类类类器器器器),该该该该分分分分类类类类器器器器可可可可以以以以将将将将输输输输入入入入数数数数据据据据(数数数数据据据据库库库库中中中中的的的的数数数数据据据据项)映射到给定类别中的一个类别。项)映射到给定类别中的一个类别
3、。项)映射到给定类别中的一个类别。项)映射到给定类别中的一个类别。现在学习的是第4页,共46页分类器的构造依据分类器的构造依据统计方法:贝叶斯方法和非参数法等统计方法:贝叶斯方法和非参数法等机器学习方法:决策树法和规则归纳法机器学习方法:决策树法和规则归纳法神经网络方法神经网络方法其他:粗糙集等其他:粗糙集等现在学习的是第5页,共46页数据分类的两步过程(数据分类的两步过程(1)l l第一步,建立一个模型,描述预定数据类集和概念集第一步,建立一个模型,描述预定数据类集和概念集第一步,建立一个模型,描述预定数据类集和概念集第一步,建立一个模型,描述预定数据类集和概念集l l假定每个元组属于一个预
4、定义的类,由一个类标号属性确定假定每个元组属于一个预定义的类,由一个类标号属性确定假定每个元组属于一个预定义的类,由一个类标号属性确定假定每个元组属于一个预定义的类,由一个类标号属性确定l l基本概念基本概念基本概念基本概念l l训练数据集训练数据集训练数据集训练数据集:由为建立模型而被分析的数据元组形成:由为建立模型而被分析的数据元组形成:由为建立模型而被分析的数据元组形成:由为建立模型而被分析的数据元组形成l l训练样本训练样本训练样本训练样本:训练数据集中的单个样本(元组):训练数据集中的单个样本(元组):训练数据集中的单个样本(元组):训练数据集中的单个样本(元组)l l学习模型可以用
5、分类规则、判定树或数学公式的形式提供学习模型可以用分类规则、判定树或数学公式的形式提供学习模型可以用分类规则、判定树或数学公式的形式提供学习模型可以用分类规则、判定树或数学公式的形式提供现在学习的是第6页,共46页第一步第一步建立模型建立模型训练数训练数据集据集分类算法分类算法IF rank=professorOR years 6THEN tenured=yes 分类规则分类规则现在学习的是第7页,共46页数据分类的两步过程(数据分类的两步过程(2)l l第二步,使用模型,对将来的或未知的对象进行分类第二步,使用模型,对将来的或未知的对象进行分类第二步,使用模型,对将来的或未知的对象进行分类第
6、二步,使用模型,对将来的或未知的对象进行分类l l首先评估模型的预测准确率首先评估模型的预测准确率首先评估模型的预测准确率首先评估模型的预测准确率l l对对对对每每每每个个个个测测测测试试试试样样样样本本本本,将将将将已已已已知知知知的的的的类类类类标标标标号号号号和和和和该该该该样样样样本本本本的的的的学学学学习习习习模模模模型型型型类类类类预预预预测测测测比较比较比较比较l l模模模模型型型型在在在在给给给给定定定定测测测测试试试试集集集集上上上上的的的的准准准准确确确确率率率率是是是是正正正正确确确确被被被被模模模模型型型型分分分分类类类类的的的的测测测测试试试试样本的百分比样本的百分比
7、样本的百分比样本的百分比l l测测测测试试试试集集集集要要要要独独独独立立立立于于于于训训训训练练练练样样样样本本本本集集集集,否否否否则则则则会会会会出出出出现现现现“过过过过分分分分适适适适应应应应数数数数据据据据”的的的的情情情情况况况况现在学习的是第8页,共46页第二步第二步用模型进行分用模型进行分类类分类规则分类规则测试集测试集未知数据未知数据(Jeff,Professor,4)Tenured?现在学习的是第9页,共46页内容内容l l回顾基本概念回顾基本概念l l贝叶斯分类贝叶斯分类l l规则归纳规则归纳l l总结总结现在学习的是第10页,共46页朴素贝叶斯分类简介朴素贝叶斯分类简
8、介l l本质是一个分类器(分类模型,分类算法均为一个意思)本质是一个分类器(分类模型,分类算法均为一个意思)本质是一个分类器(分类模型,分类算法均为一个意思)本质是一个分类器(分类模型,分类算法均为一个意思)l l基础是概率推理基础是概率推理基础是概率推理基础是概率推理l l先验概率:根据以往经验和分析得到的概率先验概率:根据以往经验和分析得到的概率先验概率:根据以往经验和分析得到的概率先验概率:根据以往经验和分析得到的概率客观先验概率:由历史资料得到客观先验概率:由历史资料得到客观先验概率:由历史资料得到客观先验概率:由历史资料得到主观先验概率:由主观经验得到(水果,圆的,甜的,红或绿的主观
9、先验概率:由主观经验得到(水果,圆的,甜的,红或绿的主观先验概率:由主观经验得到(水果,圆的,甜的,红或绿的主观先验概率:由主观经验得到(水果,圆的,甜的,红或绿的 是苹果)是苹果)是苹果)是苹果)l l朴素贝叶斯分类特点:朴素贝叶斯分类特点:朴素贝叶斯分类特点:朴素贝叶斯分类特点:基于独立假设基于独立假设基于独立假设基于独立假设需要知道先验概率需要知道先验概率需要知道先验概率需要知道先验概率按照获得的信息对先验概率进行修正按照获得的信息对先验概率进行修正按照获得的信息对先验概率进行修正按照获得的信息对先验概率进行修正分类决策存在错误率分类决策存在错误率分类决策存在错误率分类决策存在错误率现在
10、学习的是第11页,共46页朴素贝叶斯分类模型朴素贝叶斯分类模型样本域:水果样本域:水果X:红的和圆的(颜色属性取值为红,形状属性取值为圆)红的和圆的(颜色属性取值为红,形状属性取值为圆)H:是苹果(苹果是一个类别)是苹果(苹果是一个类别)P(H|X):反应了当知道水果是红的并且是圆的,则它是苹果的概率(置信反应了当知道水果是红的并且是圆的,则它是苹果的概率(置信程度)。这是后验概率程度)。这是后验概率P(H):是先验概率是先验概率现在学习的是第12页,共46页朴素贝叶斯分类过程朴素贝叶斯分类过程实例:性别分类实例:性别分类问问题题描描述述:通通过过一一些些测测量量的的特特征征,包包括括身身高高
11、、体体重、脚的尺寸,判定一个人是男性还是女性。重、脚的尺寸,判定一个人是男性还是女性。现在学习的是第13页,共46页朴素贝叶斯分类过程朴素贝叶斯分类过程问题数学表示:问题数学表示:问题数学表示:问题数学表示:类别类别类别类别:可以从可以从可以从可以从C C C C1 1 1 1到到到到C C C Cn n n n ,在我们的问题中即,在我们的问题中即,在我们的问题中即,在我们的问题中即C C C C1 1 1 1=男性男性男性男性 C C C C2 2 2 2=女性女性女性女性样样样样本本本本表表表表示示示示:每每每每个个个个数数数数据据据据样样样样本本本本(某某某某元元元元组组组组)用用用用
12、一一一一个个个个n n n n维维维维特特特特征征征征向向向向量量量量X=X=X=X=xxxx1 1 1 1,x x x x2 2 2 2,x x x xn n n n 表表表表示示示示,分别描述对分别描述对分别描述对分别描述对n n n n个属性个属性个属性个属性A A A A1 1 1 1,A A A A2 2 2 2,A A A An n n n样本的样本的样本的样本的n n n n个度量。个度量。个度量。个度量。比比比比如如如如样样样样本本本本X=xX=xX=xX=x1 1 1 1,x,x,x,x2 2 2 2,x,x,x,x3 3 3 3=1=1=1=1米米米米73,6073,607
13、3,6073,60千千千千克克克克,20202020厘厘厘厘米米米米 (分分分分别别别别对对对对应应应应身身身身高高高高体体体体重重重重和和和和脚脚脚脚长长长长三三三三个属性的度量)个属性的度量)个属性的度量)个属性的度量)分类模型:分类模型:分类模型:分类模型:现在学习的是第14页,共46页第一步第一步得到先验概率得到先验概率训练数据集:得到先验概率,按照频率来算。训练数据集:得到先验概率,按照频率来算。训练数据集:得到先验概率,按照频率来算。训练数据集:得到先验概率,按照频率来算。P(CP(C1 1)=0.5P(C)=0.5P(C2 2)=0.5)=0.5性别身高(英尺)体重(磅)脚的尺寸
14、(英寸)男618012男5.92(511)19011男5.58(57)17012男5.92(511)16510女51006女5.5(56)1508女5.42(55)1307女5.75(59)1509现在学习的是第15页,共46页第二步第二步预测预测X属于具有最高后验概率属于具有最高后验概率的类的类 朴朴素素贝贝叶叶斯斯分分类类将将未未知知的的样样本本分分配配给给类类C Ci i(1im1im1im1im)当当且且仅仅当当P(CP(CP(CP(Ci i i i|X)|X)|X)|X)P(CP(CP(CP(Cj j j j|X)|X)|X)|X),对对对对任任任任意意意意的的的的j=1j=1j=1
15、j=1,2 2 2 2,m m m m,jijijiji。这这样样,最最大大化化P(CP(CP(CP(Ci i i i|X)|X)|X)|X)。其其其其P(CP(CP(CP(Ci i|X)|X)最大的类最大的类C Ci i称为最大后验假定。称为最大后验假定。称为最大后验假定。称为最大后验假定。现在学习的是第16页,共46页第二步第二步预测预测X属于具有最高后验概率的属于具有最高后验概率的类类在在在在这这这这个个个个性性性性别别别别分分分分类类类类问问问问题题题题中中中中即即即即:比比比比较较较较P(CP(CP(CP(C1 1 1 1|X)|X)|X)|X)和和和和P(CP(CP(CP(C2 2
16、 2 2|X)|X)|X)|X)的的的的值值值值(X=6,130,8)(X=6,130,8)(X=6,130,8)(X=6,130,8),采采采采用用用用贝贝贝贝叶斯公式:叶斯公式:叶斯公式:叶斯公式:P(CP(CP(CP(C1 1 1 1|X)=P(X|C|X)=P(X|C|X)=P(X|C|X)=P(X|C1 1 1 1)*P(C)*P(C)*P(C)*P(C1 1 1 1)/P(X)/P(X)/P(X)/P(X)其中其中其中其中 先验概率先验概率先验概率先验概率P(CP(CP(CP(C1 1 1 1)=0.5)=0.5)=0.5)=0.5 P(X|CP(X|CP(X|CP(X|C1 1
17、1 1)=?()=?()=?()=?(还未知还未知还未知还未知)P(X)P(X)P(X)P(X)对对对对于于于于所所所所有有有有类类类类来来来来说说说说都都都都是是是是一一一一样样样样的的的的即即即即P(X)=P(CP(X)=P(CP(X)=P(CP(X)=P(C1 1 1 1)*P(X|C)*P(X|C)*P(X|C)*P(X|C1 1 1 1)+P(C)+P(C)+P(C)+P(C2 2 2 2)*P(X|C)*P(X|C)*P(X|C)*P(X|C2 2 2 2)(全全全全概概概概率率率率公公公公式)式)式)式)所以为了得到最大后验假定,问题转化为求所以为了得到最大后验假定,问题转化为求
18、所以为了得到最大后验假定,问题转化为求所以为了得到最大后验假定,问题转化为求P(X|CP(X|CP(X|CP(X|C1 1 1 1)的最大值的最大值的最大值的最大值未分类的样本:未分类的样本:未分类的样本:未分类的样本:性别身高(英尺)体重(磅)脚的尺寸(英寸)Sample(?)61308现在学习的是第17页,共46页第三步第三步求求P(X|C1)问问问问题题题题就就就就转转转转换换换换为为为为对对对对P(X|CP(X|CP(X|CP(X|Ci i i i)的的的的最最最最大大大大化化化化(P(X|CP(X|CP(X|CP(X|Ci i i i)常常常常被被被被称称称称为为为为给给给给定定定定
19、C C C Ci i i i时时时时数据数据数据数据X X X X的似然度,而使的似然度,而使的似然度,而使的似然度,而使P(X|CP(X|CP(X|CP(X|Ci i i i)最大的假设最大的假设最大的假设最大的假设C C C Ci i i i称为最大似然假设)。称为最大似然假设)。称为最大似然假设)。称为最大似然假设)。因为类的条件是相互独立的所以可以用如下公式计算:因为类的条件是相互独立的所以可以用如下公式计算:因为类的条件是相互独立的所以可以用如下公式计算:因为类的条件是相互独立的所以可以用如下公式计算:在我们的问题里面比如在我们的问题里面比如在我们的问题里面比如在我们的问题里面比如X
20、=6X=6X=6X=6英尺,英尺,英尺,英尺,130130130130磅,磅,磅,磅,8 8 8 8英寸英寸英寸英寸 P(X|CP(X|CP(X|CP(X|C1 1 1 1)=P(x)=P(x)=P(x)=P(x1 1 1 1|C|C|C|C1 1 1 1)*P(x)*P(x)*P(x)*P(x2 2 2 2|C|C|C|C1 1 1 1)*P(x)*P(x)*P(x)*P(x3 3 3 3|C|C|C|C1 1 1 1)表示表示表示表示C C C C1 1 1 1时样本时样本时样本时样本X X X X的似然度的似然度的似然度的似然度现在学习的是第18页,共46页第三步第三步求求P(X|C1)
21、x xK K的值可能有两种情况:的值可能有两种情况:(1 1)离散值)离散值则则P(xP(xk k|C|Ci i)=s)=sikik|s|si i,其中其中s sikik是在属性是在属性A Ak k上具有值上具有值x xk k的类的类C Ci i的的训练样本数,而训练样本数,而s si i是是C Ci i中的训练样本数中的训练样本数x x1 1=6=6英尺英尺即即P(xP(x1 1|C|C1 1)=)=训练样本中身高为训练样本中身高为6 6英尺并且属于男性的样本英尺并且属于男性的样本数数/男性的样本数男性的样本数=1/4=1/4;此处这么举例,是假设身高的取值都是离散值数据此处这么举例,是假设
22、身高的取值都是离散值数据性别身高(英尺)体重(磅)脚的尺寸(英寸)男618012男5.92(511)19011男5.58(57)17012男5.92(511)16510女51006女5.5(56)1508女5.42(55)1307女5.75(59)1509现在学习的是第19页,共46页第三步第三步求求P(X|C1)x xK K的值可能有两种情况:的值可能有两种情况:(2 2)连续值)连续值如果如果A Ak k是连续值属性,则通常假定该属性服从是连续值属性,则通常假定该属性服从高斯分布。因而,高斯分布。因而,是高斯分布函数,是高斯分布函数,分别为平均值和标准差。分别为平均值和标准差。性别身高(英
23、尺)体重(磅)脚的尺寸(英寸)男618012男5.92(511)19011男5.58(57)17012男5.92(511)16510女51006女5.5(56)1508女5.42(55)1307女5.75(59)1509现在学习的是第20页,共46页第三步第三步求求P(X|C1)假设训练集样本的特征满足高斯分布,得到下表:假设训练集样本的特征满足高斯分布,得到下表:假设训练集样本的特征满足高斯分布,得到下表:假设训练集样本的特征满足高斯分布,得到下表:性别均值(身高)方差(身高)均值(体重)方差(体重)均值(脚的尺寸)方差(脚的尺寸)男性5.8553.5033e-02176.251.2292e
24、+0211.259.1667e-01女性5.41759.7225e-02132.55.5833e+027.51.6667e+00性别身高(英尺)体重(磅)脚的尺寸(英寸)Sample(?)61308现在学习的是第21页,共46页第三步第三步求求P(X|C1)分别求得类别分别求得类别分别求得类别分别求得类别C1C1C1C1和和和和C2C2C2C2的似然度的似然度的似然度的似然度男性似然度计算项:男性似然度计算项:男性似然度计算项:男性似然度计算项:女性似然度计算项:女性似然度计算项:女性似然度计算项:女性似然度计算项:男性和女性的似然度:男性和女性的似然度:男性和女性的似然度:男性和女性的似然度
25、:可可可可以以以以看看看看到到到到女女女女性性性性的的的的似似似似然然然然度度度度更更更更大大大大,更更更更具具具具贝贝贝贝叶叶叶叶斯斯斯斯分分分分类类类类模模模模型型型型我我我我们们们们显显显显然然然然可可可可以以以以得得得得到到到到,女女女女性性性性的的的的后后后后验验验验概概概概率更大,所以该样本分类为率更大,所以该样本分类为率更大,所以该样本分类为率更大,所以该样本分类为女性女性女性女性。现在学习的是第22页,共46页内容内容l l回顾基本概念回顾基本概念l l贝叶斯分类贝叶斯分类l l规则归纳规则归纳l l总结总结现在学习的是第23页,共46页l l常见的采用规则表示的分类器构造方法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 分类 方法 修改
限制150内