数据挖掘第二章认识数据精品文稿.ppt
《数据挖掘第二章认识数据精品文稿.ppt》由会员分享,可在线阅读,更多相关《数据挖掘第二章认识数据精品文稿.ppt(111页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘第二章认识数据第1页,本讲稿共111页数据对象数据对象数据集由数据对象构成数据集由数据对象构成一个数据对象代表一个实体一个数据对象代表一个实体例子例子:销售数据库销售数据库sales database:sales database:客户客户/顾客顾客,商店物品商店物品,sales,sales医学数据库医学数据库:patients,treatments:patients,treatments大学数据库大学数据库:students,professors,courses:students,professors,courses又称为又称为 样本样本,事例事例,实例实例,数据点数据点,对象对象,
2、元组元组tuples.tuples.数据对象由属性来描述数据对象由属性来描述Database rows-data objects;columns-attributes.Database rows-data objects;columns-attributes.第2页,本讲稿共111页属性属性属性Attribute(orAttribute(or维度维度,特征特征,变量变量):):一个数据字段一个数据字段,表示一个数表示一个数据对象的某个特征据对象的某个特征.E.g.,customer _ID,name,addressE.g.,customer _ID,name,address类型类型:名词性名词
3、性NominalNominal二元的二元的数字的数字的Numeric:Numeric:数量的数量的Interval-scaledInterval-scaledRatio-scaledRatio-scaled第3页,本讲稿共111页属性类型 名词性名词性Nominal:类别类别,状态状态,or“名目名目”Hair_color=auburn,black,blond,brown,grey,red,white婚姻状态婚姻状态,职业职业occupation,ID numbers,zip codes二元二元只有只有2个状态的名词性属性个状态的名词性属性(0 and 1)对称二元对称二元Symmetric
4、binary:同样重要的两相同样重要的两相e.g.,gender非对称非对称Asymmetric binary:非同等重要非同等重要 e.g.,医疗检查医疗检查(positive vs.negative)惯例惯例Convention:assign 1 to most important outcome(e.g.,HIV positive)顺序的顺序的 Ordinal值有一个有意义的顺序值有一个有意义的顺序(排序排序)但连续值之间的大小未知但连续值之间的大小未知.Size=small,medium,large,等级等级,军队排名军队排名第4页,本讲稿共111页数值属性的类型 数量数量Quanti
5、ty(integer or real-valued)区间区间Interval在某个同等大小的一个尺度单位上在某个同等大小的一个尺度单位上Measured on a scale of equal-sized units值有序值有序E.g.,temperature in Cor F,calendar dates没有真正的零点没有真正的零点Ratio有真正的零点有真正的零点可以讲值是被测量单位一个数量级可以讲值是被测量单位一个数量级(10 K is twice as high as 5 K).e.g.,温度在开尔文温度在开尔文,长度长度,计数计数,货币的数量货币的数量第5页,本讲稿共111页离散离散
6、 vs.连续属性连续属性 Discrete Attribute一个有限的或可数无限集值一个有限的或可数无限集值E.g.,zip codes,the set of words in a collection of documents 有时有时,表示为整数变量表示为整数变量注注:二元属性是离散属性的一个特殊情况二元属性是离散属性的一个特殊情况 Continuous Attribute属性值为实数属性值为实数E.g.,temperature,height,or weight实际上,实值只能使用有限位数进行测量和代表实际上,实值只能使用有限位数进行测量和代表连续属性通常表示为浮点变量连续属性通常表示为
7、浮点变量第6页,本讲稿共111页数据概述数据概述第7页,本讲稿共111页数据的计量与类型数据的计量与类型数据的计量尺度数据的计量尺度数据的类型数据的类型数据的表现形式数据的表现形式 第8页,本讲稿共111页数据的计量尺度数据的计量尺度数据的计量尺度(数据的计量尺度(Levels of Measurement)一般认为,数据是对客观现象计量的结果。一般认为,数据是对客观现象计量的结果。按照对事物计量的精确程度,可将所采用的按照对事物计量的精确程度,可将所采用的计量尺度由低级到高级分为四个层次:计量尺度由低级到高级分为四个层次:定类尺度定类尺度(Nominal Level)定序尺度定序尺度(Ord
8、inal Level)定距尺度定距尺度(Interval Level)定比尺度定比尺度(Ratio Level)第9页,本讲稿共111页定类尺度定类尺度定类尺度(列名尺度):按照事物的某种定类尺度(列名尺度):按照事物的某种属性对其进行平行的分类或分组。属性对其进行平行的分类或分组。例:人口的性别(男、女);企业的所有制性例:人口的性别(男、女);企业的所有制性质(国有、集体、私营等)质(国有、集体、私营等)计量层次最低计量层次最低对事物进行平行的分类对事物进行平行的分类各类别可以指定数字代码表示各类别可以指定数字代码表示具有具有=或或 的数学特性的数学特性数据表现为数据表现为“类别类别”第1
9、0页,本讲稿共111页定类尺度定类尺度定类尺度只测度了事物之间的类别差,而对各定类尺度只测度了事物之间的类别差,而对各类之间的其他差别却无法从中得知,因此各类类之间的其他差别却无法从中得知,因此各类地位相同,顺序可以任意改变。地位相同,顺序可以任意改变。对定类尺度的计量结果,可以且只能计算每一对定类尺度的计量结果,可以且只能计算每一类别中各元素个体出现的频数类别中各元素个体出现的频数(frequency)。对事物进行分类时,必须符合穷尽对事物进行分类时,必须符合穷尽(exhaustive)和互斥和互斥(mutually exclusive)要求。要求。第11页,本讲稿共111页定序尺度定序尺度
10、定序尺度(顺序尺度):是对事物之间等定序尺度(顺序尺度):是对事物之间等级或顺序差别的一种测度。级或顺序差别的一种测度。例:产品等级(一等品、二等品例:产品等级(一等品、二等品);考试成);考试成绩(优、良、中、可、差)绩(优、良、中、可、差)对事物分类的同时给出各类别的顺序对事物分类的同时给出各类别的顺序比定类尺度精确比定类尺度精确不仅可以测度类别差(分类),还可以测不仅可以测度类别差(分类),还可以测度次序差(比较优劣或排序)度次序差(比较优劣或排序)数据表现为数据表现为“类别类别”,但有序,但有序第12页,本讲稿共111页定序尺度定序尺度无法测出类别之间的准确差值无法测出类别之间的准确差
11、值该尺度的计量结果只能排序,不能进行算该尺度的计量结果只能排序,不能进行算术运算。术运算。具有具有或或的数学特性的数学特性第13页,本讲稿共111页定距尺度定距尺度定距尺度(间隔尺度):是对事物类别或次序之间间距定距尺度(间隔尺度):是对事物类别或次序之间间距的测度。的测度。例:例:100分制考试成绩;摄氏温度对不同地区温度的测量分制考试成绩;摄氏温度对不同地区温度的测量不仅能将事物区分为不同类型并进行排序,而且可不仅能将事物区分为不同类型并进行排序,而且可准确指出类别之间的差距是多少准确指出类别之间的差距是多少比定序尺度精确比定序尺度精确定距尺度通常以自然或物理单位为计量尺度,因此数据定距尺
12、度通常以自然或物理单位为计量尺度,因此数据表现为表现为“数值数值”没有绝对零点;没有绝对零点;“0”是测量尺度上的一个测量点,是测量尺度上的一个测量点,并不代表并不代表“没有没有”计量结果可以进行加减运算计量结果可以进行加减运算,具有具有+或或-的数学特性的数学特性第14页,本讲稿共111页定比尺度定比尺度定比尺度(比率尺度):是能够测算两个测定比尺度(比率尺度):是能够测算两个测度值之间比值的一种计量尺度。度值之间比值的一种计量尺度。例:例:职工月收入职工月收入;企业产值;公制的距离、重量;企业产值;公制的距离、重量与定距尺度属于同一层次,计量结果也表现与定距尺度属于同一层次,计量结果也表现
13、为数值;为数值;除了具有其他三种计量尺度的全部特点外,除了具有其他三种计量尺度的全部特点外,还具有可计算两个测度值之间比值的特点;还具有可计算两个测度值之间比值的特点;“0”表示表示“没有没有”,即它有一固定的绝对,即它有一固定的绝对“零点零点”,因此它可进行加、减、乘、除运算,因此它可进行加、减、乘、除运算(而定距尺度只可进行加减运算)(而定距尺度只可进行加减运算)第15页,本讲稿共111页四种计量尺度的比较四种计量尺度的比较四种计量尺度的比较四种计量尺度的比较定类尺度定类尺度 定序尺度定序尺度 定距尺度定距尺度 定比尺度定比尺度 分类(,分类(,)排序(排序()间距(间距(+,-)比值(比
14、值(,)“”表示该尺度所具有的特性表示该尺度所具有的特性第16页,本讲稿共111页四种计量尺度的区别与联系四种计量尺度的区别与联系高层次的计量尺度具有低层次计量尺度的全部特性,高层次的计量尺度具有低层次计量尺度的全部特性,但反之不行但反之不行可将高层次计量尺度的计量结果转换为低层次计量尺度的可将高层次计量尺度的计量结果转换为低层次计量尺度的计量结果,但不能反过来计量结果,但不能反过来练习:指出下面变量的测量尺度:练习:指出下面变量的测量尺度:学生住址距学校的距离学生住址距学校的距离学生某门课的一次测验成绩学生某门课的一次测验成绩(5分制)分制)学生的出生地学生的出生地按年级分类的高校学生按年级
15、分类的高校学生每周学生学习的小时数每周学生学习的小时数第17页,本讲稿共111页数据分布特征的描述数据分布特征的描述第18页,本讲稿共111页数据分布的特征数据分布的特征集中趋势集中趋势集中趋势集中趋势 (位置位置位置位置)离中趋势离中趋势离中趋势离中趋势 (分散程度分散程度分散程度分散程度)第19页,本讲稿共111页集中趋势的测度集中趋势的测度定类数据:众数定序数据:中位数和四分位数定距和定比数据:平均数(均值)众数、中位数和均值的比较第20页,本讲稿共111页集中趋势集中趋势(Central tendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据一般水平的代表值或中心
16、值不同类型的数据用不同的集中趋势测度值低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定第21页,本讲稿共111页定类数据:众数(定类数据:众数(mode)出现次数最多的变量值用Mo表示不受极端值的影响可能没有众数或有几个众数主要用于定类数据,也可用于定序数据和数值型数据第22页,本讲稿共111页众数的不唯一性众数的不唯一性无众数无众数原始数据:10 5 9 12 6 8一个众数一个众数原始数据原始数据:6 :6 5 5 9 8 9 8 5 55 5多于一个众数多于一
17、个众数多于一个众数多于一个众数原始数据原始数据:25 28 28 28 28 36 36 42 42第23页,本讲稿共111页众数的例子众数的例子例例 某城市居民关注广告类型的频数分布某城市居民关注广告类型的频数分布 广告类型广告类型人数人数(人人)比例比例频率频率(%)商品广告商品广告 服务广告服务广告 金融广告金融广告 房地产广告房地产广告 招生招聘广告招生招聘广告 其他广告其他广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计合计2001100解解解解:这这里里的的变变量量为为“广广告告类类型型”,这这是是个
18、个定定类类变变量量,不不同同类类型型的的广广告告就就是是变变量量值值。我我们们看看到到,在在所所调调查查的的200200人人当当中中,关关注注商商品品广广告告的的人人数数最最多多,为为112112人人,占占总总被被调调查查人人数数的的56%56%,因因此此众众数数为为“商商品品广广告告”这这一一类类别,即别,即 MMo o商品广告商品广告商品广告商品广告第24页,本讲稿共111页定序数据:中位数(定序数据:中位数(median)排序后处于中间位置上的值用Me表示不受极端值的影响主要用于定序数据,也可用数值型数据,但不能用于定类数据各变量值与中位数的离差绝对值之和最小,即 最小第25页,本讲稿共
19、111页中位数中位数第26页,本讲稿共111页中位数的例子中位数的例子(定序数据定序数据)解:解:解:解:中位数的位置为:中位数的位置为:300/2300/2150150从从累累计计频频数数看看,中中位位数数的的在在“一一般般”这这一一组组别别中中。因此因此 MMe e一般一般一般一般例例 甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2410893453024132225270300合计合计300第27页,本讲稿共111页中位数的例子中
20、位数的例子(数值型数据数值型数据)原始数据原始数据:24 22 21 26 20排排 序序:20 21 22 24 26位位 置置:1 2 3 4 5中位数中位数 22第28页,本讲稿共111页中位数的例子中位数的例子(数值型数据数值型数据)原始数据原始数据:10 5 9 12 6 8排排 序序:5 6 8 9 10 12位位 置置:1 2 3 4 5 6位置位置N+126+123.5中位数 8+928.5第29页,本讲稿共111页定序数据:定序数据:四分位数四分位数(quartile)排序后处于25%和75%位置上的值用ML和MU表示不受极端值的影响主要用于定序数据,也可用于数值型数据,但不
21、能用于定类数据第30页,本讲稿共111页四分位数四分位数方法2:较准确算法方法1:定义算法第31页,本讲稿共111页四分位数四分位数其中 表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间0.5的位置上方法3:第32页,本讲稿共111页四分位数的例子(定序数据)四分位数的例子(定序数据)解:解:QL位置=(300)/4=75 QU位置=(3300)/4 =225 从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中 四分位数为 QL =不满意不满意 QU =一般一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城
22、市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300第33页,本讲稿共111页四分位数的例子(数值型数据)四分位数的例子(数值型数据)9个家庭的人均月收入数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排排 序序:750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9方法方法方法方法1 1第34页,本讲稿共111页四分位数的例子(数值
23、型数据)四分位数的例子(数值型数据)9个家庭的人均月收入数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排排 序序:750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9方法方法方法方法2 2第35页,本讲稿共111页四分位数的例子(数值型数据)四分位数的例子(数值型数据)9个家庭的人均月收入数据 原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630 排排 序序:750 780 850 960 1080 1250 1500
24、1630 2000 位位 置置:1 2 3 4 5 6 7 8 9方法方法方法方法3 3第36页,本讲稿共111页数值型数据:平均数(数值型数据:平均数(mean)一组数相加后除以数据的个数而得到的结果,也称为均值集中趋势的最常用测度值易受极端值的影响根据总体数据计算的,称为平均数,记为;根据样本数据计算的,称为样本平均数,记为x第37页,本讲稿共111页简单平均数简单平均数设一组数据为:x1,x2,xn(总体数据xN)样本平均数总体平均数第38页,本讲稿共111页加权平均数加权平均数设各组的组中值为:M1,M2,Mk 相应的频数为:f1,f2,fk样本加权平均总体加权平均第39页,本讲稿共1
25、11页加权平均数加权平均数简单平均数的大小只和变量值的大小有关加权平均数的大小不仅受各组组中值(Mi)大小的影响,而且受各组变量值出现的频数即权数(fi)大小的影响。甲乙两组各有10名学生,他们的考试成绩及其分布数据如下甲组:考试成绩(x):0 20 100 人数分布(f):1 1 8乙组:考试成绩(x):0 20 100 人数分布(f):8 1 1第40页,本讲稿共111页平均数的数学性质平均数的数学性质各变量值与平均数的离差之和等于零 各变量值与平均数的离差平方和最小第41页,本讲稿共111页几何平均数几何平均数1.n 个变量值乘积的 n 次方根2.适用于对比率数据的平均3.主要用于计算平
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 第二 认识 精品 文稿
限制150内